Задачу выделения различных объектов нейронной сетью можно считать решенной уже пару лет как, ну а теперь она решена еще больше, для всех желающих, в режиме реального времени.
Пример на что способен алгоритм YOLACT в реалтайме:
https://youtu.be/0pMfmo8qfpQ
(Числа у объектов это насколько нейронка уверена в том, что она узнала объект, например 1.0 это 100% уверенность)
А тут исходный код который можете поковырять сами. Для ценителей: на Reddit пишут, что работает лучше чем Mask RCNN.
А тут небольшой скриншот прогресса решения этой задачи сквозь годы.