Исследователи из Оксфордского университета разработали новый искусственный интеллект для чтения по губам, который во много раз превосходит человеческие возможности.
Чтение по губам нельзя назвать точной научной дисциплиной. Однако благодаря возможностям современных компьютеров, а в частности нейросетям, можно разработать искусственный интеллект, который справится с чтением по губам намного лучше человека. Watch, Attend and Spell (WAS) – это новая система программного обеспечения с искусственным интеллектом, разработанная учеными из Оксфорда в сотрудничестве с компанией DeepMind, Google. Система WAS использует компьютерное зрение и методы машинного обучения, чтобы научиться читать по губам, смотря телевизионные передачи длительностью более 5000 часов.
Исследовательская группа сравнивала способности машины и человека-эксперта разбираться в том, что говорилось в видео, сосредоточившись лишь на движениях губ людей в кадре. В результате ученые обнаружили, что новое программное обеспечение было более точным по сравнению с профессионалом. Человек правильно распознавал лишь 12 процентов слов, в то время как искусственный интеллект WAS был способен распознать более 50 процентов слов. Ошибки машины заключались только в потере буквы «с» на концах слов.
Новое программное обеспечение может повлиять на ряд новейших разработок, в том числе помочь слабослышащим в ориентации в пространстве. Также в будущем подобную систему можно будет использовать для создания субтитров к видео в реальном времени. Кроме того, подобные технологии могут повысить точность и скорость преобразования речи в текст, особенно в шумных местах, где микрофоны просто не слышат пользователя.
https://naked-science.ru/