Такого эффекта удалось добиться благодаря тому, что в процессе обучения метод распознавания мимики, на который опиралась машина, был основан на системе чтения по губам под названием LipNet, разработанной в Оксфордском университете. Они обучили нейросеть «понимать» речь ведущих, используя телепрограммы BBC, вроде Newsnight, BBC Breakfast и Question Time. Как передает New Scientist, ИИ-систему Google обучили на 6-ти телешоу (таких как Newsnight, BBC Breakfast и Question Time), которые выходили в эфир с 2010-го по 2015-й года, «скормив» ей видео общей длительностью 5 тысяч часов (около 118 тысяч предложений). Предварительно эти записи были обработаны: ученым довелось синхронизировать звук и видео в любом видеоролике, чтобы система смогла отыскать соответствие. Кроме того, «Watch, Listen, Attend, and Spell» можно использовать для создания субтитров к немому кино либо беззвучного управления встроенными в мобильные телефоны цифровыми помощниками вроде Siri на iOS либо Amazon Alexa через камеру.

После окончания обучения нейросеть протестировали на неизвестных ей программах.

Из случайной выборки 200 видеофрагментов человек, профессиональный чтец по губам, безошибочно распознал только 12,4% произнесенных слов, в то время как компьютерные алгоритмы — 46,8%.

Отметим, что система в процессе опыта совершала несущественные ошибки, однако они не влияли на общее усвоение текста. В итоге система смогла обогнать экспертов в области чтения по губам, которые работают в судах Англии.

Создатели считают, что программа может быть полезна для людей, имеющих проблемы со слухом.

Искусственный интеллект Google читает по губам лучше человека

Поделиться заметкой в соц. сетях

Опубликовать в Google Buzz
Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Мой Мир
Опубликовать в Одноклассники
Опубликовать в Яндекс
Понизить рейтингПоднять рейтинг Добавь свой голос к рейтингу статьи!
Загрузка...