В Оксфорде научили нейросеть читать по губам

Исследователи из Оксфордского университета при поддержке DeepMind и NVIDIA разработали машинный алгоритм чтения по губам LipNet, который распознаёт текст с точностью 93%.

В отличие от существующих алгоритмов чтения по губам, пишет Apparat, LipNet распознаёт не слова по отдельности, а фразы и предложения целиком. Как показали испытания программы на базе данных GRID, её точность достигает 93.4%. По данным разработчиков, это на 40% превышает средний результат людей с нарушениями слуха, которые используют чтение по губам в повседневной жизни как метод коммуникации (52.3% точности).

Машинное чтение по губам имеет огромный потенциал для использования в приложениях усовершенствованных слуховых аппаратов, а также для бесшумной диктовки в общественных местах, тайных переговоров, распознавания речи в шумной обстановке, биометрической идентификации и реставрации немого кино, — пишут авторы.

Модель LipNet работает на символьном уровне, используя пространственно-временные сверточные нейронные сети (STCNNs), LSTM-сети и нейросетевую темпоральную классификацию (Connectionist Temporal Classification, CTC). Доклад о разработке авторы представят на конференции ICLR 2017.

Комментарии

НАПИШИТЕ НАМ

Напишите нам по любому вопросу, мы постараемся ответить как можно быстрее

Sending
или

Введите данные:

или    

Forgot your details?

или

Create Account

X

Спасибо!

Теперь редакторы в курсе.