Искусственный интеллект от Google распознает отдельный голос в толпе

Такая разработка поможет повысить эффективность сервисов компании
 |  Автор: Максим Григорьев
Искусственный интеллект от Google распознает отдельный голос в толпе

Разработка Google  - это прорыв в анализе голосовых данных, которая поможет инвалидам по слуху и повысит эффективность сервисов самой Google. Об этом пишет Engadget.

Читай также: Google создал искусственный интеллект, читающий по губам

Распознать голос человека, даже при наличии помех, несложно — проблема в том, чтобы идентифицировать его обладателя. Разработчики Google просто приставили к микрофону видеокамеру с алгоритмом, который реагирует на мимику человека. Система сопоставляет движения на лице говорящего, "читает по губам" и параллельно анализирует звук. Если результаты совпадают — отлично, ИИ вычленяет этого персонажа и может следить только за его речью на фоне общей какофонии звуков.

Нейронную сеть сначала обучили самой технике чтения по губам, затем научили отличать людей говорящих от просто смеющихся, распознавать мимику при разговоре, даже если лицо частично скрыто бородой или микрофоном. Затем в систему добавили механизм сортировки — когда оратор вычислен, его данные поступают в отдельный акустический профиль. Благодаря этому ИИ может различать слова разных людей, даже если те специально стараются его запутать и говорят или поют в унисон.

Читай также: Google обучила искусственный интеллект играть в шахматы

Понимать разговор конкретной персоны — благое дело не только для соглядатая. Например, можно с большой точностью передавать на слуховой аппарат слова именно собеседника инвалида, отсеивая прочие голоса, как шум. Или расширить функционал видеочатов, вроде Hangouts и Duo. Плюс, это новые возможности для систем голосового управления, да и взломать защиту по голосу только при помощи фальшивой акустической записи теперь будет невозможно. 

Инженеры компании пока не понимают, как можно использовать разработанную технологию. Издание отмечает, что область применения такой системы очень широка — начиная с групповых видеочатов, записи голоса, а также взаимодействия со слуховым аппаратом.

 



Не пропусти другие интересные статьи, подпишись:
Мы в социальных сетях