Рубрики
МЕНЮ
Виталий Войчук
Об этом сообщает "Компьюлента".
В Токийском университете Васэда (Япония) разработана экспериментальная система, позволяющая реконструировать аудиоинформацию по видеосъёмке без звука.
Традиционные компьютерные системы, позволяющие без микрофона узнать, какие слова произносит человек, используют данные о движении губ и нижней челюсти. Эта информация обрабатывается специализированным программным обеспечением и преобразовывается в текст. Некоторые системы способны автоматически определять язык, на котором произносятся слова.
Новая технология основана на ином подходе. Она предусматривает применение высокоскоростной видеокамеры, направленной на горло человека. Съёмка вибраций участков шеи и кожи ведётся на скорости в 10 тысяч кадров в секунду. Для сравнения: в кинематографе стандартная частота съёмки и проекции равна 24 кадрам в секунду.
Полученная видеозапись обрабатывается на компьютере при помощи специальных алгоритмов и преобразовывается в аудиосигнал. Пока система позволяет интерпретировать только отдельные слова, но в перспективе разработчики надеются добиться возможности распознавания целых предложений.
Методика может пригодиться в тех случаях, когда необходимо интерпретировать речь человека в зашумлённой обстановке. Теоретически система позволит фиксировать не только слова и фразы, но и интонацию говорящего, что не возможно при чтении по губам.
Для улучшения реконструкции речи может вестись высокоскоростная видеосъёмка не только горла, но и щёк. Это позволит собрать дополнительные данные об аудиосигнале и повысить точность интерпретации.
Обсуждения
Новости партнеров
Новости