Воспроизведение человеческого голоса, со всеми его тембрами, интонациями и прочими нюансами, является исключительно трудной задачей даже для современных мощных компьютеров. Когда мы слышим речь таких программ, как Siri, Alexa или GPS-навигатора, сразу становится ясно, что с нами говорит машина.
Это происходит из-за того, что большинство систем синтеза речи основываются на библиотеках записанных ранее слов и фраз. И в результате работы таких систем получается скучная “механическая” речь, состоящая из часто повторяющихся выражений.
Достаточно сильным шагом к улучшению качества работы синтезаторов речи может стать использование в них принципов искусственного интеллекта. Это весьма наглядно продемонстрировала компании Lyrebird из Монреаля, разработавшая новый речевой синтезатор, способный воспроизвести голос любого человека и даже добавить ему соответствующую эмоциональную окраску.
Самым интересным является то, что для обучения голосу какого-либо человека системе Lyrebird требуется всего несколько десятков секунд аудиозаписей. И в качестве примера работы системы вы можете послушать приведенные ниже аудиоролики, на которых система Lyrebird воспроизводит голоса Барака Обамы, Дональда Трампа и Хиллари Клинтон.
Такое точное копирование особенностей голоса конкретного человека стало возможным благодаря использованию искусственных нейронных сетей, которые работают подобно естественным биологическим нейронным сетям мозга человека. По сути, алгоритм нейронной сети учится опознавать особенности речи конкретного человека, а затем эти же данные используются для синтеза искусственного голоса.
“Мы обучили нашу программу на огромном наборе аудиоданных фрагментов выступлений тысяч различных людей” – рассказывает Хосе Сотело (Jose Sotelo), ведущий исследователь, – “Полученная информация сжимается до вида компактного цифрового ключа, своего рода “голосовой ДНК”. И на основе этого ключа система может воспроизводить любые слова и предложения, даже те, которые не были задействованы в процессе ее обучения”.
В настоящее время работа системы Lyrebird еще очень далека от идеала, в воспроизводимой речи присутствуют “цифровые артефакты”, имеются проблемы с разборчивостью и некоторые другие странности, которые иногда ставят под сомнение то, кому именно подражает сейчас синтезатор.
Тем не менее, все это работает сейчас в режиме реального времени, требует для обучения совсем небольшого количества исходных данных и, после соответствующих доработок, может превратиться с самый качественный речевой синтезатор на сегодняшний день.
Само собой разумеется, что наличие столь совершенного речевого синтезатора является источником ряда проблем этического плана и проблем с безопасностью. Если система позволит воспроизводить голос человека с точностью, не позволяющей отличить это от оригинала, то откроется широкое поле деятельности для недобросовестных людей, которые смогут шантажировать политических деятелей и других известных личностей. А хакеры смогут использовать такой синтезатор для обхода систем защиты, в которых используется технология голосовой идентификации.
Представители компании Lyrebird считают, что, благодаря появлению нового речевого синтезатора время, когда можно было безоговорочно доверять различным аудиозаписям, заканчивается, как в свое время с появлением Фотошопа нельзя стало доверять снимкам, демонстрируемым нам с экрана компьютера.
“Мы понимаем, что вследствие высокого уровня развития современных технологий такой речевой синтезатор появился бы на свет рано или поздно” – пишут представители компании Lyrebird, – “Для исключения возможности злонамеренного использования речевого синтеза мы решили обнародовать все детали разработанной нами технологии. И мы призываем начать постепенный отказ от принятия в качестве доказательств различных аудиозаписей, полученных, в первую очередь, из сомнительных источников”.
Но, не стоит отчаиваться. Даже при идеальном воспроизведении голоса человека остается несколько возможностей отличить фальшивую аудиозапись от оригинала. Существует множество аспектов, таких, как отсутствие фоновых шумом, несоответствующие или искусственно введенные фоновые шумы, присутствие фальшивого “акустического пространства” и многое другое, что можно выделить из аудиозаписи и по чем можно судить о ее достоверности.
К сожалению, такой анализ возможен сейчас только при наличии специального оборудования, имеющегося далеко не везде. Но, с учетом темпов развития современной вычислительной техники, с подобной задачей в недалеком будущем сможет справиться и обычный компьютер, снабженный специализированным программным обеспечением.
Читайте также
Последние новости