Google заговорил по-человечески. Настолько, что и не отличить

Область применения разработки выходит далеко за рамки голосового помощника

Чуть больше недели назад Google опубликовала документы, описывающие принципы работы системы Tacotron 2, предназначенной для преобразования текста в воспринимаемую на слух речь. Хотя подобные технологии известны давно, и синтезатор речи есть и у самой Google, и у ее основных конкурентов, новая система полностью меняет представление о том, как способна говорить машина.

Tacotron 2 представляет собой две нейронные сети, работающие параллельно. Первая сеть преобразует текст в спектограмму – основу будущего звукового потока. Эта «заготовка» передается в другую нейронную сеть WaveNet, разработанную в компании DeepMind. Именно в ней происходит окончательная подготовка аудио.

WaveNet в этой связке отвечает за «человечность» звучащей речи. Чтобы добиться нужного эффекта, на этапе разработки машине дали «прослушать» 44 часа записей 109 различных голосов. Сеть на основе этих данных научилась расставлять акценты в предложениях, обращать внимание на пунктуацию, элементы, выделенные прописными буквами и даже воспроизводить необходимые в живой речи паузы дыхания.

В блоге на портале Github Google опубликовала несколько тестовых записей, показывающих эффективность Tacotron 2. В некоторых случаях для сравнения были приведены варианты, сгенерированные машиной и произнесенные диктором.

«Джордж Вашингтон был первым президентом Соединенных Штатов».

«Она получила докторскую степень по социологии в Колумбийском университете».

Все голосовые тесты прошли экспертную оценку, показавшую, что машина набирает лишь на несколько сотых балла меньше человека. 

Пока машина умеет говорить только одним голосом. И это, пишет Quartz, представляет одну из проблем для развертывания новой технологии. Чтобы добиться таких же впечатляющих результатов на других языках или с использованием других голосов, нейронной сети потребуются новые образцы голоса. Создавать тембры самостоятельно машина не может. Пока не может.

У новой технологии, в отличие от многих других разработок, есть понятное применение, которое будет востребовано в самых разных областях. Первое и самое очевидное — это, конечно, голосовые помощники. Но куда важнее другие возможные направления использования Tacotron 2. Это аудиоверсии сайтов и статей, которые будут востребованы слабовидящими людьми и теми, кто не имеет возможность прочитать материал, например, находясь за рулем. Это – появление собеседника для одиноких людей и возможность их связи с внешним миром. Это – возможность перевести материалы крупнейших СМИ в звук. Это – возможность прослушать не только статью с сайта, но и целую книгу.

Соцсети
Сайт сделан в Бреле 2017