Всем привет. Мы инди-команда, которая своими силами создает игру в жанре 4х стратегия с большим количеством квестов и диалогов внутри. В процессе работы мы столкнулись с необходимостью оживить происходящее на экране, а лучшего способа, чем дать голоса своим персонажам не придумаешь. Нанять такое количество актеров озвучки могут позволить себе не все крупные студии, не говоря уже о командах собирающихся на энтузиазме. Поэтому, когда в сети начали появляться примеры голосов созданных нейросетями, мы сразу предложили создателю одного из таких проектов опробовать ИИ голоса в нашей игре (или главную роль сыграло то, что среди нас есть апологеты Айзека Азимова, которые знают, что роботы захватят мир). Вот первые результаты:
Как видно, есть множество разных голосов и все они были синтезированы. В будущем появятся интонации, ИИ научатся петь и еще много чего. Одним из реальных прорывов может стать SDK, позволяющий синтезировать речь на лету, чтобы встраивать в игру не звуковые файлы, а библиотеку. Это не только снизит вес, но и добавит вариативности играм.
Например, в нашей стратегии реализовано нечто вроде системы Radiant из Skyrim, когда точки интереса, поселения и квесты могут подставляться в задание на лету. При этом, как видно из ролика, сам пользователь может придумывать наименования игровым объектам, а значит подстановка звуковых файлов с названиями не сработает. А вот, сгенерированный на лету звук, вполне сработает, особенно если дать игроку возможность настроить падежи.
В дополнение стоит сказать, что система многоязычна, а так же позволяет русские голоса переводить в английские и наоборот. Обычно они звучат без акцента, но особые акценты, придуманные ИИ придают неповторимый шарм фразам, синтезированным таким образом. Большей части голосов не существует в природе и это тоже работа ИИ.
Без этой технологии мы бы еще очень не скоро смогли спрогнозировать количество важных диалогов или создать систему выбора фраз, потому что было недостаточно материалов и понимания доступных объемов, чтобы этим заниматься. Если вспомнить Civilization, то можно предположить, что стратегиям не обязательно быть озвученными, чтобы добиваться успехов, но с точки зрения перфекциониста, всегда хотелось слышать, что говорит собеседник, понимать характер того или иного правителя и другие особенности, которые можно узнать из голоса. Так же, заменить какие-то основные диалоги на человеческие голоса в дальнейшем будет не сложно, имея на руках уже такой концепт. И оценить готовую озвучку намного проще, чем держать ее, что называется в уме, объясняя геймдизайнерам и актерам озвучки своими словами.
Как нам кажется, это технологии будущего, которыми можно пользоваться уже сейчас. Для первой итерации получился прекрасный результат, если судить по отзывам людей из разных сообществ, где мы публиковали видео.