写真を音声生成AIで喋らせてみた - 個人開発エンジニアの技術ブログ

音声生成AIには多くのサービスが、
今回は写真を喋らせることを目的にテストしてみました。

用途は遺影写真との会話なので、
音声データーも適当な日常のものを用意することしか期待できないことが前提になります。

様々なサービスを無料期間で試してみたのですが、
用途的にピッタリなサイトがありました。

Vidnoz AIというWEBサービスでした。
・無料期間がある
・写真を喋らせれる
・指定原稿を読まないで適当なデータでも処理できる
という条件に合っているサービスはこれのみでした。

本当は、イントネーションがうまくいくように、
リアルタイムで話した声が登録した声質に変換してくれるサービスが良かったのですが、
犯罪目的にあまりにも適しているのかありませんでした。

使ってみた感想としては、
まだまだ不自然さが多く実用には厳しいかなという感じでした。

具体的には、
・写真が喋る時の動きが日本人にしては大きい。
・声質は問題無いのだが、イントネーションがやっぱ外人が喋る日本語みたい。
（英語を喋らせると日本人が喋る英語になるので日本語には間違いなさそうなのだが、とにかくさ行が弱く感じる）
の２点がとても気になりました。

逆に、
・適当に用意した音声データでも声質はかなり頑張ってくれる
・イラストでも問題なく写真が動く

のがとても良かった点でした。

他のサービスもインプットや料金形態は違いますが、
クオリティはそこまで差がないように感じました。
作成後に、声のイントネーションを整えさえすればギリギリ実用できるかな？という感じです。

おそらくどこのサイトも、
例のマイクロソフトの音声AIかチャットGPTのどちらかのサービスを使っているのでサーバー側はそこまでかわらないのかなと思います。

ただ、指定された台本を読んで作成するタイプの音声AIとかだとクオリティが全く変わってくるので、
今回みたいな特定用途でなければもう本人そっくりの声の実現はすぐそこなのかと思います。
実際にユーチューバーとかでも増えてきてる気がしますし、
聞き分けもかなり厳しくなってきています。

最近の生成AIの進歩の早さは恐ろしいです。
きっと自分がコードを打つのを卒業するのは生成AIなのではと思っております。