写真を音声生成AIで喋らせてみた

音声生成AIには多くのサービスが、
今回は写真を喋らせることを目的にテストしてみました。

用途は遺影写真との会話なので、
音声データーも適当な日常のものを用意することしか期待できないことが前提になります。

様々なサービスを無料期間で試してみたのですが、
用途的にピッタリなサイトがありました。

Vidnoz AI:無料AI動画作成ツール|AIで動画生成は1分でできる
Vidnoz AIは無料のオンラインAI動画作成ツールです。AIを活用して、動画生成に専念する会社Vidnozにより提供されています。主要製品のVidnoz AIとVidnoz Flexを使って、誰でも魅力的なAI動画を制作できます。

Vidnoz AIというWEBサービスでした。
・無料期間がある
・写真を喋らせれる
・指定原稿を読まないで適当なデータでも処理できる
という条件に合っているサービスはこれのみでした。

本当は、イントネーションがうまくいくように、
リアルタイムで話した声が登録した声質に変換してくれるサービスが良かったのですが、
犯罪目的にあまりにも適しているのかありませんでした。

使ってみた感想としては、
まだまだ不自然さが多く実用には厳しいかなという感じでした。

具体的には、
・写真が喋る時の動きが日本人にしては大きい。
・声質は問題無いのだが、イントネーションがやっぱ外人が喋る日本語みたい。
(英語を喋らせると日本人が喋る英語になるので日本語には間違いなさそうなのだが、とにかくさ行が弱く感じる)
の2点がとても気になりました。

逆に、
・適当に用意した音声データでも声質はかなり頑張ってくれる
・イラストでも問題なく写真が動く

のがとても良かった点でした。

他のサービスもインプットや料金形態は違いますが、
クオリティはそこまで差がないように感じました。
作成後に、声のイントネーションを整えさえすればギリギリ実用できるかな?という感じです。

おそらくどこのサイトも、
例のマイクロソフトの音声AIかチャットGPTのどちらかのサービスを使っているのでサーバー側はそこまでかわらないのかなと思います。

ただ、指定された台本を読んで作成するタイプの音声AIとかだとクオリティが全く変わってくるので、
今回みたいな特定用途でなければもう本人そっくりの声の実現はすぐそこなのかと思います。
実際にユーチューバーとかでも増えてきてる気がしますし、
聞き分けもかなり厳しくなってきています。

最近の生成AIの進歩の早さは恐ろしいです。
きっと自分がコードを打つのを卒業するのは生成AIなのではと思っております。

コメント