Creative Reality Studio/HeyGen比較! 無料で“日本語を喋るAIアバター”を作ってみました

動画生成AIプラットフォームのCreative Reality StudioとHeyGenを比較します。
それぞれ生成された“喋るAIアバター”の映像だけではなく、無料で両サービスを試す方法から、動画生成までの手順も紹介していきます。

試してみること

動画生成AIの中でも人気がある、Creative Reality StudioとHeyGen。
この2サービスを使って、以下の動画を音声で解説してくれるアバターを作成ます。

ビジネスシーン(日本語)での活用を想定した場合、現状どのくらいのクオリティでできるかを比較することが目的です。

合わせて、以下の内容についても紹介していきます。

  • 各サービスの無料登録方法(本当に無料で試せるか?)
  • 基本的な使い方(台本からアバターが喋る映像を作るまで)
  • 生成された映像のクオリティ
  • 生成された映像のダウンロード方法

なお、読み上げてもらう台本(テキスト)は同じものを使います。
どちらも無料で使える範囲内で行えるよう、テキストは動画通りではなく編集しています。

文字の上を、光の筋が通過していくアニメーションを作成します。

使用するエフェクトは1つだけです。ビデオエフェクトの色調補正にある、プロセスアンプを適用します。

クリップに追加しただけだと変化はないので、明度を上げて発光したような効果を表現します。

マスクを使って、この効果が文字の一部分にだけ適用されるようにします。

光の筋に見えるように、マスクの形を整えます。
表示を確認しながら、マスクの境界のぼかしや明るさも調整してください。

“マスクパス”でキーフレームを設定して、マスクの位置を動かしていきます。
始点は左端、終点は右端に設定。

プレビュー再生で表示を確認し、キーフレームの間隔・アニメーション速度を調節してください。

速度は対象・お好みに合わせて調整してください。
イージングを設定しても良いですね。

Creative Reality Studio

無料サインアップ

Creative Reality Studioを開きます。

URL:https://www.d-id.com/creative-reality-studio/

右上の「Start Free Trial」か画面中央にある「Start now — it’s free」をクリック。

いきなりStudioのホーム画面が開きます。
ゲストモード、Creative Reality Studioの基本機能が試せる状態です。

日本語読み上げのクオリティや、アバターはどんな感じか、という点だけの確認であれば、このまま右上のCreate videoからお試しが出来ます。

映像生成(アバターと音声との連動)はサインアップが必要なので、登録します。
最上部のオレンジ色の部分、もしくは左下のGuestから「Sign Up」を選択。

サインアップ画面が開きます。
Googleアカウント等と連携するか、Eメールアドレスを入力して登録してください。

画面表示に従って進めると、D-IDのアンケートが出てきます。
全6ページくらいあるので、回答していきます。


Doneを押すと、自分のアカウントに変わったStudioホームが表示されます。

Create video / 作る映像を設定する

では、本題の“喋るAIアバター”の生成をやってみましょう。
右上にあるCreate videoから、作成画面に進みます。

画面中央がAIアバター(プレゼンター)の設定、右側が喋らせる内容・音声の設定です。
Choose a presenterのタブでは、Creative Reality Studioが用意したアバターの選択、ADDをクリックしてオリジナルアバター用の画像アップロードができます。

Generate AI presenterのタブは、AIが生成した画像をアバターとして使う場合に使用します。
上部のA portrait ofの後ろに、プロンプト(欲しいアバターのビジュアル)を入力して「Generate」を押すと、その場でAIによる画像生成も行えます。

今回はCreative Reality Studioが用意してくれているアバターを使ってみます。

画面右側、上部のテキストエリアに読み上げて欲しいテキストを入力。
その下にあるLanguageのプルダウンで、日本語のJapaneseを選択します。

声の種類を切り替えつつ、Listenのアイコンをクリックして聴き比べてみます。
結構、当たり外れがある印象でした。イメージに合うものを探して下さい。

ちなみに、音声によっては右下にあるStylesで話し方を設定することが出来ます。
日本語音声はプルダウンがない、選択不能なものが多いですね。

読み上げて欲しいテキストを、全て貼り付けてみます。
以下のように表示されていたら文字数がオーバーしているので、テキスト量を調整。もしくは、2つに分割して生成しても良さそうですね。

ストップウォッチのアイコンを使うと、アバターが喋らない“間”を追加できます。
ストップウォッチアイコン1つにつき、0.5秒ず間が追加されます。

調整したら、最初から最後まで通して音声読み上げを確認。
入力ミスや、誤読が無いかチェックします。読み方を細かく指示はできないので、漢字や略語を誤読されている箇所があれば、ひらがな・カタカナに直しましょう。

なお、アバターの背景色を変更することも出来ます。
合成して使いたい場合は、グリーンバックにしておくと良いでしょう。

Audioから音声ファイルのアップロードも可能

今回はテキストからの音声読み上げを行いましたが、お手持ちの音声ファイルを使用することも可能。画面右側ブロックの上部で、Audioの方を選択するとアップロードできます。

Generate video / 動画を生成する

アバターと音声に問題なければ、右上の「Generate video」ボタンで動画を生成します。

このGenerate video、音声+音声に従って動くアバターを映像として書き出すタイミングで、クレジットが使用されます。見直しをして、気になるところは直しておきましょう。

服装が下着っぽく思えたので、カッチリした服に変えました。
下着っぽい長袖Tシャツと、赤いジャケット……なかなか究極的な選択です。

「Generate video」ボタンを押すと、確認画面画面が表示されます。
消費するクレジット数を確認して「Generate」を選ぶと、生成が開始します。


生成完了まで少し時間がかかるので、待ちましょう。

生成が完了すると、クリック/タップで映像が見られます。


右下のDownloadから、動画ファイルのダウンロードも可能です。

生成された映像

ダウンロードしたファイルがこちらです。

音声はそこまで悪くないですね。
文字を入れて、アバターを選ぶだけで、こんな泳動が出来てしまうのはスゴイ。手が動いているので、口だけ動く一般的なトーキングフォト式よりは良いように思います。

ただ、手を動かすタイミングと、話している内容が合うかと言えば微妙。リアルな人間っぽい分、眉・目が動かず無感情なのが不気味に見えてしまうようにも感じています。

HeyGen

無料サインアップ

HeyGenのWebサイトを開きます。
右上の「Get Started」、もしくは画面中央にある「Get Started fot free」をクリック。

URL:https://www.heygen.com/

サインインの画面が開きます。
Eメールアドレスで登録をしたい方は“Sign Up with Email”のテキストから。Googleアカウントなどを使ってソーシャルログインする場合は、使いたいサービス名をクリックして進めます。

それぞれ登録を進めていくと、HeyGenのアンケートが表示されます。
5ページくらいあるので、聞かれたことに答えて進めて下さい。

Submitを押すと、HeyGenのホーム画面が開きます。

これで1つだけ、動画が生成できます。

AI Outfit / FaceSwapでのアバターカスタマイズ

AI動画生成を行う前に、せっかくなのでHeyGenの特徴機能を試してみたいと思います。
他のAI動画生成サービスには今のところない、目玉機能は以下の2つ。

  • AI Outfit→ AIに命じてアバターを着せ替えられる
  • FaceSwap→ アバターの顔をアップロードした画像に変える

AI Outfitは最近追加された機能で、対応アバターが限られています。
以下の手順で進めると、対応アバターが発見できるはずです。

  1. メニューからAvatarを開く
  2. My AvatarでStudio Avatarを開く
  3. 「AI Outfit」タグの付いているアバターを選択



Edit Avatarを選択すると、アバターのカスタマイズ画面に移動します。

AI Outfit

アバターの着せ替え“Outfit”機能を試してみます。
Outfitの下にある、Generateを選択。

AIとのチャット画面が開きます。
適当に「こんな衣装にして欲しい」という要望を入力して、送信してみましょう。

言い方が悪い・曖昧だと、AIが質問してきたり、候補を出してくれたります。
聞かれたことに対する返答、提案された中から選んだテキストを送ります。

30~60秒くらいかかるから、閉じないで待っていてね。というようなメッセージが表示されます。少し待っていると、生成された服を着たアバターの画像が表示されます。
黒のジャケットはどこに…な画像もありますが、まぁ、仕方ない。

良いものがあれば✓を入れてSave。
(Refreshを押すと、再度生成を行うことも可能です)

AI Outfitウィンドウの右上にある ✕ をクリックして、自分で閉じます。
元の画面に戻ると、OutfitでSaveした衣装を選択できるようになっています。

FaceSwap

次に、AIアバターの顔を変えてくれるFaceSwapを試してみます。
実在する人の顔はちょっと抵抗があるので、AI生成画像(Adobe Firefly使用)をアップロードしてみました。

結果……

めちゃくちゃ怖い!!
眉や目などパーツの形に、アップロードした画像の影響はあります。が、想像するようなFaceSwap(顔の交換)とは違った仕上がりだ、という方が多いのではないでしょうか。

ちなみに、別の画像もいくつか試してみたのですが、程度の差はあれ全般怖め。
一番怖くなかったもので、下画像くらいの仕上がりでした。

Voice

アバター編集画面の一番下には、ボイス設定もあります。

ここでアバターの標準音声を決めておけるのですが、Listen to the soundで聞けるサンプルボイスの台本は言語を変えても同一。
テキストを入れて読み上げる時にも変更できるので、日本語設定にだけしておきます。

右上、SaveChangesのボタンで変更を保存。
保存が終わったら、左上の ← で戻ります。

Create video / 作る映像を設定する

テキストをアバターに読み上げてもらう映像を作ってみましょう。
使いたいアバターを選択して、ウィンドウ上で「CreateVideo」を選びます。

縦長、横長を選択。無難そうな横長を選択しました。

映像作成用の画面が開きます。

テキストを入力して、音声の選択・調整をしていきましょう。
全文入れると音声切り替え→再生に時間がかかことがあるので、短めの文章を使っています。

読み上げ音声の設定が決まったら、全文貼り付け。
こちらも時計アイコンで0.5秒の“間”を挿入できるので、必要箇所に追加していきます。

やっぱりアバターが怖いので、HeyGenがデフォルトで用意してくれているものに変えます。
左側のPick an Avatarから使いたいものをクリックすれば変更できます。

作業スペースの左上、角丸の正方形をクリックすると背景色を変更できます。
必要があれば設定して下さい。

Generate video / 動画を生成する

右上の「Submit」ボタンを押すと、動画の生成に進みます。

消費されるクレジットが表示されます。
もう一度「Submit」を選択すると、生成がスタートします。

生成が完了すると、Videoのページに動画が表示されます。
クリックすると出来上がった動画が確認できます。


右側のサイドバーで映像公開設定や共有、ダウンロードが出来ます。

生成された映像

HeyGenからダウンロードした映像がこちら。

音声に違和感はないですね。
顔・口の動きも、縮小して画面の端っこの方で喋らせる分には問題なさそう。簡単操作でコレが出来るのはすごいですよね。

とはいえ、原寸大でプレゼンターやアナウンサーのように使うと、口があってない部分が目立ちます。表情のなさによる、違和感・不気味さもありますね。

まとめ

Creative Reality Studio、HeyGenどちらも「見るに堪えない」「聞くに堪えない」というクオリティではありませんでした。何の知識も技術も必要なく、テキスト入力してポチポチと選択していくだけで、これだけの映像が出来るのはすごいことだと思います。

ただ、まだビジネスシーンで、人のかわりを務められるレベルではないです。
パーツを動かす技術はすごいものの、リアリティがあるほど“動かない部分”の違和感が出てしまっているように感じます。また、日本語は世界的に見ればマイナー、かつ顔の筋肉の使い方が大きく異なります。それも違和感の原因の一端かもしれません。

このあたりは、さらなる進化に期待。
AI技術の進化スピードは驚異的に早いので、日々改善されていくのでしょう。ナチュラルに話すアバターが出来る日が楽しみでもあり、怖くもありますね。

まずは無料で14講座から始めましょう!

ハイクオリティな14講座/98レッスンが受け放題。
募集人数には制限があります。サインアップはお早めに。
無料申し込み期限
4月28日まで

募集 人数
100名 (残りわずか)
×