動画用アバター作りに役立つ人気のリップシンク・音声合成ツールを紹介【無料有/2023年版】

by TAKADA

｜ 21380 PV ｜ 2024.03.11

favorite_border

【SkillhubAIリリース記念無料キャンペーン、限定100名】 Skillhubが生まれ変わりました！AIを使った最先端の学習環境を使って無料から学習できます。
» 今すぐキャンペーンをチェックする

集客用に、副業として収益化目指して、動画コンテンツを作りたいと思った時に「YouTuberみたいに自分が出るのはちょっと……」「家族がいるのに一人で延々喋るのも気まずい」と悩む方も多いのではないでしょうか。

そこで今回は、無料もしくは低予算でも使用できる、動画用アバター＆音声合成サービスやソフトについて紹介します。難しい、高い、と思っている方、ちょっと目からウロコですよ！

顔出しNG/声出しNGで、視聴者が楽しめる動画を作るには
AIで音声読み上げ&アバターをまとめて作成
音声読み上げ・音声合成ソフト
音声データからリップシンク（口パク）を作る

顔出しNG/声出しNGで、視聴者が楽しめる動画を作るには

自分の顔や声を使わず、視聴者が共感や親しみを持ってくれる動画を作る手段として使われているのが、合成音声やアバター（キャラクター）です。

一時期ブームになった「ゆっくり解説」「ゆっくり実況」系の動画が代表的ですね。
以下のような顔のキャラクターが合成音声で喋る動画、You Tubeで目にしたことがある方も多いと思います。

こちらは良くも悪くも“テンプレート化”されていますが、オリジナルのキャラクターを使えばブランド化することも可能。VTuberなんかを想像していただくと、イメージしやすいでしょう。

いやいや、そういうのは二次元とかゲームが好きな人向けでしょう？ジャンル・客層が違う、と思われる方もいらっしゃるかもしれません。ですが、まだ発展途上感はあるものの、AI生成サービスでは人間に近いビジュアルのアバターに話させることも出来ます。自分で動画ジャンルに合うようなキャラクターを用意することも可能。

しかも。
一昔前のアバター作成のお値段・役者や声優の方を雇うことを考えると、AI生成サービスは低コスト。自分で制作すれば、多少の作業は必要になりますが、無料でオリジナルアバターが解説する動画の作成もできます。

以下では、それぞれ人気のあるサービス・ソフトを紹介していきます。

まずは無料の7講座から受講してみましょう。わかりやすくて目からウロコですよ。
» 今すぐ無料講座をチェックする

AIで音声読み上げ&アバターをまとめて作成

今まではキャラクター・アバターを喋らせようと思ったら、音声データを作って、口のバリエーションがあるイラストを用意して、音声に合わせて動かす……という流れでした。しかし、近年ではAIの進歩によって、最低限のテキスト（言わせたい言葉・文章）だけあれば、音声もアバターも一気に作れるようになってきています。

こんなキャタクターが動いたら良いな、という静止画があれば、読み上げにあわせてリップリンク（口を動かすアニメーションを付けてくれる）サービスもあります。よく見ると口の動きが不自然だったり、用意した画像によってはちょっと気持ち悪かったりしますが、従来の制作手順を思えば画期的ですね。

まずは、音声も、アバターが喋っているモーションも、まとめて作ってくれるサービス・ソフトを4つ紹介します。

D-ID / Creative Reality Studio
HeyGen
Colossyan Creator
Vrew

Creative Reality StudioとHeyGen使い方、生成された映像は以下の記事で紹介しています。

Skillhubブログ

Creative Reality Studio/HeyGen比較! 無料で“日本語を喋るAIアバター”を作ってみました

1. D-ID / Creative Reality Studio

Creative Reality Studioは、テキストを入力するとアバターを喋らせることができるAI動画生成プラットフォームです。トーキングフォトAIと表現されることもあるように、顔写真やキャラクター画像など“静止画”から口・頭を動かして、喋らせることが可能。

CanvaでAIキャラクターを喋らせられると話題になった『D-ID AI Presenters』と同じく、D-IDというイスラエルのAI関連企業が提供しています。喋らせるアバターは自分の写真でも、自作画像でも、その場でAIに生成してもらう事も可能です。

操作画面は英語ですが、分かりやすいUIなので問題なく使えるでしょう。
日本語の読み上げにも対応しています。

公式サイト	D-ID's Creative Reality™ Studio
種類	Webサービス
価格	Trial（無料） 14日間で20クレジット（約5分間）分のビデオ生成が可能
価格	Lite：$4.7 /月～ Pro：$16 /月～ Advanced：$108 /月～ Enterprise：要相談
クレジット表記	Trial：前面透かし入り Lite：D-ID ウォーターマーク入り Pro：AI ウォーターマーク入り Advanced：なし
利用範囲	proプラン以上で、商用利用可能

使い方・機能が分かりやすい日本語解説

2. HeyGen

『HeyGen（ヘイジェン）』はAIでアバターを生成し、動画を作成できるAI動画生成プラットフォームです。かつてMovioという名称でしたが、改名されました。『HeyGen』という名前に馴染みはなくても、編んだような▷のロゴに見覚えある方は多いのではないでしょうか？

『HeyGen』には、口周りのみ動かすトーキングフォトタイプだけではなく、アバター（上半身）も用意されています。アバターの顔を自分が用意した画像と置き換えたり、テキストで指示してる衣装チェンジも可能。この機能によってニュースキャスターやプレゼンテーターのような、よりリアルな人物を動画に登場させることができます。

こちらも操作画面は英語ですが、日本語の音声生成対応。動画をアップロードして言語を選択するだけで、リップシンク込みで40以上の言語に音声を変換してくれる“Video Translate”機能も追加され、話題となりました。

公式サイト	HeyGen - AI Video Generator
種類	Webサービス
価格	Free（無料）月に1クレジット（約1分間）分のビデオ生成が可能
価格	Creator：$24 /月～ Business：$72 /月～ Enterprise：要相談
クレジット表記	無料プランの場合は、HeyGenロゴが入る
利用範囲	商用利用可能

使い方・機能が分かりやすい日本語解説

3. Colossyan Creator

『Colossyan Creator（コロシアンクリエーター）』もAI動画ジェネレーターで、リアルなAIアバターが注目されています。AI俳優なんて表現もされるように、アバターは人間的な動きをしてくれることが特徴。

PDF、PPT（PowerPoint形式）からの動画生成も可能。企業プロモーションや教育教材などかっちりとした動画を作りたい時に向いているサービス。動画用のスライド生成機能と合わせて、超進化型のPowerPoint、というイメージがあります。

70以上の言語サポート・ワンクリックで翻訳可能と、AIジェネレーターに求めたい機能も十分。アバターの外見で日本人・アジア人系が少なく、日本語を喋らせると少し不自然になる部分が改善されたら、ガンガン使われそうですね。

ただ、Colossyan Creatorの場合、HeyGenのようにAIアバターを好きにカスタムする機能は今のところありません。バラエティ寄りの解説・ゲーム実況などには使いにくそうです。

公式サイト	Colossyan Creator - AI Video Generator
種類	Webサービス
価格	Trial(無料) 生成数・機能に制限付きでお試し可能
価格	Starter：$27 /月～ Pro：$87 /月～ Enterprise：要相談
クレジット表記	Trialの場合は、Colossyanの透かし入り
利用範囲	商用利用可能

使い方・機能が分かりやすい日本語解説

4. Vrew

ここまでザ・AI生成プラットフォームというサービスをご紹介してきましたが、最後にちょっと毛色の違う『Vrew（ブリュー）』をご紹介します。

VrewはAIの音声認識技術を使った動画編集ソフトで、元々は文字起こし・字幕ツールとして使われることが多かったソフト。バージョンアップしていく中で、音声読み上げや、音声にあわせて動くアバター合成機能が加わり、解説動画作りに活用される方が増えました。

Webサイトも、ソフトの操作画面も日本語対応。“テキストエディタのような画面”で編集が売りなので、動画編集をしたことがない、グラフィック系のソフトをあまり使ったことがない、という方でも取り入れやすいでしょう。

インストールする前に公式サイトの「体験する」で、Web上で操作を試すこともできます。

https://vrew.voyagerx.com/ja/

公式サイト	Vrew、テキストエディターのように簡単で素早AI動画編集
種類	ネイティブアプリ(インストール型ソフト)
価格	Free（0円）一月あたりAI音声1万字など、生成数制限あり
価格	Light：8,600円/年 Standard：16,300円/年 Business：43,200円/年 ※個人・個人事業者の場合
クレジット表記	Freeの場合は、Vrewのウォーターマーク入り
利用範囲	商用利用可能
動作環境	Windows 10.64 または OSX Mojabe(10.14)以上参照：Vrewを実行するための最小システム要件は何ですか？

音声読み上げ・音声合成ソフト

音声読み上げソフト、アプリケーションも世界には沢山あります。
以下では、日本語読み上げに対応し、無料もしくは低予算で商用利用が可能（収益化予定のYou Tube動画などに使える）なものを紹介します。ぶつぶつと音声が途絶えたり、極端にロボット系なものは除外しています。

音読さん
VOICEVOX
COEIROINK
Amazon Polly
ElevenLabs
Wondershare Filmora
Adobe Audition
そのほか

1. 音読さん

国内の音声読み上げソフトの代表格と言える『音読さん』。ソフトを知らなくても、声を聞いたら「あ、聞いたことある！」と思う方もいらっしゃるはずです。

UIが非常にシンプルでわかりやすく、サクサクと使えます。会員登録など無しでも試せるので、はじめて音声読み上げ・音声合成ソフトを使ってみる方は、まず『音読さん』から試してみるのがおすすめ。多言語に対応し、画像からの読み上げもできます。

公式サイト	日本語音声読み上げソフト\|音読さん
種類	Webアプリ
価格	980 ~ 3278円 / 月(税込)
価格	無料利用非会員（フリー）　：1000文字/月無料会員（ライト）：5000文字/月
クレジット表記	無料利用の場合は必須 ※有料会員はクレジット表記不要
利用範囲	商用利用可能
声の調整	◯

2. VOICEVOX / VOICEVOX Nemo

“無料で使える中品質なテキスト読み上げ”がキャッチコッピーの『VOICEVOX（ボイスボックス）』。用意されている音声はアニメ声優系のものが多く、ゲームの実況動画などで使われていることが多いです。

一文字ずつアクセント・イントネーション・長さの調製ができるので、細かく調整すれば合成音声のカタコト感・モヤッと感も無くせるのが強み。単語帳のような機能もあるので、専門用語なども1度登録するときちんと読み上げてくれるようになります。

注意点としては、声ごとにイメージキャラクターが用意されており、利用可能範囲がそれぞれ異なる点。使いたい声が決まったら、その規約を確認してください（追加エンジンとして、キャラクター無しのVOICEVOX Nemoもあります）。

公式サイト	VOICEVOX \| 無料のテキスト読み上げ・歌声合成ソフトウェア
種類	ネイティブアプリ(インストール型ソフト)
価格	完全無料
クレジット表記	必要
利用範囲	商用利用可能（※キャラクターを使う場合、個別の利用規約を確認）
声の調整	◎
動作環境	CPU 版 Windows：10以降 / Mac：macOS Catalina 以降 / Linux：Ubuntu 20.04 GPU 版 GPU搭載のWindows PCとNvidia 製GPU搭載のLinux PC

3. COEIROINK

COEIROINK（コエイロインク）も、バーチャルキャラクターと音声がセットになっているタイプの無料AI音声合成ソフト。『MYCOEIROINK』という音声の自作機能もあり、自作したり、MYCOEIROINK | 配布リスト提供された合成音声を使用することも出来ます。

MYCOEIROINKを含めると、無料にも関わらず音声ライブラリ数が非常に多いことが特徴。叫んでいるような音声など、感情がのった表現もできます。こちらも音声ごとに、利用可能範囲がそれぞれ違うので、その点だけ注意しましょう。元々は『VOICEVOX』のUI・エディタが採用されていましたが、v2からは独自UIになったようです。

公式サイト	COEIROINK
種類	ネイティブアプリ(インストール型ソフト)
価格	完全無料
クレジット表記	必要
利用範囲	各キャラクターごとに異なる
声の調整	◯
動作環境	CPU 版 Windows：10以降 / Mac：記載なし GPU（Windows）版 NVIDIA製のGPU, cuda(推奨 11.8)インストール

4. Amazon Polly

Amazon Pollyは、Amazon Web Services（AWS）が提供している音声合成サービス。選択できる声の種類こそ少ないものの、読み上げられる音声のクオリティは高いです。VOICEVOX やCOEIROINKがキャラクター声（アニメ声）寄りなのに対して、Amazon Pollyは落ち着いたオペレーターのような印象の音声。

話す速度や読み方なども細かく設定できますが、難点は音声合成マークアップ言語 (SSMLタグ) で指示するという点。以下のようなタグで言葉を挟み込んで読み上げ方を指示するので、慣れていないと結構しんどいと思います。

https://docs.aws.amazon.com/ja_jp/polly/latest/dg/supportedtags.html

公式サイト	Amazon Polly
種類	クラウドサービス
価格目安	TTS(スタンダード): $4.00 / 100 万字 NTTS(ニューラル): $16.00 / 100 万字
価格目安	無料無料利用枠（最初の12か月間）は1か月あたりスタンダード：500万文字ニューラル：500万文字まで使用可能
クレジット表記	不要
利用範囲	商用利用可能
声の調整	△ (SSMLタグの使用が必要)

5. ElevenLabs

ElevenLabsはAIを活用した音声読み上げサービスです。Webサイト/UIは英語ですが、日本語の読み上げにも対応しています。

自分で用意した音源をモデルにした音声生成・翻訳にも対応しており、単なる音声読み上げとしてよりも、本人の声を元にした“吹き替え”音声を作るのに使われている方が多い印象です。

公式サイト	AI Voice Generator & Text to Speech \| ElevenLabs
種類	Webアプリ
価格	Freeプラン生成可能文字数は10,000字/月まで
価格	Starterプラン： $5 / 月(税抜き)～上位プランとしてCreator, Independent Publisher, Growing Business
クレジット表記	Freeプランのみクレジット表記必須
利用範囲	Starterプラン以上は、商用利用可能
声の調整	✕

6. Wondershare Filmora

Filmoraは全世界1億人のユーザーを持つ動画編集ソフト。『Filmora 13』アップデートで、AI機能が大幅に強化されました。動画・画像・音楽などのAI生成機能がアップデートの目玉ですが、テキスト読み上げ（TTS）機能も追加されています。

動画編集ファイルにあるテロップで読み上げを実行してくれるのも、二度手間感がなくて素晴らしい。動きにシンクロするアバターも用意されているので「喋るのは良いけど顔出しは…」という方にも良さそうです。
動画作りに使うソフト多すぎ! 1個で済ませたい! という場合、試してみる価値はありますね。

公式サイト	Wondershare Filmora
種類	ネイティブアプリ(インストール型ソフト)
価格	法人・商用向け：3,480円 / 3ヶ月(税込)
価格	無料体験版使用期限はなし AI機能・素材・エフェクトが一部制限される動画ファイル形式で出力時、透かしが入る
クレジット表記	不要
利用範囲	法人・商用向けプランなら商用利用可
声の調整	△
動作環境	Windows版 Wondershare Filmora（Windows版）動作環境 Mac版 Wondershare Filmora（Mac版）動作環境

7. Adobe Audition

Filmoraで音声読み上げができるなら、と調べてみたところ、Adobe製品ではPremiere ProではなくAdobe Auditionに「テキストからスピーチを生成」という機能がありました。

https://helpx.adobe.com/jp/audition/using/text-to-speeech.html

ただし、結論から言うと、おすすめはできません。
Acrobatの読み上げと大差ないレベル。メリットは、既にコンプリートプランを契約されている場合、追加料金がかからないことくらいでしょうか。

公式サイト	オーディオの録音と編集 \| Adobe Audition
種類	ネイティブアプリ(インストール型ソフト)
価格	Audition単体プラン：¥2,728/月(税込) Creative Cloudコンプリートプラン：¥6,480/月(税込)
価格	無料体験 7日間無料
クレジット表記	不要
利用範囲	商用利用可
声の調整	△
動作環境	Audition の必要システム構成

8.そのほか有料の音声合成ソフト

実況動画などでは『A.I.VOICE（エーアイボイス）』や『VOICEROID（ボイスロイド）』『VOICEPEAK（ボイスピーク）』などの有料ソフトを使っている方も多いです。『VOICEPEAK』は人間に近いクオリティの読み上げが出来る、とYoutubeなどでも話題になりました。

こだわりたい！という方は、こうした有料パッケージの購入を検討されても良いでしょう。
このあたりのソフトはキャラクターの声 + 読み上げのクセで、好き嫌いが分かれます。Youtubeなどでは各製品の比較動画も公開されていますので、自分の理想に近いものを選んでください。

音声データからリップシンク（口パク）を作る

声やキャラクター・アバターにこだわりたい、口周りを動かすだけではなくもっと表情を付けたい！と思ったら、音声データを元にリップシンクアニメーションを作ります。「喋るのはOKだけど、顔は出したくないからキャラクターにしたい」という方にも向いています。

リップシンク（Lip Synchronization / Lip Sync）とは、キャラクターの口の動きとセリフを合わせること。広義だと口以外、映像信号と音声信号の同期にも使われますが、Lip（唇）とつくように唇の動きと音声が合っていて、視聴者に違和感を持たせないことが重要。日本では「口パクアニメーション」と言うこともあります。

リップリンクアニメーション・口パクアニメーションは、音声に合わせてキャラクターの口の形を変えていくことで制作されています。昔はアニメーターさんが作業で調整していましたが、今は半自動で行えるソフトも多くあります。

1. Adobe製ソフト類

アドビのソフトには、自動でリップシンクが設定できるものが３つあります。

● Adobe Character Animator

Character Animatorは、キャラクターを動かすことに特化したソフト。IllustratorやPhotoshopで作ったイラストデータを、直感的な操作でアニメーション化する事ができます。パペット、アバター、キャタクター……呼び方は色々ですが、人間っぽい動きをつけることが目的のソフトです。

webカメラとマイクの情報をキャラクターに反映する（表情や体の動きをトラッキングする・自動リップシンクで口を動かすなど）ことも可能。自分の動きにアバターを追従させられるので、VTuberのような動かし方をしたい方にも使われています。

Adobe Character Animator：
https://www.adobe.com/jp/products/character-animator.html

メリットでも、デメリットでもあるポイントとして、Adobe Character Animatorは個別で購入・契約が出来ません。Creative Cloudコンプリートプランを契約すると使えるソフト、という位置付けです。

既にCreative Cloudコンプリートプランを契約している、という方は無料で使えて便利。ですが、アニメーションを作る・モーションキャプチャでキャラクターを動かすためだけにCharacter Animatorを使いたい、他ソフトは使わない、という場合はコスパが悪いですね。

Skillhubブログ

Adobe Character Animator+合成音声でキャラクターを口パクさせる方法（リップシンク）

● Animate

Adobe Animateは、2Dアニメーション作成に特化したソフト。かつてFlashアニメーションの作成に使われていたAdobe Flash Professionalの後継で、HTML5形式を筆頭に、万能なアニメーション制作が行えるソフトとなっています。

名前も説明もCharacter Animatorと似ていますが、Character Animatorがキャラクターアニメーション（人のような動きの表現）特化なのに対し、Animateはアニメーション制作全般に使えるソフト。星が流れる、風船が飛んで各地を巡る、などの表現も作れます。

Adobe Animate：
https://www.adobe.com/jp/products/animate.html

Character Animatorのモーションキャプチャ機能は、Animateにはありません。
リップリンク機能はあるので、セリフに合わせて半自動的にキャラクターの顔を動かすことは可能。表情や動きの細かい調整もできますし、人間が出来ないアニメ風の動きの表現にも良いでしょう。お手軽感は薄れるものの、活用幅は広いです。

Animateは単品契約も可能で、価格は2,728 円/月（税込み）。
Creative Cloudコンプリートプランユーザーは、追加料金無しで使用可能です。

Skillhubブログ

Adobe Animateで口パク（リップシンク）アニメーションを作る方法を解説

● After Effects

After Effectsはビジュアルエフェクト（VFX）やモーショングラフィックスアニメーションなどの制作に使われるソフトです。Animateは2Dアニメーション制作のためのソフトですが、After Effectsは“映像作品の制作”に幅広く使われています。

Adobe After Effects：
https://www.adobe.com/jp/products/aftereffects.html

After Effectsは初期状態で手軽にリップシンク（音声に合わせて顔パーツを同期させる機能）や、キャラクターリギングはできません。しかし、After Effectsは作業の簡易化・効率化のために、必要なプラグインやスクリプトを追加可能。ボイス素材に合わせて自動でリップシンクアニメーションを付けてくれるスクリプト『Auto Lip-Sync』も販売されています。

After Effectsも単品で月額2,728 円（税込み）。有料スクリプトは別途購入となります。
Creative Cloudコンプリートプランであれば価格は変わりませんから、After Effectsだけで完結させず、リップシンクはCharacter AnimatorかAnimateを使ったほうが楽ですね。

2. SadTalker

口の形のイラストを用意するのが辛い。Creative Reality Studioみたいに自動でやって欲しいけど、高いしなぁ…という方におすすめなのが『SadTalker』。音声と画像ファイルを用意すると、音声に合わせて口を動かして話しているトーキングフォトを生成してくれる機能です。

無料で使えるオープンソース（MIT license）のソフトウェアで、クレジット表記は必要ですが、商用利用も可能。お金をかけず“喋る”映像が生成できるありがたい存在ですが、『SadTalker』は基本的にStable Diffusion Web UIに拡張機能をインストールする形で使います。

このStable Diffusion Web UIの導入が少しハードル高め。GPUが搭載されていればローカル環境（自分のパソコン）、なければGoogle Colabratoryなどにインストールする必要があります。エラーが出たりするので、ある程度コマンド操作・解読ができないと難しいでしょう。

Hagging Face上にSadTalkerを試せるスペースがあります。どのくらいの精度でリップシンク出来るのか試してみたい方は、こちらを使うのがオススメ。