エンクド開発

Chat to TTS Linker 使い方

目次

    Irodori-TTS 環境構築について

    「Chat to TTS Linker」をご利用いただくには、前提として「Irodori-TTS」の動作環境が構築されている必要があります。

    Irodori-TTSは、Windows環境とNVIDIA製GPU(CUDA)の組み合わせで最も快適に動作します。CPUのみでも動作は可能ですが、音声生成により時間がかかります。

    ワンクリックで環境を用意できる「Irodori-TTS-Quick-Start.zip(※Window用)」をご用意したので、必要な方は下記ボタン「Irodori-TTS-Quick-Start.zip をダウンロード」からご利用ください。

    Irodori-TTS-Quick-Startのセットアップ

    install.bat」を実行しインストールが完了するまでお待ちください。
    start.bat」を実行する。
    以上でChat to TTS Linkerを使用する準備は完了となります。

    Reference Audio(声質)の作成

    start-voicedesign.bat」を実行後http://127.0.0.1:7860/(初期値)でIrodori-TTS VoiceDesign Inferenceが立ち上がります。
    詳しい使い方は検索などをご利用下さい。

    ※ Irodori-TTSの環境構築に関する個別サポートは行っておりません。
    詳しくはIrodori-TTSの公式配布ページ(github)をご確認ください。

    会話形式のチャット(テキスト)の準備

    本拡張機能で音声を生成するには、前提としてChatGPTやGemini、その他のAIチャットサービス側で、キャラクター名とセリフが記述された会話風のテキストページ(チャットスレッド)が開かれている必要があります。

    例えば、あるAIサービスなどで、下記のような指示(プロンプト)を出します。これは「3. プロファイル&キャラクター登録(声の設定)」で説明している"セリフ抽出条件"に合致するように指示を出しています。※条件は正規表現で指定できるので好みで変更してください。

    セリフや口調の形式はキャラクター名:「セリフの内容」で統一して下さい。
    太郎と花子の他愛のない日常会話が行われる短い小説を書いて下さい。

    Chat to TTS Linkerを使う

    拡張機能の機能をフルに活かすため、以下の事前設定および基本設定を行ってください。

    1. 使うための事前準備

    機能を最大限に活用するため、以下の2つの事前設定を行ってください。

    • STEP ①
      Irodori-TTSを起動する

      通常通り、ローカルでIrodori-TTS(Gradio UI)を起動しておきます。

      デフォルトのアドレス:http://127.0.0.1:7860/

    • STEP ②
      Chat to TTS Linkerをインストールする
    • STEP ③
      Chromeで「ファイル URL へのアクセス」を許可する (★推奨)

      Irodori-TTSが生成した音声ファイルをローカルフォルダgradio_outputsから直接読み込むことで、音声再生の遅延を軽減できます。詳しくは、「2. 拡張機能の基本設定」→「gradio_outputsフォルダから再生」をご覧ください。

      1. ChromeのURLバーに chrome://extensions と入力して拡張機能管理画面を開きます。
      2. 「Chat to TTS Linker」のカード内にある 「詳細」 ボタンをクリックします。
      3. 「ファイルの URL へのアクセスを許可する」 のスイッチを ON にします。
      4. これでgradio_outputsフォルダから再生する準備ができました。

    2. 拡張機能の基本設定

    ブラウザ右上にある拡張機能のアイコンをクリックし、基本設定を行います。

    設定項目 内容・入力例
    TTS サーバー URL Irodori-TTSが起動しているURLを入力します。
    例: http://127.0.0.1:7860/
    gradio_outputsフォルダから再生 Irodori-TTSの出力フォルダの絶対パスを入力します。
    例: C:\Irodori-TTS\gradio_outputs
    ※ 空欄でも動作しますが、入力して「ファイル URL 許可」をONにすると再生遅延を軽減できます。
    対象ドメイン 拡張機能を動作させたいチャットサイトのドメインを改行区切りで入力します。
    例: chatgpt.comgemini.google.com
    長文の自動分割文字数 1回で生成する最大文字数です(デフォルト: 50字)。VRAMの消費を抑え、生成エラーを防ぐためにPCスペックに合わせて調整してください。

    設定完了後、一番下にある 「すべての設定を保存して適用」 をクリックします。

    3. プロファイル&キャラクター登録(声の設定)

    チャットやボットごとに、声の設定を「プロファイル」として保存できます。拡張機能の設定画面「選択中のプロファイル」横にある 「追加」 または 「編集」 から設定画面を開きます。

    • プロファイル名: 任意の名前を入力します。
      例:みんなと日常会話チャンネル
    • チャットID: ページのURL内に含まれる任意の文字列(ID等)を指定します。

      例えばプロファイルを適用したいページが「https://gemini.google.com/app/abcd12345」だった場合「abcd12345」をチャットIDに入力します。厳密にはページを区別するためのモノなので、URLの一部なら何でも構いません。

      ※チャットIDが必要な理由:
      拡張機能が対象ドメイン内の意図しないページ(各種設定画面やスレッド一覧ページなど)で不要に動作してしまい、ブラウザや動作が重くなるのを避けるためです。指定することにより動作するページを限定させます。

    • セリフ抽出条件(正規表現): AIの出力からキャラクター名とセリフを抜き出すための条件です。自分が抽出したい条件に変更もできます。特に変更しない場合は下記の形式でセリフが抽出されます。
      ■セリフ形式の一例
      太郎「こんにちは」 ※名前 + 「」
      太郎:「こんにちは」 ※名前 + : + 「」
      太郎:え? ※名前 + :
      太郎:こんにちは ※名前 + :(全角)
      太郎 : 「お待たせしました」 ※名前 + 空白 + : + 空白
      太郎の心の声:やばい ※名前 + 修飾語 + :
    ⚠️ 重要: このチャットIDがブラウザのURLと一致している時のみ、そのプロファイルが有効になります。
    キャラクター&Reference Audio登録
    • キャラクター名: 抽出対象とするキャラクターの名前を入力します。
    • ファイル選択: そのキャラクターで使用したい「音声(最大30秒前後のノイズのないWAV/MP3モノラル音声)」をアップロードします。Irodori-TTSはこの音声をリファレンスとして声色のクローンを生成します。
      🎵 Reference Audio サンプル音声:
      動作確認用として、Irodori-TTSのVoice Design(Reference Audioのサンプル)で生成したサンプル用の音声です。動作確認等にダウンロードしてご利用ください。
    💡 無料版の制限: 無料版では登録できるキャラクターはプロファイルごとに 1人まで です。Pro版にアップグレードすると複数登録が可能になり、何人でも登録できるようになります。

    4. チャット画面での使い方

    設定した対象ドメイン・チャットIDのページを開き、登録したキャラクター名を含んだ会話が発生すると、セリフの末尾にグレーの CTTL ボタンが出現します。

    🔊 基本操作手順
    1. CTTL ボタンをクリック すると、メニューバーが展開します。
    2. ⚙️ 生成 をクリック すると、Irodori-TTSが音声合成を開始します。
    3. 生成が完了すると、ボタンが緑色になり ▶ 再生 が可能になります。
    4. ▶ 再生 / ⏸ 停止 で音声を再生・停止します。
    5. 🔁 ループ を有効にすると、同じ音声をループ再生します。
    6. 💾 保存 をクリックすると、生成されたWAV音声ファイルをPCへダウンロードできます。
    PRO ONLY
    5. 【Pro版限定】より高度な機能

    ライセンスキーを購入して認証すると、以下のプレミアム機能が開放されます。

    👥 キャラクターの複数(何人でも)登録

    1プロファイルにつき登録できるキャラクター数の上限がなくなり、複数登録(何人でも登録)が可能になります。複数キャラクターによる掛け合いや会話劇などを再現するのに最適です。

    🎨 感情・演出用絵文字パレット(セリフ編集)

    メニューの ✏️ 編集 をクリックすると、セリフ編集モーダルが開きます。テキストを自由に書き直せるほか、専用の「演出用絵文字パレット」からワンタップで絵文字を挿入し、声のトーンを細かく指示することができます。

    💡 TIP: Irodori-TTS v3 (Aratako/Irodori-TTS-500M-v3) は、テキスト内の特定の絵文字(タグ)を検知して、声色やニュアンスを変化させる機能を持っています。
    🌟 主な演出用絵文字の例:
    👂 耳元囁き (音響)
    📢 エコー (音響)
    📞 電話越し (音響)
    ⏸️ 間・沈黙 (音響)
    🐢 ゆっくり (話し方)
    早口 (話し方)
    💪 力強く (話し方)
    🥺 声を震わせる
    😪 気だるげ (話し方)
    😊 嬉しそう (感情)
    😎 得意げ (感情)
    🫶 優しく (感情)
    🤭 くすくす笑い
    😭 泣き声・悲哀
    😰 慌てふためく
    😟 心配 (感情)
    😠 怒り (感情)
    😮 息をのむ (呼吸)
    💨 ため息・吐息
    💋 リップノイズ
    🥱 あくび (呼吸)
    🎵 鼻歌
    ★ お気に入り機能

    編集したこだわりのセリフや、よく使う挨拶などを「お気に入り」に登録できます。

    登録すると、画面右下の (ピンク色の丸型ボタン)からいつでもお気に入りパネルを開けます。チャットのスレッドを遡ったり、新しく開き直したりすることなく、ワンクリックで登録セリフの再生成・再生・保存が行えます。

    6. トラブルシューティング

    音声が再生されない・エラーになる

    Irodori-TTS(Gradio)が正常に起動しているか確認してください。
    また、gradio_outputs フォルダから直接再生する設定にしている場合、Chromeの拡張機能管理画面で「ファイルの URL へのアクセスを許可する」が有効になっているか再確認してください。

    拡張機能をアップデートした後に動かなくなった

    拡張機能のコードが更新された直後は、開いているチャットページを一度 F5キー等でリロード する必要があります。

    声がリファレンスと全然違う・ノイズがひどい

    登録する「Reference Audio」に、BGMや激しいノイズが含まれていないか確認してください。最大30秒前後のノイズのないWAV/MP3モノラル音声の、ハッキリと聞き取れる声のみのファイルが最も適しています。

    ダウンロードが一つしか行われない

    ブラウザ上に「複数ファイルのダウンロード」というポップアップ(またはアドレスバー付近の通知)が表示されるので、「許可」を選択してください。