「音声認識字幕ちゃん」がスゴイ!! リアルタイム配信でテキスト出力+翻訳する方法

 

とみます(@20tomimasu)です。

 

Twitch配信を初めて、早3ヵ月。

相変わらず、フォロー数は増えない…

 

ので、配信ガジェットにハマりつつあり。w

前回は、Animazeで、リアルタイムで顔の動きをキャラクターに表現させた。

 

今回は、私の音声を、リアルタイムで、テキスト転換し、さらに同時に英語の翻訳まで。

OBSでの設定方法まで、簡単にメモしておきます。

とみます
この内容は「配信×音声翻訳」についてです。

 

開発者は、西村良太工学博士

 

  • 配信 音声 翻訳

で検索すると、この公式サイトの評判が良い。

>>音声認識字幕ちゃん

 

Twitterでも調べてみると、

 

すげぇ。

  • ①音声→活字(テキスト)に、表示させることができる。

他のAPIと組み合わせれば、

  • ②日本語+英語などの表記も可能。

 

早速、導入してみる。

 

音声認識字幕ちゃんのOBSへの導入方法

 

公式サイトに、記載された通りに実施すると、問題なく動作することを確認できた。

>>音声認識字幕ちゃん

 

GoogleのChrome上で、

音声を認識し、テキスト表示させる。

 

それを、OBSのWindow Captureにて切り出すことで、配信上で共有できる。

以下、Streamlabs OBSでの使い方↓

voice-change-to-text210222-1

↑ソースにて、追加するボタンを選択する。

 

voice-change-to-text210222-2

↑ウィンドウのキャプチャーを選択する。

ここで、プラウザソースを選択すると、機能しないので、ご注意を。

(リアルタイムでOBS上に反映できない。)

ウィンドウキャプチャとして、Chromeの画面をクロップ(切り取り)する感じに利用していく。

 

voice-change-to-text210222-3

↑実際の使用画面は、こんな感じ。

OBSとブラウザを両方起動させる。

ウィンドウキャプチャーにて、画面を共有していることを確認できたら、

  • ブラウザの大きさ
  • OBS上の位置やサイズ調整

を行う。

 

その後、OBS上にて、

  • Alt+マウスで拡大・縮小(↕)

にて、キャプチャーを、クロップする(切り取る)ことができる。

これで、タブ画面などの不要な箇所を除外できる。

 

あとは、背景の緑色をクロマキー処理をすればOK。

  • 右クリック→フィルター→クロマキー

(元々の背景が緑色なので、ありがたいね。)

 

これにて、背景が透明に。

便利な時代になったもんだ(*´▽`*)アッパレ。

 

早速、twitch配信に反映してみる

voice-change-to-text210222-4

↑Tomimasu×Fortniteにて。

まず、マイクの音声が認識され、画面下にテキスト表示される。

さらに、英語への翻訳が実施され、少し遅れてから(数秒)、日本語の下に英語が表示された。

 

おぉー。

これでグローバルな配信にも対応できるねん。

 

たまに、誤訳して、分けわからんテキスト表示されるけど。w

 

なので、喋り方や方言などに、注意していく必要がある。

  • 大きい声でゆっくり喋る事。
  • 訛りや方言は、誤認識されやすい。

 

ん?

これに、機械学習を取り入れれば、

より誤認識を減らすことができるのか…

 

というか、すでに導入されている?

  • 日本人のクセや方言→スタンダード表記→英語表記

とかにも、期待できそうね。

(どっかに、ライブラリが存在しそうだが。)

 

その辺の知識も学びつつ。

 

おわりに

 

以上「「音声認識字幕ちゃん」がスゴイ!! リアルタイム配信でテキスト出力+翻訳する方法」でした。

 

3分で実装できるので、ぜひ、お試しあれ。

英語の発音も正しければ、そのまま英語表記されることも可能。

 

ゲームをしながら、日本語→英語の勉強にもなるかもねん。

1日1%の自分アップデートを続けつつ。

とみます
今日も最後までありがとうございました。

sco180415-2

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です