この投稿では、Whisperを使用してASMR動画の音声認識の精度を上げた方法について説明しています。Whisperは音声をテキストに変換するAI音声認識技術を使用するプラットフォームで、音声をリアルタイムにテキストに変換することができます。
ASMRには様々なジャンルがありますが、音声の位相を保ったまま、IzotopeのRX9 advanceに追加されたDIALOGUE ISOLATORの機能を使って音声を分離し、音声認識の精度を上げました。
結果、Whisperを使用した音声認識の精度はGoogleドキュメントの音声認識よりも若干高いという結果になりました。
にこの記事の情報は役に立つと思います。
また音声認識に興味もった背景としては、自分がたまにホロライブの配信で配信者が大事なこと伝えていたり、記念配信してたりしてる時やコラボして頑張ってる時に、他に通訳してる人いなくて自分の仕事がオフの場合に通訳することがあるんですけど、音声認識がないと翻訳中に喋ってた内容頭に入ってこないときがあるんですね。そこでグーグルの音声認識を使ってるわけですけど。その時グーグルから別の画面に切り替えると認識外れるのでサブPCでやらざるをえないんですけど。音声認識でどうしても認識悪いものがあってそれがささやきなんですね。
そこでリアルタイムではないけど日本語も文字起こしができるWhisperに至ったというわけです。
Wisperは、音声をテキストに変換するAI音声認識技術を使用するプラットフォームです。音声をリアルタイムにテキストに変換することができ、自然言語処理により、より正確な結果を提供することができます。Wisperは、音声認識に関するさまざまなアプリケーションに使用されています。
この記事ではWhisperのインストールについては取り扱いません。
https://github.com/openai/whisper
つまるところGoogleドキュメント使った時に使う音声認識を個人の環境でもできてしまうものなのですが、いくら学習精度をあげたライブラリを使っても音声の認識率には限界がありました。
その理由について色々調べていると要員があるわけですが、音声認識サービスの大手企業さんの処理内容をチェックしているいと
必ずと行っていいほど音声分離がかかっていました。声のデーターだけなるべく抽出して
その声だけのデーターを使えば認識率が上がるというわけですね。