文字起こしを自動化できるwebサイト「Speach to Text Demo」

公開 : 2019/08/13 : 2022/03/04

文字起こしとは

会話の内容をテキスト化していくことを言う。
この工程を入れることで、どの部分にコメントを入れたいかが明確になり作業スポードが向上する。

動画編集で、会話の内容をテロップにして動画に入れたいと思うことありますよね。
でもこの作業って本当に大変なんです。
手順を簡単に説明すると

1.文字起こしをする
2.テロップを作る
3.テロップを動画に差し込む

こんな感じの工程になります。
どの工程も面倒なんですが、この記事を最後まで読んだら今までの１０倍は速くなる可能性があります。
今回は「1.文字起こしを自動化する方法」を紹介します。

2.3.はこちらの記事に解決方法を書いてあるので参考にしてくださいね
＞＞コメント仕込みを爆速でやる方法　Photoshop
＞＞Photoshopで作ったテロップをPremiere Proで効率よく入れるテクニック

文字起こしを自動化できる「Speach to Text Demo」

今の世の中にはとても便利なサービスがたくさんあります。そのひとつが音声を認識して自動で文字起こししてくれるソフトです。有料ソフトだとAmiVoice、ドラゴンスピーチなどでしょうか。
僕が紹介したいソフトはIBMの「Speach to Text Demo」です。
これはIBMのwebサービスで、無料で使えてソフトのインストールも不要のためアップロードするだけです。
かなり精密に音声を認識してくれるので大量のコメント起こしがある番組やYoutuberには力強い味方になるはずです。

Speach to Text Demoの使い方

操作も簡単で３STEPで完了しちゃいます。

1.Voice ModelをJapanease broadband model(16KHz)に変更
2.Detect multiple speakersのチェックを外す（複数人の音声をひろう場合、チェックを入れておくといい）
3.Upload Audio Fileを押し書き出したwavデータを選択

ネットワークに依存するので電波が悪かったりwavの容量次第で時間がかかるかもしれませんが、無料とは思えない精度で音声を認識してくれます！
試しに僕が作った１分位の動画をSpeach to Text Demoを使って文字起こしをしてみました。赤文字が誤入力です。

では始めていきたいと思います今回はいいと十分でできるね４風アルファベット文字を使った動画を作っていきたいと思います。
十分でできるんでホントに簡単にできちゃうのでぜひ試してみて下さい。最初に完成動画をちょっと１回見てもらいたいなと思っていますので一度ご覧ください。
今回画像を用意しているんですがPAKUTASOサイトからええ人物がフリー素材を使わせていただきました川村結花さんありがとうございます。使わせていただきました。今回のポイントなんですか文字が１つずつ出てくるところですかね。ちょっとずつずらすことでおしゃれな感じになってるかなと思います。ポイントとしてはこことあとはレイアウトですね…

１分くらいの音声で誤変換が６つ見つかりました。どれも惜しい誤変換ばっかりですね！でもこれは僕自身の滑舌の悪さも原因にあると思うのでハキハキ話す訓練をすればもっと改善してくると思います。

音楽やノイズが混じると精密さが急激に悪くなる

このSpeach toText Demoですが、音楽やノイズが激しくなると急激に感度が悪くなります。
誤変換というよりも音声を認識してないレベルまで落ちるので音楽をつける前に一度wav書き出しする方法がいいと思います。
でも無料ですからね！しかもweb上でできちゃうのはかなり画期的なので試してみてください！

しかし、多重音声を認識したい場合などはまだまだwebサービスの精度だと満足できるものではありません。
AmiVoiceやドラゴンスピーチの方が優れていますよ。

Photoshop・Premiere Pro・After Effectsなど、専門的なアプリケーションをイメージトレーニングできるwebサイトを作りました。
電車の中、ちょっとした隙間時間にお試しください。