最近では、非常に多くの人がyoutubeに参入している現状です。
そんな中で、クラウドソーシングにおける案件にてyoutubeや音声データの文字起こしなどが増えてきました。
動画や音声データの文字起こしは、実際に動画や音声データを再生して、一語一語を聴き取り文字起こし作業を行います。
そのため、そのデータの時間分における作業時間が必要になってしまいます。
本記事では、文字起こしの作業効率化・自動化に取り組めるのか実践的に解説していきたいと思います。
まだGoogle ColaboratoryにおけるPython実行環境を構築できていない人は、以下の記事を参考にしてみてください。
また、筆者自身クラウドソーシングサイトであるランサーズにてコンスタントに毎月10万円を稼ぎ、プログラミング業務にて2021年6月に最高報酬額である30万円を突破しました。

年間報酬額も100万円突破するなど、実務的なプログラミングの活用方法や具体的な稼ぎ方について、一定の記事信頼を担保できると思います。

プログラミングは習得することで、本業/副業に十分活かせる武器になると先にお伝えしておきます。
目次
google colabによるPython実行環境について
今回は、google colaboratory(グーグル・コラボラトリー)を利用してPython実行環境を構築していきます。
知らない人もいるかもしれませんので、簡単にgoogle colaboratoryをご紹介します。
Google Colaboratory(グーグル・コラボラトリー、あるいは略式の呼称でGoogle Colabと呼ばれる。)とは、教育機関や研究機関において機械学習の普及を目的としたGoogleの研究プロジェクトの一つとなっています。
このGoogle Colabは、Jupyter Notebookを必要最低限の労力とコストで活用することができます。
また、Googleのアカウントさえ持っていれば、ブラウザとインターネットを利用してすぐにでも機械学習プロジェクトを実施することができるサービスです。
さらに、Googleの主要言語にプログラミング言語Pythonが利用されているため、Pythonをメインに利用することができますが、他言語であってもインストールすれば利用することができます。
本記事では、このgoogle colabを利用してPython実行環境を構築し、音声データの文字起こしを行なっていきます。
google colabによるPython実行環境の構築
それでは早速、google colabにてPython実行環境を構築していきましょう。
必要な作業を以下に記載しておきます。
・Googleアカウントの作成及びログイン
・新規フォルダ作成あるいは既存フォルダの利用
・google coraboratoryのインストール
これらを事前準備として行なっておきましょう。
google colabの詳細な使い方やメリットについて詳しく解説している記事もありますので、そちらも合わせてお読み頂けると幸いです。
Pythonによる文字起こしプログラムの内容について
今回作成するPythonによる文字起こしプログラムの内容は以下のように設計していきます。
できるだけ簡易的に行い、まずは動作すること・結果を得られることを目的として設計していきます。
・Python実行環境をgoogle colabにて構築
・文字起こしを行えるSpeech Recognitionライブラリを活用
・youtube動画をwavファイル(音声データ)に変換して利用
・誰でも利用できるようリンク発行し共有する
このような流れで作成していきます。
Python実行環境をgoogle colabにて構築
まずはPython実行環境をgoogle colabを利用して構築していきます。
googleアカウントにてgoogle driveを開き、新規フォルダあるいは任意のフォルダを指定し、google colabを選択し、jupyter notebookを開きます。
まだgoogle colabをインストールしていない場合は利用できないので、上記に記載したリンクの記事を参考にインストールを実行しておいてください。

すでにgoogle colabをインストールされていれば、このように新規フォルダあるいは任意フォルダにて、左上の『新規』ボタンからgoogle colabを追加することができます。

今回は、音声データにおける文字起こしを行うため、ファイル名を”voice_data_tanscription”と名付けています。
任意のファイル名を作成しておきましょう。
Speech Recognitionライブラリを活用
今回は、無料で簡単に利用することができるSpeech Recognitionと呼ばれるライブラリを活用していきます。
Pythonの公式ドキュメントにも記載されているので、詳細な内容を知りたい人はこちらも参照してみてください。
https://pypi.org/project/SpeechRecognition/
このSpeech Recognitionの音声認識エンジンを活用してプログラミング初心者でも簡単に取り組める基礎的なプログラムを実装していきます。
ローカルPCにおいても利用したいと思う人のために、記事の中でも必要な実装コードを記載していきます。
そのため、まずはSpeech Recognitionをインストールしていきます。
pip install SpeechRecognition
windowsであればコマンドプロンプト、macであればターミナルで実行すればローカルPC上でインストールすることができます。
youtube動画をwavファイル(音声データ)に変換して利用
今回は、あらかじめ用意した音声データをアップロードして文字起こしを行なっていきます。
そのため、音声データとして活用できるものを手に入れる必要があります。
※本記事では、
youtubeにて、西野亮廣エンタメ研究所ラジオ【公式】チャンネルの音声動画をwavファイルとしてダウンロードし、利用していきたいと思います。
また、別の動画あるいは音声データを利用しても良いです。
youtubeで気になる動画があれば、Offlibertyなど無料でwavファイルに変換できるサイトなどがあるので、そちらを利用してみてください。
誰でも利用できるようリンク発行し共有する
下記リンクにて共有しているため、任意の音声ファイルを持っていれば利用してみてください。
https://colab.research.google.com/drive/1DEpEABAJ_DaadfQzrvTLrt5BZ5uEHAIY?usp=sharing
実行結果

まずはじめに、Speech recognitionをインストールします。
次に、音声ファイルをアップロードし、文字起こしを実行してみた結果が以下の内容です。

結果から言うと、精度はまだまだ低いと言う印象でした。
また、約10MBで10分ほどの動画を音声ファイル(.wav形式)にてアップロードし読み込ませましたが、3分ほどの文字起こししかできませんでした。
おそらく、エラーや無音状態など、音声を捉え続けるための認識コードも記載しておく必要がありそうです。
ただ、短い動画であれば簡単に文字起こしができそうな気配を感じました。
そして、長時間ファイルだとしても常に音声を聴き取り続けるプログラムにしてしまえば、うまく長時間の音声も取得できそうです。
まとめ
いかがでしたでしょうか?
ここまでで、簡易的ではありますがgoogle colabを利用したPython実行環境による文字起こしプログラムの解説を行いました。
最近では、youtubeなどの文字起こしも一般的な作業になりつつあったので、作業効率化・自動化できないか検討するための記事となりました。
このままテキストをテキストファイル化することもできるわけですが、文字起こしの精度がイマイチだったため、今回は文字起こしまでとしています。
ただ、数秒間ほどで文字起こししてくれるため、動画は文字起こしされたデータとの確認のために視聴する方法を検討できそうです。
今後は長時間の文字起こしとテキストファイル化についても解説した記事を作成しようかなと思います。