【google colaboratory】Python実行環境で音声データの文字起こし





最近では、非常に多くの人がyoutubeに参入している現状です。

そんな中で、クラウドソーシングにおける案件にてyoutubeや音声データの文字起こしなどが増えてきました。

動画や音声データの文字起こしは、実際に動画や音声データを再生して、一語一語を聴き取り文字起こし作業を行います。

そのため、そのデータの時間分における作業時間が必要になってしまいます。

本記事では、文字起こしの作業効率化・自動化に取り組めるのか実践的に解説していきたいと思います。

汎用性の広いPythonを0から習得するためのフロー及び実際にPythonで開発を行い開発案件を獲得するまでの筋道について解説しているチュートリアル資料と

コーディングの参考となる実際にPythonを使って作ったツールのソースコードを無料で配布していますので、こちらも併せてご覧ください。

初心者・入門者でも30日間で学習できるおすすめPython学習方法

 

おすすめのPython学習サービスをまとめてみました。挫折することなく一直線にエンジニアを短期集中で目指している人はこちらから確認してください。 

【おすすめ】Python学習サイトPyQが初心者に選ばれる理由

プログラミングを学ぶ上で作りたいものがない人へ提案させてください

 

google colabによるPython実行環境について

今回は、google colaboratory(グーグル・コラボラトリー)を利用してPython実行環境を構築していきます。

知らない人もいるかもしれませんので、簡単にgoogle colaboratoryをご紹介します。

Google Colaboratory(グーグル・コラボラトリー、あるいは略式の呼称でGoogle Colabと呼ばれる。)とは、教育機関や研究機関において機械学習の普及を目的としたGoogleの研究プロジェクトの一つとなっています。

このGoogle Colabは、Jupyter Notebookを必要最低限の労力とコストで活用することができます。

また、Googleのアカウントさえ持っていれば、ブラウザとインターネットを利用してすぐにでも機械学習プロジェクトを実施することができるサービスです。

さらに、Googleの主要言語にプログラミング言語Pythonが利用されているため、Pythonをメインに利用することができますが、他言語であってもインストールすれば利用することができます。

本記事では、このgoogle colabを利用してPython実行環境を構築し、音声データの文字起こしを行なっていきます。

google colabによるPython実行環境の構築

それでは早速、google colabにてPython実行環境を構築していきましょう。

必要な作業を以下に記載しておきます。

・Googleアカウントの作成及びログイン

・新規フォルダ作成あるいは既存フォルダの利用

・google coraboratoryのインストール

これらを事前準備として行なっておきましょう。

google colabの詳細な使い方やメリットについて詳しく解説している記事もありますので、そちらも合わせてお読み頂けると幸いです。

【Python】Google Colaboratoryの使い方とメリットを徹底解説!

2020.06.18

Pythonによる文字起こしプログラムの内容について

今回作成するPythonによる文字起こしプログラムの内容は以下のように設計していきます。

できるだけ簡易的に行い、まずは動作すること・結果を得られることを目的として設計していきます。

・Python実行環境をgoogle colabにて構築

・文字起こしを行えるSpeech Recognitionライブラリを活用

・youtube動画をwavファイル(音声データ)に変換して利用

・誰でも利用できるようリンク発行し共有する

このような流れで作成していきます。

Python実行環境をgoogle colabにて構築

まずはPython実行環境をgoogle colabを利用して構築していきます。

googleアカウントにてgoogle driveを開き、新規フォルダあるいは任意のフォルダを指定し、google colabを選択し、jupyter notebookを開きます。

まだgoogle colabをインストールしていない場合は利用できないので、上記に記載したリンクの記事を参考にインストールを実行しておいてください。

すでにgoogle colabをインストールされていれば、このように新規フォルダあるいは任意フォルダにて、左上の『新規』ボタンからgoogle colabを追加することができます。

今回は、音声データにおける文字起こしを行うため、ファイル名を”voice_data_tanscription”と名付けています。

任意のファイル名を作成しておきましょう。

Speech Recognitionライブラリを活用

今回は、無料で簡単に利用することができるSpeech Recognitionと呼ばれるライブラリを活用していきます。

Pythonの公式ドキュメントにも記載されているので、詳細な内容を知りたい人はこちらも参照してみてください。

https://pypi.org/project/SpeechRecognition/

このSpeech Recognitionの音声認識エンジンを活用してプログラミング初心者でも簡単に取り組める基礎的なプログラムを実装していきます。

ローカルPCにおいても利用したいと思う人のために、記事の中でも必要な実装コードを記載していきます。

そのため、まずはSpeech Recognitionをインストールしていきます。

pip install SpeechRecognition

windowsであればコマンドプロンプト、macであればターミナルで実行すればローカルPC上でインストールすることができます。

youtube動画をwavファイル(音声データ)に変換して利用

今回は、あらかじめ用意した音声データをアップロードして文字起こしを行なっていきます。

そのため、音声データとして活用できるものを手に入れる必要があります。

※本記事では、

youtubeにて、西野亮廣エンタメ研究所ラジオ【公式】チャンネルの音声動画をwavファイルとしてダウンロードし、利用していきたいと思います。

また、別の動画あるいは音声データを利用しても良いです。

youtubeで気になる動画があれば、Offlibertyなど無料でwavファイルに変換できるサイトなどがあるので、そちらを利用してみてください。

誰でも利用できるようリンク発行し共有する

下記リンクにて共有しているため、任意の音声ファイルを持っていれば利用してみてください。

https://colab.research.google.com/drive/1DEpEABAJ_DaadfQzrvTLrt5BZ5uEHAIY?usp=sharing

実行結果

まずはじめに、Speech recognitionをインストールします。

次に、音声ファイルをアップロードし、文字起こしを実行してみた結果が以下の内容です。

結果から言うと、精度はまだまだ低いと言う印象でした。

また、約10MBで10分ほどの動画を音声ファイル(.wav形式)にてアップロードし読み込ませましたが、3分ほどの文字起こししかできませんでした。

おそらく、エラーや無音状態など、音声を捉え続けるための認識コードも記載しておく必要がありそうです。

ただ、短い動画であれば簡単に文字起こしができそうな気配を感じました。

そして、長時間ファイルだとしても常に音声を聴き取り続けるプログラムにしてしまえば、うまく長時間の音声も取得できそうです。

まとめ

いかがでしたでしょうか?

ここまでで、簡易的ではありますがgoogle colabを利用したPython実行環境による文字起こしプログラムの解説を行いました。

最近では、youtubeなどの文字起こしも一般的な作業になりつつあったので、作業効率化・自動化できないか検討するための記事となりました。

このままテキストをテキストファイル化することもできるわけですが、文字起こしの精度がイマイチだったため、今回は文字起こしまでとしています。

ただ、数秒間ほどで文字起こししてくれるため、動画は文字起こしされたデータとの確認のために視聴する方法を検討できそうです。

今後は長時間の文字起こしとテキストファイル化についても解説した記事を作成しようかなと思います。



ABOUTこの記事をかいた人

sugi

大学卒業後、IT企業に就職を果たす。システム開発・人工知能に触れながら大手企業と業務をこなす。2年半後脱サラし、現在フリーランス活動中。 2019年2月から起業する予定。 自社サービス及び製品を開発し、売り上げを立てている。