youichirou.log

Amazon Transcribeが日本語対応したとのことなので試してみた(書きかけ)

(書きかけです)

以前、会議の文字起こしをGoogle Speech to Textでやってみましたが、クラウドプラットフォームとしてのライバルのAmazon Web ServicesのAmazon Transcribeが日本語対応したということで、どんなもんか試してみました。

文字起こしの流れ

(前準備)AWSのアカウントを取得し、支払いの設定も済ませておきます。
S3に適当な名前でバケットを作り、録音したファイルをアップロードします。
Transcribeで、ジョブを作成し、実行します。
できあがった文字起こし結果のJSONファイルをダウンロードして、そのまま使ったり必要に応じて加工したりします。

実際の操作

S3に適当な名前でバケットを作り、録音したファイルをアップロードします。

S3(サービス→ストレージ→S3)を開き、

Transcribeで、ジョブを作成し、実行します。

Transcribe(サービス→Machine Learning→Transcribe)を開き、

できあがった文字起こし結果のJSONファイルをダウンロードして、そのまま使ったり必要に応じて加工したりします

Google Speech to Textとの比較

オペレーションをブラウザ上のUIで行えるので、少なくともコマンドラインでやる必要があるGoogleよりは作業の敷居は低い。
変換結果はJSONで返されるのですが、JSONの加工をするのにjqやsedを使おうとすると一旦ダウンロードしてローカルで加工したりしないといけないので、そういう意味では結局はAWS CLIなんかで作業した方がいいかも。
変換結果のJSONは、形態素で分割されて分割ごとに半角空白が混ざるので、そのままではちょっと使いづらい。
変換精度はGoogleのほうがやや高い気がする。といっても五十歩百歩かなぁ?
カスタム語彙データの日本語対応がまだの模様?

ここ半年くらいGoogle Speech to Textに動きがないのでこれを機にどちらも精度向上に頑張ってほしいと思います。