音声認識アプリ(PC)
こちらでは、アプリに付属している音声認識システムを紹介します。 例えばTeams、Zoom、GoogleMeetがあります。
Teamsの紹介
Teamsは、Micosoftから出したコミュニケーションサービス専用アプリです。
スマホとPC両方にアプリが存在し、主に
・チャット
・ファイル送信
・会議室作成
・タスク管理
等、様々なことに使えます。
そして、Teams機能の1つとして「トランスクリプションまたはライブキャプションを使った音声認識」があります。
会議中、そのトランスクリプションまたはライブキャプションをONにすれば、マイクを通して相手の声が自動で
音声認識され、文字で表示されます。
※ライブキャプション・・・画面下に2行分表示される音声認識。字幕のように使える
出し方の説明ページリンク
※トランスクリプション・・・画面右側に表示される音声認識。
画面の横にあるので見づらいが、画面いっぱいに音声認識を出すことができるため、
読み返すときも分かりやすい
出し方の説明ページリンク
音声認識エンジンはMicrosoftのものを採用しています。
企業サイトへのリンクはこちら→企業サイト
アプリの種類
スマホとPC両方に存在しています。また、スマホの場合はiOSとAndroid両方で使えます。
スマホアプリへのリンク(iOS/Android)
PCアプリへのリンク
Teams音声認識の特徴
ここからはTeams音声認識の特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※
- 使用エンジンはMicrosoft独自のもの
MicrosoftはGoogleに比べて日本語のデータストックが大量にあるため、その分音声認識の精度が良いと言われています。(2023年4月時点で。今後はより良い精度を出すエンジンが出てくる可能性はあります) - ライブキャプションとトランスクリプション2種類の音声認識を表示できる
ライブキャプションは画面下に出る字幕で、2行のみ(スクロールしての読み返し不可)表示されます。
トランスクリプションは画面横に出る字幕で、会議の最初から最後までの発言を全て表示できます。(スクロール可) - 多言語対応なので、グローバル対応可能
およそ50か国の言語を表示可能なため、国が異なる方々の会議も可能です。(ただし表示できるのは1言語のみ) - トランスクリプトの録画・記録が可能
会議の映像と同時にトランスクリプトの録画・記録が可能なので、あとで映像ログとともに読み返すことができます。
予算(プラン)
Teams音声認識は無料で使えます。
GoogleMeetの紹介
GoogleMeetは、Googleから出したコミュニケーションサービス専用アプリです。
スマホとPC両方にアプリが存在し、ビデオチャットが使えます。
そして、GoogleMeet機能の1つとして「字幕表示」があります。
ビデオチャット中、CC字幕をONにすれば、マイクを通して相手の声が自動で音声認識され、文字で表示されます。
ただしそのためにはアカウント設定で字幕表示設定が必要です。字幕表示設定の説明ページリンク
企業サイトへのリンクはこちら→企業サイト
アプリの種類
スマホとPC両方に存在しています。また、スマホの場合はiOSとAndroid両方で使えます。
スマホアプリへのリンク(iOS/Android)
PCアプリへのリンク
GoogleMeet音声認識の特徴
ここからはGoogleMeet音声認識の特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※
- 多言語での字幕表示可能(表示できる言語は1種類のみ)
GoogleMeetの音声認識は、様々な言語を採用しています。ただし、日本語は今時点ではベータ版となっています。
これは2023年時点の情報ですので、今後日本語が正式に加わる可能性も考えられます。 - iPadとiPhoneの場合は日本語字幕不可
iPadやiPhoneでGoogleMeetを使ってチャットする場合、表示できる言語に日本語はありません。
なお、表示できる言語は以下の通りです。
英語
フランス語
ドイツ語
ポルトガル語(ブラジル)
スペイン語(メキシコ)
スペイン語(スペイン) (2023年時点)
詳細はこちら→GoogleMeetのサイト
3. 映像と字幕の同時録画は不可
映像を録画する際、字幕も同時に録画ができないため、あとで録画した映像を見る時字幕を出すことはできません。
予算(プラン)
GoogleMeet音声認識は無料で使えます。アカウントが有料無料などは関係ありません。
Zoomの紹介
Zoomは、Zoomビデオコミュニケーションズから出したコミュニケーションサービス専用アプリです。
スマホとPC両方にアプリが存在し、ビデオチャットが使えます。
そして、Zoom機能の1つとして「字幕表示」があります。
ビデオチャット中、CC字幕をONにすれば、マイクを通して相手の声が自動で音声認識され、文字で表示されます。
ただしそのためにはアカウント設定で字幕表示設定が必要です。字幕表示設定の説明ページリンク
企業サイトへのリンクはこちら→企業サイト
アプリの種類
スマホとPC両方に存在しています。また、スマホの場合はiOSとAndroid両方で使えます。
スマホアプリへのリンク(iOS/Android)
PCアプリへのリンク
Zoom音声認識の特徴
ここからはZoom音声認識の特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※
- まだ始まったばかりで精度は保証できていない
Zoomで日本語の音声認識が表示されるようになったのは、2022年秋~です。
まだ始まったばかりのため、音声認識の精度としてはまだまだこれからです(2023年時点で)
ただし、今後認識の精度が向上する可能性は十分にあります。 - ライブキャプションとトランスクリプション2種類の音声認識を表示できる
ライブキャプションは画面下に出る字幕で、2行のみ(スクロールしての読み返し不可)表示されます。
トランスクリプションは画面横に出る字幕で、会議の最初から最後までの発言を全て表示できます。(スクロール可) - 多言語対応なので、グローバル対応可能
およそ50か国の言語を表示可能なため、国が異なる方々の会議も可能です。(ただし表示できるのは1言語のみ) - 字幕の録画・記録が可能
字幕の録画が可能ですが、特別な設定が必要です。
字幕の録画設定方法の説明リンク
字幕を保存するための条件説明リンク
予算(プラン)
Zoom音声認識は無料で使えます。アカウントが有料無料などは関係ありません。
LiveTalkの紹介
FUJITSU Software LiveTalkは、発話者の発言を音声認識し、即座に翻訳・テキスト変換することで、
発言内容を複数端末にリアルタイムで翻訳・テキスト表示するダイバーシティ・コミュニケーションツールです。
聴覚障がい者とのコミュニケーションやグローバル活動の支援ツールとしてご利用いただけます。
そして、LiveTalk機能の1つとして「字幕表示」があります。
ビデオチャット中、CC字幕をONにすれば、マイクを通して相手の声が自動で音声認識され、文字で表示されます。
企業サイトへのリンクはこちら→企業サイト
アプリの種類
現在PCのみとなっています。PCアプリへのリンク
LiveTalk音声認識の特徴
ここからはLiveTalk音声認識の特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※
- リアルタイムでテキストを表示したものを、複数のパソコンに表示(特許出願済)
複数人が同時に会議に出る時など、テキスト表示したものを複数のパソコンに同時表示が可能です。 - 同時発話時も確実な分離表示が可能
通常、何人かが同時に発話するときはどちらかの発言が表示されなかったり、また音声認識結果の表示が
おかしくなったりすることがあります。
しかし、発言者ごとにマイクを分離させることで同時発話時も確実に発言者ごとに分離させて表示できます。 - 発話辞書登録は日本語のみ
固有名詞や人名などを辞書登録することができますが、日本語のみです。 - 表示結果のテキスト保存
音声認識の結果はCSV保存が可能です。また、発話時間、発話者、発話内容を時系列に確認できます。
予算(プラン)
LiveTalkは以下のプランがあります。それぞれ応相談です。
リモート会議での利用や多言語対応が必要な時 | ローカル利用で日本語のみを使う時 (インターネット接続が必要ない環境) |
初年は初期費用として¥255,000 (1クライアントあたりの料金¥50,000含む) その後は¥610,000/1クライアント |
初年は初期費用として¥135,000 (1クライアントあたりの料金¥130,000を含む) その後は¥60,000/1クライアント |