音声認識アプリ(スマホ)
スマートフォンやパソコンの各種OSごとに使える音声認識ツールの紹介です。 音声認識アプリには「単一方向」と「双方向」があります。 単一方向・・・人の音声を文字に変換 双方向・・・人の音声を文字に変換して表示+ろう者難聴者側からはキーボードやイラストなどで相手に伝えることが可能 そして、ここでは、単一方向の場合は「単一」双方向の場合は「双」とアプリ名の最後に書きます。 カバー画像: https://unsplash.com/ja/%E5%86%99%E7%9C%9F/9e9PD9blAto
- 音声認識アプリとは
- UDトークの紹介(双)
- YYSystemの紹介(双)
- Vosualの紹介(単)
- 声文字の紹介(単)
- Google音声文字変換(Live Transcribe)の紹介(単)
- GooglePixelレコーダー(文字起こし)(単)
音声認識アプリとは
ここでは、「音声認識アプリとは?」の説明をします。
人と人とのコミュニケーションを考える
現在、聴覚障害者(ろう者・難聴者)と聴者(耳が聴こえる人)とのコミュニケーション方法はいくつかあります。
その中でも皆さんがパッと思いつくのが
- 読唇
- 手話
- 筆談
だと思われます。
それではここから、読唇・手話・筆談それぞれの簡単な説明とメリット/デメリットを解説していきます。
読唇とは
読唇とは、「相手の口の形を読みながら相手の言っていることを把握する」という方法です。
この読唇のメリット/デメリットを以下まとめました。
メリット | デメリット |
|
|
このように、読唇は100%完璧な方法ではなく、また、聴こえない方々とっては負担が大きいやり方だとも言えます。
まれに、どんな人の口でもどんなに早く話しても読み取れる人が存在しますが、そういう方は非常に少ないです。
筆談とは
筆談とは、「紙などに自分の言いたいことを文字に書いて伝える」という方法です。
これには他にも「パソコンのメモ帳やチャットなどに文字を打って伝える」「スマホのメモ帳に文字を打って伝える」などがあります。
この筆談のメリット/デメリットを以下にまとめました。
メリット | デメリット |
|
|
今は紙ベースでの筆談より、例えばチャットでのやり取り、スマホやPCを使ってのやり取りがスタンダードになってきています。
そのため、昔ほど筆談に抵抗感がなくなってきていると思われます。
また、タイピングやスマホのフリックに慣れている方は筆談への壁を感じることが少なくなっているという状況も増えてきています。
手話とは
手話とは、「手や表情、体全体を使って話す」方法です。
また、手話は一つの言語としても認識されています。
この手話のメリット/デメリットをまとめてみました。
メリット | デメリット |
|
|
手話はどんな人にとっても確実に相手に自分のお話を伝えられる・また、相手のお話が目で見て分かる方法とも言えます。
聴こえない方々同士でお話する時も、例えば障害が軽くてある程度人のお話が聴きとれる人と、障害が重くて人のお話が聴きとれない人がお話するとして、障害が軽い人が手話を知らない場合、お互いに同じ障害を持っているのに共通した言語がなくコミュニケーションがとりにくくなることがあります。
しかし、手話を知っていればお互いに同じ障害を持つ人同士スムーズなコミュニケーションが可能になります。
また、手話を知っていれば手話通訳を頼むことも可能です。
音声認識とは
音声認識は、人の声を文字に変える一つの技術です。
数年前から徐々に一般化し、現在では音声認識アプリが色々と出てきました。
この音声認識のメリット/デメリットをまとめてみました。
メリット | デメリット |
|
|
しかし、筆談や手話通訳などの情報保障をわざわざ依頼しないと情報を得ることができない状況の中、音声認識アプリがあると自分の力で情報を得ることができるというメリットは大きいです。
それでは、このページに続いてここからは様々な音声認識アプリの紹介をしていきます。
音声認識アプリの紹介
UDトークの紹介(双)
UDトーク(Shamrock Records,Inc)
UDトークはコミュニケーションの「UD=ユニバーサルデザイン」を支援するためのアプリです。
紹介リンクはこちら→UDトークの説明リンク
企業HPへのリンクはこちら→企業HP
- 「音声認識+音声合成」機能を使って視聴覚障害間コミュニケーション
- 「多言語音声認識&翻訳」機能を使って多言語コミュニケーション
- 「漢字かな変換や手書き」機能を使って世代間コミュニケーション
UDトークは3つのコミュニケーションを実現します。
1対1の会話から多人数の会話や会議まで、オンラインでもオフラインでも使い方次第で幅広く様々な方とのコミュニケーションに活用することができます。
アプリの種類
現状、アプリの種類は1種類「UDトーク」のみです。
iOSのUDトークアプリダウンロードリンク
AndroidのUDトークアプリダウンロードリンク
UDトークの特徴
ここからはUDトークアプリの特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※
- Zoomと連携し、音声認識の結果を字幕のように表示させることが可能
Zoomというオンラインチャットツールの字幕機能を有効にし、APIトークンをUDトークのアプリに登録すれば、Zoom上に発言が字幕として表示されるようになります。詳細はこちら
ただし、今はZoom独自の音声認識が導入されたため、今後はそちらの方を使うことが増えてくるかと思われます。 - 感情認識があり、相手の発声で強い感情を感知した場合は色で表示させることが可能
声に出ていた強い感情をAIが察知すると、その声の抑揚を察知し背景を緑色に表示します。詳細はこちら - 相手の発言を大阪弁に変換し表示させることが可能
相手の発言を大阪弁に翻訳しそのまま表示させる設定があります。詳細はこちら - 数十類以上の言語翻訳が可能、また、逆翻訳で翻訳の結果が正しいかを確認することも可能
※翻訳できる言語の例
ー音声認識可能な言語・・英語・アイスランド語・ㇲペン後・アゼルバイジャン語など
ー読み上げ可能な言語・・アラビア語・英語・ヘブライ語 など - あくまでも「発声で話す人のためのアプリ」である
UDトークは「発声で話す人のためのアプリ」のため、聴覚に障害がある方はユーザーではないと明言しておられます。
あくまでも発声で話す人がアプリを使うことを意識する、それが大事という考え方から来ています。
そのため、開発者は聴覚障害がある方以外の全員がユーザーである、と定めておられます。
また、話す人のためのアプリなので、例えば講演会の時にUDトークが入ったスマホをスーツの胸ポケットに入れて
話している内容はスクリーン表示するなどの使い方もあります。
予算(費用プラン)
UDトークには、無料で使う場合と有料で使う場合があります。
有料プランは6種類あり、使用する機関や目的に応じて選択することになります。
また有料プランであれば「音声データの再利用」がなく、セキュリティ面でも安心して使えます。
6つのプランの詳細については、UDトーク公式ホームページに各プランの違いがわかる比較表が掲載されていますので、参照してください。紹介リンクへ
YYSystemの紹介(双)
YYSystem(株式会社アイシン)
YYSystemは、「YYProbe」「YY雰囲気カメラ」「YY文字起こし」など音声認識を使ったコミュニケーションを支援する
アプリです。
製品の説明ページはこちら→製品の説明
企業HPへのリンクはこちら→企業HP
アプリの種類
YYSystemは音声認識を組み込んだ様々なアプリがあり、それぞれ用途に合わせて使い分けることが可能です。
※YY文字起こしとYY雰囲気カメラの紹介ページはまだ存在していないためリンクを貼っていません※
アプリ名 | おすすめの用途 |
YYProbe | 会議やグループでの会話など、複数人の文字起こしを見たい時におすすめです。 |
YY文字起こし | 一対一での会話、もしくは講演など一方的に人の話を文字起こしを見たい時におすすめです。 |
YY雰囲気カメラ |
ライブや野球ドームでの試合など、風景を見ながら文字起こしを見たい時におすすめです。 |
YYデスクトップ字幕 |
パソコン上で使うアプリ。 |
YYSystemの特徴
ここからはYYSystemの様々なアプリに共通している特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※
●共通した特徴
- 騒がしい環境下での音声認識に強い
もともと、株式会社アイシンは工場で働いている聴覚障害者が多くおり、騒がしい環境下での音声認識が
求められていました。
また、コロナ禍でマスクをして話す人が増えそれで困る聴覚障害者もいたため、騒がしい状況で
音声認識ができるアプリの開発が始まったという流れがあります。そのため、YYSystemは騒がしい環境下での音声認識に強いのが1つの特徴です。
- 人の声と雑音や音楽を分離させ、人の声だけを音声認識させるため精度がとても高い
従来の音声認識では、雑音や音楽など周囲の音が混じるとその分音声認識の制度が落ちることが一般的でした。
しかし、YYSystemではそれを打破し、雑音などをカットして人の声のみを検出するという特許を取りました。
そのため、人の声だけを音声認識させることが可能になり、それによって精度がとても高くなりました。
★YY雰囲気カメラは逆に音楽を優先して感知するようになっています。 -
ろう者難聴者側からもキーボードで同時発言が可能
例えば複数人のスマホにインストールしたYYProbeアプリを使ってグループで会話をする場合、
ろう者難聴者側からも発言したい時はキーボードでの発言が可能です。
- 無線で人の音声を飛ばし、遠くにある映像に音声認識を表示させることが可能
離れている場所でアプリを起動し音声認識をさせて、それをそのまま無線で飛ばして遠くにある
巨大スクリーンに表示させることが可能。そのため、大人数での会議や講演会、ライブのMCなどでも使えます。 - 音声認識アプリ内で手書きの文字やイラストで相手に伝えることが可能
スマホに音声認識画面を表示させている時に、手書きで文字やイラストを描き、それを相手に見せることも可能。
相手に言葉だけでなくイラストで伝えたり、また、地図を書いて場所を伝えたりする時などにも便利です。 - 集音が広い/狭いの選択ができるので、広い部屋で端にいる人の音声を拾うことも可能
マイクの集音を「広い」「狭い」に設定できます。
それによって、例えば隣に座っている人の音声を拾いたくない場合は「狭い」にする、
遠くにいる人の声を拾いたい時は「広い」にするなど、その時の状況に合わせて設定できます。 - スマホに表示された音声認識をAppleWatchなどのスマートウォッチにも表示させることが可能
スマホとスマートウォッチを連携させれば、音声認識をスマートウォッチでも確認することが可能になります。 - 2023年時点では話者が話す言葉が英語・中国語の場合日本語に翻訳可能/翻訳を同時に表示可能
話者が話す言語・・日本語・英語・中国語
翻訳可能な言語・・日本語・英語・中国語を同時に表示させることが可能です。
(3か国言語同時にということではなく、1つの言語を選択して日本語を話した場合
その選択した言語と同時に表示させることが可能) - 人の声にUIが反応が可能
人の声にUIが反応することが可能なため、「人の音」がアプリに入ってきた場合は周囲の色が変わり、それで
人の声があるということが分かります。
また、人の声があるのに音声認識が出ていないときは、例えば声が小さいなどの原因があります。
それだけでなく、例えば「能」など人のセリフが音楽のように流れて聞こえるなどの時は、UIは反応しますが
音声認識は難しいということがあるようです。
●それぞれのアプリごとの特徴
ーYYProbeのみに存在する特徴
- パソコンのブラウザで音声認識の内容を見ることが可能
グループでの会話や講演を行う時などに参加者にURLまたはQRコードを送れば、その参加者の方々に
URLやQRコードを読み取ってもらいブラウザ上で音声認識を表示させることができます。 - 「AI要約」といい、文字化された文章を要約して表示することが可能(設定でオンオフ可能)
例えば講演など、文字がずらずらっと出てくる場合、どんな話をしているのか分からなくなる時があります。
そういう時にAI要約を使えばシンプルに文章がまとめられて表示されます。 - 発言の修正がアプリまたはPCから直接可能
音声認識の一部を修正したい時は、アプリ内で直接修正ができます。
また、PCブラウザ上からも可能です。
かつ、修正したワードは色を変えて表示させることが可能です。
★他のYY文字起こし、YY雰囲気カメラ、YYデスクトップ字幕ではできません
ーYY文字起こしのみに存在する特徴
- 飛行機などネット接続をしない環境でも音声認識が可能
通常ではオンラインでネットワークに接続した状態で音声認識をします。
しかし、飛行機などネット接続をしない環境だと音声認識ができません。
ですが、YYSystemは「オフライン音声認識」といって、ネット接続をOFFにした状態でも音声認識ができるようにしてあります。
そのため、飛行機などネット接続ができない環境での音声認識も可能です。
※ただし、音声認識の精度は落ちます - 音声認識を起動している間、オノマトペも同時表示可能(設定でオンオフ可能)
例えば電車の音が聞こえてきた場合は電車のイラストが表示されたり、レストランでBGMが流れてきた場合は
音符のイラストが表示されたりなど、音声認識だけでなく周囲から聴こえてくる音は何かが視覚的に伝わります。 - 発言があった場合、プッシュ通知を出して更にスマートウォッチなどにも表示させることが可能
AppleWatchやGooglePixelWatchなどのスマートウォッチにも音声認識の発言を表示させることが可能です。
そのため、スマホを見なくても通知で発言が分かるようになっています。
ーYY雰囲気カメラのみに存在する特徴
- 音楽が流れてきた時にその音楽の歌詞・歌手の名前などが表示される(歌詞による)
例として、ライブ会場でYY雰囲気カメラを使うと流れてくる音楽の歌詞が音声認識されるだけでなく、
その歌詞のタイトルが表示されます。 - 視覚的にどんな楽器が使われているのかが分かる
YY雰囲気カメラを使うと、音楽や歌に交じってギターの演奏音が聞こえてきた場合ギターのイラストが表示されたりするなど、視覚的にどんな楽器が使われているのか分かり目で見て楽しむこともできます。 - 風景をカメラ越しに見ながら音声認識が可能
通常、YY文字起こしやYYProbeはカメラをONにしないのですが、YY雰囲気カメラでカメラをONにした状態で
スマホを通して風景を見ながら音声認識が可能です。
そのため、例えば大道芸を見る時など、大道芸をスマホのカメラを通して見ながら芸人がお話されていることを
音声認識で確認することが可能です。 - 「AI画像生成」という機能があり、それを使ってAI画像を作成することが可能
カメラとAI生成機能をONにすれば、ワードを入れるだけでAI画像を生成が可能です。
例えば「ドラえもんとイヌ」と入力して出力ボタンを押すとドラえもんとイヌのAI画像が出力されます。
ちなみに、AI画像出力にはやや時間がかかるので少し待つと良いでしょう。
ーYYデスクトップ字幕のみに存在する特徴
- パソコン上で音声認識を表示させることが可能
例えばYoutubeなどパソコン上で動画を見たくても字幕がない場合、YYデスクトップ字幕をインストールして
パソコン上で音声認識を表示させながら動画を見ることが可能です。
ただし、動画の規約によっては音声認識NGのものもありその場合は音声認識を表示させることができません。
かつ、音声認識を表示させるためには、パソコンから音声を出さなければならず、周囲に声が聞こえても
困らない環境が必要です。 - 色の設定、背景色設定、フォントの大きさなども自由に設定可能
フォント、色、また、背景色の設定が自由に可能なため、視覚に障害を持つ方にとっても見やすい設計です。
透明の背景に設定も可能なので、例えばZoomの字幕代わりとしてZoom画面に重ねて使うことも可能です。
YYSystemの予算(費用プラン)
YYSystemにはいくつかのアプリが存在しています。
しかし、プランはシンプルで「無料版」「聴覚障害者向けプラン」「法人プラン」の3種類があります。
詳細はこちらをご確認ください。→紹介リンクへ
無料版 | 聴覚障害者向けプラン | 法人プラン |
無料 | 月額¥1,818(税込¥2,000) | 初期費用¥24,000(¥26,400) 以降は発話時間に応じた従量課金制 詳細は応相談 辞書機能はオプションで別に月¥30,000 |
Vosualの紹介(単)
Vosual
Vosualは、「聴覚障害者用音声認識アプリ」として名付けられており、音声をシンプルにテキストに変換するためのアプリです。
1対1の会話から多人数の会話や会議まで、オンラインでもオフラインでも使い方次第で幅広く様々な方とのコミュニケーションに活用することができます。
アプリの種類
現状、アプリの種類は1種類(iOS無料版)のみです。
Vosualの特徴
ここからはVosualの特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※
- 音声認識のみに特化したアプリのため、機能はシンプル
音声認識に特化しているため、他の様々な機能は存在しません。 - 「聴覚障害者用音声認識アプリ」として名付けられている
聴覚障害者が使うことを想定して考えられたアプリです。 - 集音機能が弱いため、話すときはスマホを顔に近づける必要がある(バージョンアップで変わる可能性はある)
iPhoneを顔に近づけると自動的にマイクがONになります。 - 話し終わってから無音状態で1秒経つとマイクが切れる
無音状態で1秒経つとマイクが切れるため、相手に音声認識を見せている間は他の声などが入らず、快適な状態で
見せることができます。 - 発言の修正が可能
アプリ上での修正が可能です。
予算(プラン)
Vosualアプリは無料で使えます。
声文字の紹介(単)
声文字(自立コム)
声文字は、自立コムという福祉支援機器制作会社から出ているコミュニケーション用アプリです。
1対1の会話から多人数の会話や会議まで、オンラインでもオフラインでも使い方次第で幅広く様々な方とのコミュニケーションに活用することができます。
製品の説明ページはこちら→製品の説明
企業HPへのリンクはこちら→企業HP
アプリの種類
現状、アプリの種類は1種類「声文字」のみで、iOSとAndroid両方があります。
また、会社のサイトから申し込みして買い切りするタイプとなっています。
iOS声文字のダウンロードリンク
Android声文字のダウンロードリンク
声文字の特徴
ここからは声文字アプリの特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※
- Zoomと連携し、音声認識の結果を字幕のように表示させることが可能
Zoomというオンラインチャットツールの字幕機能を有効にし、パソコンの出力端子とスマホを接続させて
音声認識を表示させることが可能です。 - Youtubeの音声をスマホに表示させることが可能
パソコンの出力端子とスマホを接続させてYoutubeの音声を表示させることが可能です。 - 文字化したデータをCSV出力させることが可能
音声認識で表示された文字データをCSV出力させることが可能なので、ログを作ることも簡単にできます。 - 1台の端末で文字化したデータを複数の端末で共有することが可能
1つのシリアル番号を共有すれば1台の端末から出力された音声認識の結果を複数の端末で共有することが可能です。
予算(費用プラン)
声文字の予算は買い切り販売価格:¥66,000(税込)です。
Google音声文字変換(Live Transcribe)の紹介(単)
Google音声文字変換(Live Transcribe)
Androidには、Google音声文字変換(Live Transcribe)という機能が備わっています。
これは一方的になりますが、人の声を音声認識し、文字化するというものです。
1対1の会話から多人数の会話や会議まで、オンラインでもオフラインでも使い方次第で幅広く様々な方とのコミュニケーションに活用することができます。
製品の説明ページはこちら→製品の説明
企業HPはこちら→企業HP
アプリの種類
現状、アプリの種類は1種類(Android無料版)のみです。Androidアプリのダウンロードリンク
Google音声文字変換(Live Transcribe)の特徴
ここからはGoogle音声文字変換(Live Transcribe)の特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※
- 音声認識のみに特化したアプリのため、機能はシンプル
音声認識に特化しているため、他の様々な機能は存在しません。 - ギャローデッド大学と連携して作られた
ギャローデッド大学(アメリカにある聴覚障害者のための大学)と共同開発して作られた音声認識アプリです。 - 名前を言われたらバイブレーションが鳴る
名前を登録しておけば、その名前を呼ばれた時などバイブレーションが鳴ります。 - 音声認識休止中再開したらバイブレーションが鳴る
音声認識を休止している時に、再度音声認識が始まったらバイブレーションが鳴ります。
予算(プラン)
Google音声文字変換(Live Transcribe)アプリは無料で使えます。
GooglePixelレコーダー(文字起こし)(単)
GooglePixelレコーダー(文字起こし)
Androidには、Google音声文字変換(Live Transcribe)という機能が備わっています。
それとは別に、GooglePixel6からはレコーダーに文字起こし機能が加わりました。
これは一方的になりますが、人の声を音声認識し、文字化するというものです。
1対1の会話から多人数の会話や会議まで、オンラインでもオフラインでも使い方次第で幅広く様々な方とのコミュニケーションに活用することができます。
製品の説明ページはこちら→製品の説明
企業HPはこちら→企業HP
アプリの種類
Pixel自体に備わっている機能のため、アプリはなし(GooglePixel6以降)
GooglePixelレコーダー(文字起こし)の特徴
ここからはGooglePixelレコーダー(文字起こし)の特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※
- 音声認識のみに特化したアプリのため、機能はシンプル
音声認識に特化しているため、他の様々な機能は存在しません。 - データは端末内に保存されると同時にクラウド上(google.recoder.com)にも保存される
音声認識データは端末内とクラウド上2か所にも同時保存されます。
そのため、パソコンからアクセスし文字の編集などを行なうことが可能です。 - 各種のアプリやクラウドに送信することも、Googleドキュメントにアップロードすることも可能
端末内に保存・クラウド上の保存だけでなく、その他各種アプリに文字データを送信することや
Googleドキュメントにアップロードすることも可能です。
また、Goolgleドキュメントでの編集も可能です。 - 音声データの検索が可能
音声データと文字データが一致しているため、例えばあるワードの音声を探したい時は自由に検索可能です。
予算(プラン)
GooglePixelレコーダー(文字起こし)機能は無料で使えます。