音声認識アプリ(スマホ)

スマートフォンやパソコンの各種OSごとに使える音声認識ツールの紹介です。 音声認識アプリには「単一方向」と「双方向」があります。 単一方向・・・人の音声を文字に変換 双方向・・・人の音声を文字に変換して表示+ろう者難聴者側からはキーボードやイラストなどで相手に伝えることが可能 そして、ここでは、単一方向の場合は「単一」双方向の場合は「双」とアプリ名の最後に書きます。 カバー画像: https://unsplash.com/ja/%E5%86%99%E7%9C%9F/9e9PD9blAto

音声認識アプリとは

ここでは、「音声認識アプリとは?」の説明をします。

人と人とのコミュニケーションを考える

現在、聴覚障害者(ろう者・難聴者)と聴者(耳が聴こえる人)とのコミュニケーション方法はいくつかあります。
その中でも皆さんがパッと思いつくのが

だと思われます。
それではここから、読唇・手話・筆談それぞれの簡単な説明とメリット/デメリットを解説していきます。

読唇とは

読唇とは、「相手の口の形を読みながら相手の言っていることを把握する」という方法です。
この読唇のメリット/デメリットを以下まとめました。

メリット デメリット
  • 筆談や手話をせずとも
    相手の話が分かる
  • 相手にゆっくり、はっきり口の形を大きく開けて話してもらう
    必要がある
  • 100%分かるわけではない
  • 口が読み取りやすい人/読み取りにくい人が存在するため全ての人に有効な手段ではない
  • 慣れている人でないと読み取れないことも多いため、初対面の人の口を読み取るのは不安を感じる
  • 集中して口を見ないといけないため、長文の読み取り、例えば
    会議などでの上司のお話の読み取りは大変なことがある
    (挨拶程度の短文であれば可能なことが多い)
  • 読み取る際集中力が必要なため、仕事で一日中口の読み取りを
    しているとそちらにエネルギーを取られ疲れてしまうことがある
  • 知らない単語や知らない話はほぼ読み取れないことが多い

このように、読唇は100%完璧な方法ではなく、また、聴こえない方々とっては負担が大きいやり方だとも言えます。
まれに、どんな人の口でもどんなに早く話しても読み取れる人が存在しますが、そういう方は非常に少ないです。

筆談とは

筆談とは、「紙などに自分の言いたいことを文字に書いて伝える」という方法です。
これには他にも「パソコンのメモ帳やチャットなどに文字を打って伝える」「スマホのメモ帳に文字を打って伝える」などがあります。
この筆談のメリット/デメリットを以下にまとめました。

メリット デメリット
  • お互いに確実に自分の言いたいことを伝えることができる
  • 手話を知らない方々が聴こえない方とお話する時のハードルが下がる
  • 字を書くことに慣れていない人にとっては時間がかかる
  • 筆談を頼んでも、字が汚いからと断られることがある
  • 長文の場合は省略して書くこともあるため、伝わる情報が断片的になりやすい
  • 相手を待たせないようにと気を使って早く書かないといけないと焦ってしまう
  • 腕が疲れる

今は紙ベースでの筆談より、例えばチャットでのやり取り、スマホやPCを使ってのやり取りがスタンダードになってきています。
そのため、昔ほど筆談に抵抗感がなくなってきていると思われます。
また、タイピングやスマホのフリックに慣れている方は筆談への壁を感じることが少なくなっているという状況も増えてきています。

手話とは

手話とは、「手や表情、体全体を使って話す」方法です。
また、手話は一つの言語としても認識されています。

この手話のメリット/デメリットをまとめてみました。

メリット デメリット
  • 目で見て分かるためストレスが少ない
  • 筆談と比べて情報伝達スピードが速く、読唇よりも確実に相手の言いたいことが分かる/言いたいことを伝えられる
  • 相手が手話を知らない場合は会話が難しい
    (身ぶりなどでカバーする必要があることも)
  • 相手から「手話を覚えるのは大変」と抵抗感を持たれることがある

手話はどんな人にとっても確実に相手に自分のお話を伝えられる・また、相手のお話が目で見て分かる方法とも言えます。
聴こえない方々同士でお話する時も、例えば障害が軽くてある程度人のお話が聴きとれる人と、障害が重くて人のお話が聴きとれない人がお話するとして、障害が軽い人が手話を知らない場合、お互いに同じ障害を持っているのに共通した言語がなくコミュニケーションがとりにくくなることがあります。
しかし、手話を知っていればお互いに同じ障害を持つ人同士スムーズなコミュニケーションが可能になります。
また、手話を知っていれば手話通訳を頼むことも可能です。

音声認識とは

音声認識は、人の声を文字に変える一つの技術です。
数年前から徐々に一般化し、現在では音声認識アプリが色々と出てきました。

この音声認識のメリット/デメリットをまとめてみました。

メリット デメリット
  • 目で見て分かるためストレスが少ない
  • 筆談と比べて情報伝達スピードが速く、読唇よりも確実に相手の言いたいことが分かる・言いたいことを伝えられる
  • 電車や新幹線・飛行機などのアナウンスが文字化されるので情報が得られる
  • 通訳や筆談を頼まずとも、情報を得ることができる
  • 誤認識もあり、100%完璧ではない
  • 伝達スピードは手話の方が速いこともある
  • 文字を読むことが苦手な方には不向き
  • 第一言語が手話の人にとっては大変なことがある
  • ずっと文字を目で追い続けるのは疲れることがある
  • 聴者は方法を変えずとも言いたいことを伝えられる。しかし、ろう者難聴者側からは結局筆談やタイピングが必要なため負担は変わらない
  • 音声認識があるから手話を覚える必要はないと思われることもある

しかし、筆談や手話通訳などの情報保障をわざわざ依頼しないと情報を得ることができない状況の中、音声認識アプリがあると自分の力で情報を得ることができるというメリットは大きいです。

それでは、このページに続いてここからは様々な音声認識アプリの紹介をしていきます。

音声認識アプリの紹介

UDトークの紹介
YYSystem


YYSystemの紹介(双)

YYSystem(株式会社アイシン)

YYSystemは、「YYProbe」「YY雰囲気カメラ」「YY文字起こし」など音声認識を使ったコミュニケーションを支援する
アプリです。

製品の説明ページはこちら→製品の説明
企業HPへのリンクはこちら→企業HP

アプリの種類


YYSystemは音声認識を組み込んだ様々なアプリがあり、それぞれ用途に合わせて使い分けることが可能です。
※YY文字起こしとYY雰囲気カメラの紹介ページはまだ存在していないためリンクを貼っていません※

アプリ名 おすすめの用途
YYProbe 会議やグループでの会話など、複数人の文字起こしを見たい時におすすめです。
YY文字起こし 一対一での会話、もしくは講演など一方的に人の話を文字起こしを見たい時におすすめです。

YY雰囲気カメラ

ライブや野球ドームでの試合など、風景を見ながら文字起こしを見たい時におすすめです。
YYデスクトップ字幕

パソコン上で使うアプリ。
Youtubeやオンライン動画などを見ながら字幕代わりに文字起こしを見たい時におすすめです。

YYSystemの特徴

ここからはYYSystemの様々なアプリに共通している特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※

●共通した特徴

 
  1. 騒がしい環境下での音声認識に強い

      もともと、株式会社アイシンは工場で働いている聴覚障害者が多くおり、騒がしい環境下での音声認識が
      求められていました。
      また、コロナ禍でマスクをして話す人が増えそれで困る聴覚障害者もいたため、騒がしい状況で
      音声認識ができるアプリの開発が始まったという流れがあります。

      そのため、YYSystemは騒がしい環境下での音声認識に強いのが1つの特徴です。

  2. 人の声と雑音や音楽を分離させ、人の声だけを音声認識させるため精度がとても高い
      従来の音声認識では、雑音や音楽など周囲の音が混じるとその分音声認識の制度が落ちることが一般的でした。
      しかし、YYSystemではそれを打破し、雑音などをカットして人の声のみを検出するという特許を取りました。
      そのため、人の声だけを音声認識させることが可能になり、それによって精度がとても高くなりました。
      ★YY雰囲気カメラは逆に音楽を優先して感知するようになっています。

  3. ろう者難聴者側からもキーボードで同時発言が可能

      例えば複数人のスマホにインストールしたYYProbeアプリを使ってグループで会話をする場合、
      ろう者難聴者側からも発言したい時はキーボードでの発言が可能です。
        
  4. 無線で人の音声を飛ばし、遠くにある映像に音声認識を表示させることが可能
      離れている場所でアプリを起動し音声認識をさせて、それをそのまま無線で飛ばして遠くにある
      巨大スクリーンに表示させることが可能。そのため、大人数での会議や講演会、ライブのMCなどでも使えます。

  5. 音声認識アプリ内で手書きの文字やイラストで相手に伝えることが可能
      スマホに音声認識画面を表示させている時に、手書きで文字やイラストを描き、それを相手に見せることも可能。    
      相手に言葉だけでなくイラストで伝えたり、また、地図を書いて場所を伝えたりする時などにも便利です。

  6. 集音が広い/狭いの選択ができるので、広い部屋で端にいる人の音声を拾うことも可能
      マイクの集音を「広い」「狭い」に設定できます。
      それによって、例えば隣に座っている人の音声を拾いたくない場合は「狭い」にする、
      遠くにいる人の声を拾いたい時は「広い」にするなど、その時の状況に合わせて設定できます。

  7. スマホに表示された音声認識をAppleWatchなどのスマートウォッチにも表示させることが可能
      スマホとスマートウォッチを連携させれば、音声認識をスマートウォッチでも確認することが可能になります。

  8. 2023年時点では話者が話す言葉が英語・中国語の場合日本語に翻訳可能/翻訳を同時に表示可能
      話者が話す言語・・日本語・英語・中国語
      翻訳可能な言語・・日本語・英語・中国語を同時に表示させることが可能です。
              (3か国言語同時にということではなく、1つの言語を選択して日本語を話した場合
               その選択した言語と同時に表示させることが可能)
  9. 人の声にUIが反応が可能
    人の声にUIが反応することが可能なため、「人の音」がアプリに入ってきた場合は周囲の色が変わり、それで
    人の声があるということが分かります。
    また、人の声があるのに音声認識が出ていないときは、例えば声が小さいなどの原因があります。
    それだけでなく、例えば「能」など人のセリフが音楽のように流れて聞こえるなどの時は、UIは反応しますが
    音声認識は難しいということがあるようです。

●それぞれのアプリごとの特徴

ーYYProbeのみに存在する特徴

  1. パソコンのブラウザで音声認識の内容を見ることが可能
    グループでの会話や講演を行う時などに参加者にURLまたはQRコードを送れば、その参加者の方々に
    URLやQRコードを読み取ってもらいブラウザ上で音声認識を表示させることができます。

  2. 「AI要約」といい、文字化された文章を要約して表示することが可能(設定でオンオフ可能)
    例えば講演など、文字がずらずらっと出てくる場合、どんな話をしているのか分からなくなる時があります。
    そういう時にAI要約を使えばシンプルに文章がまとめられて表示されます。

  3. 発言の修正がアプリまたはPCから直接可能
    音声認識の一部を修正したい時は、アプリ内で直接修正ができます。
    また、PCブラウザ上からも可能です。
    かつ、修正したワードは色を変えて表示させることが可能です。
    ★他のYY文字起こし、YY雰囲気カメラ、YYデスクトップ字幕ではできません
ーYY文字起こしのみに存在する特徴
  1. 飛行機などネット接続をしない環境でも音声認識が可能
    通常ではオンラインでネットワークに接続した状態で音声認識をします。
    しかし、飛行機などネット接続をしない環境だと音声認識ができません。
    ですが、YYSystemは「オフライン音声認識」といって、ネット接続をOFFにした状態でも音声認識ができるようにしてあります。
    そのため、飛行機などネット接続ができない環境での音声認識も可能です。
    ※ただし、音声認識の精度は落ちます

  2. 音声認識を起動している間、オノマトペも同時表示可能(設定でオンオフ可能)
    例えば電車の音が聞こえてきた場合は電車のイラストが表示されたり、レストランでBGMが流れてきた場合は
    音符のイラストが表示されたりなど、音声認識だけでなく周囲から聴こえてくる音は何かが視覚的に伝わります。

  3. 発言があった場合、プッシュ通知を出して更にスマートウォッチなどにも表示させることが可能
    AppleWatchやGooglePixelWatchなどのスマートウォッチにも音声認識の発言を表示させることが可能です。
    そのため、スマホを見なくても通知で発言が分かるようになっています。
ーYY雰囲気カメラのみに存在する特徴
  1. 音楽が流れてきた時にその音楽の歌詞・歌手の名前などが表示される(歌詞による)
    例として、ライブ会場でYY雰囲気カメラを使うと流れてくる音楽の歌詞が音声認識されるだけでなく、
    その歌詞のタイトルが表示されます。

  2. 視覚的にどんな楽器が使われているのかが分かる
    YY雰囲気カメラを使うと、音楽や歌に交じってギターの演奏音が聞こえてきた場合ギターのイラストが表示されたりするなど、視覚的にどんな楽器が使われているのか分かり目で見て楽しむこともできます。

  3. 風景をカメラ越しに見ながら音声認識が可能
    通常、YY文字起こしやYYProbeはカメラをONにしないのですが、YY雰囲気カメラでカメラをONにした状態で
    スマホを通して風景を見ながら音声認識が可能です。
    そのため、例えば大道芸を見る時など、大道芸をスマホのカメラを通して見ながら芸人がお話されていることを
    音声認識で確認することが可能です。

  4. 「AI画像生成」という機能があり、それを使ってAI画像を作成することが可能
    カメラとAI生成機能をONにすれば、ワードを入れるだけでAI画像を生成が可能です。
    例えば「ドラえもんとイヌ」と入力して出力ボタンを押すとドラえもんとイヌのAI画像が出力されます。
    ちなみに、AI画像出力にはやや時間がかかるので少し待つと良いでしょう。
ーYYデスクトップ字幕のみに存在する特徴
  1. パソコン上で音声認識を表示させることが可能
    例えばYoutubeなどパソコン上で動画を見たくても字幕がない場合、YYデスクトップ字幕をインストールして
    パソコン上で音声認識を表示させながら動画を見ることが可能です。
    ただし、動画の規約によっては音声認識NGのものもありその場合は音声認識を表示させることができません。
    かつ、音声認識を表示させるためには、パソコンから音声を出さなければならず、周囲に声が聞こえても
    困らない環境が必要です。

  2. 色の設定、背景色設定、フォントの大きさなども自由に設定可能
    フォント、色、また、背景色の設定が自由に可能なため、視覚に障害を持つ方にとっても見やすい設計です。
    透明の背景に設定も可能なので、例えばZoomの字幕代わりとしてZoom画面に重ねて使うことも可能です。

YYSystemの予算(費用プラン)

YYSystemにはいくつかのアプリが存在しています。
しかし、プランはシンプルで「無料版」「聴覚障害者向けプラン」「法人プラン」の3種類があります。

詳細はこちらをご確認ください。→紹介リンクへ

無料版 聴覚障害者向けプラン 法人プラン
無料 月額¥1,818(税込¥2,000) 初期費用¥24,000(¥26,400)
以降は発話時間に応じた従量課金制
詳細は応相談
辞書機能はオプションで別に月¥30,000

Vosualの紹介(単)

Vosual

Vosualは、「聴覚障害者用音声認識アプリ」として名付けられており、音声をシンプルにテキストに変換するためのアプリです。
1対1の会話から多人数の会話や会議まで、オンラインでもオフラインでも使い方次第で幅広く様々な方とのコミュニケーションに活用することができます。

アプリの種類

現状、アプリの種類は1種類(iOS無料版)のみです。

iOS版Vosualアプリのダウンロードリンク

Vosualの特徴

ここからはVosualの特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※

  1. 音声認識のみに特化したアプリのため、機能はシンプル
    音声認識に特化しているため、他の様々な機能は存在しません。

  2. 「聴覚障害者用音声認識アプリ」として名付けられている
    聴覚障害者が使うことを想定して考えられたアプリです。

  3. 集音機能が弱いため、話すときはスマホを顔に近づける必要がある(バージョンアップで変わる可能性はある)
    iPhoneを顔に近づけると自動的にマイクがONになります。


  4. 話し終わってから無音状態で1秒経つとマイクが切れる
    無音状態で1秒経つとマイクが切れる
    ため、相手に音声認識を見せている間は他の声などが入らず、快適な状態で
    見せることができます。

  5. 発言の修正が可能
    アプリ上での修正が可能
    です。

予算(プラン)

Vosualアプリは無料で使えます。

声文字の紹介(単)

声文字(自立コム)

声文字は、自立コムという福祉支援機器制作会社から出ているコミュニケーション用アプリです。
1対1の会話から多人数の会話や会議まで、オンラインでもオフラインでも使い方次第で幅広く様々な方とのコミュニケーションに活用することができます。

製品の説明ページはこちら→製品の説明
企業HPへのリンクはこちら→企業HP

アプリの種類

現状、アプリの種類は1種類「声文字」のみで、iOSとAndroid両方があります。
また、会社のサイトから申し込みして買い切りするタイプとなっています。

iOS声文字のダウンロードリンク
Android声文字のダウンロードリンク

声文字の特徴

ここからは声文字アプリの特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※

  1. Zoomと連携し、音声認識の結果を字幕のように表示させることが可能
    Zoomというオンラインチャットツールの字幕機能を有効にし、パソコンの出力端子とスマホを接続させて
    音声認識を表示させることが可能です。

  2. Youtubeの音声をスマホに表示させることが可能
    パソコンの出力端子とスマホを接続させてYoutubeの音声を表示させることが可能です。

  3. 文字化したデータをCSV出力させることが可能
    音声認識で表示された文字データをCSV出力させることが可能なので、ログを作ることも簡単にできます。


  4. 1台の端末で文字化したデータを複数の端末で共有することが可能
    1つのシリアル番号を共有すれば1台の端末から出力された音声認識の結果を複数の端末で共有することが可能です。

予算(費用プラン)

 

声文字の予算は買い切り販売価格:¥66,000(税込)です。


Google音声文字変換(Live Transcribe)の紹介(単)

Google音声文字変換(Live Transcribe)

Androidには、Google音声文字変換(Live Transcribe)という機能が備わっています。
これは一方的になりますが、人の声を音声認識し、文字化するというものです。
1対1の会話から多人数の会話や会議まで、オンラインでもオフラインでも使い方次第で幅広く様々な方とのコミュニケーションに活用することができます。

製品の説明ページはこちら→製品の説明
企業HPはこちら→企業HP

アプリの種類

現状、アプリの種類は1種類(Android無料版)のみです。Androidアプリのダウンロードリンク

Google音声文字変換(Live Transcribe)の特徴

ここからはGoogle音声文字変換(Live Transcribe)の特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※

  1. 音声認識のみに特化したアプリのため、機能はシンプル
    音声認識に特化しているため、他の様々な機能は存在しません。

  2. ギャローデッド大学と連携して作られた
    ギャローデッド大学(アメリカにある聴覚障害者のための大学)と共同開発して作られた音声認識アプリです。

  3. 名前を言われたらバイブレーションが鳴る
    名前を登録しておけば、その名前を呼ばれた時などバイブレーションが鳴ります。

  4. 音声認識休止中再開したらバイブレーションが鳴る
    音声認識を休止している時に、再度音声認識が始まったらバイブレーションが鳴ります。

予算(プラン)

 

Google音声文字変換(Live Transcribe)アプリは無料で使えます。

GooglePixelレコーダー(文字起こし)(単)

GooglePixelレコーダー(文字起こし)

Androidには、Google音声文字変換(Live Transcribe)という機能が備わっています。
それとは別に、GooglePixel6からはレコーダーに文字起こし機能が加わりました。
これは一方的になりますが、人の声を音声認識し、文字化するというものです。
1対1の会話から多人数の会話や会議まで、オンラインでもオフラインでも使い方次第で幅広く様々な方とのコミュニケーションに活用することができます。

製品の説明ページはこちら→製品の説明
企業HPはこちら→企業HP

アプリの種類

Pixel自体に備わっている機能のため、アプリはなし(GooglePixel6以降)

GooglePixelレコーダー(文字起こし)の特徴

ここからはGooglePixelレコーダー(文字起こし)の特徴を紹介します。
※「可能」ではありますが、どんな状況でも100%音声認識が可能というわけではありません※

  1. 音声認識のみに特化したアプリのため、機能はシンプル
    音声認識に特化しているため、他の様々な機能は存在しません。

  2. データは端末内に保存されると同時にクラウド上(google.recoder.com)にも保存される
    音声認識データは端末内とクラウド上2か所にも同時保存されます。
    そのため、パソコンからアクセスし文字の編集などを行なうことが可能です。

  3. 各種のアプリやクラウドに送信することも、Googleドキュメントにアップロードすることも可能
    端末内に保存・クラウド上の保存だけでなく、その他各種アプリに文字データを送信することや
    Googleドキュメントにアップロードすることも可能です。
    また、Goolgleドキュメントでの編集も可能です。

  4. 音声データの検索が可能
    音声データと文字データが一致しているため、例えばあるワードの音声を探したい時は自由に検索可能です。

予算(プラン)

 

GooglePixelレコーダー(文字起こし)機能は無料で使えます。