こんにちは!ヒカルです。
2025年7月23日(水)今日の福岡は晴天です。
それにしても熱い日が続いていますね。

さて、この時期になると「セミ」の鳴き声に悩まされている方も多いのではないでしょうか?
たまに、自宅玄関にセミがいて、10秒くらい体が固まってしまうことありませんか?
今日も私の自宅近くでは、ミーンミンミン…とセミたちが大合唱しています。
あの合唱から推測すると、2億匹ぐらいいるんじゃないかと思うくらいです。
私はふと思いました「この2億匹の大合唱団をAIボイスレコーダーで文字起こししたらどうなるのか?」と。

セミの鳴き声を文字起こししてみた結果
照りつける太陽の下、自宅付近の木々から聞こえるアブラゼミの鳴き声。
「ジリジリジリ…」というあの大音量を録音してみました。
結果、画面に表示されたのは・・
- 「(ジジジ…)」
- 「……」(無音扱い)
セミがあまりに元気に鳴くものだから、「ジジジ…」と鳴き声そのままを無理やりカタカナに起こそうとした痕跡がありつつ、途中で「…」と途切れてギブアップした形です。
どうやらセミの大合唱は人間ですら「ミーン」と擬音で表すくらいですから、AIにとっても文字に変換するのは至難の業だったようですね。
実のところ、AI音声認識は基本的に人間の声と言語に特化して訓練されています。
セミの鳴き声は日本語でも英語でもないただの昆虫サウンド。
だからAIは「これは言葉じゃない」と判断して、結果的にノイズ交じりの文字列か、あるいは何も文字を出力しないこともあります。
でも皆さん、想像してみてください。

犬や猫の鳴き声は文字にできる?
さて、セミだけでは終わりません。
犬の「ワンワン!」や猫の「ニャーオ」はどうでしょう?
私は友人の自宅に行き実験、トイプードルのポチ(仮名)がさっそく私に敵意をむき出しにして吠えてきたのです!
これはチャンス!すかさずAIボイスレコーダーをポチリ。
「ワンワン!」という勢いある二連発…これ、文字起こしではどう表現されるのかドキドキでした。
結果はなんと、
- 日本語モードのAIでは「ワンワン」とそのままカタカナで表示(まさかの忠実再現!?)
- 英語モードにして試したら「1 1」と数字の1が二つ…

どうやら多言語対応の音声認識では、犬の鳴き声を英単語の「One」と誤解するケースもあるようです。
一方、猫の「ニャーオ」も試してみました。
結果は微妙で、AIの気分次第といったところです。
ある日は「ニャー」とカタカナで出たこともありますが、別の日には「イヤァ」と全く別の日本語に変換されていました。
猫の鳴き声って「にゃー」にも「みゃー」にも聞こえる不思議な音ですよね。
AIもどの文字が近いか迷うのか、出力が安定しません。
茶トラ猫・ミケ(仮名)の声をテキスト化したときは、「…み…ゃ」と中途半端な平仮名が出てきました。

もっとも、最近の高度な音声認識アプリには環境音や動物の声をラベル表示する機能もあります。
たとえば、GoogleのLive Transcribeでは会話中に犬が吠えると画面に「犬の鳴き声」といったアイコンや注釈が出ることもあるそうです。
つまり、「いま犬がワンワン言ってますよ」と文字ではなく“犬の鳴き声”と教えてくれるわけですね。
これは聴覚障がいの方にも便利な機能で、ドアのチャイムや赤ちゃんの泣き声なども検知して表示できるとか。
ただし一般的な会議用のAI議事録ツールやボイスレコーダーでは、そこまで細やかに動物まで判別してくれるものはまだ多くありません。
ですから、犬猫の声を文字起こししたい方は、専用のペット翻訳アプリなんてのも検討するといいかもしれません。
ちなみに蛇足ですが、世の中には猫の鳴き声を分析して「お腹すいた」「遊んで!」などと人間語に変換しようとする実験的なAIアプリも存在します。

事件発生: 会議中の“突然の破裂音”とAI議事録
最後に、SNSで紹介されたいた、人間以外の「音」をAIが捉えた実話を紹介せずにはいられません。
これは2025年、朝ミーティングでの出来事のようです。
誰かのオナラが「プスン」と鳴ったようですが、誰も何も言わなかったようです。
しかし、AIが自動作成した議事録の8時43分の発言欄に「突然の破裂音」と記されていたとの事です(笑)

このエピソード、SNS上では「AIが空気を読むにはまだ進化が必要」と書かれていました(笑)
確かに、人間なら「あえて触れない」で済ませる場面でも、AIは良くも悪くも聞こえた事実をそのまま文字にしちゃうわけです。
技術的に言えば、AI議事録ツールには音声以外の突発音を検知してタグ付けする機能が増えてきています。
拍手や笑い声、ドアの開閉音などを「[拍手]」「[笑い]」と括弧書きで残す製品もあるんです。
今回の“破裂音”もまさにそれで、マイクが拾った大きな音を「何か破裂した音がした」と判断し、自動で注釈を入れたのでしょう。
しかし裏を返せば、AIがそこまで周辺の物音まで検知しているという証拠でもあります。

結論: 「声にならない声」も拾うAI、でもまだ人間には敵わない?
セミや犬猫の鳴き声、さらには思わぬオナラ音まで、AIボイスレコーダーで文字起こししてみたら笑いあり、驚きありの結果になりました。
今回の体験から私が感じたのは、AIは万能じゃないけれど着実に進歩しているということです。
確かに、虫や動物の声を正確に日本語字幕化するのは現状ほぼ不可能でした。
でも、一部の高度なアプリでは「犬の鳴き声」「破裂音」といった風にラベリングしてくれる例も出てきています。
ゆくゆくは、夏の蝉時雨を「(セミの合唱)」と認識表示したり、ペットの声から感情を汲み取ったり…なんて未来も夢ではないでしょう。
技術者たちも日々改良を重ねているので、いつか「AIのおかげでペットと会話できる時代」が来るかもしれませんよ。
