Notta
https://www.notta.ai/
30年間続けた文字起こし作業が、ついに終わろうとしている
昔々、取材で録音する時はカセットテープレコーダーを使っていた。

以来、マイクロカセット、ICメモリーレコーダー、iPhoneの録音機能……と、デバイスは進化しつつ、『録音して、文字起こしする』というところは変わらなかった。上の写真は筆者が、30年ほど前、バイク雑誌時代に使っていたカセットテープレコーダーだが(モノ持ちいい……)、ステレオなのはどの人が話したかを識別しやすいからだった。
2時間ほどのインタビューを完全に文字起こしするには、丸2日ぐらいかかった。レコーダーを再生したり止めたりしながら、文字起こしするのは大変な作業だった。
編集部の若手に頼んだり、外注したりすることもなくはなかったが、そうすると不要な雑談も全部文字起こしされたり、逆に重要な部分が把握されていなかったりして、却って不便なこともあった。
昔は数万円ということもあったが、ランサーズなどのクラウドソーシングサイトができてから、数千円になった。逆に安過ぎて心配になるほどだ。実際に依頼してみると、大企業に勤めていたけど結婚で地方在住主婦になった女性の方で、非常に有能な方だったり、中には海外在住という方もいらっしゃった。
AIで、文字起こしの正確さは飛躍的に向上した
そうこうするうちに、デジタル処理で文字起こししてくれるデバイスやサービスが出てきたが、やはり飛躍的に良くなったのはAIが使われるようになってからだ。
最近では、録音したデータをAIに投げ込んだり、Evernoteに音声データを入れたりして文字起こしするようになった。かなり便利になった。
iPhone自体でも単体で文字起こししてくれるが、これは残念ながら仕事に使えるレベルではない。
しかし、昨秋、海外取材が多く、録音すると同時に翻訳もしてくれると助かるのに……ということになり、AI文字起こしサービスに興味が出てきた。AIを使った文字起こしサービスは国内外含め数多くあるが、ちょうど広報代理店から試用の提案があったのでNottaというサービスを使うようになった。他にもいろいろなサービスや方法論があり、それらのすべてを試したわけではないことはご了承いただきたい。
リアルタイムで文字起こしし、さらには翻訳も
Nottaはクラウド処理で文字起こしをする。

右の列が文字起こしで、左がサマリー。もし、固有名詞などで誤認識していたとしても、その部分だけを聞き直して修正することもできる。また話者も分離してくれる。
自分のアカウントでログインすれば、スマホでも、パソコン上でも動作する。
スマホ側で録音しているものを、同時にパソコンで見ることもできる。翻訳もしてくれるから、多国語の取材にはとても便利だ。というか、筆者は英語が不得手だから、この機能には非常に助けられている。
ちなみに、リアルタイム翻訳はオプションとなっているが、この契約をしなくても追従して翻訳してくれるので、多少遅れてもよければ筆者の用途ならオプションなしでも問題ないように思う(それとも月4回の無料試用権が自動的に動いているのだろうか?)。

これは、とある取材で実際に使っているところ。狭い部屋の会議などならともかく、広い会場での講演などの場合、パソコン側のマイクでは音声を認識できないことが多い。そのため、今のところiPhoneのマイクを使っている。
とはいえ、クラウド保存ができないトラブルでデータが消える……などという事象が起こると困るので、もう一台iPhoneを持っていって、ボイスメモで素の録音データも確保している。慣れてきてNottaが信用できるようになると、それは省略するかもしれないが、イベント会場などでネットワーク環境が不安定な時に、データが消えてしまったりしないのか、いまひとつ不安なのだ。
以前の文字起こしデバイスは、専門用語や、製品名などの固有名詞が認識できなかったが、NottaはAIを使うので、よほど新しい製品名でなければ認識してくれる。かなり便利だ。

しばらく使うと、多くのデータがここに蓄積されるようになり、それをNottaのAIで検索したり、取りまとめたりすることもできる。
また、リアルタイムに文字起こしする必要がなければ、iPhoneで録音しておき、それをあとでNottaに投げ込めば文字起こししてくれる。
筆者はiPhoneのアクションボタンや、Apple Watch のコンプリケーションにボイスメモを割り当ててあるので、録音はいつでもできる。この録音データさえあればNottaが文字起こししてくれるのだ。
文字起こしされればいいというわけでもない部分も
もともと、我々はすべての取材で録音して文字起こししているわけではない(少なくとも、私のように趣味メディアの場合。ジャーナリストの方はまた違うかもしれないが)。
というのも、フラットに録音・文字起こしした文章というのは非常に読みにくいもので、聞いてメモして自分の中で消化・要約して、あらためて文章にした方が、読みやすく伝わる文章になるからだ。
昔から、ずっとそうしてきたが、今やあらゆることに録画、録音が残り、発言者の言葉を一言一句正確に記事にすることが求められることが多くなっている。
しかし、おかげで最近の方が案外読みにくいインタビュー記事も増えているのではないだろうか? 難しいところだ。
そういう意味でも、全文を追うのではなく、AIで概要の意味を把握したりできるので便利になっている。どこが重要かはあらためて把握する必要があるかもしれないが、議事録などの場合、AIの要約で事足りることも多いだろう。
多くの人は月額1185円のプレミアムプランでOK?
価格設定はご覧のとおり。

大きな文字で表示されているのは、年額課金で40%オフになっているので、月額ならプレミアムが1980円、ビジネスが4180円。本格的に使うなら、年額課金が圧倒的にお得だ。
プレミアムプランで1800分/月(つまり1日平均60分)なので、多くの人はこれで十分なのではないだろうか?
録音した情報は漏れないの?
発売前の新製品について取材することもあるので、セキュリティについて調べてみた。
Nottaは日本企業である(創業社長は中国にルーツを持つ)。なので、特に日本語の文字起こしのクオリティが高いと評価されている。実際にそうだと思う。
日本語は、文節の区切りが認識しにくく、同音異義語が多く、漢字・ひらがな・カタカナ・英文字が混在し、主語が省略されることがある……など、日本語音声認識には多くの難しさがある。日本企業として日本語にフォーカスして取り組んでくれているのは大きなメリットだ。
ISO 27001などのセキュリティ基準も取得しており、日経225銘柄の72%で導入実績があるというからセキュリティ面でも大きな不安はなさそう。地方自治体にも導入事例がある。
セキュリティについて
https://www.notta.ai/security
音声データはAIの学習に使われることがあるというところが気になったが、以下を見る限りでは分解してバラバラの要素として学習されているようなので、問題はなさそう。
セキュリティ上これでは困る大企業の場合、エンタープライズ版ならデータは学習には使われないとのこと。
スタバのラテ2杯分/月なら安いもの
使い始めてまだ1カ月足らずで、しかも取材の少ない時期なので、まだまだ試用した回数は少ないが、今のところかなり満足できる結果を得ている。筆者の使い方ならプレミアムプランで十分なので、年払いなら月額1185円。スタバのカフェラテ2杯分で、文字起こしの手間がなくなるのなら安いものだと思う。
筆者の使い方は、一般の会議の議事録用途とはまた少し違うかもしれないが、もちろん議事録に使っても便利だろう。ちょっとした打ち合わせも文字起しがあれば、ネクストアクションなどを忘れない。気になる方はとりあえず、無料版(120分/月、ただし1回3分)だけでも使ってみてはいかがだろうか?
(村上タクタ)
関連する記事
-
- 2026.01.31
文字起しイヤフォン『Zenchord 1』ファーストインプレッション
-
- 2026.01.30
AirTag(第2世代)実機レビュー。AirTag愛用者が見る違いとは?
-
- 2025.12.31
XREALの長時間稼働を実現するXREAL Neoを体験
-
- 2025.12.31
廉価版? という情報も聞いたXREAL 1Sを使ってみたら、驚くほど良かった件