Okocy ~ 高精度AI文字起こしシステム

背景

テレビ局では、取材・会見・収録などの音声素材を日々大量に扱います。これまで文字起こし作業には素材の尺の3~6倍の時間を要し、記者やディレクターの大きな負担となっていました。
既存のクラウド型文字起こしシステムは、精度不足や月額コストの高さ、情報セキュリティ面の懸念が課題でした。
こうした現場の声を受け、読売テレビが 「精度・コスト・安全性」をすべて両立させた独自システムとして、OpenAIの音声認識技術「Whisper」をベースに開発したのが Okocy(オコシー) です。

システム構成

Okocyは、目的や利用環境に応じて選択できる 2つの構成パターン を提供しています。

① ローカル完結型

全ての処理をオンプレミスで実行する構成。

  • 社内ネットワークのみで動作し、外部通信を一切行わない構成。
  • 高セキュリティ環境下でも利用可能で、報道素材など機密性の高いデータにも対応。
  • GPU搭載サーバーをローカルに設置し、全処理をオンプレミスで完結。

② ハイブリッド型

GPUなどの高コストな演算処理はオンプレミスで実行し、認証・ログ管理・データの置き場などはAWSクラウドサービスで実施。

特徴:可用性・拡張性に優れ、系列局や外部ネットワーク連携にも最適。

現在、このハイブリッド構成をベースに、NNN系列局11社でも運用が始まっています。各局での運用ニーズに合わせたスケーラブルな提供モデルを実現しています。

③リアルタイム文字起こし(完全オンプレも可能)

報道現場向けにリアルタイム文字起こしシステムも構築しています。
SDI信号を取り込み、GPUサーバー上で即時に音声認識を実行。生成された文字起こし結果は専用Web UIやGoogleスプレッドシート上に自動反映され、複数のユーザーが同時に編集・修正できる共同編集環境を実現しています。
クラウド接続を必要としないため、放送前素材などの機密情報も安全にリアルタイム処理が可能です。

導入メリット

  • 高精度 × 低コスト
    Whisperエンジンをローカル運用することでクラウド課金を排除しつつ、高精度な文字起こしを実現。
  • 高いセキュリティ性
    ローカル完結型は外部通信を遮断。素材流出リスクを根本的に回避。
  • マルチワークフロー対応
    社内システムとの連携、Webアプリ、iPhoneアプリなど多様な入力経路に対応し、番組種別や現場環境を問わず活用可能。

導入後は、文字起こし作業時間を最大80%削減。報道現場では、放送直前の速報制作にも活用されています。

今後の展望

Okocyは現在、読売テレビおよびNNN系列局での運用実績を基盤に、さらなる機能拡張を進めています。

  • 機能強化話者分離機能追加・翻訳機能追加・文字起こし性能アップなど
  • 生成AI連携:自動要約・議事録生成・翻訳などの派生サービス開発

Okocyは、現場起点の課題解決から生まれた“放送DXの実装モデル”として、今後も業界全体のデジタルトランスフォーメーションを推進していきます。