Okocy ～高精度AI文字起こしシステム

背景

テレビ局では、取材・会見・収録などの音声素材を日々大量に扱います。これまで文字起こし作業には素材の尺の3～6倍の時間を要し、記者やディレクターの大きな負担となっていました。
既存のクラウド型文字起こしシステムは、精度不足や月額コストの高さ、情報セキュリティ面の懸念が課題でした。
こうした現場の声を受け、読売テレビが 「精度・コスト・安全性」をすべて両立させた独自システムとして、OpenAIの音声認識技術「Whisper」をベースに開発したのが Okocy（オコシー）です。

システム構成

Okocyは、目的や利用環境に応じて選択できる 2つの構成パターン を提供しています。

① ローカル完結型

全ての処理をオンプレミスで実行する構成。

社内ネットワークのみで動作し、外部通信を一切行わない構成。
高セキュリティ環境下でも利用可能で、報道素材など機密性の高いデータにも対応。
GPU搭載サーバーをローカルに設置し、全処理をオンプレミスで完結。

② ハイブリッド型

GPUなどの高コストな演算処理はオンプレミスで実行し、認証・ログ管理・データの置き場などはAWSクラウドサービスで実施。

特徴：可用性・拡張性に優れ、系列局や外部ネットワーク連携にも最適。

現在、このハイブリッド構成をベースに、NNN系列局11社でも運用が始まっています。各局での運用ニーズに合わせたスケーラブルな提供モデルを実現しています。

③リアルタイム文字起こし（完全オンプレも可能）

報道現場向けにリアルタイム文字起こしシステムも構築しています。
SDI信号を取り込み、GPUサーバー上で即時に音声認識を実行。生成された文字起こし結果は専用Web UIやGoogleスプレッドシート上に自動反映され、複数のユーザーが同時に編集・修正できる共同編集環境を実現しています。
クラウド接続を必要としないため、放送前素材などの機密情報も安全にリアルタイム処理が可能です。