曲認識技術の基礎

主要 3 サービス

Shazam — 1999 年 UK 創業、2018 年 Apple 買収: Chris Barton、Philip Inghelbrecht、Dhiraj Mukherjee が 1999 年ロンドンで創業し、Stanford の Avery Wang が基盤技術を構築。2002 年、英国で「2580」電話番号経由の商用開始。2008 年 7 月 10 日 App Store ローンチと同時に iPhone アプリ公開。2017 年 12 月、Apple が約 $400M（£300M）で買収を発表、2018 年 9 月 24 日に完了。累計認識数 1,000 億超。消費者アプリとしては圧倒的だが、外部サービス向けの公式公開 API は存在しない点に注意。
ACRCloud — 中国拠点: 参照 DB 1 億 5 千万曲超。広告・放送モニタリング、ハミング認識、オフライン SDK、Speech-to-Text など機能が豊富。14 日無料トライアル（クレジットカード不要）、以降は従量課金。自動 VJ・DJ ミックス識別・ラジオ放送監視などで採用が多い。autovj.club もこの ACRCloud を使用。
AudD — オープン API: API トークン認証のみ（HMAC などの複雑な署名不要）、公開料金（$5 / 1,000 リクエスト、最初の 300 リクエストは無料）。長尺ファイル対応、オンプレデプロイも可能。サイドプロジェクトや実験用途、個人開発者が最初に触るのに向く。

フィンガープリントはどう動くか

Shazam の原論文（Avery Wang, 2003）で提示された基本アルゴリズムは今も業界の土台です。手順を簡略化すると、(1) 音声を短時間フーリエ変換（STFT）してスペクトログラムを作り、(2) 時間・周波数空間で局所的なピーク点を抽出し、(3) 近接するピーク点のペアをハッシュ化、(4) 参照 DB に格納されたハッシュ群と照合して時間オフセットの一致数が最大のトラックを返す——という流れです。

この仕組みのおかげで、店舗ノイズやスピーカー経由の歪みがあっても認識できます。ただし精度を上げる最大の要因は「マイク位置」。マイクがスピーカーから 1〜2 m 以内の距離にあれば、60 秒間隔の認識で 7 割以上の曲当たり率が出せます。5 m 以上離れたりエアコン送風口の直下にあると、どのサービスを使っても精度が激減します。

用途別の選び方

自動 VJ（店舗での曲→映像切替）: ACRCloud が業界デファクト。1.5 億曲カバーで J-POP・邦楽アニソンまで拾える。autovj.club も ACRCloud を採用。60 秒間隔がコストとヒット率のバランスポイント。
個人アプリ・副業プロジェクト: AudD が最も始めやすい。無料 300 リクエスト + $5/1000 と料金が公開されているので、プロトタイピングでコストが読める。
消費者向け名前当てアプリ: Shazam 公式 API が公開されていないため、同等の消費者体験を作るなら ACRCloud か AudD。ただし Shazam の UX はそれだけで別物のプロダクトなので、用途が「名前を当てる」ならそもそも Shazam アプリを使うのが合理的。
放送・配信監視: ACRCloud の "Broadcast Monitoring" 機能か、BMAT / MediaGuide など放送監視専業サービス。著作権使用料の実績報告や海賊盤検出で使われる。

自動 VJ での実装上の注意

曲認識を使う自動 VJ システムでは、(1) 認識間隔（60 秒がデファクト、15〜30 秒に縮めてもヒット率はほぼ変わらず原価が 4 倍）、(2) マイク位置（スピーカーから 1〜2 m、空調からは離す）、(3) 認識失敗時のフォールバック（前の曲のプリセットを維持する or デフォルトに戻す）、の 3 点が運用品質を決めます。

また、曲が認識できた後の「演出への変換」も別レイヤーです。ジャンル推定（House / Hip Hop / Pop / Anime）、BPM 取得、歌詞取得（LRCLIB API）などを重ねて、映像プリセットやオーバーレイの切替トリガーにする構造が自動 VJ の標準設計になりつつあります。