音声認識

音声認識は,人間と機械が対話する夢の技術と呼ばれて来た。いまや技術は進歩し,少なくとも外国語については,平均的人間より認識能力が高くなった。特に,大語彙連続音声認識は,適切な文法を与えれば,どんな内容の音声でも認識できる技術であり,下の図のように,音声分析,音響モデル,言語モデル,探索過程の4つの部分から成り立っている。まず,入力音声は音声分析により認識に有効な本質的な特徴が抽出される。音響モデルは,あらかじめ大量の学習データから各音素の特徴を隠れマルコフモデル(HMM)により学習しておき,入力音声の各部分が何の音素に近いかを確率値として算出する音響モデルである。言語モデルは,音素列としての単語を規定する語彙,単語列を規定する文法あるいは言語統計などにより,許される発声内容を規定するモデルである。探索過程は,言語モデルで規定された探索空間の中で,入力音声をもっともよく説明できるような音響モデルの列を捜し出す。以上の構成要素により,与えられた文法の中で,もっとも入力された音声特徴時系列に合致する音素列を選び出し,認識結果として出力し,応用システムでヒューマンインタフェースとして使われる.

 

音響モデル

隠れマルコフモデル(HMM)で音素をモデル化し,入力音声の各部分が何の音素かの確率を計算する
 



音声分析

音声中から認識に有効な特徴量を取り出す

探索過程

入力音声にもっともよく合致する音響モデルの列を,言語モデルの拘束下で捜し出す

応用システム

認識結果をヒューマンインタフェースとして利用する
   

言語モデル

発声される内容の可能性を,文法や言語統計などにより規定する
計数工学キーワード一覧へ 次へ→