一般に,ロボットマニピュレータの関節角度と手先の位置や姿勢は,三角関数を含む非線形な関係として表される.そのため,手先の位置や姿勢の値から関節角度の計算(逆運動学計算)は解を求めるのが煩雑となる場合が多い.一方,関節角の微小変化と手先の位置や姿勢の微小変化の関係は,ヤコビ行列(ヤコビアン)と呼ばれる行列によって線形関係として表されるので扱いやすい.ここで,ヤコビ行列とは,手先の位置や姿勢を表すベクトルの関節角度による編微分で与えられる.そのため,ヤコビ行列は,手先位置のフィードバック制御などの多くの制御手法で用いられている.一方,画像上の特徴量の微小変化とマニピュレータの関節角の微小変化の関係を表す行列は画像ヤコビアンと呼ばれ,ビジュアルサーボで多用されている.
投稿者: keisu-editor
ビジョンチップ
画像処理に要する時間を少なくするために,フォトダイオードなどの光検出器と,画像処理を行う処理回路を1チップに集積化した知能化センサである.処理回路にアナログ回路を用いたタイプと,ディジタル回路を用いたタイプが存在する.前者では,回路のサイズを小さくできる一方,特定の画像処理にしか対応できない.後者は,回路サイズが大きくなるが,プログラマブルで汎用の画像処理に対応可能である.写真は,64×64画素の並列処理回路を備えた超高速超並列ディジタルビジョンチップである.フォトダイオードと処理回路を画素ごとに直結したものを1チップに集積化することで,従来のビデオフレームレートによる制約をはるかに越える高速リアルタイムビジョンシステムを実現している.

ビジュアルサーボ
ビジュアルサーボとはフィードバック制御ループにビジョンによる画像情報を組み込んだサーボ制御系である.視覚による認識とロボットの制御を同時に行うので,変化する環境に対応した作業を行うことが可能となる.ステレオ視などの方法を用いて計算した対象の3次元位置情報に基づいてロボットを制御する位置ベース法と,画像上の特徴量から直接ロボットを制御する特徴ベース法が提案されている.どちらの場合でも,画像処理に時間がかかりすぎると,サーボループのゲインが上げられず,ロボットの応答性能を高めることができない.この問題に対して,画像処理を1msで実現可能な高速ビジョンシステムの導入が注目されている.写真は,高速ビジョンシステムを搭載した2自由度ターゲットトラッキングシステムである.

センサフュージョン
人間は 視覚,聴覚,触覚,味覚,嗅覚の五感に代表される多くの感覚情報を用いることで,外界の変化や自分の状態を認識している.多数の情報を融合し,欠落した情報を相互に補完することで,より信頼性の高い情報を得ることが可能となる.センサフュージョンとは,人間の感覚統合機能を工学的に実現することであり,複数の感覚情報に対して統合的・融合的な処理を施すことにより, 単一の感覚のみでは得られない新たな認識能力を実現し,柔軟な学習能力を持つ階層分散処理系を実現する. センサフュージョンの例としては,ロボットハンドの視触覚融合が挙げられる.ロボットハンドで物体を操作する場合には,視覚情報と触覚情報を適切に融合させて物体の形状を認識し,最適な位置で把握することが必要となる.写真は視覚センサと力センサを備えたロボットハンドで対象を握っている例である.

サイバネティックス(Cybernetics)
N. Wiener が1940年代に提唱した,新しい研究領域「動物と機械における制御と通信」に関する総称,もしくは「考え方」である.1948年に同氏により出版された本に詳しく,理工学の分野に大きな影響を及ぼした.主としてシステムに関する境界領域にある問題や,多くの分野に共通する普遍的問題の解決のため創出され,フィードバックを基本とした制御の構造や,情報量に基づいたシステム構成の合理性が,機械,生物,社会システムなど,身の回りのあらゆるものに普遍的に存在することを解き明かす学問(考え方)といえる.近年,高度情報化社会が進むにつれ,改めて本学問の重要性が見直されつつある.「サイボーグ」,「サイバーパンク」など「サイバー」の語源.
自律分散システム
分散配置された要素をネットワークなどで結合したシステム.ただし,新規結合や結合の切断があっても定常性を失わない性質が要求される.簡単にいえば,「一人でも生きられる」ことを自律と呼ぶ.これは,「一人で生きる」ことである独立とは異なる.このような自律性を持った要素を結合したり,切断することで拡張性や柔軟性を持たせることを特色としている.新幹線やJRの電車などの運行制御などに使われている.
音楽自動採譜
楽譜が演奏されて音楽が聴こえるのが順方向とすれば,逆方向に,音楽を聴いて楽譜を作成することを採譜と呼ぶ.これを機械に行わせる問題が「音楽自動採譜」である.
その用途は,音から楽譜を得るということばかりでない.その中間生成情報を編集することで,いろいろに音楽を扱う大きな可能性が生まれる.この関係を簡単化して図に示すと次のようになる.
(楽譜形式) | 演奏者の演奏, 自動演奏など |
(MIDI形式など) | 楽器発音, MIDIシーケンサ |
(音響信号) | |||
楽譜情報 各音符の音名と長さが表現された情報 |
→ |
演奏情報 各音符の時刻や強さなどをどのように演奏するか |
→ |
音楽信号 信号波形として聴き手に聴こえる演奏から音響信号 |
|||
← | ← | ||||||
↑ | ↓ | 採譜 | ↑ | ↓ | 楽音解析 | ↑ | ↓ |
作曲,編曲,楽曲解析,打ち込み | 記録,修正,伝送,カラオケ,着メロ | 聴く,録音する,CD,MD,テープ,etc. |
「楽音解析」は,演奏された音楽信号から各音符の情報を復元する技術である.人間なら,多重に重なった楽器音や声を聴いて,何の和音が鳴っているか,どんな旋律進行が同時に起こっているか,(多少訓練されていれば)できる. しかし,信号処理の観点では多重信号の解析は容易ではなく,いまだ完全に解決されてはいない問題である. これができれば,音楽を聴いてそのMIDIファイルを作り出せることになる.MIDIファイルは簡単にいじれるので,楽器の音色を変えたり,演奏を少し好みに合わせたりできることになる.また,カラオケの作成支援にも役立ちそうである.
楽音解析によって,MIDIのような音符情報にまで変換できていれば,これから楽譜の形式にするのが,狭い意味の「自動採譜」の部分である.(両者を併せて自動採譜と言うことも多い). 一見易しそうに思われるかも知れないが,これは人間のリズムの認知の問題に拘わる結構難しい問題である.(市販の音楽ソフトにはMIDIキーボードで弾いた音楽を楽譜化する「クォンタイズ」という機能がついていることが多いが,殆んど使い物にならないことを経験した人は多いだろう.) 人間の演奏の中で音符の長さは,規定通りの長さでなく,確率的にも芸術的にも変動するが,それを聴いて違和感無く楽譜の意図するままに聴き手に伝わるのは,人間の認知・認識能力に根ざしていると考えられる.各音符の音長を最も近い音符の長さに量子化しても,決して正しい楽譜は得られない.
以上の音楽の自動採譜は,音声認識と同様に,知的な信号処理として興味深い要素を豊富に含み,いかにも計数工学科らしい問題であり,我々の研究はその最先端を進んでいる.
音声認識
音声認識は,人間と機械が対話する夢の技術と呼ばれて来た。いまや技術は進歩し,少なくとも外国語については,平均的人間より認識能力が高くなった。特に,大語彙連続音声認識は,適切な文法を与えれば,どんな内容の音声でも認識できる技術であり,下の図のように,音声分析,音響モデル,言語モデル,探索過程の4つの部分から成り立っている。まず,入力音声は音声分析により認識に有効な本質的な特徴が抽出される。音響モデルは,あらかじめ大量の学習データから各音素の特徴を隠れマルコフモデル(HMM)により学習しておき,入力音声の各部分が何の音素に近いかを確率値として算出する音響モデルである。言語モデルは,音素列としての単語を規定する語彙,単語列を規定する文法あるいは言語統計などにより,許される発声内容を規定するモデルである。探索過程は,言語モデルで規定された探索空間の中で,入力音声をもっともよく説明できるような音響モデルの列を捜し出す。以上の構成要素により,与えられた文法の中で,もっとも入力された音声特徴時系列に合致する音素列を選び出し,認識結果として出力し,応用システムでヒューマンインタフェースとして使われる.
音響モデル 隠れマルコフモデル(HMM)で音素をモデル化し,入力音声の各部分が何の音素かの確率を計算する |
||||||
↓ | ||||||
音 声 入 力 |
→ |
音声分析 音声中から認識に有効な特徴量を取り出す |
→ |
探索過程 入力音声にもっともよく合致する音響モデルの列を,言語モデルの拘束下で捜し出す |
→ |
応用システム 認識結果をヒューマンインタフェースとして利用する |
↑ | ||||||
言語モデル 発声される内容の可能性を,文法や言語統計などにより規定する |
逆問題
MEG計測信号から脳内の活動源を推定する問題は典型的な不良設定問題である.従来,ダイポールモデル法,L2ノルム最小化法等が提唱されそれなりの成果を上げてきたが,まだまだ不十分である.計測4研では,L1ノルムの発展形,ICA, Wavelet,ダイポールの解析解を得る方法等,数理的手法と生理的知見を融合した信頼性が高く高精度な手法の開発を目指している.また,脳活動の可視化手法の開発も行なっている.
ブレイン-マシンインタフェース(BMI)
脳をはじめとした生体の神経系と外部機器との間の直接的な情報入出力を実現するための技術・概念のこと.例えば,感覚野に適切な情報を入力することによって,視覚,聴覚,触覚などの人工感覚を生成することができ,また逆に,運動野などの情報を利用して,自分の手のように自在に動かすことのできる義手の実現も夢ではない. BMIの実現のためには大きく分けて二つの課題がある.それは,いかにして神経系と人工機器とを接続するかというデバイス面での課題と,神経系の信号をいかに解釈し,どのような形で入出力するかというコーディング・デコーディング面での課題である.