AVM研究会参加報告 - タンタン的思考

はじめに

小倉の北九州工業大学であった研究会の参加報告．

北九州工業大学への行き方．最寄り駅はJRの九州工大前です．ここから徒歩6分．1本道なので迷いません．小倉と戸畑の間にありますが，どちらかといえば小倉からアクセスした方が便利で電車は6分．最寄りバス停もあるので，小倉から250円30分ぐらいで行けます．

小倉へは福岡空港と北九州空港の2つのアクセス方法がある．前者は空港から博多まで出て，そこから新幹線で1駅15分2000円ぐらい．後者は空港バスで45分500円．まぁ，どっちもどっちだけど，北九州空港は結構良いところ．Edy使えないのは面倒だけどさ．

北九州空港の3階レストラン街にある立ち飲み屋がオススメ．というか，オススメされたので1杯飲んできた．合点みたいな感じで焼酎がわんさか揃えてある．マスターも気さくな感じで良い．

小倉は森鴎外が暮らしていたところ．当時暮らしていた家がまだ残っていて，無料で観覧できる．街は都会で高層ビルとか繁華街とか広がっている．でも，絶対的に人が少ないのでとても静か．普段，新宿渋谷池袋を見ているせいでそう感じる．良い街でした．

以下，内容の話．

センサーネットワークと多端子情報理論

この道の権威である大濱先生のチュートリアル講演．なんかしゃべり方といい興味の方向性といい，理論の研究者でした．「〜なんですけど，」で文末を切るのは結構聞きにくい．「けど」何なんだよ？

内容は分かりやすいとかそう言うレベルまで私の知識がないので判断保留．SlepianさんとWolfさんが提案した，ということはわかりました．

センサーネットワークでは，センサーのうち1つは観測値をそのまま送信し，他の観測値はもっと少ない情報量で良いらしい．そのまま送信するのも必要なのか，という点が驚き．

さらに，そのまま送信するところをゼロにした場合，つまりどの観測値も少しずつ送る方法もある．これはCEO問題と呼ばれるらしい．最高経営責任者は，部下から少しずつ報告をもらって全体像を把握する，ところから得たらしい．

そう言うわけで，センサー間の「相関が明らか」になっていれば，それぞれのセンサーを参照することなく最適なRDを実現できるらしい，理論上は．いや，理論的な事実は心強いよ．まだ証明が全部終わったわけではないので，多分だけどね．

ドライビングシミュレータ作業中の目の赤外線画像の変化について

ATOKに「の」が多いと怒られたorz 早見らの研究で，覚醒水準が面白かった．瞬目率（回数/分）と閉眼率（時間的な割合）を瞳孔に対して行う．という話だったと思う．実は提案手法がどうなっているのか明確には理解できなかった．この方も昔の研究を掘り起こしながらなのでちょっと共感．

視点位置情報の利用による内容画像検索の効率化

幹事のお知り合いらしい．これも何が課題でどう難しいのか，自分の知識不足で良く理解できず．ただ，検索の標準的な評価方法が分かった．F値というのを用いているのだが，再現率と適合率の調和平均（幾何平均：逆数の和の逆数の2倍）を使うらしい．なるほどねぇ．

主観画質を考慮したH.264/AVCにおけるモード選択方法の検討

かなり秀逸な着想．簡単に言うと，重み付き量子化マトリクス機能を，標準の固定量子化で実現する方法．AVCを理解している人からすると，かなり奇妙に聞こえるかもしれない．原理としては，Intraの予測や動き探索時の評価関数のうち，ディストーションを視覚品質によって重み付けするというもの．結果としてはSKIPの選択率が上がり，主観品質が向上している．

携帯端末における超高解像度画像閲覧方式の関する検討

これもかなり現実的な着目点．JPIP（JPEG2000 Part9）を使ってみたら，いろいろ工夫が必要でした．という代物．まぁ，当然といえば当然の工夫なんだが，EZ Webで実装しているのが凄いね．解像度レベルに応じてレイヤ数を細かくしないとダメだよ，ということ．具体的には，低解像度ほどレイヤを細かくして，解像度を上げたときに低解像度の下位レイヤを送る・・・．文章じゃ分かり難いな．ま，そういうことです．

Distributed Video Codingの動向と今後

再びチュートリアル講演．Slepian and Wolfのロスレス理論に続き，Wyner and Zivによるロッシー理論．これによりビデオに適用する道筋が出来たらしい．UC BercklayとStanfordでそれぞれDVCの原型が発表され，欧米で精力的に研究されているそうな．翻って日本では（先の2つと同様のアプローチで）研究している人は皆無．ただ，それは見切っているから，という可能性もある．あ，2年前のPCSJで招待講演がありましたね，一応．

まず，Distributed Computingではない，というところが重要．はい，全然関係ありません．

酷く乱暴に言ってしまえば，各フレームをそれぞれ別のセンサーで捉えたと見なすところが分散．だから，フレーム間で冗長性を除去するような操作をする必要はない．これがすなわち軽量の符号化器となる．

具体例が秀逸だった．温度計が2つあって，ちょっと離れた地点で観測していると仮定します．それぞれが差す温度には相関があり，具体的には差が常に5を超えないとする．片方のセンサーからはそのまま温度を送信．もう一方のセンサーからは9で割った余りのみを送信．前者の温度±4のうち9で割った余りが後者のセンサーから送られてきた値と一致するのが，後者の温度である．なるほどねぇ・・・．

これを動画像符号化に当てはめると，Iフレームを送る．その後数フレームは（時間的に前後のフレームと）独立に「適当な」符号化を行い，Fフレーム（Feature Frame：特徴フレーム）を送る．受信側でFフレームに合致するようなフレームをIから作り出す（これがめちゃめちゃ時間かかる）．画素値が取りうる組み合わせを列挙して，Iフレームに近くてかつFフレームと一致するものを探す．

見切った，という理由は以下の通りらしい．Iフレームを時々送る（MPEGのGOPに比べるとかなり頻度が高い．5枚に1枚ぐらい）．さらに拡張情報としてFフレームを送る．これはつまり階層符号化（基本レイヤと拡張レイヤ）に他ならない．基本レイヤ生成の性能が悪ければ，どんなに拡張レイヤを工夫しても，非階層符号化を超えるのは難しい．ということ．