CV勉強会@関東 CVPR2016読み会で発表しました
実質、1回だけ記事を書いて満足し、放置してしまっていましたが、少しずつ更新したいと思います。
ということで、タイトルの通りコンピュータビジョン勉強会@関東で発表してきましたので簡単にまとめたいと思います。
発表概要
今回のテーマは、CV系のトップカンファレンスの一つであるCVPR2016の論文読み会でした。
前/後編で2回に分けて開催され、私は後編(7/24@日本マイクロソフト品川本社)で発表しました。
今回は「Structure-from-Motion Revisited」というタイトルの論文を読んで、その内容をまとめました。
発表資料↓ (間違っている部分もあると思います。何かおかしなところがあれば、twitterの@OZ_Z_Cまでご連絡頂ければ幸いです。)
感想
私自身はコンピュータビジョン界隈の技術は勉強中の身ですが、恥を忍んで発表させて頂きました。
お陰様で、いろいろと関連論文や参考資料を読まざるを得ない状況に追い込まれ、良い勉強になりました。
また発表する機会があれば、もっと聴講者のためになる質の良い発表ができるように頑張りたいと思います。
画質評価指標SSIMについて調べてみた
実質的な第1回目の記事は、画質評価指標のSSIMについて調べてみました。
背景
以前、仕事でH.264/AVCエンコーダの開発をしていました。
エンコーダを開発する際は性能の良し悪しの重要な観点として、
符号化→復号した際の画質劣化をどれくらい抑えられるかを評価する必要があります。
画質評価の方法として、当時は客観評価と主観評価の両方をやっていたのですが、
客観評価にはPSNR (と参考程度に市販の画質評価ツール) を使用していました。
PSNR (Peak-Signal to Noize Ratio) はこの分野で伝統的に広く用いられている評価手法です。
ここで、MAXは画素値の最大値です。1画素8bitの画像なら画素値は0~255なので、最大値は255です。
また、MSE = {(符号化前の画素値 - 符号化後の画素値)^2 の1画素あたりの平均値}です。
つまり、PSNRは符号化前の画素値と符号化後の画素値が平均的にどれだけ変わったかで
画質の良し悪しを判断しようという指標です。
しかし、PSNRの良し悪しと人間が感じる画質の良し悪しは必ずしも一致しないことが知られてます。
例えば、PSNRでは複数の画素値がわずかに異なる場合と、1画素のみ画素値が大きく異なる場合が区別できません。
また、人間は画素値の変化量は同じでも絵柄が複雑なところより、
絵柄が平坦なところのほうが変化に気づきやすいという視覚特性がありますが、
これもPSNRでは区別することができません。
よって、PSNRより良い客観画質指標がほしいところです。
SSIMはその有力候補として存在しているのは知っていたのですが、
なんとなく使う機会がなかったためよくわからないまま放置してしまっていました。
そこで、今更感はありますが今回はSSIMについて勉強してみました。
SSIM (structural similarity)
下記サイトにあるSSIMの論文 (Image Quality Assessment: From Error Visibility to Structural Similarity) を読んでみました。
https://ece.uwaterloo.ca/~z70wang/research/ssim/
以下は、上記論文の内容のまとめです。
SSIMの定義式
SSIMは画像内の小領域(window)毎に算出されます。
ここで、、はそれぞれ符号化前の画像と符号化後の画像におけるwindow内の各画素を要素とするベクトル (とはどちらが符号化前でどちらが符号化後でも結果は同じになります)、
はそれぞれのwindow内の平均画素値、、は同window内の画素値の標準偏差、はとの共分散です。
また、、は分母の値が非常に小さくなった時に評価値が不安定にならないための定数です。
、で、は画素値のダイナミックレンジ(8bit画像だと255)です。
およびは定数で、本論文では、としています。
と、ここまではググるとすぐ出てくるのですが、どうしてこういう式になるのか気になります。
ということで、以下には論文で説明されている式の意味を記します。
SSIMの定義式の意味
SSIMは、以下の3つの要素が符号化前と符号化後でどれくらい変化したかで画質を評価しているようです。
- 画素値(輝度値)の変化
- コントラストの変化
- 構造の変化
まず、輝度値の変化は下記の式のとおり平均輝度値を用いて評価します。
次に、コントラストはすなわち「輝度値の高いところと低いところがどれくらい離れているか」なので
輝度値の分布の広がり具合を表す分散および標準偏差(標準偏差^2 = 分散)を用いて下記の式で評価します。
式としては中の平均輝度値が標準偏差になっただけですね。
さらに、構造についてですが、これは画像内に写っている物体の構造に依存するものなので、
照明環境等に依存する輝度値やコントラストの変化に影響されないものです。
ということで輝度値から照明環境の影響を排除するために、平均輝度値を引いて分散で正規化した値とを求めます。
そして、との内積を求めることで両者の相関を評価するのですが、
これは結局との相関係数の定義式と同じになり(!)、以下の式になります。
と、これで各観点の3つの式ができました。
これを下記のような形でがっちゃんこします。
問題はこのがっちゃんこするときの、、をどうするかですが、
上記論文では簡単のためにとし、更にとしています。
すると、最初に示した定義式になります。
・・・・・・うーん、後半がやや強引な気がします。
以上が、SSIMの式の意味です。
また、上記のようにSSIMはwindow単位で算出されるものなので、画像全体の指標としてはwindowを
少しずつずらしながら画像全体でSSIMをM個算出して平均をとったMSSIMを使います。
式にすると以下の通りになります。
感想・補足
以上で、SSIMの基本的な算出法、および意味は押さえられたのではないかと思います。
本当は、SSIMを算出するサンプルコードや画像とSSIM値、PSNR値の関係の例などを示せれば良いと思ったのですが、
一旦ここまでとしたいと思います。
また、実際にSSIMを算出する際には、上記では出てこなかった手順が追加されることが多いようです。
例えば、上記論文中にも出てくるのですがSSIMを算出する前にガウシアンフィルタをかけたりするようです。
ここが割と評価者の自由に変えられてしまうので、客観指標値としての信憑性や使いやすさがいまいちになってしまっているのが、
結局未だにPSNRが使われ続けている理由の一つかなと思います。
SSIMにはさらに改良版の論文もあるようなので、今度はそちらも読んでみたいと思います。
客観指標値の研究は色々なところでされていると思うので、今後に期待したいと思います。
自己紹介及び当ブログの趣旨
最初の投稿なので、自己紹介及び当ブログの趣旨について書きたいと思います。
自己紹介
アカウント名
- oz_z_c (twitterも同アカウント名)
年齢
- 30歳くらい
性別
- 男
経歴
- 理系大学院修士課程卒
- 某企業研究所所属
大学時代の研究
- 画像符号化 (研究室オリジナルの動画像非可逆符号化方式の研究)
会社に入ってからの仕事
趣味
- 野球
- コーヒーを飲むこと
当ブログの趣旨
「output力をつけたい」というのがブログ開設の根本的な動機です。
output力とは、「簡潔で分かりやすい文章を速く作成する能力」と考えています。
内容としては、自分が勉強したことのまとめ、研究動向などの調査結果のまとめ、読んだ本のレビュー、趣味 (主にコーヒー) の話、などを書いていこうと考えています。
まずは2回/月くらいの頻度での更新を目指していきたいと思っています。
ブログは初めてなのでいろいろわからないことだらけですが、よろしくお願いします。