クリプキクローネ日記帳

ある種の音楽と数学とランニングはミニマルなところが似ていると思う。

スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
  1. --/--/--(--) --:--:--|
  2. スポンサー広告

欠測データの統計解析 [阿部貴行(著)]

タイトルを見た瞬間これだと思いました。
手元にデータセットがあるけど一部のデータが欠けている、
というよくあるモヤモヤした状況をどう扱えばいいのか教えてくれる本です。
これだけで1冊分になるほど奥が深いテーマだとは知りませんでした。


序盤に基礎的な内容として欠測データの3つの分類が出てくるんですが、
それだけでもこの本を読んだ甲斐がありました。

MCARは欠測が完全にランダムに現れるという条件。
ついなんとなく仮定しがちな条件であり、多くの統計ソフトも特別な指示をしなければこれに従う。
だけど現実は成り立たない場合も多い。
仮に成り立てば、CC解析(complete-case解析)で推定値を得られる。
が、CC解析だとちゃんと揃ったデータしか用いないのでN数が減り推定精度(バラつき)は低くなる。

MARは観察されたデータで欠測を説明できるという条件。
Yの欠測データに偏りがあっても、XとYに相関があり且つXが得られていて、Yの欠測データを推定できる、とか。
CC解析では推定値がおかしくなってしまうけど、最尤推定法等を使えばうまく扱える。

MNARはそれ以外、つまり欠測データを説明することができない場合。
これはもうどうしようもないからこの本では扱わないのかと思っていたけど、最終章で出てきて驚きました。
MARだと仮定したけどもしMNARだった場合でもこれだけロバストだから大丈夫ですよ、
というような意図で計算するらしい。
MNARの従う分布を仮定して、見えない依存性に対する感度を計算する。

CC解析でN数が減るのをなんとかするために欠測データを補完する方法として、
シンプルなのが単一値補完法。

モデルベースな単一値補完法は、XとYが直線回帰できるというモデルを前提とする。
XとYの回帰直線(とそこからの誤差情報)から欠測値を1つ求めて、
観測されたデータと同じように扱う。
都合のいい補完なので、推定精度を過大評価する。

それに対して、ノンパラメトリックな単一値補間法は
hot deck法やnearest neighbor hot deck法、LOCF法などがある。
前半の2つは観察された実測データを欠測データにそのまま流用する。
官庁統計で使われている。
特にnearestは観察された部分が一番近いデータを探して、欠測部分を補完する。
LOCF法は医学研究でよく使われていて、時系列の最後のデータをそのままそれ以降の欠測データに流用する。
主張内容によっては保守的なバイアスになりそうだから使ってもよさそうな気持ちになるけど、
必ずしもそうでもないことが示されている。

欠測パターンには単調と非単調とあって、
単調なパターンは欠測が少ない順にデータを並べたときに欠測部分が綺麗にまとまる場合。
非単調は欠測部分が虫食いになる場合。

単調な欠測パターンであれば、最尤推定法(MLE)でMARでも正しい推定値を得られる。
結局、欠測データを回帰直線から予測して全データでMLEをしている模様。
打ち切りデータがある場合でも観測データと打ち切り情報を組み合わせた尤度関数からうまいこと近い推定値が得られる。
一方、非単調な欠測パターンはEMアルゴリズムで繰り返し実行してニュートン法みたいに近づいていく必要がある。
それは大変だ。

打ち切りデータに対するノンパラメトリックな手法としてKaplan-Meier推定量というのもある。
よくわからないけど、確率分布を仮定しないMLEになっている、とのこと。

単一値補間法を改善した多重補完法(Multiple Imputation, MI)はまるで最近の機械学習のよう。
欠測値の事後予測分布から実際に欠測値をランダム生成して何度も推定値を算出して、
最後にそれらを統合して推定値の値と誤差を求める。
欠測値の不確定さを考慮した手法というか、ザ・力技。

この後もいろんな話が続いたけどこの辺でギブアップ。
情けない。
けど、欠測データの分類を知ることができただけですごくよかった。
こういうのって、分類を読むとそんなの当たり前じゃんと思うけど、
こうやって名前をつけてはっきり示されないといざというときに真面目に考えずに扱ってしまうのでよかった。

  1. 2017/05/05(金) 00:36:10|
  2. | トラックバック:0
  3. | コメント:0
<<ディジタル信号処理 [貴家仁志(著)] | ホーム | テスト駆動開発による組み込みプログラミング [ James W.Grenning(著), 蛸島昭之(監訳), 笹井崇司(訳)]>>

コメント

コメントの投稿


管理者にだけ表示を許可する

トラックバック

トラックバックURLはこちら
http://myumbrella.blog42.fc2.com/tb.php/371-55c28f60
この記事にトラックバックする(FC2ブログユーザー)
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。