素人データサイエンティストによるブログ

データ解析についてかんなり噛み砕いて説明します(笑)

パラメトリックとノンパラメトリック

今日の内容は少し難しくて、専門的なことなので興味のない方は戻るのクリックを進めます・・・。そしてあまりうまく説明できないかもしれませんが、この内容は調べてもあまり詳しく載ってなくて参考書等にもちらっと書いてある程度のことが多いです。なのでタイトルの内容が知りたくて来た方のためにできるだけ詳しく説明することができたらなと思いますが、恐らく知りたいことの半分もないかもしれません。。。

 

まずパラメトリックの説明から行きます。パラメトリックなモデルとはどのようなものか、それはパラメータが存在するモデルのことです。ここでは確率モデルに関して説明させてもらいます。確率モデルとは何か、それは確率分布を現したモデルのことです。例えば表と裏のでる確率が同様に確からしいコインがあるとしてこのコインの確率分布を求めると、表が1/2、裏が1/2ということになります。このようなモデルを確率分布といいます。そしてこのような確率分布にはパラメータが存在します。そのパラメータとは何か、今回は表と裏が出る確率のことです。表が1/2という確率で決まっているということはそれらを決定しているパラメータがあるということです。このようにパラメータがあるモデルのことをパラメトリックなモデルといいます。サイコロもどの目が出ることも確からしいのであればパラメトリックなモデルです。

 

次にノンパラメトリックなモデルについて説明していきます。恐らく上記を読んでいただいた結果からすると、ノンパラメトリックはパラメータが存在しないモデルと理解される方が多いと思います。ですがそれはよくある誤りで、正確にはあらかじめパラメータを定めないモデルということになります。ここの理解が私には難しくて苦しんだのですが

パラメトリックモデル⇒パラメータあり

ノンパラメトリックモデル⇒パラメータをまだ決めていない

早く言ってしまえば上記のような違いになります。ではパラメータを定めていない場合どうするか、それは適当に定めてしまえばよいのです。そうすればパラメトリックモデルと一緒ですね。ではいくつか疑問が生じたと思いますが、1つずついきましょう。まず適当に定める、ここが問題ですね。ノンパラメトリックの場合パラメータを適当に定めなければなりません。そしてそのパラメータ候補は1つではなく考えらる数分作ります。例えばパラメータ候補が5つある場合は5つ用意します。その5つのパラメータすべてに対してどれが正しいのか決めます。その中で一番それらしい(尤もらしい)ものをパラメータとして採用します。ここまでをまとめると

①パラメータの候補数を定める

②パラメータを仮に候補数分定める

③パラメータそれぞれに対して尤度を求める

④一番尤度の高いものをパラメータに採用する

これらを行います。この④の動作を学習といいます。どれが最もよいか選ぶことを機械が行うので④の段階が機械学習です。

恐らく私の説明では全然物足りないと思うので、下記に示した論文を参考にされるとよいかもしれません。では頑張ってください。

ノンパラメトリックベイズモデルの論文です。