素人データサイエンティストによるブログ

データ解析についてかんなり噛み砕いて説明します(笑)

潜在変数

すごい久しぶりに書きます。興味のある方ちょろっと見てもらえたら満足です。

今回は潜在変数というものについて説明していきたいと思います。というのも潜在変数は機械学習の分野においてしょっちゅう出てきます。知ってる人からすればそんな簡単なものをわざわざ説明する必要があるのかと、いうことになりますが、私は理解するのにとても苦労しました。今後そのような苦労を減らせればと思います・・・

 

まず潜在変数とは何かについて説明していきます。これは観測したデータが潜在変数によって決まっていると考えるものです。初めて聞いた人は何ぞやと思うと思います。それは私の説明が下手だからです(笑)。なのでどんどん説明していきます。まず天気予報で考えていきましょう。天気の毎日の観測結果があるとしましょう。それらは毎日外を見れば記録することが出来ます。これが観測したデータです。しかしその天気を見る前に事前に分かれば便利だと思いませんか?それが天気予報です。

天気が晴れだとどうやって決めるのでしょうか。私は気象について詳しくないので、ちょっと適当なこと言って説明していくと、例えば明日晴れになるのは前日に丸い形の雲があったとします。そうすれば明日の天気は、雲を見ることによって晴れかどうかわかります。このように観測データを決める役割をするものを潜在変数といいます。潜在変数は観測されません。つまり最初は潜在変数が分かりませんし、そもそも観測データに潜在変数があるのかも分かりません。

しかし観測データが潜在変数にしたがって生成されると考えると、観測データを生成している分布を推定することが出来ます。なので観測データが得られたら、そこに潜在変数があると仮定して、潜在変数を適当に定めて観測データが出来ていると考えます。

 

データ生成の過程が分かれば、天気予報は便利ですよね?明日の天気がわかることになります。他にも様々なことに応用することが出来ます。

潜在変数は機械学習の分野で必要になるので興味のある人はぐぐってみていろいろな記事を読んでみてください。