素人データサイエンティストによるブログ

データ解析についてかんなり噛み砕いて説明します(笑)

データ解析とは

まぁみなさん聞いたことはあると思います、データ解析という言葉自体は。しかし実際にはどのようなことを行っているのか疑問な方が多い(?)と思います。なのでここである有名な話を載せます。

「木曜日の夕方、スーパーマーケットで紙おむつを買う人はビールも買うことが多い」
⇒紙おむつの近くにビールをおけば売り上げが上がる

という話があります。調べたらすぐに出てくるビッグデータ解析の有名な話です。これはどういうことかというと、紙おむつはかさばるので父親が買いに行かされることが多く、そのついでに週末に飲むビールを買うことが多いという説明があります。普通に考えたら木曜日・紙おむつ・ビールの3つは相関性が低いように感じられますが、購買データを解析するとこのようなデータがあるのです。

つまりデータ解析とは与えられたデータを調べてみたら、何か見つかったぜ!的なこと”も”意味します。おそらくデータ解析といえばさまざまなことがあるでしょうが、私の分野は機械学習なので与えられたデータから解析するということに重点を置いておきます。

 

またデータ解析の例として適切かは微妙なんですが、例えば天気予報を考えてみてください。昔は何も天気を予報する技術はありませんでした。そして手元には気温と天気のデータがたくさんありました。毎日そのデータを記録していました。そんな時、ある人は考えるでしょう。次の日の天気や気温が推測できたら便利ではないかと。それらを推測するために用いるのはもちろん今までの気温や天気のデータです。それらを用いればもしかしたら次の日の天気を推定することができます。これもデータ解析というのかな、統計の一種みたいにも感じます。

しかしそれでは統計の一種なので、更に発展させてこの天気を作っている大元の何かがあるのではないかと考えます。その大元がわかれば今後どんな天気になるのかが分かります。天気予報は詳しくないので、適当に言いますが、昔の人は天気を生み出している大元が雲や風の流れだと発見しました。それらを見つけるために用いたものはもちろん日々のデータです。天気予報を行うにも始めはデータ解析から入ったと考えられます。

もしこれらを応用させることができたら、今までの地震のデータを用いて次にいつ地震が来るかなども推測することができます。購買データなんかも、明日はこれとこれがよく売れるなどと推測することができます。

データさえあれば、何かができる。それがデータ解析だと私は思っています。とまぁごちゃごちゃ説明したのですが、つまりは手元にあるデータを有効に使おうねってことです、以上(笑)