ビッグデータ分析はとりあえずExcelでやれる(前編)

今回は以前勉強して会社の勉強会のネタにしたものを思い出しつつ記事にしようと思います。

「ビッグデータ」という言葉なんですが、もう死語になりつつありますよね。そもそも明確な定義の無いバズワードでしたので、当然と言えば当然です。

「ビッグデータ」なる言葉自体は発生当初から本当にどうでも良いと思っていますが、そこで用いられていた分析手法についてはあらゆる面で応用が利くものです。

そしてそれは、一般的に使えるレベルであれば、高度な数学の知識やツールは不要です。タイトルの通りExcelで十分です。これを説明するのが今回のテーマです。

今回の参考文献は以下です。

リンク

ビッグデータ分析とは何か
統計の基礎(平均と分散)
後編へ続く

ビッグデータ分析とは何か

前述の通り、どこをどう調べても明確な言葉の定義は存在しません。
その為、流行ってた時は言ったもん勝ちみたいな面がありました。
ソフトウェア業界では既存のデータ分析ツール(※BIツール)がこぞってビッグデータ分析ツールを名乗り始めた事が記憶に新しいです。

言葉の定義が曖昧な状態では非常に語りにくいので、ここでは「ビッグデータ分析」を「統計学を用いた分析」と読み替えて説明します。
統計学という言葉が出てきましたが、大丈夫です。前述の通り、Excelの基本機能でできます。
Excelでちょちょいとやって、データサイエンティスト(笑)を自称するのが今回の目的です。

※BIツール：ビジネスインテリジェンスツールの略。企業データを良い感じの表やグラフにしてくれるExcelの企業版のようなソフトウェア
※データサイエンティスト：データ分析のプロ(をそう呼んでいた時期もあった。今も？)

統計の基礎(平均と分散)

基礎ですが、ここが一番頭を使って理解しなければならない箇所です。
実用編はExcelが全部やってくれますが、基礎の部分はしっかりとした理解が必要です。キーワードは以下です。

平均と分散
標準偏差
正規分布

平均と分散

二つの店舗の売上の例を挙げて説明します。

	1月	2月	3月	4月	5月	6月	平均
A店の売上	1200	1800	900	1500	1000	800	1200
B店の売上	1000	1100	1300	1200	1400	1200	1200

上記の売上の表をグラフ化します。

二店舗の売上の平均は1200となっており、同額です。
しかし、A店の方がレンジ(最大値と最小値の差)が大きく、安定感がありません。
これを平均値を取って比較して、二店舗の売上に違いはないと評価してよいでしょうか？
まぁ、結論を言うとダメです。

分散

そこで、ばらつきの指標を示すのが分散です。
式で表すと以下の通りなんですが、覚えなくていいです。

分散 = (データ – 平均値)の二乗の合計 / データの数

計算の過程を少しだけ記述しておきます。
(1200[A店1月売上] – 1200[売上平均])^2 = 0
(1800[A店2月売上] – 1200[売上平均])^2 = 360,000
・・・(以下略。)

1月から6月までやって合計してデータの数(=6)で割ると、以下の結果になります。

A店の分散 = 123333
B店の分散 = 16667

A店の分散 > B点の分散となるため、A店の方がばらつきが大きいということですね。
こんなんやらなくてもグラフ見ればわかるレベルでばらついてますし、得られた分散の数値も意味解らないですね。
ここはちょっと我慢してください。次が非常に大事です。

標準偏差

先ほど計算した分散は値を二乗しているせいで意味ワカラン数字になっていました。
そこで、二乗の逆、平方根(√)を計算します。
すると、「標準偏差」という数字になります。

A店の標準偏差 = √123333 = 351
B店の標準偏差 = √10400 = 129

標準偏差は平均に対してどれほど値が前後するかを示しています。
売上の平均を標準偏差を使って表現すると・・・、

A店の売上の平均 = 1200 ± 351
B店の売上の平均 = 1200 ± 129

となります。A店の例でいうと、
「平均は1200だが、351は上下に前後する可能性が高い」
と読みます。
ビジネスでも何か値の平均を取る際は標準偏差付きで表現する事をオススメします。人に説明する時にドヤれます(?)し、何より正しく分析できます。

Excelで計算するときは以下の数式で計算できます。

平均　　：average(範囲指定)
標準偏差：stdev.p(範囲指定)

正規分布

先ほど、A店舗の平均で「 351は上下に前後する可能性が高い」と表現しましたが、ではどれ程前後する可能性があるのでしょうか。
これは「正規分布」で示されます。言葉だけは聞いたことがあるかと思います。
以下のお山のグラフが「正規分布」です。イメージさえ掴めれば、細かい理解は不要です。

敢えて解かり易いグラフにするために(標準偏差=1)の例でグラフにしています。山の高さや斜面の急さ具合は時と場合によりますが、どんな正規分布でも必ず当てはまる法則があります。それが以下です。

平均値 ± 標準偏差の確率 = 68.7% ⇒ 21.3%の確率で外れる
平均値 ± 2 × 標準偏差の確率 = 95.4% ⇒ 4.6%の確率で外れる
平均値 ± 3 × 標準偏差の確率 = 99.7% ⇒ 0.3%の確率で外れる
平均値 ± 6 × 標準偏差の確率 = 99.99966% ⇒ 0.00034%の確率で外れる

今回の例ですと「 B店の売上の平均 = 1200 ± 129」でした。
上記の法則に当てはめるとB店の売上は、
68.7%の確率で 1071 ~ 1329 の間に収まるという事です。

また、標準偏差を3倍して平均と足した数字は1587となります。
この値を超える確率は0.3%しかありませんので、B店舗が例えば売上目標1600を突然立てるとすると、それはかなり現実的な目標ではないという事になります。

また、あえて標準偏差の6倍という例を挙げました。
実は統計学では標準偏差はσ(シグマ)で表現されます。
品質目標とかで使われるのですが、 6σ(シックスシグマ)という言葉があります。
これは、不良品やエラーの発生率を、平均 ± 6σ から外れる確立まで抑えようという基準(=エラー率0.00034%以下)です。
トンデモなく厳しい基準ですね・・・。

後編へ続く

長くなってしまったので、前後編にします。
今回は平均を説明しましたが、平均というのは所詮、
一つの値に対する分析にすぎません。※今回の例だと「店舗の売上」の一種類のみ
これだけだとデータサイエンティスト(笑)を自称するにはちょっと武器が足りないです。
例えば、「所属員の人事評価の高い部署ほど、売上が高い」など、相関関係(※後編で説明)を見出す事が統計分析の真骨頂です。
そして、統計分析はビジネスの場で応用が利き、驚くほど使われてませんので(少なくとも私の身の回りでは…)、身につければ普通の人より一歩先にデータ分析に強くなれることでしょう。

ビッグデータ分析はとりあえずExcelでやれる(後編)