#2-2 統計基礎

統計学とは、データを平均や分散などの「統計量」にまとめて、その法則性や特徴をとらえる学問です。統計学は、次の2 つに大別できます。

1.   **記述統計学**
> 手元にあるデータの特徴をとらえます。例えば、テストの点数をA クラスとB クラスで比較する際、クラスの「平均点」という指標を用いて比較することです。




2.   **推計統計学**
> データの背景にある母集団の特徴をとらえます。例えば、日本人全体の平均年収を求める際、必要最低限の数（「標本数」といいます）を集め、母集団を推定することです。





## 平均

平均（「平均値」といいます）とは、すべてのデータの値を足して、データの数で割ったものです。データセットを代表する値としてよく使われます。
簡単な例ですが、下記データ(テスト結果とでも思ってください)で平均値を算出してみましょう

<img src="https://github.com/t-date/DataScience/blob/master/fig/02_02_02.jpg?raw=true" width="160px">

In [0]:
# 数理統計関数のインポート
from statistics import mean, median,variance,stdev
# データの定義
data1 = [50,90,55]

In [0]:
# 平均の計算
mean(data1)

数理統計関数でも算出できますが、numpyで計算してみましょう。
NumPyが提供している有用な集約関数のリストは以下です。


<img src="https://github.com/t-date/DataScience/blob/master/fig/02_02_01.jpg?raw=true" width="640px">

In [0]:
import numpy as np;
arr_data1 = np.array(data1)
np.mean(arr_data1)

## 中央値

データを小さい順に並べたときにちょうど真ん中(中央)に来る値のことです。平均同様、データセットを代表する値としてよく使われます。

平均値は、データセット内に突出して大きな数値ある場合、値が大きく引き上げられてしまいます。そのような場合に、中央値をデータセットの代表値とすることが多くあります。

In [0]:
np.median(arr_data1)

## 分散

分散とは、データの散らばりの度合いを表す値です。データの散らばりが大きいと分散も大きくなり、散らばりが小さいと分散は小さくなります。
n 個の観測データをそれぞれ、x1, x2, ..., xnとしたときの分散をs^2と表記し、次の式で求められます。
<img src="https://github.com/t-date/DataScience/blob/master/fig/02_02_03.jpg?raw=true" width="320px">

In [0]:
np.var(arr_data1)

## 標準偏差

標準偏差も、分散と同様にデータの散らばりの度合いを表す値です。分散の平方根を計算することで求められます。つまり、先ほど分散をs^2と表記しましたが、標準偏差は平方根になると表記します。

<img src="https://github.com/t-date/DataScience/blob/master/fig/02_02_04.jpg?raw=true" width="80px">

In [0]:
np.std(arr_data1)

標準偏差を用いると、平均が55(点)、標準偏差17.8(点)のとき、平均点から前後に標準偏差をとった37.2～ 72.8(点)の範囲に全体の約68%が存在するということがいえます。

<img src="https://github.com/t-date/DataScience/blob/master/fig/02_02_05.jpg?raw=true" width="320px">

## pandasによる算出

1 次元のNumPy配列と同様に、pandas のSeries に対しても、集約により単一の値が得られます。
<img src="https://github.com/t-date/DataScience/blob/master/fig/02_02_06.jpg?raw=true" width="480px">

In [0]:
import pandas as pd
ser = pd.Series(arr_data1)
ser

In [0]:
ser.mean()

In [0]:
ser.median()

In [0]:
#ddotオプションを指定しないと不偏推定量の計算となる(numpyは標本統計量の計算)
ser.var(ddof=False)

In [0]:
ser.std(ddof=False)

DataFrameで他のデータも同時に平均を算出してみましょう。

In [0]:
data2=[60,70,80]

In [0]:
df = pd.DataFrame({'A': data1,
'B': data2})

In [0]:
df

In [0]:
df.mean()

axis 引数を指定すれば、行ごとの集約も可能です。

In [0]:
df.mean(axis='columns')