In [21]:
import seaborn as sns
import numpy as np
from scipy import stats
import matplotlib.pyplot as plt
from sklearn.preprocessing import  StandardScaler
%matplotlib inline

df = sns.load_dataset("tips")
df["tip_rate"] = df["tip"] / df["total_bill"]

# 正規分布

## 68-95-99.7ルール
平均 $\mu$と分散$\sigma^2$の正規分布におけるデータの分布  

|||
---|---
$\bar{x} \pm s$|約68%
$\bar{x} \pm 3s$|約95%
$\bar{x} \pm 3s$|約99.7% ~ 100%

### challenge
平均4, 標準偏差3の正規分布からランダムに値を1000個取得し、それぞれの割合が68%, 95%, 99.7%になるかを確認する

In [18]:
samples = []
group1 = []
group2 = []
group3 = []
loc = 4
scale = 3
for i in range(1000):
    sample = stats.norm(loc=loc, scale=scale).rvs()
    if loc-scale < sample < loc+scale:
        group1.append(sample)
    elif loc-2*scale < sample < loc+2*scale:
        group2.append(sample)
    elif loc-3*scale < sample < loc+3*scale:
        group3.append(sample)
    samples.append(sample)

In [19]:
print(len(group1)/len(samples))

print((len(group1)+len(group2))/len(samples))

print((len(group1) + len(group2) + len(group3))/len(samples))

0.6771
0.9528
0.9973


## 標準化
平均を0, 分散を1にすること(変換後の値を**z得点**という)  
標準化することによって、尺度を揃えることができ、比較が容易になる

各値から平均を引き、標準偏差で割ることによって標準化できる
$$\frac{x - \bar{x}}{s}$$

自分で実装することも容易ではあるが、`sklearn.preprocessing.StandardScaler`を用いることですぐに標準化できる  
標準化は機械学習における「前処理」段階であるので、preprocessingライブラリーの中のメソッドとして用意されている

## 偏差値(T-score)
平均を50, 標準偏差を10にすること(変換後の値を**t得点**という)

In [23]:
# fit_transformメソッドは二次元である必要があるので注意
scaler = StandardScaler()
scaler.fit_transform([[1], [2], [3], [4]])

array([[-1.34164079],
       [-0.4472136 ],
       [ 0.4472136 ],
       [ 1.34164079]])

In [39]:
# fit_transformメソッドを使うため、244行1列のndarrayとして、二次元配列に変換する
# df["tip_rate"].values.reshape(244, 1)
# 最後の位置を取りたければ、-1を使えばよい！！
data = df["tip_rate"].values.reshape(-1, 1)

scaler.fit_transform(data)

# 元々2次元の値はすぐにfit_transformメソッドを適用できる
scaled = scaler.fit_transform(df[["total_bill", "tip_rate"]])

# 偏差値に変換する
scaled * 10 + 50

array([[ 46.85288695,  33.36981828],
       [ 39.36764687,  49.95717657],
       [ 51.377799  ,  50.94914672],
       [ 54.38315103,  46.5507406 ],
       [ 55.40744704,  47.70375032],
       [ 56.19536705,  54.17363756],
       [ 37.60045485,  61.03379478],
       [ 57.98507107,  42.66063856],
       [ 44.65796693,  44.99836433],
       [ 44.36531092,  59.47315739],
       [ 39.28885487,  50.93553526],
       [ 67.41759917,  46.88272423],
       [ 45.08569493,  40.3216191 ],
       [ 48.47375097,  50.32413406],
       [ 44.42159092,  57.02885077],
       [ 52.01939101,  53.42053237],
       [ 39.35639087,  50.14151189],
       [ 46.06496694,  60.98406513],
       [ 46.83037495,  57.45627991],
       [ 50.97258299,  50.23381346],
       [ 47.89969496,  60.97282376],
       [ 50.56736699,  45.85412481],
       [ 45.47965493,  46.81774845],
       [ 72.10009523,  55.16606793],
       [ 50.03833498,  49.94116426],
       [ 47.77587896,  45.17355156],
       [ 42.7782149 ,  48.16004664],
 