# プロ野球でわかる！はじめての統計学

In [1]:
import numpy as np
import pandas as pd
import requests
import json
import numpy as np

## 偏差
```
偏差 = 元のデータ - 平均値
```

## 分散
```
分散 = (Σ偏差^2) ÷ データ数
```

## 標準偏差
```
標準偏差 = sqrt(分散)
```

In [16]:
org_data = pd.read_csv('./statistics_data/2章サンプルデータ.csv')

avg_data = org_data[['選手名','打率']]

avg_data = avg_data.astype({'打率': 'float64'})

avg_data['偏差'] = avg_data['打率'] - avg_data.mean()['打率']

avg_data['偏差^2'] = avg_data['偏差'] * avg_data['偏差']

dispersion = avg_data.sum()['偏差^2'] / 185
print(dispersion)

0.0014787297005113222


In [17]:
avg_data.mean()

打率      2.509946e-01
偏差      4.005805e-17
偏差^2    1.478730e-03
dtype: float64

In [3]:
standard_deviation = np.sqrt(dispersion)

In [4]:
standard_deviation

0.03845425464771515

In [6]:
avg_data.mean()['打率']

0.25099459459459456

In [7]:
min_range = avg_data.mean()['打率'] - standard_deviation

In [8]:
max_range = avg_data.mean()['打率'] + standard_deviation

In [9]:
min_range

0.2125403399468794

In [10]:
max_range

0.28944884924230974

In [11]:
avg_data_2 = org_data[['選手名','打率']]

In [12]:
avg_data_2 = avg_data_2.astype({'打率': 'float64'})

In [13]:
avg_data_2.sort_values('打率', ascending=False, inplace=True)

In [15]:
avg_data_2.reset_index(drop=True, inplace=True)

## 標準化得点
標準化得点 = (元のデータ - 平均値) ÷ 標準偏差

### 例
2015山田哲人の標準化得点

- (0.329 - 0.251) ÷ 0.038 = 2.03

## 偏差値
```
標準化得点 = (元のデータ - 平均値) ÷ 標準偏差 × 10 + 50
```

### 例
2015山田哲人の打率偏差値

- (0.329 - 0.251) ÷ 0.038 × 10 + 50 = 70.3

In [20]:
testes = (0.329 - avg_data.mean()['打率']) / standard_deviation * 10 + 50
print(testes)

70.28524700843222


## 非線型変換
GB/FBみたいな、比率のような間隔が等しくないものを比較する際に元の値を変換する手法
```
log10(元のデータ)
```

### 箱ひげ図
最小値と最大値、四分位偏差と中央値を一気に確認できるグラフ（メモ）

### グラフの最大値と最小値
大体集めたデータの平均値±2標準偏差の値をそれぞれ最大値、最小値とするといい（らしい）

# 母集団と標本

## 母集団と標本
```
母集団とは全てのデータの集まりを指し、標本とはそこからサンプリングした（集めた一部の）データのこと。
少ないデータ（標本）から、全体（母集団）を推測するために、標本誤差という、標本の値と母集団の値との誤差を意識する必要がある。
```

## 標本平均と母平均
```
全体のデータをいくつかのグループに分け（標本化）、そのグループ、要は標本内での平均をとったものが「標本平均」
そして、全グループの標本平均と全体のデータの平均（母平均）は一致する。このことを「標本平均は不偏性を持つ」という。
この性質があるために、標本平均の値はそのまま母集団の平均推測値として用いることができる。
```

## 不偏分散

- Σ((データ - 平均値)^2) / (データ数(N) - 1)

## 不偏分散を用いる理由
```
標本分散は、平均が母分散の値と一致しない（不偏性を持たない）ため、母分散の仮の値として用いることが出来ない。
そのため、不偏分散という値を算出して、それを母分散の仮の値とする。
```

In [2]:
org_data_4 = pd.read_csv('./statistics_data/4章サンプルデータ/Sheet1-表1.csv')

In [4]:
grouped = org_data_4.groupby('Group')

In [23]:
grouped.mean().drop(['No','体重'], axis=1).mean()

身長    180.780899
dtype: float64

In [18]:
grouped.agg({'No': 'count', '身長': 'std', '体重': 'mean'})

Unnamed: 0_level_0,No,身長,体重
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Group1,89,5.678144,82.078652
Group10,89,5.005181,82.314607
Group2,89,4.248325,83.269663
Group3,89,6.428021,83.191011
Group4,89,6.483538,83.988764
Group5,89,4.901715,83.505618
Group6,89,5.498166,83.550562
Group7,89,5.688007,83.876404
Group8,89,5.867167,81.674157
Group9,89,4.362149,81.685393


In [16]:
grouped.describe().drop(['No','体重'], axis=1)['身長']

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Group1,89.0,180.606742,5.678144,167.0,177.0,180.0,183.0,198.0
Group10,89.0,180.247191,5.005181,170.0,177.0,180.0,183.0,195.0
Group2,89.0,181.494382,4.248325,171.0,178.0,181.0,184.0,193.0
Group3,89.0,181.460674,6.428021,168.0,178.0,181.0,185.0,205.0
Group4,89.0,180.685393,6.483538,163.0,177.0,180.0,185.0,198.0
Group5,89.0,181.202247,4.901715,168.0,177.0,181.0,184.0,198.0
Group6,89.0,180.516854,5.498166,170.0,177.0,180.0,183.0,198.0
Group7,89.0,181.146067,5.688007,166.0,178.0,180.0,185.0,201.0
Group8,89.0,180.089888,5.867167,163.0,176.0,180.0,183.0,197.0
Group9,89.0,180.359551,4.362149,171.0,177.0,180.0,184.0,191.0


In [None]:
grouped.agg(lambda x: )

In [20]:
grouped.var().drop(['No','体重'], axis=1)

Unnamed: 0_level_0,身長
Group,Unnamed: 1_level_1
Group1,32.241318
Group10,25.051839
Group2,18.048264
Group3,41.319459
Group4,42.036261
Group5,24.026813
Group6,30.229826
Group7,32.353422
Group8,34.423647
Group9,19.028345


In [21]:
grouped.var(ddof=False).drop(['No','体重'], axis=1)

Unnamed: 0_level_0,身長
Group,Unnamed: 1_level_1
Group1,31.879056
Group10,24.770357
Group2,17.845474
Group3,40.855195
Group4,41.563944
Group5,23.756849
Group6,29.890165
Group7,31.9899
Group8,34.036864
Group9,18.814544


## 信頼区間とは

母平均が含まれると推定されるデータの幅で、母平均の値が含まれる範囲の確率を示す形で表される。

`95%信頼区間とは、信頼区間の範囲内に、母平均が９5%の確率で含まれることを示す。`

## 信頼区間を求める式
$$
    信頼区間 = 標本平均 \pm t\sqrt{\frac{不偏分散}{データ数(N)}}
$$

## 信頼区間を求める式（比率の場合）
$$
    信頼区間 = 標本比率(p) \pm Z\sqrt{\frac{p(1-p)}{データ数(N)}}
$$

`※Zは標準正規分布の値を当てる`

In [26]:
grouped.agg(['count', 'mean', 'var']).drop(['No','体重'], axis=1)['身長']

Unnamed: 0_level_0,count,mean,var
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Group1,89,180.606742,32.241318
Group10,89,180.247191,25.051839
Group2,89,181.494382,18.048264
Group3,89,181.460674,41.319459
Group4,89,180.685393,42.036261
Group5,89,181.202247,24.026813
Group6,89,180.516854,30.229826
Group7,89,181.146067,32.353422
Group8,89,180.089888,34.423647
Group9,89,180.359551,19.028345


In [29]:
# t値はExcelの値を参考に一旦1.99で設定
confidence_interval = grouped.agg(['count', 'mean', 'var']).drop(['No','体重'], axis=1)['身長']
confidence_interval['ci_min'] = confidence_interval['mean'] - 1.99 * np.sqrt(confidence_interval['var'] / confidence_interval['count'])
confidence_interval['ci_max'] = confidence_interval['mean'] + 1.99 * np.sqrt(confidence_interval['var'] / confidence_interval['count'])

In [30]:
confidence_interval

Unnamed: 0_level_0,count,mean,var,ci_min,ci_max
Group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Group1,89,180.606742,32.241318,179.408996,181.804487
Group10,89,180.247191,25.051839,179.1914,181.302982
Group2,89,181.494382,18.048264,180.598242,182.390522
Group3,89,181.460674,41.319459,180.10475,182.816598
Group4,89,180.685393,42.036261,179.317759,182.053028
Group5,89,181.202247,24.026813,180.168281,182.236213
Group6,89,180.516854,30.229826,179.357073,181.676635
Group7,89,181.146067,32.353422,179.946242,182.345893
Group8,89,180.089888,34.423647,178.85227,181.327505
Group9,89,180.359551,19.028345,179.439401,181.2797


## 信頼区間で打率予想！
$$
    打率信頼区間 = 去年の打率(p) \pm 1.96\sqrt{\frac{p(1-p)}{打数}}
$$

In [31]:
def avg_estimation(avg, at_bat):
    min_avg = avg - 1.96 * np.sqrt(avg * (1 - avg) / at_bat)
    max_avg = avg + 1.96 * np.sqrt(avg * (1 - avg) / at_bat)
    
    print('2020予想最低打率： {}'.format(min_avg))
    print('2020予想最高打率： {}'.format(max_avg))

In [32]:
avg_estimation(0.2711, 520)

2020予想最低打率： 0.23289210308004177
2020予想最高打率： 0.30930789691995825


# 相関分析

## 相関分析とは

「相関係数（一般的にはピアソンの積率相関係数という）」という値を計算すること

## 共分散

共分散とは、2組の対応するデータ間の、両データの偏差の積から平均値を出したものである。計算式は以下の通り。

$$
    Cov(共分散値) = \frac{\sum_{i}^{n}(x_i - \overline{x})(y_i - \overline{y})}{データ数(n)}
$$

共分散値は、正の相関関係（Aが大きければ、Bも大きい）がある場合はプラス、負の相関関係（Aが大きければ、Bは小さい）がある場合はマイナスになる

共分散値はデータの単位が変わるだけで計算結果が変わってしまう（分散値を元に出しているので）ので、あまり使われることはない

## 相関係数(r)

上記共分散の問題を解消したのが相関係数である。計算方法は以下の通り。

$$
    r= \frac{\sum_{i}^{N}(x_i - \overline{x})(y_i - \overline{y})}{\sqrt{\sum_{i}^{N}(x_i - \overline{x})^2}\sqrt{\sum_{i}^{N}(y_i - \overline{y})^2}}
$$

## 順位相関

データが以下のパターンの時に用いられる、相関分析の応用

- データが順位の場合
- データが間隔データとはいえない場合
- データにはずれ値を含む場合
- データに特定の関数関係を想定しない場合

順位相関が示すのは、２つのデータの間に単調増加傾向または単調減少傾向にあるかということ
単調増加傾向とは、一方のデータの増加に伴い、もう一方のデータも「程度に関わらず」増加することを指す

２つのデータ間の関係については、大雑把な関係しか使えないので、多用は禁物。片方が順位データしかない場合に用いる。

## スピアマンの順位相関係数

順位相関係数の算出方法は、以下の通り。この計算方法を「スピアマンの順位相関係数」という

$$
    r_s = \frac{\sum_{i}^{n}d_i^2}{n(n^2 - 1)}
$$

順位相関係数は順位化したデータでピアソンの積率相関係数を求めた場合と同じ値になるという性質がある

## はずれ値について

はずれ値があると相関係数が大きく影響を受けてしまうことがあるので、以下の方法で対策をする

- スピアマンの順位相関係数を計算する
- はずれ値を除いて相関係数を計算する

In [27]:
org_data_5 = pd.read_csv('./statistics_data/5章サンプルデータ/YtoY.csv')

In [28]:
df_2013 = org_data_5[org_data_5['Year'] == 2013]

In [29]:
df_2014 = org_data_5[org_data_5['Year'] == 2014]

In [30]:
df_new = df_2013.merge(df_2014, on='打者')

In [31]:
df_new.rename(columns={'打率_x': '打率_2013','打率_y': '打率_2014'}, inplace=True)

In [32]:
df_new = df_new.astype({'打率_2013': 'float64', '打率_2014': 'float64'})

In [33]:
df_new.mean()[['打率_2013', '打率_2014']]

打率_2013    0.266244
打率_2014    0.264309
dtype: float64

In [34]:
df_new['x_i-mean(x)'] = df_new['打率_2013'] - df_new.mean()['打率_2013']
df_new['y_i-mean(y)'] = df_new['打率_2014'] - df_new.mean()['打率_2014']

In [35]:
df_new['xとyの積'] = df_new['x_i-mean(x)'] * df_new['y_i-mean(y)']
df_new['xの2乗'] = df_new['x_i-mean(x)'] * df_new['x_i-mean(x)']
df_new['yの2乗'] = df_new['y_i-mean(y)'] * df_new['y_i-mean(y)']

In [36]:
correlation_coefficient = df_new.sum()['xとyの積'] / (np.sqrt(df_new.sum()['xの2乗']) * np.sqrt(df_new.sum()['yの2乗']))

## 2013~2014を元に算出した打率の相関係数

In [37]:
correlation_coefficient

0.3614698270218425

In [38]:
# 年度がわかるようリネーム
df_new.rename(columns={'三振\n/打席_x': 'k/PA_2013','三振\n/打席_y': 'k/PA_2014'}, inplace=True)

# パーセント表記なんで記号を削除
df_new['k/PA_2013'] = df_new['k/PA_2013'].str.replace('%', '')
df_new['k/PA_2014'] = df_new['k/PA_2014'].str.replace('%', '')

# 数値変換
df_new = df_new.astype({'k/PA_2013': 'float64'})
df_new = df_new.astype({'k/PA_2014': 'float64'})

# 百分率表記なんで100で割る
df_new['k/PA_2013'] = df_new['k/PA_2013'] / 100
df_new['k/PA_2014'] = df_new['k/PA_2014'] / 100

# 偏差の算出
df_new['k_x差分'] = df_new['k/PA_2013'] - df_new.mean()['k/PA_2013']
df_new['k_y差分'] = df_new['k/PA_2014'] - df_new.mean()['k/PA_2014']

# 偏差を元に相関分析の要素（xとyの積、またxyそれぞれの二乗）
df_new['k_x*k_y'] = df_new['k_x差分'] * df_new['k_y差分']
df_new['k_x^2'] = df_new['k_x差分'] * df_new['k_x差分']
df_new['k_y^2'] = df_new['k_y差分'] * df_new['k_y差分']

# 相関分析を算出
correlation_coefficient_k = df_new.sum()['k_x*k_y'] / (np.sqrt(df_new.sum()['k_x^2']) * np.sqrt(df_new.sum()['k_y^2']))

## 2013~2014を元に算出したK/PA（一打席あたりの三振率）の相関係数

In [39]:
correlation_coefficient_k

0.7389407903488376

In [14]:
df_new.mean()[['k/PA_2013', 'k/PA_2014']]

In [25]:
df_new

Unnamed: 0,No_x,打者,Year_x,打席_x,打率_2013,出塁率_x,長打率_x,フォアボール /打席_x,k/PA_2013,ホームラン /打席_x,...,x_i-mean(x),y_i-mean(y),xとyの積,xの2乗,yの2乗,k_x差分,k_y差分,k_x*k_y,k_x^2,k_y^2
0,1,Ｔ－岡田,2013,207,0.222,0.280,0.349,7.2%,0.203,1.9%,...,-0.044244,0.004691,-0.000208,0.001958,0.000022,0.042984,0.038333,1.647710e-03,1.847602e-03,1.469444e-03
1,8,エルドレッド,2013,260,0.247,0.315,0.460,7.7%,0.281,5.0%,...,-0.019244,-0.004309,0.000083,0.000370,0.000019,0.120984,0.172333,2.084953e-02,1.463707e-02,2.969878e-02
2,15,キラ,2013,265,0.259,0.362,0.478,13.6%,0.245,5.3%,...,-0.007244,-0.007309,0.000053,0.000052,0.000053,0.084984,0.091333,7.761848e-03,7.222236e-03,8.341778e-03
3,24,サブロー,2013,216,0.245,0.335,0.375,12.5%,0.194,2.3%,...,-0.021244,-0.016309,0.000346,0.000451,0.000266,0.033984,0.078333,2.662060e-03,1.154895e-03,6.136111e-03
4,28,ジョーンズ,2013,604,0.243,0.391,0.454,17.4%,0.272,4.3%,...,-0.023244,-0.043309,0.001007,0.000540,0.001876,0.111984,0.078333,8.772060e-03,1.254036e-02,6.136111e-03
5,39,バルディリス,2013,585,0.289,0.371,0.441,9.2%,0.115,2.9%,...,0.022756,-0.009309,-0.000212,0.000518,0.000087,-0.045016,-0.033667,1.515547e-03,2.026464e-03,1.133444e-03
6,42,バレンティン,2013,547,0.330,0.455,0.779,18.8%,0.192,11.0%,...,0.063756,0.036691,0.002339,0.004065,0.001346,0.031984,0.050333,1.609848e-03,1.022960e-03,2.533444e-03
7,45,ブランコ,2013,558,0.333,0.416,0.634,11.1%,0.211,7.3%,...,0.066756,0.018691,0.001248,0.004456,0.000349,0.050984,0.110333,5.625206e-03,2.599342e-03,1.217344e-02
8,48,ペーニャ,2013,171,0.233,0.322,0.307,8.8%,0.304,0.6%,...,-0.033244,-0.009309,0.000309,0.001105,0.000087,0.143984,0.054333,7.823117e-03,2.073132e-02,2.952111e-03
9,51,ヘルマン,2013,623,0.319,0.418,0.396,13.6%,0.140,0.6%,...,0.052756,-0.014309,-0.000755,0.002783,0.000205,-0.020016,-0.002667,5.337669e-05,4.006507e-04,7.111111e-06


In [48]:
# dfのx列とy列の相関係数を算出する（それぞれfloat64である必要あり）
def calculate_correlation_coefficient(df: pd.DataFrame, x_name: str, y_name: str) -> np.float64:
    
    # DataFrameをコピーして新しい物を作る（処理上新規列追加した方がラクなので）
    df_new = df.copy()
    
    # 偏差の算出
    df_new['x_deviation'] = df_new[x_name] - df_new.mean()[x_name]
    df_new['y_deviation'] = df_new[y_name] - df_new.mean()[y_name]

    # 偏差を元に相関分析の要素（xとyの積、またxyそれぞれの二乗）
    df_new['k_x*k_y'] = df_new['x_deviation'] * df_new['y_deviation']
    df_new['k_x^2'] = df_new['x_deviation'] * df_new['x_deviation']
    df_new['k_y^2'] = df_new['y_deviation'] * df_new['y_deviation']

    # 相関分析を算出
    correlation_coefficient = df_new.sum()['k_x*k_y'] / (np.sqrt(df_new.sum()['k_x^2']) * np.sqrt(df_new.sum()['k_y^2']))
    
    return correlation_coefficient

In [43]:
type(correlation_coefficient)

numpy.float64

In [47]:
type(df_new)

pandas.core.frame.DataFrame

In [46]:
print(calculate_correlation_coefficient(df_new, '打率_2013', '打率_2014'))

0.3614698270218425
