# 04

## 4.1 記述統計

### 4.1.1 平均・分散・標準偏差

In [None]:
import numpy as np
import pandas as pd

x = [165, 170, 175, 180, 185]
np.mean(x) # リストの場合
#> 175.0

x = np.array( # アレイ
    [165, 170, 175, 180, 185])
x.mean() # np.mean(x)も可
#> 175.0

x = pd.Series( # シリーズ
    [165, 170, 175, 180, 185])
x.mean() # np.mean(x)も可
#> 175.0

In [None]:
n = len(x) # サンプルサイズ
sum(x) / n
#> 175.0

In [None]:
y = [173, 174, 175, 176, 177]
np.mean(y)
#> 175.0

In [None]:
np.var(x, ddof=1) # xの分散
#> 62.5

np.var(y, ddof=1) # yの分散
#> 2.5

In [None]:
sum((x - np.mean(x))**2) / (n - 1)
#> 62.5

In [None]:
np.std(x, ddof=1) # xの標準偏差
#> 7.905694150420948

np.std(y, ddof=1) # yの標準偏差
#> 1.5811388300841898

In [None]:
np.var(x, ddof=1)**0.5 # xの標準偏差
#> 7.905694150420948

In [None]:
s = pd.Series(x)
s.describe()
#> count      5.000000 （データ数）
#> mean     175.000000 （平均）
#> std        7.905694 （標準偏差）
#> min      165.000000 （最小値）
#> 25%      170.000000 （第1四分位数）
#> 50%      175.000000 （中央値）
#> 75%      180.000000 （第3四分位数）
#> max      185.000000 （最大値）
#> dtype: float64

In [None]:
# s.describe()で計算済み

#### 4.1.1.1 不偏分散とその非負の平方根

In [None]:
x = [165, 170, 175, 180, 185]

np.var(x, ddof=1) # 不偏分散
#> 62.5

np.var(x, ddof=0) # 標本分散
#> 50.0

In [None]:
np.std(x, ddof=1) # √不偏分散
#> 7.905694150420949

np.std(x, ddof=0) # √標本分散
#> 7.0710678118654755

In [None]:
np.std(x, ddof=1) / len(x)**0.5
#> 3.5355339059327373

### 4.1.2 データフレームの統計処理

In [None]:
import numpy as np
import pandas as pd

my_df = pd.DataFrame({
    'name':    ['A', 'B', 'C', 'D'],
    'english': [ 60,  90,  70,  90],
    'math':    [ 70,  80,  90, 100],
    'gender':  ['f', 'm', 'm', 'f']})

#### 4.1.2.1 列ごとの集計

In [None]:
my_df['english'].var(ddof=1)
# あるいは
np.var(my_df['english'], ddof=1)

#> 225.0

In [None]:
my_df.var()
# あるいは
my_df.apply('var')
# あるいは
my_df.iloc[:, [1, 2]].apply(
    lambda x: np.var(x, ddof=1))

#> english    225.000000
#> math       166.666667
#> dtype: float64

In [None]:
my_df.describe()
#>        english        math
#> count      4.0    4.000000
#> mean      77.5   85.000000
#> std       15.0   12.909944
#> min       60.0   70.000000
#> 25%       67.5   77.500000
#> 50%       80.0   85.000000
#> 75%       90.0   92.500000
#> max       90.0  100.000000

#### 4.1.2.2 分割表とグループごとの集計

In [None]:
from collections import Counter
Counter(my_df.gender)
#> Counter({'f': 2, 'm': 2})

# あるいは

my_df.groupby('gender').apply(len)
#> gender
#> f    2
#> m    2
#> dtype: int64

In [None]:
my_df2 = my_df.assign(
    excel=my_df.math >= 80)
pd.crosstab(my_df2.gender,
            my_df2.excel)
#> excel   False  True
#> gender
#> f           1      1
#> m           0      2

In [None]:
my_df.groupby('gender').mean()
# あるいは
my_df.groupby('gender').agg('mean')
# あるいは
my_df.groupby('gender').agg(np.mean)

#>         english  math
#> gender
#> f          75.0  85.0
#> m          80.0  85.0

## 4.2 データの可視化

In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris', 'datasets').data
iris.head()
#>    Sepal.Length  Sepal.Width  Petal.Length  Petal.Width Species
#> 0           5.1          3.5           1.4          0.2  setosa
#> 1           4.9          3.0           1.4          0.2  setosa
#> 2           4.7          3.2           1.3          0.2  setosa
#> 3           4.6          3.1           1.5          0.2  setosa
#> 4           5.0          3.6           1.4          0.2  setosa

### 4.2.1 ヒストグラム

In [None]:
iris.hist('Sepal.Length')

In [None]:
my_df = pd.DataFrame(
    {'x': [10, 20, 30]})
my_df.hist('x', bins=2) # 階級数は2

In [None]:
x = iris['Sepal.Length']
tmp = np.linspace(min(x), max(x), 10)
iris.hist('Sepal.Length',
          bins=tmp.round(2))

### 4.2.2 散布図

In [None]:
iris.plot('Sepal.Length',
          'Sepal.Width',
          kind='scatter')

### 4.2.3 箱ひげ図

In [None]:
iris.boxplot()

### 4.2.4 棒グラフとエラーバー

In [None]:
pd.options.display.float_format = (
    '{:.2f}'.format)
my_df = (iris.describe().transpose()
    [['mean', 'std']])
my_df['se'] = (my_df['std'] /
               len(iris)**0.5)
my_df
#>               mean  std   se
#> Sepal.Length  5.84 0.83 0.07
#> Sepal.Width   3.06 0.44 0.04
#> Petal.Length  3.76 1.77 0.14
#> Petal.Width   1.20 0.76 0.06

In [None]:
my_df.plot(y='mean', kind='bar', yerr='se', capsize=10)

In [None]:
my_group = iris.groupby('Species')                    # 品種ごとに，
my_df = my_group.agg('mean')                          # 各変数の，平均と
my_se = my_group.agg(lambda x: x.std() / len(x)**0.5) # 標準誤差を求める．
my_se
#>             Sepal.Length  Sepal.Width  Petal.Length  Petal.Width
#> Species
#> setosa              0.05         0.05          0.02         0.01
#> versicolor          0.07         0.04          0.07         0.03
#> virginica           0.09         0.05          0.08         0.04

In [None]:
my_group.agg('mean').plot(kind='bar', yerr=my_se, capsize=5)

### 4.2.5 モザイクプロット

In [None]:
from statsmodels.graphics.mosaicplot \
    import mosaic

my_df = pd.DataFrame({
    'Species': iris.Species,
    'w_Sepal': iris['Sepal.Width'] > 3})

my_table = pd.crosstab( # 分割表
    my_df['Species'],
    my_df['w_Sepal'])
my_table
#> w_Sepal     False  True
#> Species
#> setosa          8     42
#> versicolor     42      8
#> virginica      33     17

mosaic(my_df,
       index=['Species', 'w_Sepal'])

In [None]:
my_table.columns = [str(x) for x in my_table.columns]
my_table.index   = [str(x) for x in my_table.index]
mosaic(my_df, index=['Species', 'w_Sepal'], labelizer=lambda k: my_table.loc[k])

### 4.2.6 関数のグラフ

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(-2, 2, 100)
y = x**3 - x
plt.plot(x, y)

### 4.2.7 ggplot2 (R)

## 4.3 乱数

In [None]:
import matplotlib.pyplot as plt
import numpy as np
rng = np.random.default_rng()

### 4.3.1 一様乱数（離散）

In [None]:
x = np.random.choice(
    a=range(1, 7), # 1から6
    size=10000,    # 乱数の数
    replace=True)  # 重複あり
# あるいは
x = np.random.randint(
# あるいは
#x = rng.integers(
    low=1,      # 最小
    high=7,     # 最大+1
    size=10000) # 乱数の数

plt.hist(x, bins=6) # ヒストグラム

### 4.3.2 一様乱数（連続）

In [None]:
x = np.random.random(size=1000)
# あるいは
x = rng.random(size=10000)
# あるいは
x = np.random.uniform(
    low=0,     # 最小
    high=1,    # 最大
    size=1000) # 乱数の数
plt.hist(x)

In [None]:
tmp = np.random.uniform(
    low=1,     # 最小
    high=7,    # 最大 + 1
    size=1000) # 乱数の数
x = [int(k) for k in tmp]
plt.hist(x, bins=6) # 結果は割愛

### 4.3.3 二項乱数

In [None]:
n = 100
p = 0.5
r = 10000
x = np.random.binomial(
# あるいは
#x = rng.binomial(
    n=n,    # 試行回数
    p=p,    # 確率
    size=r) # 乱数の数
plt.hist(x, bins=max(x) - min(x))

### 4.3.4 正規乱数

In [None]:
r = 10000
x = np.random.normal(
# あるいは
#x = rng.normal(
    loc=50,  # 平均
    scale=5, # 標準偏差
    size=r)  # 乱数の数
plt.hist(x, bins=40)

#### 4.3.4.1 補足：不偏性の具体例

In [None]:
import numpy as np
import pandas as pd

def f(k):
    n = 10000
    tmp = [g(np.random.normal(size=k, scale=3)) for _ in range(n)]
    return pd.Series([k,
                      np.mean(tmp),                  # 平均
                      np.std(tmp, ddof=1) / n**0.5], # 標準誤差
                     index=['k', 'mean', 'se'])

In [None]:
def g(x):
    return np.var(x, ddof=1)
pd.Series([10, 20, 30]).apply(f)
#>       k      mean        se
#> 0  10.0  9.025140  0.042690
#> 1  20.0  9.022280  0.029525
#> 2  30.0  8.983166  0.023584

In [None]:
def g(x):
    return np.std(x, ddof=1)
pd.Series([10, 20, 30]).apply(f)
#>       k      mean        se
#> 0  10.0  2.923114  0.006983
#> 1  20.0  2.961450  0.004811
#> 2  30.0  2.968328  0.003977

In [None]:
from math import gamma

def g(x):
    n = len(x)
    return (np.std(x, ddof=1) *
            (np.sqrt((n - 1) / 2) *
             gamma((n - 1) / 2) /
             gamma(n / 2)))
pd.Series([10, 20, 30]).apply(f)
#>       k      mean        se
#> 0  10.0  3.005788  0.007121
#> 1  20.0  3.001857  0.004894
#> 2  30.0  2.995965  0.003925

## 4.4 統計的推測

### 4.4.1 検定

In [None]:
from statsmodels.stats.proportion import binom_test, proportion_confint

binom_test(count=2,                 # 当たった回数
           nobs=15,                 # くじを引いた回数
           prop=4 / 10,             # 当たる確率（仮説）
           alternative='two-sided') # 両側検定（デフォルト）
                                    # 左片側検定なら'smaller'
                                    # 右片側検定なら'larger'
#> 0.03646166155263999

#### 4.4.1.1 補足：p値とは何か

In [None]:
import numpy as np
import pandas as pd
from scipy import stats

t = 4 / 10                        # 当たる確率
n = 15                            # くじを引いた回数
x = np.array(range(0, n + 1))     # 当たった回数
my_pr  = stats.binom.pmf(x, n, t) # x回当たる確率
my_pr2 = stats.binom.pmf(2, n, t) # 2回当たる確率

my_data = pd.DataFrame({'x': x, 'y1': my_pr, 'y2': my_pr})
my_data.loc[my_pr >  my_pr2, 'y1'] = np.nan # 当たる確率が，2回当たる確率超過
my_data.loc[my_pr <= my_pr2, 'y2'] = np.nan # 当たる確率が，2回当たる確率以下
ax = my_data.plot(x='x', style='o', ylabel='probability',
                  legend=False)         # 凡例を表示しない．
ax.hlines(y=my_pr2, xmin=0, xmax=15)    # 水平線
ax.vlines(x=x,      ymin=0, ymax=my_pr) # 垂直線

### 4.4.2 推定

In [None]:
a = 0.05
proportion_confint(
    count=2, # 当たった回数
    nobs=15, # くじを引いた回数
    alpha=a, # 有意水準（省略可）
    method='binom_test')
#> (0.024225732468536626,
#>  0.3967139842509865)

In [None]:
a = 0.05 # 有意水準
tmp = np.linspace(0, 1, 100)

my_df = pd.DataFrame({
    't': tmp,                                                  # 当たる確率
    'q': a,                                                    # 水平線
    'p': [binom_test(count=2, nobs=15, prop=t) for t in tmp]}) # p値

my_df.plot(x='t', legend=None, xlabel=r'$\theta$', ylabel=r'p-value')

### 4.4.3 平均の差の検定と推定（t検定）

In [None]:
from statsmodels.stats.weightstats import CompareMeans, DescrStatsW

X = [32.1, 26.2, 27.5, 31.8, 32.1, 31.2, 30.1, 32.4, 32.3, 29.9,
     29.6, 26.6, 31.2, 30.9, 29.3]
Y = [35.4, 34.6, 31.1, 32.4, 33.3, 34.7, 35.3, 34.3, 32.1, 28.3,
     33.3, 30.5, 32.6, 33.3, 32.2]

a = 0.05          # 有意水準（デフォルト） = 1 - 信頼係数
alt = 'two-sided' # 両側検定（デフォルト）
                  # 左片側検定なら'smaller'
                  # 右片側検定なら'larger'

d = DescrStatsW(np.array(X) - np.array(Y)) # 対標本の場合
d.ttest_mean(alternative=alt)[1]           # p値
#> 0.0006415571512322235

d.tconfint_mean(alpha=a, alternative=alt) # 信頼区間
#> (-3.9955246743198867, -1.3644753256801117)

In [None]:
c = CompareMeans(DescrStatsW(X), DescrStatsW(Y)) # 対標本でない場合

ve = 'pooled' # 等分散を仮定する（デフォルト）．仮定しないなら'unequal'．
c.ttest_ind(alternative=alt, usevar=ve)[1] # p値
#> 0.000978530937238609

c.tconfint_diff(alpha=a, alternative=alt, usevar=ve) # 信頼区間
#> (-4.170905570517185, -1.1890944294828283)

### 4.4.4 独立性の検定（カイ2乗検定）

In [None]:
import pandas as pd
my_url = ('https://raw.githubusercontent.com/taroyabuki'
          '/fromzero/master/data/smoker.csv')
my_data = pd.read_csv(my_url)

In [None]:
my_data.head()
#>   alive smoker
#> 0   Yes     No
#> 1   Yes     No
#> 2   Yes     No
#> 3   Yes     No
#> 4   Yes     No

In [None]:
my_table = pd.crosstab(
    my_data['alive'],
    my_data['smoker'])
my_table
#> smoker   No  Yes
#> alive
#> No      117   54
#> Yes     950  348

In [None]:
from scipy.stats import chi2_contingency
chi2_contingency(my_table, correction=False)[1]
#> 0.18860725715300422

### 4.4.5 ブートストラップ

#### 4.4.5.1 15回引いて2回当たったくじ

In [None]:
X = [0] * 13 + [1] * 2 # 手順1
X
#> [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1]

tmp = np.random.choice(X, 15, replace=True) # 手順2
tmp
#> array([0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0])

sum(tmp) # 手順3
#> 2

n = 10**5
result = [sum(np.random.choice(X, len(X), replace=True)) for _ in range(n)] # 手順4

In [None]:
import matplotlib.pyplot as plt
plt.hist(result, bins=range(0, 16))

In [None]:
np.quantile(result, [0.025, 0.975])
#> array([0., 5.])