[辻真吾・矢吹太朗『ゼロからはじめるデータサイエンス入門』（講談社, 2021）](https://github.com/taroyabuki/fromzero)




## 4.1 記述統計

In [None]:
import numpy as np
import pandas as pd

x = [165, 170, 175, 180, 185]
np.mean(x) # リストの場合

x = np.array( # アレイ
    [165, 170, 175, 180, 185])
x.mean() # np.mean(x)も可

x = pd.Series( # シリーズ
    [165, 170, 175, 180, 185])
x.mean() # np.mean(x)も可

In [None]:
n = len(x) # サンプルサイズ
sum(x) / n

In [None]:
y = [173, 174, 175, 176, 177]
np.mean(y)

In [None]:
np.var(x, ddof=1) # xの分散

np.var(y, ddof=1) # yの分散

In [None]:
sum((x - np.mean(x))**2) / (n - 1)

In [None]:
np.std(x, ddof=1) # xの標準偏差

np.std(y, ddof=1) # yの標準偏差

In [None]:
np.var(x, ddof=1)**0.5 # xの標準偏差

In [None]:
s = pd.Series(x)
s.describe()

In [None]:
# s.describe()で計算済み

In [None]:
x = [165, 170, 175, 180, 185]

np.var(x, ddof=1) # 不偏分散

np.var(x, ddof=0) # 標本分散

In [None]:
np.std(x, ddof=1) # √不偏分散

np.std(x, ddof=0) # √標本分散

In [None]:
np.std(x, ddof=1) / len(x)**0.5

In [None]:
import numpy as np
import pandas as pd

my_df = pd.DataFrame({
    'name':    ['A', 'B', 'C', 'D'],
    'english': [ 60,  90,  70,  90],
    'math':    [ 70,  80,  90, 100],
    'gender':  ['f', 'm', 'm', 'f']})

In [None]:
my_df['english'].var(ddof=1)
# あるいは
np.var(my_df['english'], ddof=1)


In [None]:
my_df.var()
# あるいは
my_df.apply('var')
# あるいは
my_df.iloc[:, [1, 2]].apply(
    lambda x: np.var(x, ddof=1))


In [None]:
my_df.describe()

In [None]:
from collections import Counter
Counter(my_df.gender)

# あるいは

my_df.groupby('gender').apply(len)

In [None]:
my_df2 = my_df.assign(
    excel=my_df.math >= 80)
pd.crosstab(my_df2.gender,
            my_df2.excel)

In [None]:
my_df.groupby('gender').mean()
# あるいは
my_df.groupby('gender').agg('mean')
# あるいは
my_df.groupby('gender').agg(np.mean)


## 4.2 データの可視化

In [None]:
import numpy as np
import pandas as pd
import statsmodels.api as sm
iris = sm.datasets.get_rdataset('iris', 'datasets').data
iris.head()

In [None]:
iris.hist('Sepal.Length')

In [None]:
my_df = pd.DataFrame(
    {'x': [10, 20, 30]})
my_df.hist('x', bins=2) # 階級数は2

In [None]:
x = iris['Sepal.Length']
tmp = np.linspace(min(x), max(x), 10)
iris.hist('Sepal.Length',
          bins=tmp.round(2))

In [None]:
iris.plot('Sepal.Length',
          'Sepal.Width',
          kind='scatter')

In [None]:
iris.boxplot()

In [None]:
pd.options.display.float_format = (
    '{:.2f}'.format)
my_df = (iris.describe().transpose()
    [['mean', 'std']])
my_df['se'] = (my_df['std'] /
               len(iris)**0.5)
my_df

In [None]:
my_df.plot(y='mean', kind='bar', yerr='se', capsize=10)

In [None]:
my_group = iris.groupby('Species')                    # 品種ごとに，
my_df = my_group.agg('mean')                          # 各変数の，平均と
my_se = my_group.agg(lambda x: x.std() / len(x)**0.5) # 標準誤差を求める．
my_se

In [None]:
my_group.agg('mean').plot(kind='bar', yerr=my_se, capsize=5)

In [None]:
from statsmodels.graphics.mosaicplot \
    import mosaic

my_df = pd.DataFrame({
    'Species': iris.Species,
    'w_Sepal': iris['Sepal.Width'] > 3})

my_table = pd.crosstab( # 分割表
    my_df['Species'],
    my_df['w_Sepal'])
my_table

mosaic(my_df,
       index=['Species', 'w_Sepal'])

In [None]:
my_table.columns = [str(x) for x in my_table.columns]
my_table.index   = [str(x) for x in my_table.index]
mosaic(my_df, index=['Species', 'w_Sepal'], labelizer=lambda k: my_table.loc[k])

In [None]:
import matplotlib.pyplot as plt
import numpy as np

x = np.linspace(-2, 2, 100)
y = x**3 - x
plt.plot(x, y)

## 4.3 乱数

In [None]:
import matplotlib.pyplot as plt
import numpy as np
rng = np.random.default_rng()

In [None]:
x = np.random.choice(
    a=range(1, 7), # 1から6
    size=10000,    # 乱数の数
    replace=True)  # 重複あり
# あるいは
x = np.random.randint(
# あるいは
#x = rng.integers(
    low=1,      # 最小
    high=7,     # 最大+1
    size=10000) # 乱数の数

plt.hist(x, bins=6) # ヒストグラム

In [None]:
x = np.random.random(size=1000)
# あるいは
x = rng.random(size=10000)
# あるいは
x = np.random.uniform(
    low=0,     # 最小
    high=1,    # 最大
    size=1000) # 乱数の数
plt.hist(x)

In [None]:
tmp = np.random.uniform(
    low=1,     # 最小
    high=7,    # 最大 + 1
    size=1000) # 乱数の数
x = [int(k) for k in tmp]
plt.hist(x, bins=6) # 結果は割愛

In [None]:
n = 100
p = 0.5
r = 10000
x = np.random.binomial(
# あるいは
#x = rng.binomial(
    n=n,    # 試行回数
    p=p,    # 確率
    size=r) # 乱数の数
plt.hist(x, bins=max(x) - min(x))

In [None]:
r = 10000
x = np.random.normal(
# あるいは
#x = rng.normal(
    loc=50,  # 平均
    scale=5, # 標準偏差
    size=r)  # 乱数の数
plt.hist(x, bins=40)

In [None]:
import numpy as np
import pandas as pd

def f(k):
    n = 10000
    tmp = [g(np.random.normal(size=k, scale=3)) for _ in range(n)]
    return pd.Series([k,
                      np.mean(tmp),                  # 平均
                      np.std(tmp, ddof=1) / n**0.5], # 標準誤差
                     index=['k', 'mean', 'se'])

In [None]:
def g(x):
    return np.var(x, ddof=1)
pd.Series([10, 20, 30]).apply(f)

In [None]:
def g(x):
    return np.std(x, ddof=1)
pd.Series([10, 20, 30]).apply(f)

In [None]:
from math import gamma

def g(x):
    n = len(x)
    return (np.std(x, ddof=1) *
            (np.sqrt((n - 1) / 2) *
             gamma((n - 1) / 2) /
             gamma(n / 2)))
pd.Series([10, 20, 30]).apply(f)

## 4.4 統計的推測

In [None]:
from statsmodels.stats.proportion import binom_test, proportion_confint

binom_test(count=2,                 # 当たった回数
           nobs=15,                 # くじを引いた回数
           prop=4 / 10,             # 当たる確率（仮説）
           alternative='two-sided') # 両側検定（デフォルト）
                                    # 左片側検定なら'smaller'
                                    # 右片側検定なら'larger'

In [None]:
import numpy as np
import pandas as pd
from scipy import stats

t = 4 / 10                        # 当たる確率
n = 15                            # くじを引いた回数
x = np.array(range(0, n + 1))     # 当たった回数
my_pr  = stats.binom.pmf(x, n, t) # x回当たる確率
my_pr2 = stats.binom.pmf(2, n, t) # 2回当たる確率

my_data = pd.DataFrame({'x': x, 'y1': my_pr, 'y2': my_pr})
my_data.loc[my_pr >  my_pr2, 'y1'] = np.nan # 当たる確率が，2回当たる確率超過
my_data.loc[my_pr <= my_pr2, 'y2'] = np.nan # 当たる確率が，2回当たる確率以下
ax = my_data.plot(x='x', style='o', ylabel='probability',
                  legend=False)         # 凡例を表示しない．
ax.hlines(y=my_pr2, xmin=0, xmax=15)    # 水平線
ax.vlines(x=x,      ymin=0, ymax=my_pr) # 垂直線

In [None]:
a = 0.05
proportion_confint(
    count=2, # 当たった回数
    nobs=15, # くじを引いた回数
    alpha=a, # 有意水準（省略可）
    method='binom_test')

In [None]:
a = 0.05 # 有意水準
tmp = np.linspace(0, 1, 100)

my_df = pd.DataFrame({
    't': tmp,                                                  # 当たる確率
    'q': a,                                                    # 水平線
    'p': [binom_test(count=2, nobs=15, prop=t) for t in tmp]}) # p値

my_df.plot(x='t', legend=None, xlabel=r'$\theta$', ylabel=r'p-value')

In [None]:
from statsmodels.stats.weightstats import CompareMeans, DescrStatsW

X = [32.1, 26.2, 27.5, 31.8, 32.1, 31.2, 30.1, 32.4, 32.3, 29.9,
     29.6, 26.6, 31.2, 30.9, 29.3]
Y = [35.4, 34.6, 31.1, 32.4, 33.3, 34.7, 35.3, 34.3, 32.1, 28.3,
     33.3, 30.5, 32.6, 33.3, 32.2]

a = 0.05          # 有意水準（デフォルト） = 1 - 信頼係数
alt = 'two-sided' # 両側検定（デフォルト）
                  # 左片側検定なら'smaller'
                  # 右片側検定なら'larger'

d = DescrStatsW(np.array(X) - np.array(Y)) # 対標本の場合
d.ttest_mean(alternative=alt)[1]           # p値

d.tconfint_mean(alpha=a, alternative=alt) # 信頼区間

In [None]:
c = CompareMeans(DescrStatsW(X), DescrStatsW(Y)) # 対標本でない場合

ve = 'pooled' # 等分散を仮定する（デフォルト）．仮定しないなら'unequal'．
c.ttest_ind(alternative=alt, usevar=ve)[1] # p値

c.tconfint_diff(alpha=a, alternative=alt, usevar=ve) # 信頼区間

In [None]:
import pandas as pd
my_url = ('https://raw.githubusercontent.com/taroyabuki'
          '/fromzero/master/data/smoker.csv')
my_data = pd.read_csv(my_url)

In [None]:
my_data.head()

In [None]:
my_table = pd.crosstab(
    my_data['alive'],
    my_data['smoker'])
my_table

In [None]:
from scipy.stats import chi2_contingency
chi2_contingency(my_table, correction=False)[1]

In [None]:
X = [0] * 13 + [1] * 2 # 手順1
X

tmp = np.random.choice(X, 15, replace=True) # 手順2
tmp

sum(tmp) # 手順3

n = 10**5
result = [sum(np.random.choice(X, len(X), replace=True)) for _ in range(n)] # 手順4

In [None]:
import matplotlib.pyplot as plt
plt.hist(result, bins=range(0, 16))

In [None]:
np.quantile(result, [0.025, 0.975])