# 統計学入門 練習問題


## 1章 

## 1-1
- 日本の人口
- 日本の国家予算(一般会計)
- 日本の国民総生産




## 2章 記述統計学のキーワード
- 階級, 度数分布表, 累積(相対)度数, ヒストグラム
- ローレンツ曲線とジニ係数
- 測定の尺度
    - 名義尺度, 順序尺度, 間隔尺度, 比例尺度
- 代表値
    - 平均値, 中央値, 最頻値, 第一四分位数, 第三四分位数, 最大値, 最小値
- 散らばりの尺度
    - 範囲, 四分位範囲, 平均偏差, 分散, 変動係数, 標準化, 偏差値
- 右裾分布の特徴: Mean > Medeian > Mode (アルファベット順で覚える)

### 算術平均(よくある平均)
$$ \bar{x} = \frac{x_1 + x_2 + \cdots +x_n}{n} $$

### 幾何平均(割合の平均)
$$ x_G = (x_1 * x_2 * \cdots * x_n )^\frac{1}{n} $$

### 調和平均(平均時速など)
$$ \frac{1}{x_H} = \frac{1}{n}(\frac{1}{x_1} + \frac{1}{x_2} + \cdots + \frac{1}{x_n}) $$

### 分散と標準偏差
$$ S^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2, \quad S_x = \sqrt{S_x^2} $$

### 変動係数
$$ CV = \frac{S_x}{\bar{x}} $$

### 標準化
$$ z_i = \frac{x_i - \bar{x}}{S_x} $$

### 偏差値
$$ T_i = 10 z_i + 50 $$


## 2-2
- 平均差
$$ \sum_i \sum_j \frac{|x_i - x_j|}{n^2} $$
- ジニ係数
$$
GI = \sum_i \sum_j \frac{|x_i - x_j|}{2 n^2 \bar{x}}
$$


In [90]:
import pandas as pd
from itertools import product, permutations
import numpy as np

DATA = {
    'A': [0, 3, 3, 5, 5, 5, 5, 7, 7, 10],
    'B': [0, 1, 2, 3, 5, 5, 7, 8, 9, 10],
    'C': [3, 4, 4, 5, 5, 5, 5, 6, 6, 7],
}

df = pd.DataFrame(DATA)
df.describe()

Unnamed: 0,A,B,C
count,10.0,10.0,10.0
mean,5.0,5.0,5.0
std,2.708013,3.464102,1.154701
min,0.0,0.0,3.0
25%,3.5,2.25,4.25
50%,5.0,5.0,5.0
75%,6.5,7.75,5.75
max,10.0,10.0,7.0


In [89]:
# pandas と numpy の標準偏差の自由度が異なる
print(np.std(df['A']), df['A'].std())
# 自由度を指定しておけば間違える心配は無い
print(np.std(df['A'], ddof=0), df['A'].std(ddof=0))

2.569046515733026 2.70801280154532
2.569046515733026 2.569046515733026


In [81]:

# 平均差
for t in df.columns:
    total = 0
    for i, j in list(permutations(df[t], 2)):
        total += np.abs(i-j)
    meanDifference = total / (df[t].count()**2)
    print(f'平均差 {t} = {meanDifference:.03f}')
    
# ジニ係数
for t in df.columns:
    total = 0
    for i, j in list(permutations(df[t], 2)):
        total += np.abs(i-j)
    meanDifference = total / (2 * df[t].mean() * (df[t].count()**2))
    print(f'ジニ係数 {t} = {meanDifference:.03f}')

平均差 A = 2.760
平均差 B = 3.760
平均差 C = 1.200
ジニ係数 A = 0.276
ジニ係数 B = 0.376
ジニ係数 C = 0.120


## 2-3
