# 第3部　記述統計

## 4章　1変量データの統計量

### 実装：分析の準備

In [1]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd

# 複雑な統計処理を行うライブラリ
from scipy import stats

In [2]:
# 表示設定(書籍本文のレイアウトと合わせるためであり、必須ではありません)
np.set_printoptions(linewidth=60)

### 分析対象となるデータの用意

#### numpyアレイで用意

In [3]:
fish_length = np.array([2,3,3,4,4,4,4,5,5,6])
fish_length

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

#### CSVファイルから読み込み

In [4]:
# データの読み込み
fish_length_df = pd.read_csv('3-4-1-fish-length.csv')
print(fish_length_df)

   length
0       2
1       3
2       3
3       4
4       4
5       4
6       4
7       5
8       5
9       6


#### データフレームとアレイの変換

In [5]:
# データフレームもアレイに変換できる
fish_length_df.length.to_numpy() == fish_length

array([ True,  True,  True,  True,  True,  True,  True,
        True,  True,  True])

### 実装：サンプルサイズ

In [6]:
# サンプルサイズ
len(fish_length)

10

In [7]:
# サンプルサイズ(データフレームの行数)
len(fish_length_df)

10

### 実装：合計値

#### 基本的な計算方法

In [8]:
# 合計
np.sum(fish_length)

40

In [9]:
# 合計
np.sum(fish_length_df)

length    40
dtype: int64

#### その他の計算方法

In [10]:
# アレイが持つsum関数を実行
fish_length.sum()

40

In [11]:
# データフレームが持つ関数を実行
fish_length_df.sum()

length    40
dtype: int64

### 実装：標本平均

#### 計算方法の確認

In [12]:
# サンプルサイズ
n = len(fish_length)
n

10

In [13]:
# 合計値
sum_value = np.sum(fish_length)
sum_value

40

In [14]:
# 平均値の計算
x_bar = sum_value / n
x_bar

4.0

#### 関数を使った効率的な実装

In [15]:
# 関数を使った平均値の計算
np.mean(fish_length)

4.0

### 実装：標本分散

#### 計算方法の確認

In [16]:
# 標本分散
s2 = np.sum((fish_length - x_bar) ** 2) / n
s2

1.2

#### 実装コードの解読

In [17]:
fish_length

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [18]:
fish_length - x_bar

array([-2., -1., -1.,  0.,  0.,  0.,  0.,  1.,  1.,  2.])

In [19]:
(fish_length - x_bar) ** 2

array([4., 1., 1., 0., 0., 0., 0., 1., 1., 4.])

In [20]:
np.sum((fish_length - x_bar) ** 2)

12.0

#### 関数を使った効率的な実装

In [21]:
# 関数を使った標本分散
np.var(fish_length, ddof=0)

1.2

### 実装：不偏分散

#### 計算方法の確認

In [22]:
# 不偏分散
u2 = np.sum((fish_length - x_bar) ** 2) / (n - 1)
u2

1.3333333333333333

In [23]:
# 小数点以下第3位で丸める
round(u2, 3)

1.333

#### 関数を使った効率的な実装

In [24]:
# 不偏分散
round(np.var(fish_length, ddof=1), 3)

1.333

#### ライブラリの違いに注意

In [25]:
# numpy(標準は標本分散)
np.var(fish_length_df)

length    1.2
dtype: float64

In [26]:
# pandas(標準は不偏分散)
fish_length_df.var()

length    1.333333
dtype: float64

In [27]:
# ddofを指定
fish_length_df.var(ddof=0)

length    1.2
dtype: float64

In [28]:
# 参考：ライブラリのバージョン(書籍には載っていないコードです)
print('numpyのバージョン', np.__version__)
print('pandasのバージョン', pd.__version__)

numpyのバージョン 1.20.3
pandasのバージョン 1.3.4


### 実装：標準偏差

#### 計算方法の確認

In [29]:
# 標準偏差
s = np.sqrt(s2)
round(s, 3)

1.095

#### 関数を使った効率的な実装

In [30]:
# 関数を使った標準偏差
round(np.std(fish_length, ddof=0), 3)

1.095

### 実装：変動係数

#### 計算方法の確認

In [31]:
cv = s / x_bar
round(cv, 3)

0.274

#### 関数を使った効率的な実装

In [32]:
round(stats.variation(fish_length), 3)

0.274

In [33]:
# 不偏分散を使った変動係数の計算
round(stats.variation(fish_length, ddof=1), 3)

0.289

In [34]:
# 参考：不偏分散を使った変動係数の計算(書籍には載っていないコードです)
round(np.sqrt(u2) / x_bar, 3)

0.289

In [35]:
# 参考：ライブラリのバージョン(書籍には載っていないコードです)
import scipy
print(scipy.__version__)

1.7.1


#### 変動係数を使う注意点

In [36]:
# 冬の気温と夏の気温
winter = np.array([1,1,1,2,2,2])
summer = np.array([29,29,29,30,30,30])

In [37]:
# 標準偏差の比較
print('冬の気温の標準偏差：', np.std(winter, ddof=0))
print('夏の気温の標準偏差：', np.std(summer, ddof=0))

冬の気温の標準偏差： 0.5
夏の気温の標準偏差： 0.5


In [38]:
# 変動係数の比較
print('冬の気温の変動係数：', round(stats.variation(winter), 3))
print('夏の気温の変動係数：', round(stats.variation(summer), 3))

冬の気温の変動係数： 0.333
夏の気温の変動係数： 0.017


### 実装：標準化

#### 計算方法の確認

In [39]:
z = (fish_length - x_bar) / s
np.round(z, 3)

array([-1.826, -0.913, -0.913,  0.   ,  0.   ,  0.   ,
        0.   ,  0.913,  0.913,  1.826])

In [40]:
# z得点の平均値はほぼ0
np.mean(z)

2.2204460492503132e-17

In [41]:
# z得点の標準偏差はほぼ1
np.std(z, ddof=0)

1.0

#### 関数を使った効率的な実装

In [42]:
np.round(stats.zscore(fish_length, ddof=0), 3)

array([-1.826, -0.913, -0.913,  0.   ,  0.   ,  0.   ,
        0.   ,  0.913,  0.913,  1.826])

### 実装：最大値と最小値

In [43]:
# 最小
np.amin(fish_length)

2

In [44]:
# 最大
np.amax(fish_length)

6

### 実装：中央値

#### 中央値の実装

In [45]:
# 中央値
np.median(fish_length)

4.0

#### 平均値と中央値の違い

In [46]:
# 外れ値のあるデータ
fish_length_2 = np.array([2,3,3,4,4,4,4,5,5,100])

In [47]:
# 平均値と中央値の比較
print('平均値：', np.mean(fish_length_2))
print('中央値：', np.median(fish_length_2))

平均値： 13.4
中央値： 4.0


### 実装：四分位点

In [48]:
print('第1四分位点', np.quantile(fish_length, q=0.25))
print('第3四分位点', np.quantile(fish_length, q=0.75))

第1四分位点 3.25
第3四分位点 4.75


In [49]:
# 別のデータを利用
fish_length_3 = np.arange(0, 101, 1)
fish_length_3

array([  0,   1,   2,   3,   4,   5,   6,   7,   8,   9,
        10,  11,  12,  13,  14,  15,  16,  17,  18,  19,
        20,  21,  22,  23,  24,  25,  26,  27,  28,  29,
        30,  31,  32,  33,  34,  35,  36,  37,  38,  39,
        40,  41,  42,  43,  44,  45,  46,  47,  48,  49,
        50,  51,  52,  53,  54,  55,  56,  57,  58,  59,
        60,  61,  62,  63,  64,  65,  66,  67,  68,  69,
        70,  71,  72,  73,  74,  75,  76,  77,  78,  79,
        80,  81,  82,  83,  84,  85,  86,  87,  88,  89,
        90,  91,  92,  93,  94,  95,  96,  97,  98,  99,
       100])

In [50]:
# サンプルサイズ
len(fish_length_3)

101

In [51]:
print('第1四分位点', np.quantile(fish_length_3, q=0.25))
print('第3四分位点', np.quantile(fish_length_3, q=0.75))

第1四分位点 25.0
第3四分位点 75.0


In [52]:
# 中央値
print('中央値：', np.median(fish_length_3))
print('50%点 ：', np.quantile(fish_length_3, q=0.5))

中央値： 50.0
50%点 ： 50.0


### 実装：最頻値

In [53]:
# 元のデータ
fish_length

array([2, 3, 3, 4, 4, 4, 4, 5, 5, 6])

In [54]:
# 最頻値
stats.mode(fish_length)

ModeResult(mode=array([4]), count=array([4]))

In [55]:
# 度数が同じなら、小さい値が出力される
stats.mode(np.array([1,1,1,1,2,3,3,3,3]))

ModeResult(mode=array([1]), count=array([4]))

### 実装：pandasのdescribe関数の利用

In [56]:
# 統計量をまとめて算出
print(fish_length_df.describe())

          length
count  10.000000
mean    4.000000
std     1.154701
min     2.000000
25%     3.250000
50%     4.000000
75%     4.750000
max     6.000000
