# 第14章　NumPy：基本とシミュレーション

## はじめに

In [None]:
%pip install -q japanize-matplotlib-jlite
import japanize_matplotlib_jlite
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

## `NumPy`：`array`（配列）

### 配列の作成方法

コード14.2.1

In [None]:
l0 = [0, 1, 2, 3, 4]
arr0 = np.array(l0)
arr0

コード14.2.2

In [None]:
l1 = [5, 6, 7, 8, 9]
l2 = [10, 11, 12, 13, 14]
l3 = [15, 16, 17, 18, 19]
lst = [l0, l1, l2, l3]
arr1 = np.array(lst)
arr1

コード14.2.3

In [None]:
print( "arr0:", arr0.ndim )
print( "arr1:", arr1.ndim )

コード14.2.4

In [None]:
print( "arr0:", arr0.shape )
print( "arr1:", arr1.shape )

コード14.2.5

In [None]:
arr2 = np.array([l0])
print( arr2.shape )
arr2

### 一つの要素の抽出方法

コード14.2.6

In [None]:
print(arr0[2])

コード14.2.7

In [None]:
print(arr1[2, -1])

コード14.2.8

In [None]:
print( arr2[0, 1] )

### スライシングによる要素抽出

コード14.2.9

In [None]:
arr0[1:-1]

コード14.2.10

In [None]:
arr1[:, 1:3]

### リストを使う要素抽出

コード14.2.11

In [None]:
lst0 = [1, 3, -1]

arr0[lst0]

コード14.2.12

In [None]:
lst_row = [0, 2, -1]
lst_col = [0, 2, -1]
arr1[lst_row, lst_col]

## ベクトル化演算

コード14.3.1

In [None]:
m1 = np.array([[1, 1],
               [2, 2]])

コード14.3.2

In [None]:
m2 = np.array([[3, 3],
               [4, 4]])

コード14.3.3

In [None]:
m1 + m2

コード14.3.4

In [None]:
m1 - m2

コード14.3.5

In [None]:
m1 ** 2

コード14.3.6

In [None]:
m1 * m2

コード14.3.7

In [None]:
m2 / m1

コード14.3.8

In [None]:
0.5 * m2
# m2 / 2

コード14.3.9

In [None]:
np.log(m1)

コード14.3.10

In [None]:
np.exp(m1)

コード14.3.11

In [None]:
0.5 * m1 * ( ( np.exp(m2)+1 ) ** 2 - 1 ) + 2 * m1 * np.log(m2)

### ブロードキャスト

コード14.3.12

In [None]:
m = np.array([[1, 2],
              [10, 20]])
10 + m

コード14.3.13

In [None]:
a = np.array([1, 2])
m - a

## ランダム変数

### `np.random`モジュール

コード14.4.1

In [None]:
rng = np.random.default_rng(123)

### 正規分布

コード14.4.2

In [None]:
rng.normal(1, 5, size=2)

コード14.4.3

In [None]:
rng.normal( size=(2,4) )

コード14.4.4

In [None]:
val = rng.normal( size=100_000 )

plt.hist(val, bins=50,
         color="black",
         edgecolor="white",
         density=True)
plt.xlabel("生成されたランダム変数",
           size=14)
plt.ylabel("相対頻度", size=14)
plt.title("標準正規分布", size=17)
plt.show()

コード14.4.5

In [None]:
val = rng.normal( size=(200, 2) )
val0 = val[:,0]
val1 = val[:,1]
vals = 1.5 * val0 + val1

plt.scatter(val0, vals,
            color="white",
            edgecolor="black")
plt.xlabel("val0", size=18)
plt.ylabel("vals", size=18)
plt.show()

### 一様分布

コード14.4.6

In [None]:
rng.uniform(-5, 5, size=2)

コード14.4.7

In [None]:
val = rng.uniform( size=100_000 )

plt.hist(val, bins=50,
         color="black",
         edgecolor="white")
plt.xlabel("生成されたランダム変数", size=14)
plt.ylabel("頻度", size=14)
plt.title("連続一様分布", size=17)
plt.show()

## 統計関連の関数

### 例

コード14.5.1

In [None]:
dic = {"x":[1, 2, 3, np.nan],
       "y":[4, -1, 6, 8]}
df_nan = pd.DataFrame(dic)
df_nan

コード14.5.2

In [None]:
df = df_nan.dropna()
df

コード14.5.3

In [None]:
arr_nan = df_nan.to_numpy()
arr_nan

コード14.5.4

In [None]:
arr = df.to_numpy()
arr

### 算術平均・標準偏差・分散

コード14.5.5

In [None]:
print( arr.mean() )

コード14.5.6

In [None]:
print( arr.mean(axis=0) )

コード14.5.7

In [None]:
print(
    arr_nan.mean(axis=0)
)

コード14.5.8

In [None]:
df.mean()

コード14.5.9

In [None]:
print(
    arr.var(axis=0, ddof=1)
)

コード14.5.10

In [None]:
print(
    arr.std(axis=0, ddof=1)
)

コード14.5.11

In [None]:
df.var()

コード14.5.12

In [None]:
df.std()

## シミュレーション：最小二乗法

### 目的

### 不偏性が成立するための条件

### シミュレーションの進め方

### シミュレーション

コード14.6.1

In [None]:
def create_samples(n=30, N=100_000, su=2, seed=None):
    """
    引数：
        n：標本の大きさ
        N：標本数
        s：誤差項の標準偏差
        seed：シード値
    戻り値：
        x：説明変数（二次元配列）
        y：被説明変数（二次元配列）
    """

    # 真の値 -------------------------------
    alpha, beta = 1, 2

    # 標本の生成 ---------------------------
    rng = np.random.default_rng(seed)

    # 説明変数（各列が1つの標本）, shape = (n,N)
    x = rng.uniform(5, 30, size=(n, N))

    # 誤差項（各列が1つの標本に対応する）, shape = (n,N)
    u = rng.normal(loc=0, scale=su, size=(n, N))

    # 被説明変数（各列が1つの標本）, shape = (n,N)
    y = alpha + beta * x + u

    return x, y

コード14.6.2

In [None]:
def estimate_ab(x, y):
    """
    引数：
        x：説明変数（二次元配列）
        y：被説明変数（二次元配列）
    戻り値：
        ahat：定数項の推定値（一次元配列）
        bhat：スロープ係数の推定値（一次元配列）
    """

    # 平均（各標本ごと：合計N個）--------------
    x_mean = x.mean(axis=0)  # shape = (N,)
    y_mean = y.mean(axis=0)  # shape = (N,)

    # 偏差： shape = (n,N) ----------------
    x_dev = x - x_mean
    y_dev = y - y_mean

    # 推定値（N個）, shape = (N,) ----------
    bhat = (
             ( y_dev * x_dev ).sum(axis=0) /
             ( x_dev**2 ).sum(axis=0)
           )
    ahat = y_mean - bhat * x_mean

    return ahat, bhat

コード14.6.3

In [None]:
x_sample, y_sample = create_samples(seed=123)
ahat, bhat = estimate_ab(x_sample, y_sample)

コード14.6.4

In [None]:
plt.hist(ahat, bins=50,
         color="black",
         edgecolor="white")

plt.xlabel("ahat", size=14)
plt.ylabel("頻度", size=14)
plt.title("定数項の推定値", size=17)
plt.show()

コード14.6.5

In [None]:
plt.hist(bhat, bins=50,
         color="black",
         edgecolor="white")

plt.xlabel("bhat", size=14)
plt.ylabel("頻度", size=14)
plt.title("スロープ係数の推定値", size=17)
plt.show()

コード14.6.6

In [None]:
print(f"定数項: {ahat.mean()}")
print(f"スロープ係数: {bhat.mean()}")