<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/main/MVA2024_ex10notebookB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2024 ex09notebookC

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2024

----
## 演習課題: データに正規分布を当てはめてみよう
---

<b><font color="#ff0000">
注意:
今回の notebook の中には，コードセルを実行すると問題の解答が表示されるようになっている箇所があります．
</font>
</b>

In [None]:
# 必要なパッケージのインポート
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn
seaborn.set()

# SciPy の 統計関数群の中の正規分布モジュール (scipy.stats.norm) と多変量正規分布モジュール (scipy.stats.multivariate_normal)
from scipy.stats import norm, multivariate_normal

# NumPy の 疑似乱数生成器（rng = random number generator）
from numpy.random import default_rng
rng = default_rng() # 疑似乱数生成器を初期化

# 「解答」を示す際に文字列を復号するのに使う
import base64
# 復号した文字列を Markdown 形式で（数式は LaTeX でフォーマットして）表示
from IPython.display import display, Markdown

---
### データの準備

In [None]:
##### CSV ファイルを読み込む #####
URL = 'https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA2024-QvsE1107.csv'
df = pd.read_csv(URL, index_col=0)
X = df.to_numpy()
N, D = X.shape
print(f'N = {N}, D = {D}')
df

これは，この授業の第7回までの Quiz の得点率 [%]（Quiz）と，先日の小テストの得点率 [%]（Exam）のデータです．小テスト受験者の分のみ含んでいます．

散布図を描くと次のようになります．

In [None]:
fig, ax = plt.subplots(1, figsize=(5, 5))
ax.scatter(X[:, 0], X[:, 1], s=10)
ax.set_xlim(-10, 110)
ax.set_ylim(-10, 110)
ax.axhline(0, color='gray')
ax.axvline(0, color='gray')
ax.set_xlabel('Quiz')
ax.set_ylabel('Exam')
ax.set_aspect('equal')
plt.show()

---
### 平均と分散共分散行列を推定する

「データの準備」のところで読み込んだ Quiz vs Exam のデータが2次元の正規分布から得られた標本であると仮定して，この正規分布パラメータを最尤推定してみましょう．
つまり，標本平均と標本分散共分散行列を求めましょう．


データは `X` という名前の NumPy array に格納されています．
また，`N` と `D` がデータの数（サンプルサイズ）と次元数を表します．

In [None]:
print('(X の最初の5行) = ')
print(X[:5, :])
print(X.shape)
print(f'N = {N}, D = {D}')

#### 問題1

(1) 次のコードセルに，`X` の行方向の平均（Quizの平均とExamの平均）を求めて `mu` という変数に代入し，それを print するコードを書きなさい．NumPy の関数 np.mean を用いること．オプション引数 `axis` の指定が必要ですね．

In [None]:
# このセルを実行すると上記の解答例を表示します
Q = b'CmBgYAptdSA9IG5wLm1lYW4oWCwgYXhpcz0wKQpwcmludChtdSkKYGBgCg=='
display(Markdown(base64.b64decode(Q).decode('utf-8')))

(2) 次のコードセルに，`X` の分散共分散行列を求めて `cov` という変数に代入し，それを print するコードを書きなさい．NumPy の関数を使うこともできますが，ここでは，次のヒントを参考にして自分で式を書いてみましょう．

［ヒント］ ベクトルを **列ベクトル** として扱うものとして，$N$ 個の $D$ 次元列ベクトルを $\pmb{x}_1, \pmb{x}_2, \ldots, \pmb{x}_N$ とおき，$\pmb{\mu} = \frac{1}{N}\sum_{n=1}^N \pmb{x}_n$ とする．これらの分散共分散行列を $\Sigma$ とおくと，

$$
\Sigma = \frac{1}{N}\sum_{n=1}^N (\pmb{x}_n - \pmb{\mu}) (\pmb{x}_n - \pmb{\mu})^{\top}
$$

である．このとき，$D \times N$ 行列 $X'$ を $X' = \begin{pmatrix} \pmb{x}_1 - \pmb{\mu} & \pmb{x}_2 - \pmb{\mu} & \cdots & \pmb{x}_N - \pmb{\mu} \end{pmatrix}$ とおくと，

$$
\Sigma = \frac{1}{N} X' X'^{\top}
$$

となる．この notebook では，ベクトルを **行ベクトル** として扱い，変数 `X` は $\pmb{x}_1, \ldots, \pmb{x}_N$ をならべた $N \times D$ 行列を表している．この場合，`X - mu` が上記の行列 $X'$ に対応する．

In [None]:
# このセルを実行すると上記の解答例を表示します
Q = b'CmBgYApYZCA9IFggLSBtdQpjb3YgPSBYZC5UIEAgWGQgLyBOCnByaW50KGNvdikKYGBgCg=='
display(Markdown(base64.b64decode(Q).decode('utf-8')))

`X` に格納されている値は，0 列目が Quiz，1列目が Exam ですので，`cov[0, 0]` が Quiz の分散，`cov[1, 1]` が Exam の分散，`cov[0, 1]` と `cov[1, 0]` が Quiz と Exam の共分散を表します．したがって，両者の相関係数は次のように計算できます．


In [None]:
rho = cov[0, 1] / np.sqrt(cov[0, 0]*cov[1, 1])
print(rho)

### 散布図に確率密度関数を重ねて描画する

上で求めた平均と分散共分散行列は，Quiz vs Exam のデータが2次元正規分布から得られていると仮定したときに，そのパラメータ（平均と分散共分散行列）を最尤推定によって求めたものとなっています．
得られた正規分布の確率密度関数を $f(\mathbf{x})$ とおくとき，いくつかの定数 $c$ に対して $f(\mathbf{x}) = c$ となる点の座標を求め，データの散布図に重ねて描いてみると，次のようになります．



In [None]:
# 平均 mu 分散共分散行列 cov に従う正規乱数でデータを生成
#samples = rng.multivariate_normal(mu, cov, size=500)

# 確率密度描画のためのグリッドデータの作成
xmin, xmax = -10, 110
xx, yy = np.mgrid[xmin:xmax:1.0, xmin:xmax:1.0]
zz = multivariate_normal.pdf(np.dstack((xx, yy)), mean=mu, cov=cov)

# データの散布図と正規分布の確率密度関数を重ねて描く
fig, ax = plt.subplots(figsize=(5, 5))
ax.scatter(X[:, 0], X[:, 1], s=10)
ax.contour(xx, yy, zz, colors=['#ffa0a0', '#ff5050', '#ff0000'], levels=[0.00002, 0.0001, 0.0005])
ax.plot(mu[0], mu[1], '+', markersize=16, color='r')
ax.axvline(mu[0], linestyle='dotted', color='gray')
ax.axhline(mu[1], linestyle='dotted', color='gray')
ax.axvline(0, color='gray')
ax.axhline(0, color='gray')
ax.set_xlim(xmin, xmax)
ax.set_ylim(xmin, xmax)
ax.set_xlabel('Quiz')
ax.set_ylabel('Exam')
ax.set_aspect('equal')
plt.show()

### 乱数データに正規分布を当てはめてみる

上の例では，実在の，正規分布から得られたかどうかが定かでないデータに正規分布を当てはめる（正規分布のパラメータを推定する）実験を行いました．
ここでは，疑似乱数によって正規分布に従うデータを生成し，そのパラメータを推定する実験を行ってみましょう．この場合，データの生成に用いたパラメータ（真のパラメータと呼ぶことにします）が分かっているので，推定されたパラメータの正しさを評価することができます．

推定に用いるデータ数（サンプルサイズ）の多い少ないは，推定の正しさに影響するでしょうか？

In [None]:
#@title 問題2
#@markdown 問題文はこのセルの下にあります．
N = 10  #@param [10, 100, 1000] {type: "raw"}

# 真の（母集団の）平均と分散
mu, sig2 = 3, 4

# 平均 mu, 分散 sig2 に従う正規乱数の標本を N 個抽出
X = np.sqrt(sig2) * rng.standard_normal(N) + mu

# 平均と分散を推定
mu_est   = np.mean(X)
sig2_est = np.var(X)

# 標本のヒストグラムと推定された正規分布を描く
xmin, xmax = mu - 5*np.sqrt(sig2), mu + 5*np.sqrt(sig2)
xx = np.linspace(xmin, xmax, num=100)
fig, ax = plt.subplots(1, figsize=(6, 4))

# ヒストグラム
ax.hist(X, density=True)

# 真の正規分布
px = norm.pdf(xx, loc=mu, scale=np.sqrt(sig2))
ax.plot(xx, px, linewidth=3, color='#0000ff', label='true')
ax.axvline(mu, color='#0000ff', linestyle='--')

# 推定された正規分布
px = norm.pdf(xx, loc=mu_est, scale=np.sqrt(sig2_est))
ax.plot(xx, px, linewidth=3, color='red', label='estimated')
ax.axvline(mu_est, color='#ff0000', linestyle='--')

#ax.axvline(0, color='gray')
ax.set_xlim(xmin, xmax)
ax.set_ylim(0, 0.4)
ax.legend()
plt.show()
print(f'N = {N}')
print(f'真の平均: {mu:.2f} 推定された平均: {mu_est:.2f}')
print(f'真の分散: {sig2:.2f} 推定された分散: {sig2_est:.2f}')

上のセルを実行すると，1次元正規乱数の標本からその正規分布の平均と分散を推定します．
青色が真の分布の確率密度関数を，赤色がデータから推定された分布の確率密度関数を表します．
`N`はサンプルサイズを表します．次のことをやりましょう：

(1) `N` を 10 として，セルを実行し，結果を観察しましょう．同じ `N` でも実行のたびに乱数値が変わるので，何度も実行してみましょう．

(2) `N` を 100 や 1000 にして (1) と同様のことをやりましょう．

観察結果をふまえて，次の質問に対する答えを考えなさい．

「推定の良さとサンプルサイズの間に関係はありそうか？サンプルサイズが大きい場合と小さい場合では，どちらのほうが真のパラメータ値に近い推定値が得られそうか？」


次のコードセルは，上と同様の実験を2次元正規分布で行うものです．

In [None]:
N = 20  #@param [20, 200, 2000] {type: "raw"}

# 真の（母集団の）平均と分散
mu  = np.array([7, 5])
cov = np.array([[6, -2],
                [-2, 3]])

# 平均 mu, 共分散 cov に従う正規乱数の標本を N 個抽出
X = rng.multivariate_normal(mu, cov, size=N)

# 平均と分散を推定
mu_est  = np.mean(X, axis=0)
XX = X - mu_est
cov_est = XX.T @ XX / N

# 散布図
fig, ax = plt.subplots(figsize=(5, 5))
xmin, xmax = -5, 15
ymin, ymax = -5, 15
ax.scatter(X[:, 0], X[:, 1], s=10)

# 真の正規分布
xx, yy = np.mgrid[xmin:xmax:0.1, ymin:ymax:0.1]
zz = multivariate_normal.pdf(np.dstack((xx, yy)), mu ,cov)
ax.contour(xx, yy, zz, linewidths=3, colors=['#a0a0ff', '#0000ff'], levels=[0.002, 0.02])

# 推定された正規分布
zz = multivariate_normal.pdf(np.dstack((xx, yy)), mu_est ,cov_est)
ax.contour(xx, yy, zz, linewidths=3, colors=['#ffa0a0', '#ff0000'], levels=[0.002, 0.02])

ax.axhline(0, color='gray')
ax.axvline(0, color='gray')
ax.set_xlim(xmin, xmax)
ax.set_ylim(ymin, ymax)
ax.set_aspect('equal')
plt.show()

print(f'N = {N}')
print(f'真の平均: {mu} 推定された平均: {mu_est}')
print('真の分散共分散行列')
print(cov)
print('推定された分散共分散行列')
print(cov_est)


観察結果をふまえて，上の問題と同じ質問に対する答えを考えましょう．


---
### 1次元正規分布のパラメータの最尤推定の解を導出してみよう

#### 問題3

(1) notebookA の式$(*)$ を $\mu$ で微分したもの，つまり $\frac{\partial L}{\partial \mu}$ を求めなさい．

(2) $\frac{\partial L}{\partial \mu} = 0$ を $\mu$ について解いて，notebookA の式$(1)$が得られることを示しなさい．

(3) notebookA の式$(*)$ を $\sigma^2$ で微分したもの，つまり $\frac{\partial L}{\partial \sigma^2}$ を求めなさい．ここでは，$\sigma$ではなく$\sigma^2$ をひとかたまりの変数として扱っていることに注意．

(4) $\frac{\partial L}{\partial \sigma^2} = 0$ を $\sigma^2$ について解いて，notebookA の式$(2)$が得られることを示しなさい．

In [None]:
# このセルを実行すると上記の略解を表示します
Q = b'CigxKQokJApcYmVnaW57YWxpZ25lZH0KXGZyYWN7XHBhcnRpYWwgTH17XHBhcnRpYWwgXG11fSAmPSAtXGZyYWN7Mn17MlxzaWdtYV4yfVxzdW1fe249MX1ee059KHhfbiAtIFxtdSkoLTEpID0gXGZyYWN7MX17XHNpZ21hXjJ9XHN1bV97bj0xfV57Tn0oeF9uIC0gXG11KVxcCiY9IFxmcmFjezF9e1xzaWdtYV4yfVxsZWZ0KFxzdW1fe249MX1ee059eF9uIC0gTlxtdVxyaWdodCkKXGVuZHthbGlnbmVkfQokJAoKKDIpIOecgeeVpQoKKDMpCiQkClxiZWdpbnthbGlnbmVkfQpcZnJhY3tccGFydGlhbCBMfXtccGFydGlhbCBcc2lnbWFeMn0gJj0gLVxmcmFje059ezJ9XGZyYWN7MX17XHNpZ21hXjJ9ICsgXGZyYWN7MX17Mihcc2lnbWFeMileMn1cc3VtX3tuPTF9XntOfSh4X24gLSBcbXUpXjIgXFwKJj0gXGZyYWN7MX17Mihcc2lnbWFeMileMn1cbGVmdChcc3VtX3tuPTF9XntOfSh4X24gLSBcbXUpXjIgLSBOXHNpZ21hXjJccmlnaHQpIFxcClxlbmR7YWxpZ25lZH0KJCQKCig0KSDnnIHnlaUK'
display(Markdown(base64.b64decode(Q).decode('utf-8')))