<a href="https://colab.research.google.com/github/takatakamanbou/MVA/blob/2023/ex07notebookC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# MVA2023 ex07notebookC

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA-logo.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?MVA/2023

In [None]:
# 必要なパッケージのインポート
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn
seaborn.set()

from scipy.stats import multivariate_normal

----
## データを観察しよう



### データの準備

In [None]:
##### CSV ファイルを読み込む #####
URL = 'https://www-tlab.math.ryukoku.ac.jp/~takataka/course/MVA/MVA2022-Q07vsExam1110.csv'
df = pd.read_csv(URL)
X = df.to_numpy()
N, D = X.shape
print(f'N = {N}, D = {D}')
df.head(5) # 最初の5行を表示

これは，2022年度のこの授業の受講者の，前半7回のQuizの得点率と，小テストの得点率のデータです．2022年度は，第8回に小テストを実施しました．

### 各種統計量を求めてみる

次のセルに，`X` の行方向の平均を求めて print するコードを書きなさい．2つの得点率の平均はそれぞれいくつですか．

次のセルに，`X` の行方向の分散を求めて print するコードを書きなさい．`np.var` を使うのが簡単です（使い方は `np.mean` と同じ）．


次のセルに，`X` に格納されたデータの分散共分散行列を求めてその値を `V` という変数に格納し，print するコードを書きなさい．`np.mean` 以外の関数は使ってはいけません．
2つの変数の分散の値を見ると，どちらの得点率の方がばらつきが大きいですか．

次のセルを実行すると，↑の検算ができます．

In [None]:
np.cov(X.T, ddof=0)

`V` の値を使って，2つの変数間の相関係数の値を求めましょう．

$$
\rho_{xy} = \frac{\sigma_{xy}}{\sigma_x\sigma_y}
$$

ですので，次のように計算できます．

In [None]:
V[0, 1] / np.sqrt(V[0, 0]*V[1, 1])

相関係数を求める関数を使って検算しておきます．

In [None]:
print(np.corrcoef(X.T))

相関係数の値からは，2つの変数の間にどのような関係があると言えますか．

### 分布を眺める

まずは2つの変数それぞれのヒストグラム．
各種統計量の値から推測できるデータの傾向が実際に見られるかどうか考えなさい．

In [None]:
fig, ax = plt.subplots(1, 2, figsize=(9, 3))
ax[0].hist(X[:, 0], bins=np.linspace(0, 1, 11))
ax[0].set_ylim(0, 30)
ax[0].set_title('Quiz Zenhan')
ax[1].hist(X[:, 1], bins=np.linspace(0, 1, 11))
ax[1].set_ylim(0, 30)
ax[1].set_title('Exam1110')
plt.show()

次は散布図です．各種統計量の値から推測できるデータの傾向が実際に見られるかどうか考えなさい．

In [None]:
fig, ax = plt.subplots(1, figsize=(6, 6))
ax.scatter(X[:, 0], X[:, 1])
ax.set_xlim(0, 1)
ax.set_ylim(0, 1)
ax.set_xlabel('Quiz Zenhan')
ax.set_ylabel('Exam1110')
ax.set_aspect('equal')
plt.show()

### 多次元正規分布を当てはめてみる

このデータに2次元の正規分布を当てはめてみると，次のようになります（当てはめの方法については次回解説します）．

In [None]:
# 平均と分散を推定
mu_est  = np.mean(X, axis=0)
XX = X - mu_est
cov_est = XX.T @ XX / N

# 散布図
fig, ax = plt.subplots(figsize=(8, 8))
ax.scatter(X[:, 0], X[:, 1])
xmin, xmax = 0, 1.3
ymin, ymax = 0, 1.3

# 推定された正規分布
xx, yy = np.mgrid[xmin:xmax:0.01, ymin:ymax:0.01]
zz = multivariate_normal.pdf(np.dstack((xx, yy)), mu_est ,cov_est)
CS = ax.contour(xx, yy, zz, linewidths=3, colors=['#ffa0a0', '#ff5050', '#ff0000'], levels=[0.2, 1.0, 5.0])
CS.collections[-1].set_label('estimated')

ax.set_xlim(xmin, xmax)
ax.set_ylim(ymin, ymax)
ax.set_aspect('equal')
plt.show()

print(f'N = {N}')
print(f'推定された平均: {mu_est}')
print('推定された分散共分散行列')
print(cov_est)


※ 注意

2つの得点率は，いずれも 0 以上 1 以下の値しか取りません．一方，正規分布に従う確率変数は，任意の実数値を取り得ます．この例のように，有限の範囲にしか分布しないデータに正規分布を当てはめるのは，厳密なことを言うと正しいことではありません．