# 重回帰 - 練習問題

python・numpy・matplotlib等の練習として、重回帰を実装してみましょう。

# 問題

1000人の大学生のデータが与えられます。各学生について、その人の1日の授業外勉強時間、出席率、基本情報技術概論の成績と計算論の成績が与えられます。1日の授業外勉強時間は時間単位、出席率は$(0, 1)$区間での値、それぞれの成績は$[0, 4]$区間でのGP（注意：ここで扱うGPは、離散値ではなく、連続値だとします。つまり、3.14や、2.72なども可能です）。

# 準備

In [None]:
import numpy as np
import matplotlib as mpl
# 日本語のフォントを設定
mpl.rcParams['font.family'] = 'sans-serif'
mpl.rcParams['font.sans-serif'] = ['Noto Sans CJK JP']
mpl.rcParams['font.size'] = 18
# 図を大きくする
mpl.rcParams['figure.figsize'] = 10, 6
import matplotlib.pyplot as plt
import csv

def plot(x, y):
    fig, ax = plt.subplots(1, 2, figsize=(13, 5), gridspec_kw=dict(wspace=0.3))
    for i, a in enumerate(ax):
        sc = a.scatter(x[:, 0], X[:, 1], c=y[:, i], s=20, vmin=0, vmax=4)
        plt.colorbar(sc, ax=a, label='成績 [GP]')
        a.set_xlim(0, 5)
        a.set_ylim(0, 1)
        a.set_xlabel("1日当たり勉強時間 [h]")
        a.set_ylabel("授業出席率")

    ax[0].set_title("成績 [基本情報技術概論]", pad=20)
    ax[1].set_title("成績 [計算論]", pad=20)
    plt.show()


# データの読み込み

データは`data.csv`というファイルに保存されています。各行には、勉強時間、出席率、基本情報の成績、計算論の成績の順に、数値が保存されています。まずはデータを読み込み、大まかな傾向を把握するためにプロットします。なお、下の`plot(X, Y)`という文は、上で定義した`plot`関数を呼び出しています。

In [None]:
X = []
Y = []
with open('data.csv') as f:
    reader = csv.reader(f)
    for row in reader:
        number_row = []
        for value in row:
            number_row.append(float(value))
        X.append(number_row[:2])
        Y.append(number_row[2:])
X = np.array(X)
Y = np.array(Y)
plot(X, Y)

# データに対し回帰分析を行う

では、実際に分析を行いましょう。[前述べた](https://stealthmate.github.io/saidai-deep-learning/machine_learning/linear-regression.html)ように、回帰係数は以下で与えられます。

$$
B = (X^TX)^{-1}X^TY
$$

なお、$X$では、最後の列は1で埋める必要があります。

---
まず、上で読み込んだデータには1列が含まれていないので、自分で追加する必要があります。[`np.append`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.append.html)と[`np.ones`](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones.html)のdocumentationを参考にしながら、追加してみましょう：

In [None]:
X = X[:, :2] # ミス防止
N = 1000 # データ点の数

ones = np.ones(( ___ , 1)) # np.onesの中を埋めましょう
X = np.append( __ , __ , axis=1) # np.appendの中を埋めましょう
X

正しく埋めていれば、右側に`1.`の列が表示されます。

---
では、$B$を求めましょう。そのために、行列の[転置](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.T.html)と[逆行列](https://docs.scipy.org/doc/numpy/reference/generated/numpy.linalg.pinv.html)を求めなければいけません。

In [None]:
B = # ここを埋めましょう。
B

正しければ、Bの値が表示されます。

---
では、結果を確認しましょう。まずは、求まった$B$から改めて成績を計算しましょう。以下の式を実装します：

$$
\hat Y = XB
$$

In [None]:
Yhat = # ここを埋めましょう

次に、与えられた成績で色彩した散布図と、計算した成績で色彩した散布図を上下にプロットします。

In [None]:
print("与えられたデータ")
plot(X, Y)

In [None]:
print("計算したデータ")
plot(X, Yhat)

問題が無ければ、下の図は色が緩やかに変化していくものになるはずです。これで、回帰分析でデータの関係を数学的に計算することができました。