**実習ファイルをアップロードして開いたら、一番上のファイル名「クラス番号氏名」を必ず自分のものに書き換えること。**<br>

# 実習01-2 機械学習の基礎
---
機械学習の基本的な作成手順に従って、機械学習を理解する。
手順は以下である。

1. 問題の設定とデータセットの準備
2. モデルを決める
3. モデルを訓練する
4. モデルを評価する
5. モデルを使用する（新しい入力値に対する予測）

一部参考：[Chainerチュートリアル 9.scikit-learn入門](https://tutorials.chainer.org/ja/09_Introduction_to_Scikit-learn.html)

**[課題について]**
* **以下の流れに従ってコードブロックの該当部分にプログラムをコピー＆ペーストおよび記述し、実行していくこと。**
* **一部、テキストブロックに記入・追記する箇所もあるので注意すること**

## 1. 問題の設定とデータセットの準備
今回は、scikit-learn（sklearn）に用意されている、米国カリフォルニアの 住環境の情報などと平均住宅価格の情報を収集して作られたデータを使用し、住環境の情報からへ平均住宅価格を予測するプログラムを機械学習で作成する。

（注意：scikit-learnはPythonの機械学習ライブラリ）



### 1-1. データセットの読み込み
データセットの読み込みは以下のプログラムで可能である。
datasetを表示して内容を確認する。

データセットの詳細：[sklearn.datasets.fetch_california_housing](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_california_housing.html#sklearn.datasets.fetch_california_housing)
```
# データセットを読み込み、変数に入れる。
from sklearn.datasets import fetch_california_housing
dataset = fetch_california_housing()
dataset #表示して確認
```
[補足1]Pythonでモジュールなどを使用するためには、import文を使用して読み込む必要がある。
```
# 例
# numpyモジュールのインポート
import numpy

# pandasモジュールのインポート（pdの名前で使用）
import pandas as pd

# sklearn.datasets.fetch_california_housingをインポート
# （fetch_california_housingで呼び出し可能）
from sklearn.datasets import fetch_california_housing
```

[補足2]コードブロックの最後に変数名のみ書いた場合は、中身を表示することができる。（printを書かなくてもよい。）

In [1]:
# データセットを読み込み、変数に入れる。
from sklearn.datasets import fetch_california_housing
dataset = fetch_california_housing()
dataset #表示して確認

{'data': array([[   8.3252    ,   41.        ,    6.98412698, ...,    2.55555556,
           37.88      , -122.23      ],
        [   8.3014    ,   21.        ,    6.23813708, ...,    2.10984183,
           37.86      , -122.22      ],
        [   7.2574    ,   52.        ,    8.28813559, ...,    2.80225989,
           37.85      , -122.24      ],
        ...,
        [   1.7       ,   17.        ,    5.20554273, ...,    2.3256351 ,
           39.43      , -121.22      ],
        [   1.8672    ,   18.        ,    5.32951289, ...,    2.12320917,
           39.43      , -121.32      ],
        [   2.3886    ,   16.        ,    5.25471698, ...,    2.61698113,
           39.37      , -121.24      ]]),
 'target': array([4.526, 3.585, 3.521, ..., 0.923, 0.847, 0.894]),
 'frame': None,
 'target_names': ['MedHouseVal'],
 'feature_names': ['MedInc',
  'HouseAge',
  'AveRooms',
  'AveBedrms',
  'Population',
  'AveOccup',
  'Latitude',
  'Longitude'],
 'DESCR': '.. _california_housing_dataset:\n

###1-2. 入力（説明変数）と出力（目的変数）に分ける
今回の問題は、「住環境の情報からへ平均住宅価格を予測する」であるため、説明変数は住環境の情報、目的変数は平均住宅価格である。

使用するデータセットでは、これらがあらかじめ分割されており、
dataset.dataが住環境の情報、dataset.targetが平均住宅価格になっている。それぞれ、x、tという変数に入れておく。

```
# 変数に入れておく
x = dataset.data
t = dataset.target
```

In [21]:
# 変数に入れておく
x = dataset.data
t = dataset.target

x[0]とt[0]を表示して確認してみよう。

In [22]:
# x[0]とt[0]を表示して内容を確認
x[0],t[0]

(array([   8.3252    ,   41.        ,    6.98412698,    1.02380952,
         322.        ,    2.55555556,   37.88      , -122.23      ]),
 4.526)

説明変数のそれぞれの項目名はdataset.feature_namesに格納されている。表示して確認してみよう。

In [23]:
# dataset.feature_namesの表示
dataset.feature_names


['MedInc',
 'HouseAge',
 'AveRooms',
 'AveBedrms',
 'Population',
 'AveOccup',
 'Latitude',
 'Longitude']

### 1-3. データセットの分割
データは、すべて訓練に使用するわけではなく、モデルの評価用に一部を分けておく。今回は、データセットを訓練用とテスト用の2つに分割する。

以下のプログラムで、sklearn.model_selection.train_test_split関数を使用してxとtを分割し、
訓練用入力x_train、テスト用入力x_train、訓練用出力t_train、テスト用出力t_testとする。
```
# データセットを分割する関数の読み込み
from sklearn.model_selection import train_test_split

# 訓練用データセットとテスト用データセットへの分割（訓練用80%、テスト用20%、random_stateには学籍番号を入れてください）
x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.2, random_state=学籍番号)
```

In [41]:
# データセットを分割する関数の読み込み
from sklearn.model_selection import train_test_split
# 訓練用データセットとテスト用データセットへの分割（訓練用80%、テスト用20%）
x_train, x_test, t_train, t_test = train_test_split(x, t, test_size=0.2, random_state=2220042)
len(t), len(t_train), len(t_test)

(20640, 16512, 4128)

## 2. モデルを決める

機械学習には、様々なモデル（アルゴリズム）が存在するが、
少なくとも、目的となる学習分類に合ったモデルを使用する必要がある。

今回の目的は「住環境の情報からへ平均住宅価格を予測する」である。事前に与えられるデータセットには、住環境の情報と平均住宅価格が含まれている。

**【課題】今回の目的とデータセットに合った学習分類はどれか。**

（下の記述から正しいものに〇、または正しくないものを消す。）

**教師あり学習**
* 教師あり学習の場合： **回帰**
* 教師なし学習の場合： **次元削減 or クラスタリング or その他**



今回は重回帰分析を使用することにする。（一般的な統計的手法）

[LinearRegression](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html)

sklearn.linear_modelのLinearRegressionをインポートし、
モデルを作成して変数modelに代入する。

```
# モデルの作成
from sklearn.linear_model import LinearRegression
model = LinearRegression()
```



In [35]:
# モデルの作成
from sklearn.linear_model import LinearRegression
model = LinearRegression()

## 3. モデルを訓練する
sklearnの多くの手法で訓練を実行するには、モデルの.fit()メソッド の引数として、訓練用データの入力値と目標値を与える。

```
# モデルの訓練（訓練用データのみを入れること）
model.fit(x_train, t_train)
```



In [52]:
# モデルの訓練
model.fit(x_train, t_train)

## 4. モデルを評価する
モデルの評価方法は、学習分類等により異なってくるが、今回は、
modelの.score()メソッドで計算される値（今回は決定係数）を使用する。

また、訓練用データに対する評価、テスト用データに対する評価をそれぞれ行うことで、特に、未知のデータに対する予測精度が十分かどうかを確認することが重要である。

決定係数を計算するには、score()の引数に入力値と目標値を与える。

```
# 例：訓練用データで計算する場合は、引数に訓練用入力と出力を入れる。
print("train score:", model.score(x_train, t_train)
# テスト用データは自分で実施
```


In [51]:
# 訓練用データ、テスト用データでそれぞれ決定係数を計算して表示する
print("train score:", model.score(x_train, t_train))
print("test score:", model.score(x_test, t_test))

train score: 0.6084734016506523
test score: 0.5939813439410482


**【課題】訓練用データに対する決定係数とテスト用データに対する決定係数を比較し、分かることを書いてください。（2つの値の大小や差など）**

**[解答]**
予想と答えの差がなさそう

## 5. モデルを使用する（新しい入力値に対する予測）
作成したモデルを実際に使用する際には、
結果が分からないデータ（目的変数のみ）を入力して、
予測結果を出力する。

予測値を得るには、訓練済みのmodelの.predict()メソッドに入力値を与える。この時、入力値の形式に気を付ける。

（複数の入力を一度に予測することにも対応しているため、1つのデータを入れる場合もリストのリストにする。）

```
# 例：入力データをリストのリストとして入力
model.predict([[8.3252, 41., 6.98412698, 1.02380952, 322., 2.55555556, 37.88, -122.23 ]])
# 例：テスト用の一部のデータをスライスで取り出して予測
model.predict(x_test[:1]) #0番目のみをリストのリスト形式で
model.predict(x_test[1:3]) #1番目から2番目まで
```


In [65]:
# 予測を試す
model.predict([[8.3252, 41., 6.98412698, 1.02380952, 322., 2.55555556, 37.88, -122.23 ]])

array([4.14588119])

In [54]:
# 予測を試す（コードブロックは自由に追加してよい）
model.predict(x_test[:1]) #0番目のみをリストのリスト形式で
model.predict(x_test[1:3]) #1番目から2番目まで

array([1.87745896, 0.45684119])

最後に、x_testの0番目（x_test[:1]）を入力した予測値と、実際の値（t_test[0]）を表示して比較してみよう。

（近い値になることもあれば、誤差が大きくなることもある。）

In [72]:
# x_testの0番目（x_test[:1]）を入力した予測値と、実際の値（t_test[0]）を表示して比較
print("予測値:", model.predict(x_test[:1]))
print("実際の値:", t_test[0])

予測値: [1.65518295]
実際の値: 1.563


# 提出について

*   テキストブロックへの追記（学習分類、scoreの結果から分かること）
*   コードブロックの記入と実行（結果は表示されないブロックもある）

が出来たら、**教員に結果（学習分類、scoreの結果、最後の予測値と実際の値）を確認してもらうこと。**
その後、ファイルが保存されているかを確認し、「ファイル＞ダウンロード＞.ipynbをダウンロード」を順にクリックして.ipynbファイルをダウンロードする。

**ダウンロードしたipynbファイルを指定の場所に提出してください。**