**実習ファイルをアップロードして開いたら、一番上のファイル名「クラス番号氏名」を必ず自分のものに書き換えること。**

# 実習04-1 CSVファイル読み込みとアルゴリズム選択（回帰）
---
これまでは、sklearn内に用意されたデータセットを使用していたが、今回はCSVファイルを読み込んで使用する。

また、使用する機械学習のアルゴリズムは、可能であれば複数のアルゴリズムの中から、精度の高そうなものを選択した方がよい。

今回の実習では、まず回帰問題について、次の手順でアルゴリズムの選択を行う。

0.  実行したいタスクと学習分類の確認
1.   学習用データをCSVファイルから読み込み、データを準備する。
2.   全ての選択可能なアルゴリズムについて学習を行い、精度の高そうなモデルを選択する。
3.   選択したアルゴリズムを使用して再びモデルを作成し、訓練用データで訓練した後、テスト用データで精度を確認する。



## 0. 実行したいタスクと学習分類の確認
ここでは、米国カリフォルニアの住環境の情報（築年数、部屋数など8項目）から、平均住宅価格を予測するモデルを作成する。使用するデータセットに予測すべき値が含まれており、また、予測するのは数値であるため、学習分類は

* 教師あり学習
* 回帰

である。

## 1. データセットの準備（回帰）
### 1-1. CSVファイルのアップロードと読み込み
配布するカリフォルニア住宅価格のデータセット（california.csv）を使用する。

CSVファイルの読み込みには、pandasモジュールのread_csv()を使用する。

```
←まず、CVSファイルを開いて中身を確認し、Google Colabにファイルをアップロードする。
```

```
# アップロード後
import pandas as pd
df_wine = pd.read_csv('ファイル名')
```


In [None]:
# CSVファイルの読み込み


# 表示して確認してもよい


### 1-2. 入力データと出力データの作成

入力データとして、最初の8列（最後の「MedHouseVal」以外）を使用する。

```
# 入力データに使用する列を抽出（最初の13列にする、最後の1列を削除）
変数名 = df_cal.iloc[:,a:b] # 行は全て、列はa列目からb-1列目までにする
または
変数名 = df_cal.drop('削除する列名', axis=1) # 列の場合はaxis=1
など

```

*  最初の8列（MedHouseVal以外）が入力
*  最後の1列（MedHouseVal）が出力

In [None]:
# 入力データに使用する列を抽出する(最初の8列を取るか、最後の1列を削除)

# 表示して確認してもよい


出力に必要な列のみ抽出して出力データyを作成する。
```
#抽出（1列なので列名の指定が簡単）
y = df_cal['列名']

```

In [None]:
# 出力データに使用する列を抽出

# 表示して確認してもよい


### 1-3. 訓練用とテスト用に分ける
入力データXと出力データyができたら、訓練用データとテストデータに分割する。train_test_split()を使用する。

**random_stateには学籍番号を入れてください**

```
# インポート
from sklearn.model_selection import train_test_split
# 訓練用データセットとテスト用データセットへの分割（訓練用80%、テスト用20%）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=学籍番号)
```

In [None]:
# データセットを分割する関数の読み込み

# 訓練用データセットとテスト用データセットへの分割（訓練用80%、テスト用20%）、random_stateは学籍番号


## 2. アルゴリズムの選択
### 2-1. 使用可能な全てのアルゴリズムの取得
sklearnで使用可能なアルゴリズム一覧を取得するには、sklearn.utils.discovery.all_estimatorsが使用できる。今回は教師あり学習の回帰問題に該当するため、type_filter="regressor"を指定する。

[参考：all_estimators](https://scikit-learn.org/stable/modules/generated/sklearn.utils.discovery.all_estimators.html)

```
# 使用可能なアルゴリズムの取得
from sklearn.utils.discovery import all_estimators
all_reg = all_estimators(type_filter="regressor")
# 表示して確認してもよい

```

In [None]:
#使用可能なアルゴリズムの取得

# 表示して確認してもよい


### 2-2. 各アルゴリズムの性能比較

それぞれのアルゴリズムに対して、

*   モデル作成
*   scoreを計算

を実施し、forループで繰り返す。

**アルゴリズムによっては、学習に時間がかかるものがあるので、今回はいくつかのアルゴリズムを除外する。<br>それでも数分かかる可能性あり。**

```
import warnings

#警告を非表示にする
warnings.simplefilter('ignore')

for(name, algo) in all_reg:
  # いくつかのアルゴリズムを除外
  if name == "QuantileRegressor" or name == "GaussianProcessRegressor":
    continue
  try:
    model = algo()
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    print(name,"のscore＝",score)

  # エラーが出ても止まらないようにする
  except Exception as e:
    pass

# 警告表示を元に戻す
warnings.simplefilter('default')
```

In [None]:
# forループを使用して各アルゴリズムのscoreを表示する
# scoreが最大になるアルゴリズムをプログラム上で探してもよい


#### 2-3. モデルを選択する
上記の結果から、精度が良さそうなモデルを選択する。

**注意：アンサンブル学習（ランダムフォレストなど）を選ぶとモデルのファイルサイズが大きくなる。**

**[課題] 選択したモデルと簡単な説明を記入してください。**
*   **選択したモデル（回帰）：[]**
*   **モデルの簡単な説明：[]**


## 3. モデルの作成
選択したモデルについて、すべての学習データ（X_test, y_test）で学習し、テストデータでscoreを出してみよう。
モデルを作成する際は、直接クラスを指定するか、[scikit-learnの公式](https://scikit-learn.org/stable/)などで、import元の場所を調べる。

**警告が出る場合も、とりあえずは気にしなくていいです。**

In [None]:
# モデルのインポート、作成、fit、score



↑ scoreが表示できていることを確認すること。

## 提出物など

*   テキストブロックへの追記（選択したモデル）
*   コードブロックの記入と実行（特に、最後のscoreの値）

が確認出来たら、**教員に結果（選択したモデルと最後のscore）を確認してもらうこと。** その後、ファイルが保存されているかを確認し、「ファイル＞ダウンロード＞.ipynbをダウンロード」を順にクリックして.ipynbファイルをダウンロードする。

**ダウンロードしたipynbファイルを指定の場所に提出してください。**

