**実習ファイルをアップロードして開いたら、一番上のファイル名「クラス番号氏名」を必ず自分のものに書き換えること。**

# 実習04-1 CSVファイル読み込みとアルゴリズム選択（回帰）
---
これまでは、sklearn内に用意されたデータセットを使用していたが、今回はCSVファイルを読み込んで使用する。

また、使用する機械学習のアルゴリズムは、可能であれば複数のアルゴリズムの中から、精度の高そうなものを選択した方がよい。

今回の実習では、まず回帰問題について、次の手順でアルゴリズムの選択を行う。

0.  実行したいタスクと学習分類の確認
1.   学習用データをCSVファイルから読み込み、データを準備する。
2.   全ての選択可能なアルゴリズムについて学習を行い、精度の高そうなモデルを選択する。
3.   選択したアルゴリズムを使用して再びモデルを作成し、訓練用データで訓練した後、テスト用データで精度を確認する。



## 0. 実行したいタスクと学習分類の確認
ここでは、米国カリフォルニアの住環境の情報（築年数、部屋数など8項目）から、平均住宅価格を予測するモデルを作成する。使用するデータセットに予測すべき値が含まれており、また、予測するのは数値であるため、学習分類は

* 教師あり学習
* 回帰

である。

## 1. データセットの準備（回帰）
### 1-1. CSVファイルのアップロードと読み込み
配布するカリフォルニア住宅価格のデータセット（california.csv）を使用する。

CSVファイルの読み込みには、pandasモジュールのread_csv()を使用する。

```
←まず、CVSファイルを開いて中身を確認し、Google Colabにファイルをアップロードする。
```

```
# アップロード後
import pandas as pd
df_wine = pd.read_csv('ファイル名')
```


In [None]:
# CSVファイルの読み込み
import pandas as pd
df = pd.read_csv('california.csv')

# 表示して確認してもよい
df

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude,MedHouseVal
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422
...,...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09,0.781
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21,0.771
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22,0.923
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32,0.847


### 1-2. 入力データと出力データの作成

入力データとして、最初の8列（最後の「MedHouseVal」以外）を使用する。

```
# 入力データに使用する列を抽出（最初の13列にする、最後の1列を削除）
変数名 = df_cal.iloc[:,a:b] # 行は全て、列はa列目からb-1列目までにする
または
変数名 = df_cal.drop('削除する列名', axis=1) # 列の場合はaxis=1
など

```

*  最初の8列（MedHouseVal以外）が入力
*  最後の1列（MedHouseVal）が出力

In [None]:
# 入力データに使用する列を抽出する(最初の8列を取るか、最後の1列を削除)
x = df.iloc[:, :8]

# 表示して確認してもよい
x


Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25
...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32


出力に必要な列のみ抽出して出力データyを作成する。
```
#抽出（1列なので列名の指定が簡単）
y = df_cal['列名']

```

In [None]:
# 出力データに使用する列を抽出
y = df['MedHouseVal']
# 表示して確認してもよい
y

Unnamed: 0,MedHouseVal
0,4.526
1,3.585
2,3.521
3,3.413
4,3.422
...,...
20635,0.781
20636,0.771
20637,0.923
20638,0.847


### 1-3. 訓練用とテスト用に分ける
入力データXと出力データyができたら、訓練用データとテストデータに分割する。train_test_split()を使用する。

**random_stateには学籍番号を入れてください**

```
# インポート
from sklearn.model_selection import train_test_split
# 訓練用データセットとテスト用データセットへの分割（訓練用80%、テスト用20%）
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=学籍番号)
```

In [None]:
# データセットを分割する関数の読み込み
from sklearn.model_selection import train_test_split
# 訓練用データセットとテスト用データセットへの分割（訓練用80%、テスト用20%）、random_stateは学籍番号
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=2220042)

## 2. アルゴリズムの選択
### 2-1. 使用可能な全てのアルゴリズムの取得
sklearnで使用可能なアルゴリズム一覧を取得するには、sklearn.utils.discovery.all_estimatorsが使用できる。今回は教師あり学習の回帰問題に該当するため、type_filter="regressor"を指定する。

[参考：all_estimators](https://scikit-learn.org/stable/modules/generated/sklearn.utils.discovery.all_estimators.html)

```
# 使用可能なアルゴリズムの取得
from sklearn.utils.discovery import all_estimators
all_reg = all_estimators(type_filter="regressor")
# 表示して確認してもよい

```

In [None]:
#使用可能なアルゴリズムの取得
from sklearn.utils.discovery import all_estimators
all_reg = all_estimators(type_filter="regressor")
# 表示して確認してもよい
all_reg

[('ARDRegression', sklearn.linear_model._bayes.ARDRegression),
 ('AdaBoostRegressor', sklearn.ensemble._weight_boosting.AdaBoostRegressor),
 ('BaggingRegressor', sklearn.ensemble._bagging.BaggingRegressor),
 ('BayesianRidge', sklearn.linear_model._bayes.BayesianRidge),
 ('CCA', sklearn.cross_decomposition._pls.CCA),
 ('DecisionTreeRegressor', sklearn.tree._classes.DecisionTreeRegressor),
 ('DummyRegressor', sklearn.dummy.DummyRegressor),
 ('ElasticNet', sklearn.linear_model._coordinate_descent.ElasticNet),
 ('ElasticNetCV', sklearn.linear_model._coordinate_descent.ElasticNetCV),
 ('ExtraTreeRegressor', sklearn.tree._classes.ExtraTreeRegressor),
 ('ExtraTreesRegressor', sklearn.ensemble._forest.ExtraTreesRegressor),
 ('GammaRegressor', sklearn.linear_model._glm.glm.GammaRegressor),
 ('GaussianProcessRegressor',
  sklearn.gaussian_process._gpr.GaussianProcessRegressor),
 ('GradientBoostingRegressor', sklearn.ensemble._gb.GradientBoostingRegressor),
 ('HistGradientBoostingRegressor',
  sk

### 2-2. 各アルゴリズムの性能比較

それぞれのアルゴリズムに対して、

*   モデル作成
*   scoreを計算

を実施し、forループで繰り返す。

**アルゴリズムによっては、学習に時間がかかるものがあるので、今回はいくつかのアルゴリズムを除外する。<br>それでも数分かかる可能性あり。**

```
import warnings

#警告を非表示にする
warnings.simplefilter('ignore')

for(name, algo) in all_reg:
  # いくつかのアルゴリズムを除外
  if name == "QuantileRegressor" or name == "GaussianProcessRegressor":
    continue
  try:
    model = algo()
    model.fit(X_train, y_train)
    score = model.score(X_test, y_test)
    print(name,"のscore＝",score)

  # エラーが出ても止まらないようにする
  except Exception as e:
    pass

# 警告表示を元に戻す
warnings.simplefilter('default')
```

In [None]:
# forループを使用して各アルゴリズムのscoreを表示する
# scoreが最大になるアルゴリズムをプログラム上で探してもよい
import warnings

# 警告を非表示にする
warnings.simplefilter('ignore')

for(name, algo) in all_reg:
  # いくつかのアルゴリズムを除外
  if name == "QuantileRegressor" or name == "GaussianProcessRegressor":
    continue
  try:
    model = algo()
    model.fit(x_train, y_train)
    score = model.score(x_test, y_test)
    if score > 0.7:
      print(name,"のscore＝",score)

  # エラーが出ても止まらないようにする
  except Exception as e:
    pass

# 警告表示を元に戻す
warnings.simplefilter('default')

BaggingRegressor のscore＝ 0.7748318614688897
ExtraTreesRegressor のscore＝ 0.8045389887090348
GradientBoostingRegressor のscore＝ 0.7782445491247767
HistGradientBoostingRegressor のscore＝ 0.8291114899845644
RandomForestRegressor のscore＝ 0.7989515278929002


#### 2-3. モデルを選択する
上記の結果から、精度が良さそうなモデルを選択する。

**注意：アンサンブル学習（ランダムフォレストなど）を選ぶとモデルのファイルサイズが大きくなる。**

**[課題] 選択したモデルと簡単な説明を記入してください。**
*   **選択したモデル（回帰）：[ HistGradientBoostingRegressor ]**
*   **モデルの簡単な説明：[　大量のデータ でも高速に処理できるように設計されており、特に連続値の予測　]**


## 3. モデルの作成
選択したモデルについて、すべての学習データ（X_test, y_test）で学習し、テストデータでscoreを出してみよう。
モデルを作成する際は、直接クラスを指定するか、[scikit-learnの公式](https://scikit-learn.org/stable/)などで、import元の場所を調べる。

**警告が出る場合も、とりあえずは気にしなくていいです。**

In [None]:
# モデルのインポート、作成、fit、score
from sklearn.ensemble import HistGradientBoostingRegressor
model = HistGradientBoostingRegressor()
model.fit(x_train, y_train)
score = model.score(x_test, y_test)
score


0.8283638890655042

↑ scoreが表示できていることを確認すること。

## 提出物など

*   テキストブロックへの追記（選択したモデル）
*   コードブロックの記入と実行（特に、最後のscoreの値）

が確認出来たら、**教員に結果（選択したモデルと最後のscore）を確認してもらうこと。** その後、ファイルが保存されているかを確認し、「ファイル＞ダウンロード＞.ipynbをダウンロード」を順にクリックして.ipynbファイルをダウンロードする。

**ダウンロードしたipynbファイルを指定の場所に提出してください。**

