# sklearnの確認問題

## 必要モジュールのインポート

この問題で使うモジュールをインポートします。

In [1]:
import pandas as pd

## 前準備




### データの読み取り
scikit-learnから提供される`iris`というデータセットを読み込みます。

In [2]:
from sklearn.datasets import load_iris
iris = load_iris()

#説明変数の読み取り
data = iris.data
feature_names = iris.feature_names
df_data = pd.DataFrame(data=data, columns=feature_names)

#目的変数の読み取り
target = iris.target
target_names = iris.target_names
df_target = pd.DataFrame(data=target, columns=['target'])

### 問1. 説明変数の把握

1.1. `df_data` の先頭五行を表示してください。

In [3]:
df_data.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


1.2. `df_data` の行数と列数を表示しましょう。

In [4]:
df_data.shape

(150, 4)

1.3. `df_data` の各列の `mean`, `count`, `std` などの基本特徴量を表示しましょう。


In [5]:
df_data.describe()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


1.4. `df_data` に欠損値がないかを確認しましょう。

In [6]:
print(df_data.isnull().sum())

sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
dtype: int64


### 問2. 目的変数の把握

2.1. `df_target` のうち、ランダムに 10 行表示しましょう。

目的変数の数字はそれぞれ、

- 0 が `setosa`（ヒオウギアヤメ）
- 1 が `versicolor`（ブルーフラッグ）
- 2 が `virginica`（バージニカ）

を指しています。


In [7]:
print(df_target.sample(10))

     target
144       2
25        0
121       2
64        1
44        0
118       2
97        1
54        1
45        0
100       2


### 問3. データの可視化（Extra）

3.1. x 軸を petal length (cm)、y 軸を petal width (cm)にして散布図を作成しましょう。 ただし、目的変数に応じて点の色と形を変更してください。

## 機械学習


### 問4. データの分割

4.1. iris データを 4:1 に分割して、80% を学習データとして 20% をテストデータとしてください。

ただし、分割した後の変数名は以下の通りにしてください。

| 変数名  |      内容      |
| :-----: | :------------: |
| x_train | 学習用の説明変数 |
| x_test | テスト用の説明変数 |
| y_train | 学習用の目的変数 |
| y_test | テスト用の目的変数 |

学習データでモデルの学習を行い、テストデータでモデルの評価を行います。


In [8]:
from sklearn.model_selection import train_test_split
x = iris.data
y = iris.target
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, random_state = 0)

4.2. 本当に4:1に分割できているか確認しましょう。

In [9]:
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)
print(y_test.shape)

(120, 4)
(30, 4)
(120,)
(30,)


### 問5. 学習

5.1. RandamForest の学習モデルのインスタンスを生成しましょう。

In [10]:
from sklearn.linear_model import LinearRegression
reg_model = LinearRegression()

5.2. `x_train` と `y_train` を用いて、モデルを学習させましょう。

In [11]:
reg_model.fit(x_train, y_train)

### 問6. 推論


6.1. 学習したモデルに `x_test` を入力して予測をしましょう。

In [12]:
reg_model.predict(x_test)

array([ 2.06844113,  0.96345869, -0.14707913,  1.81304847, -0.03927091,
        2.26261445, -0.02790835,  1.31919261,  1.28225236,  1.11236814,
        1.54774304,  1.3013147 ,  1.21150471,  1.32946956,  1.32977882,
       -0.12060477,  1.35574095,  1.21453128,  0.03610115, -0.02518356,
        1.79941543,  1.39427904,  0.07356109,  0.02146025,  1.59050985,
       -0.11917603,  0.14803648,  1.16645127,  0.90550234,  0.10586947])

6.2. 予測結果と `y_test` に対して、`accuracy` を計算することでモデルを評価しましょう。

In [14]:
accuracy = reg_model.score(x_test, y_test)
print(accuracy)

0.9055032992676105


実は、iris データセットはかなり簡単な分布をしているので、正解率はほぼ 100% になったと思います。