## 課題：乾燥豆データセットで豆の種類を予測する分類モデルの構築

### <font color='green'>**データセットの作成（データを読み込む）**</font>

In [None]:
import pandas as pd
file_id = '1ZrezRcoHm3WEHZS0ao2pBH6Jd1uaAkui'
url = f'https://drive.google.com/uc?id={file_id}'
df = pd.read_csv(url)
df.head()

### <font color='green'>**データの前処理（散布図を描く）**</font>

In [None]:
# MajorAxisLengthとMinorAxisLengthの散布図を描く。Calssで色別にする。
sns.scatterplot(x='MajorAxisLength', y='MinorAxisLength', hue='Class', data=df)
plt.show()

#### **特徴量（X）とラベル（y）をセットする**

In [None]:
X = df.iloc[:, :-1]
y = df.iloc[:, -1]

In [None]:
y_mapping = {'DERMASON':0, 'SIRA':1, 'SEKER':2, 'HOROZ':3,
             'CALI':4, 'BARBUNYA':5, 'BOMBAY':6}
y = y.map(y_mapping)

#### **ラベル（y）のユニークな要素の出現回数を求める**

In [None]:
y.value_counts()

### <font color='green'>**データの分割（トレーニング用（train）とテスト用（test））に分割する**</font>

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

### <font color='green'>**アルゴリズムの選択（ここではランダムフォレストを選択）**</font>

In [None]:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()

### <font color='green'>**モデルの学習（トレーニング）**</font>

In [None]:
model.fit(X_train, y_train)

### <font color='green'>**モデルのスコアリング・評価**</font>

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

#### **トレーニング用データで評価する（正解率、混同行列を書く）**

In [None]:
train_predict = model.predict(X_train)
print('accuracy_score:',accuracy_score(y_train, train_predict))
cm = confusion_matrix(y_train, train_predict)
plt.figure(figsize=(15, 8))
sns.heatmap(cm, annot=True, fmt='d')
plt.xticks([0.5, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5],
           ['DERMASON', 'SIRA', 'SEKER', 'HOROZ', 'CALI', 'BARBUNYA', 'BOMBAY'])
plt.yticks([0.5, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5],
           ['DERMASON', 'SIRA', 'SEKER', 'HOROZ', 'CALI', 'BARBUNYA', 'BOMBAY'])
plt.show()

#### **テストデータで評価する（正解率、混同行列を書く）**

In [None]:
test_predict = model.predict(X_test)
print('accuracy_score:',accuracy_score(y_test, test_predict))
cm = confusion_matrix(y_test, test_predict)
plt.figure(figsize=(15, 8))
sns.heatmap(cm, annot=True, fmt='d')
plt.xticks([0.5, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5],
           ['DERMASON', 'SIRA', 'SEKER', 'HOROZ', 'CALI', 'BARBUNYA', 'BOMBAY'])
plt.yticks([0.5, 1.5, 2.5, 3.5, 4.5, 5.5, 6.5],
           ['DERMASON', 'SIRA', 'SEKER', 'HOROZ', 'CALI', 'BARBUNYA', 'BOMBAY'])
plt.show()