<a href="https://colab.research.google.com/github/hiroalchem/data_science_lecture_2023/blob/main/Day3_20230307_Machine_Learning_Basic_with_example.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 機械学習入門
今日は、[Iris Dataset](https://en.wikipedia.org/wiki/Iris_flower_data_set) という有名なデータセットを用いて、基本的な機械学習をやってみます

Iris Datasetはあやめという花の花びら、およびがく片の長さと幅の4つの特徴量と3種類のあやめの種類の分類から成ります   
今回の目的は、**花びらとがく片の特徴量からあやめの種類をクラス分類できる分類器を作成する**ことです

使うライブラリは以下の通り

*   scikit-learn: よく使われるpythonの機械学習用ライブラリ
*   seaborn: 可視化用ライブラリで、グラフなどの作成などを簡単にできる
*   panas: 表計算用ライブラリ


In [None]:
# 必要なライブラリのimport

import pandas as pd
import seaborn as sns
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, confusion_matrix

# **1. データセットの準備**

In [None]:
# Iris Dataset は scikit learn で簡単に読み込んで使えるようになっています
iris = datasets.load_iris()
X, y = iris.data, iris.target

In [None]:
# 表形式 (pandasのDataFrame) にします
# まずは、特徴量を表形式にして確認します
df = pd.DataFrame(X, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width'])
df

In [None]:
# 次に目的変数である種類のラベルも入れます
df['Species'] = y
df

In [None]:
sns.scatterplot(data=df, x="Sepal Length", y="Sepal Width", hue="Species")

In [None]:
# 2変数を取り出して散布図にしてみます
sns.scatterplot(data=df, x="Sepal Length", y="Sepal Width", hue="Species", palette="tab10")

In [None]:
sns.scatterplot(data=df, x="Sepal Length", y="Petal Length", hue="Species", palette="tab10")

In [None]:
sns.scatterplot(data=df, x="Petal Length", y="Petal Width", hue="Species", palette="tab10")

In [None]:
sns.pairplot(data=df, hue="Species", palette="tab10")

In [None]:
# 次に、学習とテスト用にデータセットを分けます
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=123)

In [None]:
print("学習データ数: ", len(X_train))
print("テストデータ数: ", len(X_test))

# **2. 学習**

[RandomForest](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html) を使います   
詳しくは[こちら](https://people.csail.mit.edu/dsontag/courses/ml16/slides/lecture11.pdf)など

In [None]:
# classifierを学習させます
classifier = RandomForestClassifier(random_state=321)
classifier.fit(X_train, y_train)

In [None]:
# 学習させた分類器で推論させます
pred = classifier.predict(X_test)

# 結果の確認
pd.DataFrame({"GT": y_test,  "Prediction": pred})

In [None]:
# accuracyを出してみます
# accuracyは全てのサンプルのうちで正解したサンプルの割合です
print(accuracy_score(y_test, pred))

In [None]:
# 混同行列を作成します
cm = confusion_matrix(y_test, pred)
pd.DataFrame(cm, index=['GT_0', 'GT_1', 'GT_2'], columns=['Pred_0', 'Pred_1', 'Pred_2'])

In [None]:
# 間違っていたものを2を、それ以外は正解のlabelを振ります
labels = []
for i in range(len(y_test)):
  if (y_test[i] == 2) and (pred[i] == 1):
    labels.append(3)
  else:
    labels.append(y_test[i])

In [None]:
# DataFrameにして確認
result_df = pd.DataFrame(X_test, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width'])
result_df['labels'] = labels
result_df

In [None]:
sns.scatterplot(data=result_df, x="Sepal Length", y="Petal Length")

In [None]:
# 間違っていたサンプルがどんな特徴量を持っているのか確認してみます
sns.scatterplot(data=result_df, x="Sepal Length", y="Petal Length", hue="labels", palette="tab10")

In [None]:
sns.scatterplot(data=result_df, x="Sepal Length", y="Sepal Width", hue="labels", palette="tab10")

In [None]:
sns.pairplot(data=result_df, hue="labels", palette="tab10")

### 確認問題： [Support Vector Machine](https://scikit-learn.org/stable/modules/svm.html) を使って分類器を作成し、結果を確認してみてください

```
from sklearn.svm import SVC
classifier = SVC()
```



In [None]:
from sklearn.svm import SVC
classifier = SVC(random_state=321)
classifier.fit(X_train, y_train)

In [None]:
# 学習させた分類器で推論させます
pred = classifier.predict(X_test)

# 結果の確認
pd.DataFrame({"GT": y_test,  "Prediction": pred})

In [None]:
# accuracyを出してみます
# accuracyは全てのサンプルのうちで正解したサンプルの割合です
print(accuracy_score(y_test, pred))

In [None]:
# 混同行列を作成します
cm = confusion_matrix(y_test, pred)
pd.DataFrame(cm, index=['GT_0', 'GT_1', 'GT_2'], columns=['Pred_0', 'Pred_1', 'Pred_2'])

In [None]:
# 間違っていたものを2を、それ以外は正解のlabelを振ります
labels = []
for i in range(len(y_test)):
  if (y_test[i] == 2) and (pred[i] == 1):
    labels.append(3)
  else:
    labels.append(y_test[i])

In [None]:
# DataFrameにして確認
result_df = pd.DataFrame(X_test, columns=['Sepal Length', 'Sepal Width', 'Petal Length', 'Petal Width'])
result_df['labels'] = labels
result_df

In [None]:
sns.pairplot(data=result_df, hue="labels", palette="tab10")