# 機械学習の入り口(scikit-learn)

for Python 3.7.x

## scikit-learn の読み込み

import しないと始まりませんよね。  
scukit-learn は `pip install -U scikit-learn` でインストールできます。

以上！

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from scipy import sparse
import pandas as pd

%matplotlib inline

ちなみに、scikit-learn にはサンプルデータが既に含まれているので、そちらを使ってみます。

In [None]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()
iris_dataset

## 学習データと検証データ

データを全て学習に使ってしまった場合、どうやって作成した機械学習の妥当性を計測しましょう？  
この問題を解決する為、一般的には `教師データ`, `検証データ` の二つに分離します。  
だいたい 7:3 の比率ですが、データを無作為に分離する便利な機能があります。

`train_test_split` という関数を利用すると、いい感じにデータを分離してくれます。

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0)

分離したデータはほぼ純粋なマトリクスデータになっているので、このタイミングで `pandas` に食わせてしまいましょう。

In [None]:
X_train

In [None]:
y_train

In [None]:
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
iris_dataframe.head()

## データ加工とロジスティック回帰

植物であっても、例外的に大きなデータ、個体差はあるはずなので、ガクや花弁の大きさ以外に、その比率を事前に算出してみます。

In [None]:
iris_dataframe['sepal rate'] = iris_dataframe['sepal length (cm)'] / iris_dataframe['sepal width (cm)']
iris_dataframe['petal rate'] = iris_dataframe['petal length (cm)'] / iris_dataframe['petal width (cm)']
iris_dataframe.head()

In [None]:
x_test_dataframe = pd.DataFrame(X_test, columns=iris_dataset.feature_names)
x_test_dataframe['sepal rate'] = x_test_dataframe['sepal length (cm)'] / x_test_dataframe['sepal width (cm)']
x_test_dataframe['petal rate'] = x_test_dataframe['petal length (cm)'] / x_test_dataframe['petal width (cm)']
x_test_dataframe.head()

ロジスティック回帰を実際に行ってみます。

In [None]:
from sklearn.linear_model import LogisticRegression
logreg = LogisticRegression()
logreg.fit(iris_dataframe, y_train)
Y_pred = logreg.predict(x_test_dataframe)
acc_log = round(logreg.score(iris_dataframe, y_train) * 100, 2)
acc_log

In [None]:
coeff_df = pd.DataFrame(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)', 'sepal rate', 'petal rate'])
coeff_df.columns = ['Feature']
coeff_df["Correlation"] = pd.Series(logreg.coef_[0])

coeff_df.sort_values(by='Correlation', ascending=False)

かなりいい数字が出てきましたね。  
確かにガクと花弁の大きさには意味がある様です。

### 機械学習アルゴリズムを実行する

In [None]:
from sklearn.svm import SVC

# サポートベクタマシンで判定
# 学修
svc = SVC()
svc.fit(iris_dataframe, y_train)

# 検証
Y_pred = svc.predict(x_test_dataframe)

# 正答率確認
acc_svc = round(svc.score(iris_dataframe, y_train) * 100, 2)
acc_svc

In [None]:
from sklearn.neighbors import KNeighborsClassifier

# K近傍法
# 学習
knn = KNeighborsClassifier(n_neighbors = 3)
knn.fit(iris_dataframe, y_train)

# 検証
Y_pred = knn.predict(x_test_dataframe)

# 正答率
acc_knn = round(knn.score(iris_dataframe, y_train) * 100, 2)
acc_knn

In [None]:
from sklearn.naive_bayes import GaussianNB

# 単純ベイズ分類
gaussian = GaussianNB()
gaussian.fit(iris_dataframe, y_train)

Y_pred = gaussian.predict(x_test_dataframe)

acc_gaussian = round(gaussian.score(iris_dataframe, y_train) * 100, 2)
acc_gaussian

In [None]:
from sklearn.linear_model import Perceptron

# パーセプトロン
perceptron = Perceptron()
perceptron.fit(iris_dataframe, y_train)

Y_pred = perceptron.predict(x_test_dataframe)

acc_perceptron = round(perceptron.score(iris_dataframe, y_train) * 100, 2)
acc_perceptron

In [None]:
from sklearn.svm import SVC, LinearSVC

# Linear SVC
linear_svc = LinearSVC()
linear_svc.fit(iris_dataframe, y_train)

Y_pred = linear_svc.predict(x_test_dataframe)

acc_linear_svc = round(linear_svc.score(iris_dataframe, y_train) * 100, 2)
acc_linear_svc

In [None]:
from sklearn.linear_model import SGDClassifier

# 最急降下法
sgd = SGDClassifier()
sgd.fit(iris_dataframe, y_train)

Y_pred = sgd.predict(x_test_dataframe)

acc_sgd = round(sgd.score(iris_dataframe, y_train) * 100, 2)
acc_sgd

In [None]:
from sklearn.tree import DecisionTreeClassifier

# 決定木
decision_tree = DecisionTreeClassifier()
decision_tree.fit(iris_dataframe, y_train)

Y_pred = decision_tree.predict(x_test_dataframe)

acc_decision_tree = round(decision_tree.score(iris_dataframe, y_train) * 100, 2)
acc_decision_tree

In [None]:
from sklearn.ensemble import RandomForestClassifier

# ランダムフォレスト
random_forest = RandomForestClassifier(n_estimators=100)
random_forest.fit(iris_dataframe, y_train)

Y_pred = random_forest.predict(x_test_dataframe)

acc_random_forest = round(random_forest.score(iris_dataframe, y_train) * 100, 2)
acc_random_forest

### モデル比較

どんなアルゴリズムが一番効果が出たのかを確認します。

In [None]:
models = pd.DataFrame({
    'Model': ['Support Vector Machines', 'KNN', 'Logistic Regression', 
              'Random Forest', 'Naive Bayes', 'Perceptron', 
              'Stochastic Gradient Decent', 'Linear SVC', 
              'Decision Tree'],
    'Score': [acc_svc, acc_knn, acc_log, 
              acc_random_forest, acc_gaussian, acc_perceptron, 
              acc_sgd, acc_linear_svc, acc_decision_tree]})
models.sort_values(by='Score', ascending=False)