### アルゴリズムの正解率を比較

In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import warnings
from sklearn.utils.testing import all_estimators

# アヤメデータの読み込み
iris_data = pd.read_csv("iris.csv", encoding="utf-8")

# アヤメデータをラベルと入力データに分離
y = iris_data.loc[:,"Name"]
x = iris_data.loc[:,["SepalLength","SepalWidth","PetalLength","PetalWidth"]]

# 学習用とテスト用に分離
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, train_size = 0.8, shuffle = True)

# 「将来変更される予定であることを示す警告」　非表示
warnings.filterwarnings("ignore")

# classiffierのアルゴリズムをすべて取得
allAlgorithms = all_estimators(type_filter="classifier")

for(name, algorithm) in allAlgorithms:

    try:
        # 各アルゴリズムのオブジェクトを作成
        clf = algorithm()

        # 学習、評価
        clf.fit(x_train, y_train)
        y_pred = clf.predict(x_test)
        print(name,"正解率 = ", accuracy_score(y_test, y_pred))
    except:
        print("error", algorithm)

AdaBoostClassifier 正解率 =  0.9
BaggingClassifier 正解率 =  0.9
BernoulliNB 正解率 =  0.23333333333333334
CalibratedClassifierCV 正解率 =  0.9333333333333333
CategoricalNB 正解率 =  0.8666666666666667
error <class 'sklearn.utils._mocking.CheckingClassifier'>
error <class 'sklearn.multioutput.ClassifierChain'>
ComplementNB 正解率 =  0.7
DecisionTreeClassifier 正解率 =  0.9333333333333333
DummyClassifier 正解率 =  0.3333333333333333
ExtraTreeClassifier 正解率 =  0.9666666666666667
ExtraTreesClassifier 正解率 =  0.9333333333333333
GaussianNB 正解率 =  0.9
GaussianProcessClassifier 正解率 =  0.9333333333333333
GradientBoostingClassifier 正解率 =  0.9333333333333333
HistGradientBoostingClassifier 正解率 =  0.9333333333333333
KNeighborsClassifier 正解率 =  0.9333333333333333
LabelPropagation 正解率 =  0.9
LabelSpreading 正解率 =  0.9
LinearDiscriminantAnalysis 正解率 =  0.9666666666666667
LinearSVC 正解率 =  0.9666666666666667
LogisticRegression 正解率 =  0.9333333333333333
LogisticRegressionCV 正解率 =  0.9666666666666667
MLPClassifier 正解率 =  0.966666

### クロスバリデーション

In [4]:
# K分割クロスバリデーション
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# K分割クロスバリデーション用オブジェクト
kfold_cv = KFold(n_splits=5, shuffle=True)

for(name, algorithm) in allAlgorithms:

    try:
        # 各アルゴリズムのオブジェクトを作成
        clf = algorithm()
        
        # scoreメソッドを持つクラスを対象とする
        if hasattr(clf,"score"):
            # 学習、評価
            scores = cross_val_score(clf, x, y, cv=kfold_cv)
            print(name,"正解率 = ")
            print(scores)
    except:
        print("error", algorithm)

AdaBoostClassifier 正解率 = 
[0.9        1.         0.96666667 0.93333333 0.9       ]
BaggingClassifier 正解率 = 
[1.         0.96666667 0.96666667 0.93333333 0.93333333]
BernoulliNB 正解率 = 
[0.16666667 0.26666667 0.23333333 0.26666667 0.3       ]
CalibratedClassifierCV 正解率 = 
[0.9        0.93333333 0.8        1.         0.9       ]
CategoricalNB 正解率 = 
[0.93333333 0.9        0.9        0.96666667 0.93333333]
CheckingClassifier 正解率 = 
[nan nan nan nan nan]
error <class 'sklearn.multioutput.ClassifierChain'>
ComplementNB 正解率 = 
[0.73333333 0.63333333 0.66666667 0.7        0.6       ]
DecisionTreeClassifier 正解率 = 
[0.93333333 0.96666667 0.96666667 0.9        0.96666667]
DummyClassifier 正解率 = 
[0.36666667 0.3        0.53333333 0.3        0.26666667]
ExtraTreeClassifier 正解率 = 
[0.96666667 1.         0.96666667 0.93333333 0.9       ]
ExtraTreesClassifier 正解率 = 
[0.9        0.96666667 0.96666667 1.         0.9       ]
GaussianNB 正解率 = 
[0.96666667 0.96666667 1.         0.93333333 0.93333333]
Gaussi

### グリッドサーチ（指定したパラメーターの全パターンについて、正解率を比較し、最も高いパラメーターの組み合わせを選択する手法）

In [11]:
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV

# グリッドサーチで利用するパラメータを指定
parameters = [
    {"C": [1, 10, 100, 1000], "kernel":["linear"]},
    {"C": [1, 10, 100, 1000], "kernel":["rbf"], "gamma":[0.001, 0.0001]},
    {"C": [1, 10, 100, 1000], "kernel":["sigmoid"], "gamma":[0.001, 0.0001]}
]

# グリッドサーチを行う
kfold_cv = KFold(n_splits=5, shuffle=True)
clf = GridSearchCV( SVC(), parameters, cv=kfold_cv)
clf.fit(x_train, y_train)
print("最適なパラメーター = ", clf.best_estimator_)

# 最適なパラメーターで評価
y_pred = clf.predict(x_test)
print("評価時の正解率 = ", accuracy_score(y_test, y_pred))

最適なパラメーター =  SVC(C=1, kernel='linear')
評価時の正解率 =  1.0
