# 각 알고리즘의 정답률 비교하기 

In [34]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import warnings
from sklearn.utils import all_estimators


In [35]:
# 붓꽃 데이터 읽어들이기
iris_data = pd.read_csv("./data/iris.csv", encoding="utf-8")
iris_data

Unnamed: 0,caseno,SepalLength,SepalWidth,PetalLength,PetalWidth,Species
0,1,5.1,3.5,1.4,0.2,setosa
1,2,4.9,3.0,1.4,0.2,setosa
2,3,4.7,3.2,1.3,0.2,setosa
3,4,4.6,3.1,1.5,0.2,setosa
4,5,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...,...
145,146,6.7,3.0,5.2,2.3,virginica
146,147,6.3,2.5,5.0,1.9,virginica
147,148,6.5,3.0,5.2,2.0,virginica
148,149,6.2,3.4,5.4,2.3,virginica


In [36]:
# 붓꽃 데이터를 레이블과 입력 데이터로 분리하기
y = iris_data.loc[:, "Species"]
x = iris_data.loc[:, ["SepalLength", "SepalWidth", "PetalLength", "PetalWidth"]]

In [37]:
# 학습과 테스트용으로 분리하기
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2, train_size=0.8, shuffle = True)

In [38]:
# classifier 알고리즘 모두 추출하기
warnings.filterwarnings("ignore")
allAlgorithms = all_estimators(type_filter="classifier")

In [39]:
for(name, algorithm) in allAlgorithms:
    try:
        #각 알고리즘 객체 생성하기
        clf = algorithm()
    
        #학습하고 평가하기
        clf.fit(x_train, y_train)
        y_pred = clf.predict(x_test)
        print(name, "의 정답률=", accuracy_score(y_test, y_pred))
    except Exception as ex:
        print("#####", name, "에러 발생", ex)
        pass

AdaBoostClassifier 의 정답률= 0.9
BaggingClassifier 의 정답률= 0.9666666666666667
BernoulliNB 의 정답률= 0.23333333333333334
CalibratedClassifierCV 의 정답률= 0.9
CategoricalNB 의 정답률= 0.9
##### ClassifierChain 에러 발생 __init__() missing 1 required positional argument: 'base_estimator'
ComplementNB 의 정답률= 0.7666666666666667
DecisionTreeClassifier 의 정답률= 0.9666666666666667
DummyClassifier 의 정답률= 0.16666666666666666
ExtraTreeClassifier 의 정답률= 0.9666666666666667
ExtraTreesClassifier 의 정답률= 0.9666666666666667
GaussianNB 의 정답률= 0.9666666666666667
GaussianProcessClassifier 의 정답률= 0.9333333333333333
GradientBoostingClassifier 의 정답률= 0.9666666666666667
HistGradientBoostingClassifier 의 정답률= 0.9666666666666667
KNeighborsClassifier 의 정답률= 1.0
LabelPropagation 의 정답률= 1.0
LabelSpreading 의 정답률= 1.0
LinearDiscriminantAnalysis 의 정답률= 1.0
LinearSVC 의 정답률= 0.9666666666666667
LogisticRegression 의 정답률= 0.9666666666666667
LogisticRegressionCV 의 정답률= 0.9666666666666667
MLPClassifier 의 정답률= 1.0
##### MultiOutputClassifier 에러 발

# 크로스 밸리데이션
## 한국어로는 교차검증이라고 한다.
## 학습데이터가 적은경우 평가의 신뢰성을 올릴수 있다.
### 1. 데이터를 A, B, C 3개의 그룹으로 나눈다.
### 2. A와 B를 학습 데이터 C를 평가 데이터로 사용해 정답률을 구한다.
### 3. B와 C를 학습 데이터 A를 평가 데이터로 사용해 정답률을 구한다.
### 4. C와 A를 학습 데이터 C를 평가 데이터로 사용해 정답률을 구한다.


In [40]:
import pandas as pd
from sklearn.utils import all_estimators
from sklearn.model_selection import KFold
import warnings
from sklearn.model_selection import cross_val_score

In [41]:
# 붓꽃 데이터 읽어들이기
iris_data = pd.read_csv("./data/iris.csv", encoding="utf-8")

In [42]:
# 붓꽃 데이터를 레이블과 입력 데이터로 분리하기
y = iris_data.loc[:, "Species"]
x = iris_data.loc[:, ["SepalLength", "SepalWidth", "PetalLength", "PetalWidth"]]

In [43]:
# classifier 알고리즘 모두 추출하기
warnings.filterwarnings("ignore")
allAlgorithms = all_estimators(type_filter="classifier")

In [44]:
# k 분할 크로스 밸리데이션 전용 객체
kfold_cv = KFold(n_splits=5, shuffle=True)

In [45]:
for(name, algorithm) in allAlgorithms:
    try:
        #각 알고리즘 객체 생성하기
        clf = algorithm()
    
        #score 메서드를 가진 클래스를 대상으로 하기
        if hasattr(clf, "score"):
            #크로스 밸리데이션
            score = cross_val_score(clf, x, y, cv=kfold_cv)
            print(name, "의 정답률=", score)
    except Exception as ex:
        print("#####", name, "에러 발생", ex)
        pass

AdaBoostClassifier 의 정답률= [0.83333333 1.         1.         0.93333333 0.9       ]
BaggingClassifier 의 정답률= [0.93333333 0.93333333 1.         0.93333333 0.93333333]
BernoulliNB 의 정답률= [0.3        0.3        0.2        0.2        0.26666667]
CalibratedClassifierCV 의 정답률= [0.86666667 0.93333333 0.96666667 0.8        0.96666667]
CategoricalNB 의 정답률= [0.93333333 0.93333333 0.86666667 0.96666667 0.96666667]
##### ClassifierChain 에러 발생 __init__() missing 1 required positional argument: 'base_estimator'
ComplementNB 의 정답률= [0.66666667 0.63333333 0.7        0.6        0.73333333]
DecisionTreeClassifier 의 정답률= [0.93333333 1.         0.93333333 0.93333333 0.96666667]
DummyClassifier 의 정답률= [0.43333333 0.46666667 0.36666667 0.4        0.4       ]
ExtraTreeClassifier 의 정답률= [1.         0.96666667 0.93333333 0.9        0.83333333]
ExtraTreesClassifier 의 정답률= [0.96666667 0.93333333 1.         0.93333333 0.93333333]
GaussianNB 의 정답률= [0.96666667 0.96666667 1.         0.93333333 0.9       ]
GaussianPr