# 2.5 최적의 알고리즘과 매개변수 찾기

In [52]:
# 데이터 준비

import pandas as pd
import warnings

warnings.filterwarnings('ignore')  # FutureWarnibngs 경고 제거

# 붓꽃 데이터 읽어 들이기
iris_data = pd.read_csv("data/iris.csv", encoding="utf-8")

# 붓꽃 데이터를 레이블과 입력 데이터로 분리하기
y = iris_data["Name"]  # 라벨
x = iris_data.drop("Name", axis=1)

### 1. 최적의 알고리즘 찾기

<table style="float: left;">
    <thead>
        <tr>
            <th>관점</th>
            <th>고려할 점</th>
            <th>해결 방법</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>알고리즘 선정</td>
            <td>더 높은 정답률을 내는 다른 알고리즘이 있지는 않은가?</td>
            <td>각각의 알고리즘으로 정답률을 구하고 비교하기</td>
        </tr>
        <tr>
            <td>알고리즘 평가</td>
            <td>데이터(학습 전용과 테스트 전용) 분류의 편향이 발생하지는 않았는가?</td>
            <td>크로스 벨리데이션</td>
        </tr>
    </tbody>
</table>

### 각 알고리즘의 정답률 비교하기 (붓꽃 분류 프로그램)

In [54]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.utils.testing import all_estimators

# 학습 전용과 테스트 전용 분리하기
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, train_size=0.8, shuffle=True)

# classifier 알고리즘 모두 추출하기
allAlgorithms = all_estimators(type_filter="classifier")  # (알고리즘 이름, 알고리즘 클래스) 형태의 튜플 반환

for(name, algorithm) in allAlgorithms:
    # 각 알고리즘 객체 생성하기
    clf = algorithm()
    
    # 학습하고 평가하기
    clf.fit(x_train, y_train)
    y_pred = clf.predict(x_test)
    print(name, "의 정답률 =", accuracy_score(y_test, y_pred))

AdaBoostClassifier 의 정답률 = 0.9666666666666667
BaggingClassifier 의 정답률 = 0.9666666666666667
BernoulliNB 의 정답률 = 0.2
CalibratedClassifierCV 의 정답률 = 0.9666666666666667
ComplementNB 의 정답률 = 0.8
DecisionTreeClassifier 의 정답률 = 1.0
ExtraTreeClassifier 의 정답률 = 0.9666666666666667
ExtraTreesClassifier 의 정답률 = 0.9666666666666667
GaussianNB 의 정답률 = 0.9666666666666667
GaussianProcessClassifier 의 정답률 = 0.9666666666666667
GradientBoostingClassifier 의 정답률 = 0.9666666666666667
KNeighborsClassifier 의 정답률 = 1.0
LabelPropagation 의 정답률 = 0.9666666666666667
LabelSpreading 의 정답률 = 0.9666666666666667
LinearDiscriminantAnalysis 의 정답률 = 1.0
LinearSVC 의 정답률 = 1.0
LogisticRegression 의 정답률 = 1.0
LogisticRegressionCV 의 정답률 = 0.9666666666666667
MLPClassifier 의 정답률 = 1.0
MultinomialNB 의 정답률 = 0.5666666666666667
NearestCentroid 의 정답률 = 0.9333333333333333
NuSVC 의 정답률 = 0.9333333333333333
PassiveAggressiveClassifier 의 정답률 = 0.6
Perceptron 의 정답률 = 0.8
QuadraticDiscriminantAnalysis 의 정답률 = 0.9666666666666667
RadiusNeighbo

### 2. 크로스 밸리데이션 (교차 검증)

이전 프로그램은 각 알고리즘의 정답률을 비교했지만, 평가 횟수가 1회밖에 없고, 사용한 데이터도 한 가지 패턴밖에 없었음.
그에따라 학습데이터가 적은 경우 평가의 신뢰성이 떨어질 수 있는데, 이를 해결하기 위해 **'크로스 밸리데이션(cross-validatiobn)'**을 사용

#### k-분할 밸리데이션 (3-분할 밸리데이션)
- 데이터를 A,B,C라는 3개의 그룹으로 분할한다.
- A와 B를 학습 전용 데이터, C를 평가 전용 데이터로 사용해 정답률을 구한다.
- B와 C를 학습 전용 데이터, A를 평가 전용 데이터로 사용해 정답률을 구한다.
- C와 A를 학습 전용 데이터, B를 평가 전용 데이터로 사용해 정답률을 구한다.

In [56]:
from sklearn.utils.testing import all_estimators
from sklearn.model_selection import KFold, cross_val_score

# classifier 알고리즘 모두 추출하기
allAlgorithms = all_estimators(type_filter="classifier")

# k-분할 크로스 밸리데이션 전용 객체
# n-split: 데이터 분할 수, shuffle: 데이터 분할시 랜덤하게 분할할지 지정
kfold_cv = KFold(n_splits=5, shuffle=True)

for(name, algorithm) in allAlgorithms:
    # 각 알고리즘 객체 생성하기
    clf = algorithm()
    
    # score 메서드를 가진 클래스를 대상으로 하기
    if hasattr(clf, "score"):
        # 크로스 밸리데이션
        scores = cross_val_score(clf, x, y, cv=kfold_cv)
        print(name, "의 정답률 =")
        print(scores)

AdaBoostClassifier 의 정답률 =
[0.93333333 0.93333333 0.86666667 0.96666667 0.96666667]
BaggingClassifier 의 정답률 =
[0.96666667 0.96666667 0.93333333 0.96666667 0.93333333]
BernoulliNB 의 정답률 =
[0.23333333 0.23333333 0.3        0.3        0.23333333]
CalibratedClassifierCV 의 정답률 =
[0.93333333 0.93333333 0.9        1.         0.86666667]
ComplementNB 의 정답률 =
[0.7        0.7        0.56666667 0.66666667 0.7       ]
DecisionTreeClassifier 의 정답률 =
[0.9        0.93333333 0.96666667 0.93333333 1.        ]
ExtraTreeClassifier 의 정답률 =
[0.93333333 0.93333333 1.         0.96666667 0.93333333]
ExtraTreesClassifier 의 정답률 =
[1.         1.         0.86666667 1.         0.9       ]
GaussianNB 의 정답률 =
[0.93333333 1.         0.96666667 1.         0.86666667]
GaussianProcessClassifier 의 정답률 =
[0.9        0.96666667 0.9        1.         0.93333333]
GradientBoostingClassifier 의 정답률 =
[1.         1.         0.9        0.96666667 0.96666667]
KNeighborsClassifier 의 정답률 =
[0.93333333 0.96666667 1.         0.9333333

### 3. 최적의 매개변수 찾기

In [61]:
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold, GridSearchCV

# 학습 전용과 테스트 전용 분리하기
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, train_size=0.8, shuffle=True)

# 그리드 서치에서 사용할 매개 변수
parameters = [
    {"C": [1, 10, 100, 1000], "kernel": ["linear"]},
    {"C": [1, 10, 100, 1000], "kernel": ["rbf"], "gamma": [0.001, 0.0001]},
    {"C": [1, 10, 100, 1000], "kernel": ["sigmoid"], "gamma": [0.001, 0.0001]},
]

# 그리드 서치
kfold_cv = KFold(n_splits=5, shuffle=True)
clf = GridSearchCV(SVC(), parameters, cv=kfold_cv)
clf.fit(x_train, y_train)
print("최적의 매개 변수 =", clf.best_estimator_)

# 최적의 매개 변수로 평가하기
y_pred = clf.predict(x_test)
print("최종 정답률 =", accuracy_score(y_test, y_pred))

최적의 매개 변수 = SVC(C=1000, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.001, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)
최종 정답률 = 1.0
