# 머신러닝 with Python 
## 09 앙상블 학습 부스팅(Boosting) 실습- breast_cancer 데이터

##### 에이다 부스트 알고리즘을 활용하여 유방암 여부를 예측하는 모형을 만들어본다.

책 p.282~ (실습은 Gaussian Naive Bayse 모델로 진행되었지만 LinearRegression 으로 해보기로 한다.)

---

하단부에서는 

> 배운점1: 

### 데이터 불러오기

In [1]:
from sklearn import datasets

In [2]:
# 유방암 데이터 가져오기

raw_breast_cancer = datasets.load_breast_cancer()

In [3]:
# 데이터 살펴보기

raw_breast_cancer

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0

In [4]:
# 데이터 셋 내 피처 이름들

raw_breast_cancer.feature_names

array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

### 피처, 타깃 데이터 지정

In [5]:
X = raw_breast_cancer.data
y = raw_breast_cancer.target

### 트레이닝/테스트 데이터 분할

In [6]:
from sklearn.model_selection import train_test_split                 # 분할을 위해 필요한 함수
X_tn, X_te, y_tn, y_te = train_test_split(X, y, random_state = 0)    # 분리. randomstate는 고정

### 데이터 표준화

In [7]:
from sklearn.preprocessing import StandardScaler         # 데이터 표준화를 위한 함수
std_scale = StandardScaler()                             # 표준화 스케일러 지정
std_scale.fit(X_tn)                                      # 트레이닝 피처를 기준으로 표준화를 적합 시도

X_tn_std = std_scale.transform(X_tn) 
X_te_std = std_scale.transform(X_te)                     # 트레인, 테스트 데이터 각각 적합시킨 표준화에 맞게 변형

### 데이터 학습

In [9]:
from sklearn.ensemble import AdaBoostClassifier          # 에이다부스트분류기 함수. 회귀문제를 풀때는 regressor 호출
clf_ada = AdaBoostClassifier(random_state = 0)           # 모형 설정.
clf_ada.fit(X_tn_std, y_tn)                              # 적합

AdaBoostClassifier(random_state=0)

### 데이터 예측

In [10]:
pred_ada = clf_ada.predict(X_te_std)                     # std된 테스트 피처 데이터를 넣고 실행하여 결과 확인 
print(pred_ada)

[0 1 1 1 1 1 1 1 1 1 0 1 1 1 1 0 1 0 0 0 0 0 1 1 0 1 1 0 1 0 1 0 1 0 1 0 1
 0 1 0 0 1 0 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 0 0 1 1 0 1 0 0 0 1 1 0 1 0
 0 1 1 1 1 1 0 0 0 1 0 1 1 1 0 0 1 1 1 0 1 1 0 1 1 1 1 1 1 1 0 1 0 1 0 0 1
 0 0 1 1 1 1 1 1 1 1 1 0 1 0 0 1 1 1 1 0 1 1 1 1 1 1 0 0 1 1 1 0]


### 정확도 평가

In [11]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(y_te, pred_ada)                # 실제값과 예측값을 넣음
print(accuracy)

0.9790209790209791


### confusion matrix 확인

In [12]:
from sklearn.metrics import confusion_matrix
conf_matrix = confusion_matrix(y_te, pred_ada)
print(conf_matrix)

[[52  1]
 [ 2 88]]


양성을 음성으로 분류한 것 1개, 음성을 양성으로 분류한 것 2개가 나타났다. 맞나?

### 분류 리포트 확인

In [13]:
from sklearn.metrics import classification_report
class_report = classification_report(y_te, pred_ada)
print(class_report)

              precision    recall  f1-score   support

           0       0.96      0.98      0.97        53
           1       0.99      0.98      0.98        90

    accuracy                           0.98       143
   macro avg       0.98      0.98      0.98       143
weighted avg       0.98      0.98      0.98       143



### 결과

정확도 자체가 딱 봤을 때 0.98이 나쁜 수치는 아니지만, 의학에서는 양성을 음성으로 잘못 판단할 경우 사람이 목숨을 잃을 가능성이 있기 때문에 작은 오차도 허용해서는 안된다.



여기서 드는 궁금증. AdaBoostClassifier의 여러 옵션값들이 있는 것 같은데 보니, 여기에도 base_estimtor라는 것이 등장한다.

실제로 앞의 배깅이나 보팅을 할 경우 기본 분류기를 이것저것 적어넣어서 만들었던 것으로 기억한다.

분류기의 종류를 따로 정하지 않은 상태인것 같은데 이부분이 궁금해지는 부분인 것이다. 

그리고 n_estimators가 기본 값이 50으로 되어있는데 이 부분도 고치고 싶다.

learning_rate야 데이터 양이 적으니 괜찮을 것 같고.

---

### 아래는 함수 설명 글이다.

```
Init signature:
AdaBoostClassifier(
    base_estimator=None,
    *,
    n_estimators=50,
    learning_rate=1.0,
    algorithm='SAMME.R',
    random_state=None,
)


Parameters
----------
base_estimator : object, default=None
    The base estimator from which the boosted ensemble is built.
    Support for sample weighting is required, as well as proper
    ``classes_`` and ``n_classes_`` attributes. If ``None``, then
    the base estimator is :class:`~sklearn.tree.DecisionTreeClassifier`
    initialized with `max_depth=1`.

n_estimators : int, default=50
    The maximum number of estimators at which boosting is terminated.
    In case of perfect fit, the learning procedure is stopped early.

learning_rate : float, default=1.0
    Weight applied to each classifier at each boosting iteration. A higher
    learning rate increases the contribution of each classifier. There is
    a trade-off between the `learning_rate` and `n_estimators` parameters.

algorithm : {'SAMME', 'SAMME.R'}, default='SAMME.R'
    If 'SAMME.R' then use the SAMME.R real boosting algorithm.
    ``base_estimator`` must support calculation of class probabilities.
    If 'SAMME' then use the SAMME discrete boosting algorithm.
    The SAMME.R algorithm typically converges faster than SAMME,
    achieving a lower test error with fewer boosting iterations.

random_state : int, RandomState instance or None, default=None
    Controls the random seed given at each `base_estimator` at each
    boosting iteration.
    Thus, it is only used when `base_estimator` exposes a `random_state`.
    Pass an int for reproducible output across multiple function calls.
    See :term:`Glossary <random_state>`.

Attributes
----------
base_estimator_ : estimator
    The base estimator from which the ensemble is grown.

estimators_ : list of classifiers
    The collection of fitted sub-estimators.

classes_ : ndarray of shape (n_classes,)
    The classes labels.

n_classes_ : int
    The number of classes.

estimator_weights_ : ndarray of floats
    Weights for each estimator in the boosted ensemble.

estimator_errors_ : ndarray of floats
    Classification error for each estimator in the boosted
    ensemble.

feature_importances_ : ndarray of shape (n_features,)
    The impurity-based feature importances if supported by the
    ``base_estimator`` (when based on decision trees).

    Warning: impurity-based feature importances can be misleading for
    high cardinality features (many unique values). See
    :func:`sklearn.inspection.permutation_importance` as an alternative.

n_features_in_ : int
    Number of features seen during :term:`fit`.

    .. versionadded:: 0.24

feature_names_in_ : ndarray of shape (`n_features_in_`,)
    Names of features seen during :term:`fit`. Defined only when `X`
    has feature names that are all strings.

    .. versionadded:: 1.0


Examples
--------
>>> from sklearn.ensemble import AdaBoostClassifier
>>> from sklearn.datasets import make_classification
>>> X, y = make_classification(n_samples=1000, n_features=4,
...                            n_informative=2, n_redundant=0,
...                            random_state=0, shuffle=False)
>>> clf = AdaBoostClassifier(n_estimators=100, random_state=0)
>>> clf.fit(X, y)
AdaBoostClassifier(n_estimators=100, random_state=0)
>>> clf.predict([[0, 0, 0, 0]])
array([1])
>>> clf.score(X, y)
0.983...
File:           ~/opt/anaconda3/envs/py3_8_5/lib/python3.8/site-packages/sklearn/ensemble/_weight_boosting.py
Type:           ABCMeta
Subclasses:     
```

# 실험 - base_estimator, n_estimators 변경해보기

## 실험1: LogisticRegression

In [15]:
from sklearn.linear_model import LogisticRegression      # 선형 회귀 분류기
from sklearn.svm import SVC                              # svm 분류기
from sklearn.naive_bayes import GaussianNB               # 나이브 베이즈 분류기
from sklearn.ensemble import AdaBoostClassifier          # 에이다부스트분류기 함수. 회귀문제를 풀때는 regressor 호출
from sklearn.metrics import accuracy_score               # 정확도 테스트 함수
from sklearn.metrics import classification_report        # 분류 리포트 확인을 위한 함수

# 보통 estimators 라고 쓰는데 나는 초보이니 헷갈릴까봐 learner로 쓴다.
learners = [LogisticRegression]

for i in learners:
    # 배깅을 활용한 분류기 생성(모형 설정)
    clf_ada = AdaBoostClassifier(base_estimator = i(random_state = 0), random_state = 0) 
    
    # 데이터 학습
    clf_ada.fit(X_tn_std, y_tn)
    
    # 데이터 예측
    pred_ada = clf_ada.predict(X_te_std) 
    
    # 데이터 정확도 평가
    accuracy = accuracy_score(y_te, pred_ada)
    
    # 분류 리포트 확인
    class_report = classification_report(y_te, pred_ada)
    
    # 모델 상황 확인
    
    print("모델 분류기 종류: ", i )
    print("모델 정확도: ", accuracy)
    print("모델 분류 리포트")
    print(class_report)
    print("========================================================")

모델 분류기 종류:  <class 'sklearn.linear_model._logistic.LogisticRegression'>
모델 정확도:  0.951048951048951
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.93      0.94      0.93        53
           1       0.97      0.96      0.96        90

    accuracy                           0.95       143
   macro avg       0.95      0.95      0.95       143
weighted avg       0.95      0.95      0.95       143



### 결과

오마이갓... 선형회귀로 했더니 정확도는 약 2퍼센트 포인트 하락했다. 이것은 엄청난 오류인 것이에요.

그럼 다른 머신들로도 해보자.

## 실험1-1: n_estimator 개수 조정

In [29]:
from sklearn.linear_model import LogisticRegression      # 선형 회귀 분류기
from sklearn.svm import SVC                              # svm 분류기
from sklearn.naive_bayes import GaussianNB               # 나이브 베이즈 분류기
from sklearn.ensemble import AdaBoostClassifier          # 에이다부스트분류기 함수. 회귀문제를 풀때는 regressor 호출
from sklearn.metrics import accuracy_score               # 정확도 테스트 함수
from sklearn.metrics import classification_report        # 분류 리포트 확인을 위한 함수

# 보통 estimators 라고 쓰는데 나는 초보이니 헷갈릴까봐 learner로 쓴다.
learners = [LogisticRegression]
# 50이 디폴트이지만 함께 비교가 쉽도록 넣어버린다.
n_esti = [10, 25, 50, 60, 75, 90, 100]

for i in learners:
    for j in n_esti:
        # 배깅을 활용한 분류기 생성(모형 설정)
        clf_ada = AdaBoostClassifier(base_estimator = i(random_state = 0), random_state = 0, n_estimators = j) 

        # 데이터 학습
        clf_ada.fit(X_tn_std, y_tn)

        # 데이터 예측
        pred_ada = clf_ada.predict(X_te_std) 

        # 데이터 정확도 평가
        accuracy = accuracy_score(y_te, pred_ada)

        # 분류 리포트 확인
        class_report = classification_report(y_te, pred_ada)

        # 모델 상황 확인

        print("모델 분류기 종류: ", i )
        print("분류기 개수(n_estimator): ", j, "개")
        print("모델 정확도: ", accuracy)
        print("모델 분류 리포트")
        print(class_report)
        print("========================================================")

모델 분류기 종류:  <class 'sklearn.linear_model._logistic.LogisticRegression'>
분류기 개수(n_estimator):  10 개
모델 정확도:  0.965034965034965
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.96      0.94      0.95        53
           1       0.97      0.98      0.97        90

    accuracy                           0.97       143
   macro avg       0.96      0.96      0.96       143
weighted avg       0.96      0.97      0.96       143

모델 분류기 종류:  <class 'sklearn.linear_model._logistic.LogisticRegression'>
분류기 개수(n_estimator):  25 개
모델 정확도:  0.958041958041958
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.94      0.94      0.94        53
           1       0.97      0.97      0.97        90

    accuracy                           0.96       143
   macro avg       0.96      0.96      0.96       143
weighted avg       0.96      0.96      0.96       143

모델 분류기 종류:  <class 'sklearn.linear_model._logistic.LogisticRegression'>
분류

### 결과

개수가 일정 수준 이상 되면 정확도가 줄어들다가 더 이상 줄어들지 않는다. 75개에서 나타났는데, 재밌는 결과이다.

## 실험1-2: 옵션 수정(multi_class = 'multinomial')

In [30]:
from sklearn.linear_model import LogisticRegression      # 선형 회귀 분류기
from sklearn.svm import SVC                              # svm 분류기
from sklearn.naive_bayes import GaussianNB               # 나이브 베이즈 분류기
from sklearn.ensemble import AdaBoostClassifier          # 에이다부스트분류기 함수. 회귀문제를 풀때는 regressor 호출
from sklearn.metrics import accuracy_score               # 정확도 테스트 함수
from sklearn.metrics import classification_report        # 분류 리포트 확인을 위한 함수

# 보통 estimators 라고 쓰는데 나는 초보이니 헷갈릴까봐 learner로 쓴다.
learners = [LogisticRegression]
# 50이 디폴트이지만 함께 비교가 쉽도록 넣어버린다.
n_esti = [10, 25, 50, 60, 75, 90, 100]

for i in learners:
    for j in n_esti:
        # 배깅을 활용한 분류기 생성(모형 설정)
        clf_ada = AdaBoostClassifier(base_estimator = i(multi_class = 'multinomial',random_state = 0), random_state = 0, n_estimators = j) 

        # 데이터 학습
        clf_ada.fit(X_tn_std, y_tn)

        # 데이터 예측
        pred_ada = clf_ada.predict(X_te_std) 

        # 데이터 정확도 평가
        accuracy = accuracy_score(y_te, pred_ada)

        # 분류 리포트 확인
        class_report = classification_report(y_te, pred_ada)

        # 모델 상황 확인

        print("모델 분류기 종류: ", i )
        print("분류기 개수(n_estimator): ", j, "개")
        print("모델 정확도: ", accuracy)
        print("모델 분류 리포트")
        print(class_report)
        print("========================================================")

모델 분류기 종류:  <class 'sklearn.linear_model._logistic.LogisticRegression'>
분류기 개수(n_estimator):  10 개
모델 정확도:  0.958041958041958
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.94      0.94      0.94        53
           1       0.97      0.97      0.97        90

    accuracy                           0.96       143
   macro avg       0.96      0.96      0.96       143
weighted avg       0.96      0.96      0.96       143

모델 분류기 종류:  <class 'sklearn.linear_model._logistic.LogisticRegression'>
분류기 개수(n_estimator):  25 개
모델 정확도:  0.951048951048951
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.93      0.94      0.93        53
           1       0.97      0.96      0.96        90

    accuracy                           0.95       143
   macro avg       0.95      0.95      0.95       143
weighted avg       0.95      0.95      0.95       143

모델 분류기 종류:  <class 'sklearn.linear_model._logistic.LogisticRegression'>
분류

### 결과

정확도가 약간 하향했으며, 재미있는건 50개 이상에서 최종적으로 더이상 떨어지지 않는 정확도가 multi_class 옵션을 수정하기 전과 같은(0.9440559440559441) 것이다!

그 수치는 옵션을 수정하기 전에는 75개 때부터 나타났던 수치이다.

신기하네. 또 75개일때는 정확도가 더 떨어졌었다. 그 이유가 좀 궁금하다.(0.9370629370629371)

뭐라 결론을 내리기 참 어렵다.


## 실험2: SVC

SVC 로 할경우는 알고리즘을 바꿔달라고 했다. 네 한번에 다 함수로 안넣길 잘했네.

## 실험2-1: SVC(kernel='rbf)

In [20]:
from sklearn.linear_model import LogisticRegression      # 선형 회귀 분류기
from sklearn.svm import SVC                              # svm 분류기
from sklearn.naive_bayes import GaussianNB               # 나이브 베이즈 분류기
from sklearn.ensemble import AdaBoostClassifier          # 에이다부스트분류기 함수. 회귀문제를 풀때는 regressor 호출
from sklearn.metrics import accuracy_score               # 정확도 테스트 함수
from sklearn.metrics import classification_report        # 분류 리포트 확인을 위한 함수

# 보통 estimators 라고 쓰는데 나는 초보이니 헷갈릴까봐 learner로 쓴다.
learners = [SVC]

for i in learners:
    # 배깅을 활용한 분류기 생성(모형 설정)
    clf_ada = AdaBoostClassifier(base_estimator = i(random_state = 0), random_state = 0, algorithm = 'SAMME') 
    
    # 데이터 학습
    clf_ada.fit(X_tn_std, y_tn)
    
    # 데이터 예측
    pred_ada = clf_ada.predict(X_te_std) 
    
    # 데이터 정확도 평가
    accuracy = accuracy_score(y_te, pred_ada)
    
    # 분류 리포트 확인
    class_report = classification_report(y_te, pred_ada)
    
    # 모델 상황 확인
    
    print("모델 분류기 종류: ", i )
    print("모델 정확도: ", accuracy)
    print("모델 분류 리포트")
    print(class_report)
    print("========================================================")

모델 분류기 종류:  <class 'sklearn.svm._classes.SVC'>
모델 정확도:  0.6293706293706294
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.00      0.00      0.00        53
           1       0.63      1.00      0.77        90

    accuracy                           0.63       143
   macro avg       0.31      0.50      0.39       143
weighted avg       0.40      0.63      0.49       143



  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))
  _warn_prf(average, modifier, msg_start, len(result))


### 결과

정확도가 왜이러세요?

## 실험2-2: SVC(kernel='linear')

In [23]:
from sklearn.linear_model import LogisticRegression      # 선형 회귀 분류기
from sklearn.svm import SVC                              # svm 분류기
from sklearn.naive_bayes import GaussianNB               # 나이브 베이즈 분류기
from sklearn.ensemble import AdaBoostClassifier          # 에이다부스트분류기 함수. 회귀문제를 풀때는 regressor 호출
from sklearn.metrics import accuracy_score               # 정확도 테스트 함수
from sklearn.metrics import classification_report        # 분류 리포트 확인을 위한 함수

# 보통 estimators 라고 쓰는데 나는 초보이니 헷갈릴까봐 learner로 쓴다.
learners = [SVC]

for i in learners:
    # 배깅을 활용한 분류기 생성(모형 설정)
    clf_ada = AdaBoostClassifier(base_estimator = i(random_state = 0,kernel = 'linear'), random_state = 0, algorithm = 'SAMME') 
    
    # 데이터 학습
    clf_ada.fit(X_tn_std, y_tn)
    
    # 데이터 예측
    pred_ada = clf_ada.predict(X_te_std) 
    
    # 데이터 정확도 평가
    accuracy = accuracy_score(y_te, pred_ada)
    
    # 분류 리포트 확인
    class_report = classification_report(y_te, pred_ada)
    
    # 모델 상황 확인
    
    print("모델 분류기 종류: ", i )
    print("모델 정확도: ", accuracy)
    print("모델 분류 리포트")
    print(class_report)
    print("========================================================")

모델 분류기 종류:  <class 'sklearn.svm._classes.SVC'>
모델 정확도:  0.965034965034965
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.98      0.92      0.95        53
           1       0.96      0.99      0.97        90

    accuracy                           0.97       143
   macro avg       0.97      0.96      0.96       143
weighted avg       0.97      0.97      0.96       143



### 결과

처음에 정확도는 0.6 대 까지 하락했다 이정도면 거의 사용이 불가한 수준이 아닐까 생각도 되었는데

전에 분류 문제를 풀 때 SVC를 linear 옵션으로 바꾸었던 것으로 생각이 나서 다시 했더니 다시 정확도가 어느정도 회복이 되었다.

그러나 처음 기본 adaboos의 상태보다는 안좋은 것은 사실이다.

그럼 현재 0.9650이라는 정확도를 어떻게 하면 또 변화시킬 수 있을까, 분류기 개수 조정하기로 했다.

## 실험2-3: 위 결과에 n_estimators 조정

In [31]:
from sklearn.linear_model import LogisticRegression      # 선형 회귀 분류기
from sklearn.svm import SVC                              # svm 분류기
from sklearn.naive_bayes import GaussianNB               # 나이브 베이즈 분류기
from sklearn.ensemble import AdaBoostClassifier          # 에이다부스트분류기 함수. 회귀문제를 풀때는 regressor 호출
from sklearn.metrics import accuracy_score               # 정확도 테스트 함수
from sklearn.metrics import classification_report        # 분류 리포트 확인을 위한 함수

# 보통 estimators 라고 쓰는데 나는 초보이니 헷갈릴까봐 learner로 쓴다.
learners = [SVC]
# 50이 디폴트이지만 함께 비교가 쉽도록 넣어버린다.
n_esti = [10, 25, 50, 60, 75, 90, 100]

for i in learners:
    for j in n_esti:
        # 배깅을 활용한 분류기 생성(모형 설정)
        clf_ada = AdaBoostClassifier(base_estimator = i(random_state = 0, kernel = 'linear'), random_state = 0, algorithm = 'SAMME', n_estimators = j) 

        # 데이터 학습
        clf_ada.fit(X_tn_std, y_tn)

        # 데이터 예측
        pred_ada = clf_ada.predict(X_te_std) 

        # 데이터 정확도 평가
        accuracy = accuracy_score(y_te, pred_ada)

        # 분류 리포트 확인
        class_report = classification_report(y_te, pred_ada)

        # 모델 상황 확인

        print("모델 분류기 종류: ", i )
        print("분류기 개수(n_estimator): ", j, "개")
        print("모델 정확도: ", accuracy)
        print("모델 분류 리포트")
        print(class_report)
        print("========================================================")

모델 분류기 종류:  <class 'sklearn.svm._classes.SVC'>
분류기 개수(n_estimator):  10 개
모델 정확도:  0.965034965034965
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.98      0.92      0.95        53
           1       0.96      0.99      0.97        90

    accuracy                           0.97       143
   macro avg       0.97      0.96      0.96       143
weighted avg       0.97      0.97      0.96       143

모델 분류기 종류:  <class 'sklearn.svm._classes.SVC'>
분류기 개수(n_estimator):  25 개
모델 정확도:  0.965034965034965
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.98      0.92      0.95        53
           1       0.96      0.99      0.97        90

    accuracy                           0.97       143
   macro avg       0.97      0.96      0.96       143
weighted avg       0.97      0.97      0.96       143

모델 분류기 종류:  <class 'sklearn.svm._classes.SVC'>
분류기 개수(n_estimator):  50 개
모델 정확도:  0.965034965034965
모델 분류 리포트
             

### 결과

분류기 개수에 영향을 전혀 받지 않았다. 처음부터 분류가 강력했던건지 어떤건지 모르겠다. 클래스별 precision이나 recall을 보아도 눈에띄는 결과가 보이지 않는다.

이로서 SVC(kernel='linear')로 부스팅을 할 경우 분류기 개수에 크게 영향을 받지 않는 것을 알 수 있다.



## 실험3: Gaussian NB

In [24]:
from sklearn.linear_model import LogisticRegression      # 선형 회귀 분류기
from sklearn.svm import SVC                              # svm 분류기
from sklearn.naive_bayes import GaussianNB               # 나이브 베이즈 분류기
from sklearn.ensemble import AdaBoostClassifier          # 에이다부스트분류기 함수. 회귀문제를 풀때는 regressor 호출
from sklearn.metrics import accuracy_score               # 정확도 테스트 함수
from sklearn.metrics import classification_report        # 분류 리포트 확인을 위한 함수

# 보통 estimators 라고 쓰는데 나는 초보이니 헷갈릴까봐 learner로 쓴다.
learners = [GaussianNB]

for i in learners:
    # 배깅을 활용한 분류기 생성(모형 설정)
    clf_ada = AdaBoostClassifier(base_estimator = i(), random_state = 0) 
    
    # 데이터 학습
    clf_ada.fit(X_tn_std, y_tn)
    
    # 데이터 예측
    pred_ada = clf_ada.predict(X_te_std) 
    
    # 데이터 정확도 평가
    accuracy = accuracy_score(y_te, pred_ada)
    
    # 분류 리포트 확인
    class_report = classification_report(y_te, pred_ada)
    
    # 모델 상황 확인
    
    print("모델 분류기 종류: ", i )
    print("모델 정확도: ", accuracy)
    print("모델 분류 리포트")
    print(class_report)
    print("========================================================")

모델 분류기 종류:  <class 'sklearn.naive_bayes.GaussianNB'>
모델 정확도:  0.8391608391608392
모델 분류 리포트
              precision    recall  f1-score   support

           0       0.71      0.96      0.82        53
           1       0.97      0.77      0.86        90

    accuracy                           0.84       143
   macro avg       0.84      0.86      0.84       143
weighted avg       0.87      0.84      0.84       143



### 결과

이친구 정확도는 또 왜이러세요.