### 단일 알고리즘 적용

- 1~4단계, 6단계 생략
- 5단계만 수행하고, 앞의 단계는 간략하게 처리한다.
- 데이터는 제공하는 데이터중 유방암 진단 데이터를 활용

In [113]:
# 모듈가져오기
from sklearn.svm import SVC    # 지도학습>분류
from sklearn.datasets import load_breast_cancer         # 제공데이터(연습을 위해 제공)
from sklearn.model_selection import train_test_split    # 훈련/테스트데이터 나눔

In [114]:
# 데이터를 로드
cancer = load_breast_cancer()

In [115]:
# sklearn.utils.Bunch -> sklearn의 제공데이터의 자료형
# cancer
type(cancer)

sklearn.utils.Bunch

In [116]:
# 데이터의 볼륨 살펴보기
# 암을 진단하는데 체크 포인트가 30개이다.(특성)
cancer['data'].shape, cancer['data'][:1]

((569, 30),
 array([[1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
         3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
         8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
         3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
         1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01]]))

In [117]:
# 정답 => 암이다/아니다 => 0:악성/1:양성 => 학습효과가 좋음
cancer['target'][:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [118]:
# 특성
cancer['feature_names'], len(cancer['feature_names'])

(array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
        'mean smoothness', 'mean compactness', 'mean concavity',
        'mean concave points', 'mean symmetry', 'mean fractal dimension',
        'radius error', 'texture error', 'perimeter error', 'area error',
        'smoothness error', 'compactness error', 'concavity error',
        'concave points error', 'symmetry error',
        'fractal dimension error', 'worst radius', 'worst texture',
        'worst perimeter', 'worst area', 'worst smoothness',
        'worst compactness', 'worst concavity', 'worst concave points',
        'worst symmetry', 'worst fractal dimension'], dtype='<U23'), 30)

In [119]:
#악성, 양성
cancer['target_names']

array(['malignant', 'benign'], dtype='<U9')

In [120]:
# 데이터를 분류
# 75:25 = 훈련:테스트
# seed를 고정하면 => 난수가 일정하게 발생 => 실험치가 똑같다(데이터의 섞임을 동일하게 구성)
# => 알고리즘, 기타 방법들로 성능을 항상 비교할 수 있다.

X_train, X_test, y_train, y_test = train_test_split(
    cancer.data,      # 독립변수, 개별적인 30개의 변수(특성)
    cancer.target,    # 종속변수, 답안(레이블, 답, 클래스), 0 or 1(이진데이터, 범주형변수)
    random_state=0,   # 난수를 고정 => 언제 돌려도 항상 같은 순서로 난수가 발생(씨드고정)
    test_size=0.25    # 25%가 테스트 데이터이다 (생략해도 동일, 기본이 25%)    
)

In [121]:
# 분류된 데이터의 개수를 확인해서 75:25인제 치크
len(X_train), len(X_test),len(y_train),len(y_test), len(y_test)*3

(426, 143, 426, 143, 429)

In [122]:
X_train.shape, X_test.shape

((426, 30), (143, 30))

In [123]:
# 알고리즘 생성
clf = SVC()

In [124]:
# 훈련
clf.fit(X_train, y_train)



SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [125]:
# 예측
predict = clf.predict( X_test )

In [126]:
# 평가
from sklearn import metrics
metrics.accuracy_score( y_test, predict )

0.6293706293706294

In [127]:
# 예측 및 평가 동시 수행
clf.score( X_test, y_test )

0.6293706293706294

### 리뷰

- 정확도가 많이 떨어진다 -> 성능 향상이 필요
- 데이터를 더 많이 확보할 수 있는가?
- 데이터의 품질을 높이는 쪽으로 접근할 것인가?
- 알고리즘의 하이퍼파라미터 튜닝을 수행할 것인가?
- 파이프라인을 구축하여 품질을 더 높이고, 알고리즘을 교차로 비교할 것인가?

In [128]:
cancer.data[:1]

array([[1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
        3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
        8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
        3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
        1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01]])

In [129]:
# 데이터를 들여다 보니 값의 편차가 크다 (통계 기초)
# 비지도 학습의 전처리기를 이용하여 스케일을 수행하여 데이터의 범위를 좁히겠다.(API)
from sklearn.preprocessing import MinMaxScaler

In [130]:
# 데이터의 품질을 높이기 위해서
# 훈련 데이터를 넣어서 스케일링 처리
scaler = MinMaxScaler().fit( X_train )

In [131]:
# 변환 처리
X_train_scaler = scaler.transform( X_train )

# 최소값을 0, 최대값을 1로 두고 0-1사이로 정규화를 수행한 것과 유사하다.
# 학습 효과를 극대화 하겠다.
X_train_scaler[:1]

array([[0.23044157, 0.32157676, 0.21940433, 0.12267232, 0.33767785,
        0.12684063, 0.06298032, 0.11332008, 0.41161616, 0.15143218,
        0.03458265, 0.19353412, 0.02247562, 0.0124343 , 0.27210066,
        0.12240273, 0.03565657, 0.1624929 , 0.18735302, 0.03072012,
        0.18249733, 0.36593817, 0.16903232, 0.081744  , 0.43406194,
        0.14408515, 0.10511182, 0.31484671, 0.30277942, 0.09858323]])

In [132]:
# 알고리즘 생성
clf2 = SVC()

In [133]:
# 훈련
clf2.fit(X_train_scaler, y_train)



SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [134]:
# 예측 및 평가
# 테스트 데이터를 동일학 ㅔ스케일링 처리 후 예측시킨다.
clf2.score( scaler.transform(X_test), y_test )

0.951048951048951

### 하이퍼파라미터 튜닝
- 머신러닝 모형이 완성되고 나서, 매개변수(parameter)를 통해서 예측 성능을 더 극대화 할 수 있다.
- 도구
    - vaildation_curve(함수) : 단일 하이퍼파라미터 최적화 도구   
    - GridSearchCV(클래스) : 그리드를 이용하여 복수 하이퍼파라미터 최적화 수행 클래스
    - ParameterGrid : 복수 하이퍼파라미터 최적화 수행 클래스

In [135]:
from sklearn.model_selection import GridSearchCV

- 알고리즘별 매개변수 최적화 항목

<img src = './table/매개변수.png' width='400'>

In [136]:
# SVC 알고리즘에 대한 파라미터 범주를 설정
# C, gamma만 적용해본다.
# 케이스 수는 -> 매개변수 개수 * 값의 범주 수 *...
param_grid = {
    "C": [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000],
    'gamma':[0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]
}

In [137]:
# 그리드 생성
# cv : 폴드의 단위를 기록(세트의 수)
# cv=5 => 5세트로 훈련데이터를 구성한다. 그 중에 한개가 검증용 데이터이다.
grid = GridSearchCV(SVC(), param_grid=param_grid, cv=5)

<img src='./table/cro.png' width='700'>

In [138]:
# 학습 => 매개변수 조합에 의해서 각각 교차로 학습 수행
grid.fit( X_train_scaler, y_train )

GridSearchCV(cv=5, error_score='raise-deprecating',
             estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
                           decision_function_shape='ovr', degree=3,
                           gamma='auto_deprecated', kernel='rbf', max_iter=-1,
                           probability=False, random_state=None, shrinking=True,
                           tol=0.001, verbose=False),
             iid='warn', n_jobs=None,
             param_grid={'C': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000],
                         'gamma': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring=None, verbose=0)

In [139]:
# 평가
grid.best_score_

0.9812206572769953

In [140]:
# 최적의 매개변수
grid.best_params_

{'C': 1, 'gamma': 1}

In [141]:
# 예측 및 평가
grid.score( scaler.transform( X_test ), y_test )

0.972027972027972

- 현재 훈련데이터의 검증 데이터의 적용상황
- 스케일링 작업간에 검증 폴드가 영향을 미쳐서 정확도에 부정확성을 키울 수 있다
<img src='./table/cro.png' width='700'>
- 개선 상황
- 파이프라인을 구성하여 이 부분을 개선한다.
<img src='./table/cro2.png' width='700'>

### 파이프라인 구축

- 검증 폴드의 전처리 적용시 학습 데이터에 영향을 미치는 문제(위에서 언급) 해결
- 여러 알고리즘을 비교
- 전체 공정을 시퀀스로 연결하여 구성

In [142]:
# 파이프라인 구축 방법은 2가지
from sklearn.pipeline import make_pipeline, Pipeline
# 알고리즘 추가
from sklearn.ensemble import RandomForestClassifier

In [143]:
# 다시 데이터 분류
X_train, X_test, y_train, y_test = train_test_split(
    cancer.data,      # 독립변수, 개별적인 30개의 변수(특성)
    cancer.target,    # 종속변수, 답안(레이블, 답, 클래스), 0 or 1(이진데이터, 범주형변수)
    random_state=0,   # 난수를 고정 => 언제 돌려도 항상 같은 순서로 난수가 발생(씨드고정)
)


In [144]:
X_train.shape, X_test.shape

((426, 30), (143, 30))

In [145]:
# 파이프라인 구축 예
# case 1 : 표준방법, 작업 순서를 나열하고 이를 각각 부여
pipe_std = Pipeline( [ 
    ('scaler', MinMaxScaler),
    ('classigier', SVC() )
] )
pipe_std

Pipeline(memory=None,
         steps=[('scaler', <class 'sklearn.preprocessing.data.MinMaxScaler'>),
                ('classigier',
                 SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
                     decision_function_shape='ovr', degree=3,
                     gamma='auto_deprecated', kernel='rbf', max_iter=-1,
                     probability=False, random_state=None, shrinking=True,
                     tol=0.001, verbose=False))],
         verbose=False)

In [146]:
# case 2 : 간소화 방법, 이름을 자동으로 생성(소문자로)
pipe_sim = make_pipeline( MinMaxScaler(), SVC() )
pipe_sim

Pipeline(memory=None,
         steps=[('minmaxscaler', MinMaxScaler(copy=True, feature_range=(0, 1))),
                ('svc',
                 SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
                     decision_function_shape='ovr', degree=3,
                     gamma='auto_deprecated', kernel='rbf', max_iter=-1,
                     probability=False, random_state=None, shrinking=True,
                     tol=0.001, verbose=False))],
         verbose=False)

In [147]:
from sklearn.preprocessing import StandardScaler

In [148]:
# 1. 파이프라인 구축
# 경험적으로, 선택 시트를 같이 검토하여 후보가 유력한 알고리즘과 전처리기를 배치
pipe = Pipeline( [
    ('preprocessing', StandardScaler()),
    ('classifier', SVC() )
])

In [171]:
# 2. 하이퍼파라미터 튜닝
# 경험적으로, 선택 시트를 같이 검토하여 대상이 되는 알고리즘, 전처리기 등등 조합
# 파라미터 리스트를 배치
param_grid = [
    {
        'classifier':[SVC() ],
        'preprocessing':[StandardScaler(), MinMaxScaler() ],
        # 이름__파라미터명 => 해당 알고리즘에 적용되는 파라미터이다.
        'classifier__C':[0.001, 0.01, 0.1, 1, 10, 100],
        'classifier__gamma':[0.001, 0.01, 0.1, 1, 10, 100]
    },
    {
        'classifier':[RandomForestClassifier(n_estimators=100) ],
        'preprocessing':[None],
        'classifier__max_features':[1,2,3]
    }
]

In [172]:
# 결합 ( 파이프라인, 하이퍼파라미터 튜닝 )
grid = GridSearchCV( pipe, param_grid, cv=5 )

In [173]:
# 훈련
grid.fit( X_train, y_train )

GridSearchCV(cv=5, error_score='raise-deprecating',
             estimator=Pipeline(memory=None,
                                steps=[('preprocessing',
                                        StandardScaler(copy=True,
                                                       with_mean=True,
                                                       with_std=True)),
                                       ('classifier',
                                        SVC(C=1.0, cache_size=200,
                                            class_weight=None, coef0=0.0,
                                            decision_function_shape='ovr',
                                            degree=3, gamma='auto_deprecated',
                                            kernel='rbf', max_iter=-1,
                                            probability=False,
                                            random_state=Non...
                                                                min_impurity_decrease=0.0,

In [174]:
# 최적 점수
grid.best_score_

0.9859154929577465

In [176]:
grid.best_params_

{'classifier': SVC(C=10, cache_size=200, class_weight=None, coef0=0.0,
     decision_function_shape='ovr', degree=3, gamma=0.01, kernel='rbf',
     max_iter=-1, probability=False, random_state=None, shrinking=True,
     tol=0.001, verbose=False),
 'classifier__C': 10,
 'classifier__gamma': 0.01,
 'preprocessing': StandardScaler(copy=True, with_mean=True, with_std=True)}

In [177]:
grid.score(X_test, y_test)

0.9790209790209791