### 단일 알고리즘 적용

- 1~4단계, 6단계 생략
- 5단계만 수행하고, 앞의 단계는 간략하게 처리
- 데이터는 제공하는 데이터 중 유방암 진단 데이터를 활용

In [3]:
# 모듈가져오기
from sklearn.svm import SVC #지도학습>분류
from sklearn.datasets import load_breast_cancer #제공데이터(연습을 위해 제공)
from sklearn.model_selection import train_test_split #훈련/테스트 데이터 나눈다


In [4]:
#데이터를 로드
cancer=load_breast_cancer()

In [5]:
#sklearn.utils.Bunch -> sklearn의 제공데이터의 자료형
type(cancer)

sklearn.utils.Bunch

In [6]:
#데이터의 볼륨. 암을 진단하는데 체크포인트가 30개(특성)
cancer['data'].shape, cancer['data'][:1]

((569, 30),
 array([[1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
         3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
         8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
         3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
         1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01]]))

In [7]:
#정답 -> 암이다. 아니다 -> 0:악성, 1:양성
cancer['target'][:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [8]:
#특성
cancer['feature_names'], len(cancer['feature_names'])

(array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
        'mean smoothness', 'mean compactness', 'mean concavity',
        'mean concave points', 'mean symmetry', 'mean fractal dimension',
        'radius error', 'texture error', 'perimeter error', 'area error',
        'smoothness error', 'compactness error', 'concavity error',
        'concave points error', 'symmetry error',
        'fractal dimension error', 'worst radius', 'worst texture',
        'worst perimeter', 'worst area', 'worst smoothness',
        'worst compactness', 'worst concavity', 'worst concave points',
        'worst symmetry', 'worst fractal dimension'], dtype='<U23'), 30)

In [9]:
#악성, 양성
cancer['target_names']

array(['malignant', 'benign'], dtype='<U9')

In [10]:
#데이터를 분류
#75:25 = 훈련:테스트
#seed 고정-> 난수가 일정하게 발생 -> 실험치가 똑같다(데이터의 섞임을 동일하게 구성->알고리즘, 기타 방법들로 성능향상비교가능)

X_train, X_test, y_train, y_test = train_test_split(
    cancer.data,#독립변수, 개별적인 30개의 변수(특성)
    cancer.target,#종속변수, 답안(레이블, 답, 클래스), 0 or 1(이진데이터, 범주형변수)
    random_state=0,#난수 고정->언제돌려도 항상 같은 순서로 난수 발생(씨드고정)
    test_size=0.25#25%가 테스트 데이터(생략해도 동일)    
)

In [11]:
#분류된 데이터의 개수를 확인해서 75:25인지 체크
len(X_train),len(X_test),len(y_train),len(y_test),len(y_test)*3

(426, 143, 426, 143, 429)

In [12]:
y_train.shape

(426,)

In [13]:
X_train.shape, X_test.shape

((426, 30), (143, 30))

In [14]:
#알고리즘 생성
clf=SVC()

In [15]:
#훈련
clf.fit(X_train,y_train)



SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [16]:
#예측
predict=clf.predict(X_test)

In [17]:
#평가
from sklearn import metrics
metrics.accuracy_score(y_test,predict)

0.6293706293706294

In [18]:
#예측 및 평가 동시 수행
clf.score(X_test, y_test)

0.6293706293706294

### 리뷰

- 정확도가 많이 떨어진다 -> 성능 향상이 필요
- 데이터를 더 많이 확보할 수 있는가?
- 데이터의 품질을 높이는 쪽으로 접근할 것인가?
- 알고리즘의 하이퍼파라미터 튜닝을 수행할 것인가?
- 파이프라인을 구축하여 품질을 더 높이고, 알고리즘을 교차로 비교할 것인가?

In [19]:
cancer.data[:1]

array([[1.799e+01, 1.038e+01, 1.228e+02, 1.001e+03, 1.184e-01, 2.776e-01,
        3.001e-01, 1.471e-01, 2.419e-01, 7.871e-02, 1.095e+00, 9.053e-01,
        8.589e+00, 1.534e+02, 6.399e-03, 4.904e-02, 5.373e-02, 1.587e-02,
        3.003e-02, 6.193e-03, 2.538e+01, 1.733e+01, 1.846e+02, 2.019e+03,
        1.622e-01, 6.656e-01, 7.119e-01, 2.654e-01, 4.601e-01, 1.189e-01]])

In [20]:
# 데이터를 들여다 보니 값의 편차가 크다
# 비지도 학습의 전처리기를 이용하여 스케일링 수행->데이터 범위 좁히겠다.
from sklearn.preprocessing import MinMaxScaler

In [26]:
#데이터의 품질을 높이기 위해
#훈련 데이터를 넣어서 스케일링 처리
scaler = MinMaxScaler().fit(X_train)

In [27]:
#변환 처리
X_train_scaled=scaler.transform(X_train)

NotFittedError: This MinMaxScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.

In [23]:
#최소값을 0, 최대값을 1로두고 0~1사이로 정규화를 수행한 것과 유사하다
#학습효과를 극대화 하겠다
X_train_scaled[:1]

array([[0.23044157, 0.32157676, 0.21940433, 0.12267232, 0.33767785,
        0.12684063, 0.06298032, 0.11332008, 0.41161616, 0.15143218,
        0.03458265, 0.19353412, 0.02247562, 0.0124343 , 0.27210066,
        0.12240273, 0.03565657, 0.1624929 , 0.18735302, 0.03072012,
        0.18249733, 0.36593817, 0.16903232, 0.081744  , 0.43406194,
        0.14408515, 0.10511182, 0.31484671, 0.30277942, 0.09858323]])

In [24]:
#알고리즘 생성
clf2=SVC()

#훈련
clf2.fit(X_train_scaled, y_train)





SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [28]:
scaler = MinMaxScaler().fit(X_test)

In [29]:
#예측 및 평가
clf2.score(scaler.transform(X_test), y_test)

0.951048951048951

### 하이퍼파라미터 튜닝

- 머신러닝 모형이 완성되고 나서, 매개변수 최적화를 통해서 예측 성능을 더 극대화 할수 있다
- 도구
    - validation_curve : 단일 하이퍼파라미터 최적화 도구
    - GridSearchCV : 그리드를 이용하여 복수 하이퍼파라미터 최적화 수행 클래스
    - ParameterGrd : 복수 하이퍼파라미터 최적화 수행 클래스

In [35]:
from sklearn.model_selection import GridSearchCV

-알고리즘별 매개변수 최적화 항목
<img src='./data/매개변수.png' width='600'>

In [36]:
#SVC 알고리즘에 대한 파라미터 범주를 설정
#C, gamma만 적용해본다
#케이스 수는 -> 매개변수 개수 * 값의 범주 수 * ...
param_grid={
    'C':[0.0001,0.001,0.01,0.1,1,10,100,1000],
    'gamma':[0.0001,0.001,0.01,0.1,1,10,100,1000]
}

In [37]:
#그리드 생성
#cv:폴드의 단위를 기록(세트의 수)
#cv=5 -> 5세트로 훈련데이터를 구성한다. 그중에 한개가 검증용 데이터이다
grid=GridSearchCV(SVC(),param_grid=param_grid, cv=5)

<img src='./data/cro.png' width='600'>

In [38]:
#학습 -> 매개변수 조합에 의해서 각각 교차 학습 수행
grid.fit(X_train_scaled,y_train)

GridSearchCV(cv=5, error_score='raise-deprecating',
             estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
                           decision_function_shape='ovr', degree=3,
                           gamma='auto_deprecated', kernel='rbf', max_iter=-1,
                           probability=False, random_state=None, shrinking=True,
                           tol=0.001, verbose=False),
             iid='warn', n_jobs=None,
             param_grid={'C': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000],
                         'gamma': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring=None, verbose=0)

In [39]:
#평가
grid.best_score_

0.9812206572769953

In [40]:
#최적의 매개변수
grid.best_params_

{'C': 1, 'gamma': 1}

In [41]:
#예측 및 평가
grid.score(scaler.transform(X_test),y_test)

0.972027972027972

- 현재 훈련데이터의 검증 데이터의 적용상황
- 스케일링 작업간에 검증 폴드가 영향을 미쳐서 정확도에 부정확성을 키울 수 있다.
<img src='./data/cro.png' width='600'>

- 개선상황
- 파이프라인을 구성하여 이부분을 개선한다
<img src='./data/cro2.png' width='600'>

### 파이프라인 구축

- 검증 폴드의 전처리시 적용시 학습 데이터에 영향을 미치는 문제(위에서 언급) 해결
- 여러 알고리즘을 비교
- 전체 공정을 시퀀스로 연결하여 구성

In [67]:
#파이프라인 구축 방법은 2가지
from sklearn.pipeline import make_pipeline, Pipeline

#알고리즘 추가
from sklearn.ensemble import RandomForestClassifier

In [68]:
#다시 데이터 분류

X_train, X_test, y_train, y_test = train_test_split(
    cancer.data,#독립변수, 개별적인 30개의 변수(특성)
    cancer.target,#종속변수, 답안(레이블, 답, 클래스), 0 or 1(이진데이터, 범주형변수)
    random_state=0,#난수 고정->언제돌려도 항상 같은 순서로 난수 발생(씨드고정) 
)

In [69]:
X_train.shape, X_test.shape

((426, 30), (143, 30))

In [70]:
# 파이프라인 구축 예
#case1 : 표준방법, 작업순서를 나열하고 이름을 각각 부여
pipe_std=Pipeline([
    ('scaler',MinMaxScaler()),
    ('classifier',SVC())
])

In [71]:
pipe_std

Pipeline(memory=None,
         steps=[('scaler', MinMaxScaler(copy=True, feature_range=(0, 1))),
                ('classifier',
                 SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
                     decision_function_shape='ovr', degree=3,
                     gamma='auto_deprecated', kernel='rbf', max_iter=-1,
                     probability=False, random_state=None, shrinking=True,
                     tol=0.001, verbose=False))],
         verbose=False)

In [49]:
#case1 : 간소화방법-> 알아서 이름부여
pipe_sim=make_pipeline(MinMaxScaler(),SVC())
pipe_sim

Pipeline(memory=None,
         steps=[('minmaxscaler', MinMaxScaler(copy=True, feature_range=(0, 1))),
                ('svc',
                 SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
                     decision_function_shape='ovr', degree=3,
                     gamma='auto_deprecated', kernel='rbf', max_iter=-1,
                     probability=False, random_state=None, shrinking=True,
                     tol=0.001, verbose=False))],
         verbose=False)

### 파이프라인 실적용

In [56]:
from sklearn.preprocessing import StandardScaler

In [64]:
#1. 파이프라인 구축
# 경험적으로, 선택 시트를 같이 검토하여 후보가 유력한 알고리즘과 전처리기를 배치
pipe=Pipeline([
    ('preprocessing',StandardScaler()),
    ('classifier',SVC())
])

In [75]:
# 2. 하이퍼파라미터 튜닝
param_grid = [
    {
        'classifier':[ SVC() ],
        'preprocessing':[ StandardScaler(), MinMaxScaler() ],
        # 이름__파라미터명=> 해당 알고리즘에 적용되는 파라미터이다
        'classifier__C':[0.001, 0.01, 0.1, 1, 10, 100],
        'classifier__gamma':[0.001, 0.01, 0.1, 1, 10, 100]
    },
    {
        'classifier':[ RandomForestClassifier(n_estimators=100) ],
        'preprocessing':[ None ],        
        'classifier__max_features':[1,2,3]
    }
]

In [76]:
#결합(파이프라인, 하이퍼파라미터 튜닝)
grid=GridSearchCV(pipe, param_grid,cv=5)

In [77]:
#훈련
grid.fit(X_train, y_train)



GridSearchCV(cv=5, error_score='raise-deprecating',
             estimator=Pipeline(memory=None,
                                steps=[('preprocessing',
                                        StandardScaler(copy=True,
                                                       with_mean=True,
                                                       with_std=True)),
                                       ('classifier',
                                        SVC(C=1.0, cache_size=200,
                                            class_weight=None, coef0=0.0,
                                            decision_function_shape='ovr',
                                            degree=3, gamma='auto_deprecated',
                                            kernel='rbf', max_iter=-1,
                                            probability=False,
                                            random_state=Non...
                                                                min_impurity_decrease=0.0,

In [80]:
#최적점수
grid.best_score_

0.9859154929577465

In [81]:
grid.best_params_

{'classifier': SVC(C=10, cache_size=200, class_weight=None, coef0=0.0,
     decision_function_shape='ovr', degree=3, gamma=0.01, kernel='rbf',
     max_iter=-1, probability=False, random_state=None, shrinking=True,
     tol=0.001, verbose=False),
 'classifier__C': 10,
 'classifier__gamma': 0.01,
 'preprocessing': StandardScaler(copy=True, with_mean=True, with_std=True)}

In [82]:
grid.score(X_test,y_test)

0.9790209790209791