### 단일 알고리즘 적용 후 결과

- load_breast_cancer() / 분류용 유방암 진단 데이터 세트를 활용
- 1~4단계 생략, 바로 5단계 진입

In [1]:
# 1. 모듈 가져오기
# 알고리즘 및 기타 성능 관련 모듈
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

In [2]:
# 2. 데이터 로드 및 분류(훈련용, 테스트용)
cancer = load_breast_cancer()

In [5]:
# (569, 30)
# 데이터틑 569개
# 유방암을 진단하는 항목(= 특성, 변수, feature, 컬럼)이 30개
cancer['data'].shape

(569, 30)

In [6]:
# malignant : 악성
# benign : 양성
# 값을 나누기 위한 변수 형태 → 분류 변수 → 종류가 2개
# => 이진데이터(0 or 1)
cancer['target_names']

array(['malignant', 'benign'], dtype='<U9')

In [7]:
# 정답(양성/악성)을 어떻게 표현했는지 샘플링
cancer['target'][:100]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0])

In [9]:
# 유방암을 진단하는 30개 항목 이름
cancer['feature_names'], len(cancer['feature_names'])

(array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
        'mean smoothness', 'mean compactness', 'mean concavity',
        'mean concave points', 'mean symmetry', 'mean fractal dimension',
        'radius error', 'texture error', 'perimeter error', 'area error',
        'smoothness error', 'compactness error', 'concavity error',
        'concave points error', 'symmetry error',
        'fractal dimension error', 'worst radius', 'worst texture',
        'worst perimeter', 'worst area', 'worst smoothness',
        'worst compactness', 'worst concavity', 'worst concave points',
        'worst symmetry', 'worst fractal dimension'], dtype='<U23'), 30)

In [10]:
# 데이터 분류 작업
# random_state : 데이터를 섞는(셔플) 난수의 시드값
# test_size : 테스트 데이터의 비율
X_train, X_test, y_train, y_test = train_test_split( cancer.data, # 데이터 : 독립
                                                   cancer.target, # 답 : 종속
                                                   random_state = 0,
                                                   test_size = 0.25)

In [31]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((426, 30), (143, 30), (426,), (143,))

In [13]:
type(X_train), type(y_train)

(numpy.ndarray, numpy.ndarray)

In [14]:
# 3. 알고리즘 생성
svm = SVC()

In [15]:
# 4. 훈련
svm.fit( X_train, y_train )

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [16]:
# 5. 예측 및 평가
print( svm.score( X_test, y_test ) )

0.6293706293706294


In [17]:
predict = svm.predict( X_test )

In [19]:
from sklearn import metrics
ac_score = metrics.accuracy_score( y_test, predict )
ac_score

0.6293706293706294

### 데이터 전처리기를 적용해서 학습 후 결과

- 데이터 자체를 훈련하기 전에 스케일링 작업을 수행하여 학습을 진행

In [21]:
# 데이터 전처리 수행
X_train[:1]

array([[1.185e+01, 1.746e+01, 7.554e+01, 4.327e+02, 8.372e-02, 5.642e-02,
        2.688e-02, 2.280e-02, 1.875e-01, 5.715e-02, 2.070e-01, 1.238e+00,
        1.234e+00, 1.388e+01, 7.595e-03, 1.500e-02, 1.412e-02, 8.578e-03,
        1.792e-02, 1.784e-03, 1.306e+01, 2.575e+01, 8.435e+01, 5.178e+02,
        1.369e-01, 1.758e-01, 1.316e-01, 9.140e-02, 3.101e-01, 7.007e-02]])

In [22]:
from sklearn.preprocessing import MinMaxScaler

In [23]:
# 전처리 해야하는 데이터를 넣어서 스케일러 생성
scaler = MinMaxScaler().fit( X_train )
scaler

MinMaxScaler(copy=True, feature_range=(0, 1))

In [24]:
scaled_X_train = scaler.transform( X_train )
scaled_X_train

array([[0.23044157, 0.32157676, 0.21940433, ..., 0.31484671, 0.30277942,
        0.09858323],
       [0.20062473, 0.42116183, 0.19452699, ..., 0.06965208, 0.34042973,
        0.06677161],
       [0.62232003, 0.76929461, 0.60403566, ..., 0.56079917, 0.19850187,
        0.07431457],
       ...,
       [0.11619102, 0.35726141, 0.11077327, ..., 0.17402687, 0.17524147,
        0.17263545],
       [0.12963226, 0.35311203, 0.11706171, ..., 0.        , 0.06780997,
        0.06919848],
       [0.21434995, 0.59004149, 0.21235575, ..., 0.33251808, 0.10782574,
        0.21172767]])

In [25]:
# 알고리즘 생성
svm = SVC()

In [26]:
# 훈련
svm.fit( scaled_X_train, y_train )

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)

In [33]:
svm.score(scaler.transform( X_test ), y_test)

0.951048951048951

### 하이퍼파라미터 튜닝 후 결과

- 머신러닝의 모형이 완성되고 난 후, **매개변수 최적화**를 통해 예측 성능을 더 극대화
- 도구
 > validation_curve : 단일 하이퍼파라미터 최적화 도구  
 > GridSearchCV : 그리드를 이용한 복수 하이퍼파라미터 최적화  
 > ParameterGrid : 복수 하이퍼파라미터 최적화  

In [34]:
from sklearn.model_selection import GridSearchCV

**알고리즘별 매개변수 목록**
<img src = '../doc/매개변수.png'>

In [35]:
# 알고리즘에 대한 파라미터 구성
# 여기서는 알고리즘을 SVM 계열 사용
# 수치는 범위 내 임의로 입력
# 단, 최저값은 추천 데드라인보다 더 내려서 입력(가정)
param_grid = {
    'C' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000],
    'gamma' : [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]
}

In [36]:
# 파라미터 적용
# cv → 교차 검증 수 (폴드(fold), None, 3, 5, )
# 5 fold → 데이터의 총 개수를 5세트로 구성한다
grid = GridSearchCV( SVC(), param_grid = param_grid, cv = 5 )

In [37]:
# 학습
# 5 fold 중에 4 폴드는 훈련용, 1 폴드는 검증용으로 사용
grid.fit( scaled_X_train, y_train )

GridSearchCV(cv=5, error_score='raise',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False),
       fit_params=None, iid=True, n_jobs=1,
       param_grid={'C': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000], 'gamma': [0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1000]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=0)

In [38]:
# 평가
grid.best_score_

0.9812206572769953

In [40]:
grid.best_params_
# SVC(C=1, gamma=1) 이렇게 알고리즘을 생성하는 것이 최상의 결과치를 가져온다
# (현 데이터 기준)

{'C': 1, 'gamma': 1}

In [41]:
grid.score( scaler.transform( X_test ), y_test )

0.972027972027972

- 현재 구성한 방식은 전처리 후 교차검증을 수행해서 최적 파라미터를 찾아냈다
- 한편 순서상 전처리가 먼저 되어, 교차 검증 시 훈련용 데이터의 일부가 검증에 들어가는 문제가 발생된다 → 교차 검증 후 전처리를 수행하는 시퀀스를 맞춰야 하는데, 이를 구성하기 가장 좋은 방식은 **파이프라인 구축**
- 스케일링한 데이터를 가지고 교차 검증을 수행하면, 스케일러 데이터 안에 예측대상 폴드(데이터 세트)가 구성되어 있어서, 신규 데이터 예측 시 불확실하게 처리가 된다. 이를 방지하게 위해 전처리 전에 교차 검증이 이루어져야 한다 → pipeline 구축을 통해 학습 모델과 전처리 단계를 연결하는 구성을 만들어야 한다

|현재|개선(파이프라인이용)|
|:---|---:|
| <img src='../doc/cro.png'> | <img src='../doc/cro2.png'> |

### 파이프라인 인터페이스 적용 후 결과

- 전처리기 이외에 다른 알고리즘, 처리기와 연결
- 특성 추출, 특성 선택, 스케일 변경, 분류(회귀 or 군집) 등 4개를 포괄하는 파이프라인을 구축할 수 있다
- 모든 추정기들은 transform() 함수를 가지고 있어서 언제든지 다음 단계로 연결시킬 수 있다

In [42]:
from sklearn.pipeline import make_pipeline, Pipeline
from sklearn.ensemble import RandomForestClassifier

In [43]:
# 기본 분류 비율이 75:25
X_train, X_test, y_train, y_test = train_test_split( cancer.data,
                                                   cancer.target,
                                                   random_state = 0)

In [44]:
X_train.shape, X_test.shape

((426, 30), (143, 30))

In [45]:
# 파이프라인 구축
# case 1 : 표준방법 → 전처리기, 알고리즘 등, 처리기에 이름 부여
pipe_std = Pipeline( [ ( 'scaler', MinMaxScaler() ), ( 'classifier', SVC() ) ] )
# case 2 : 간소화 방법 → 이름은 알아서 설정된다
pipe_simple = make_pipeline( MinMaxScaler(), SVC() )

In [47]:
# 파이프라인 확인
for pipe in pipe_std.steps :
    print(pipe)

('scaler', MinMaxScaler(copy=True, feature_range=(0, 1)))
('classifier', SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))


In [48]:
for pipe in pipe_simple.steps :
    print(pipe)

('minmaxscaler', MinMaxScaler(copy=True, feature_range=(0, 1)))
('svc', SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))


In [49]:
from sklearn.preprocessing import StandardScaler

In [51]:
# 현재 데이터에 적용한 실 파이프
pipe = Pipeline([
                    ( 'preprocessing', StandardScaler() ),
                    ( 'classifier', SVC() )
                ])

In [52]:
# 하이퍼파라미터 튜닝
param_grid = [
    {
        'classifier' : [ SVC() ],
        'preprocessing' : [ StandardScaler(), MinMaxScaler() ],
        # 매개변수가 동일명을 사용할 경우 구분
        # (알고리즘 별칭)__(매개변수명)
        'classifier__gamma' : [0.001, 0.01, 0.1, 1, 10, 100],
        'classifier__C' : [0.001, 0.01, 0.1, 1, 10, 100]
    },
    {
        'classifier' : [ RandomForestClassifier(n_estimators = 100) ],
        # 전처리기가 필요 없다
        'preprocessing' : [ None ],
        'classifier__max_features' : [1, 2, 3]
    }
]

In [53]:
grid = GridSearchCV( pipe, param_grid, cv=5 )

In [55]:
# 훈련
grid.fit( X_train, y_train )

GridSearchCV(cv=5, error_score='raise',
       estimator=Pipeline(memory=None,
     steps=[('preprocessing', StandardScaler(copy=True, with_mean=True, with_std=True)), ('classifier', SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False))]),
       fit_params=None, iid=True, n_jobs=1,
       param_grid=[{'classifier': [SVC(C=10, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma=0.01, kernel='rbf',
  max_iter=-1, probability=False, random_state=None, shrinking=True,
  tol=0.001, verbose=False)], 'preprocessing': [StandardScaler(copy=True, with...=0,
            warm_start=False)], 'preprocessing': [None], 'classifier__max_features': [1, 2, 3]}],
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=0)

In [57]:
# 결과 확인
grid.best_params_

{'classifier': SVC(C=10, cache_size=200, class_weight=None, coef0=0.0,
   decision_function_shape='ovr', degree=3, gamma=0.01, kernel='rbf',
   max_iter=-1, probability=False, random_state=None, shrinking=True,
   tol=0.001, verbose=False),
 'classifier__C': 10,
 'classifier__gamma': 0.01,
 'preprocessing': StandardScaler(copy=True, with_mean=True, with_std=True)}

In [60]:
grid.best_params_.keys()

dict_keys(['classifier', 'classifier__C', 'classifier__gamma', 'preprocessing'])

In [58]:
grid.best_score_

0.9859154929577465

In [59]:
grid.score( X_test, y_test )

0.9790209790209791

### 성능 평가