# 파이프라인구축 및 하이퍼파라미터튜닝

- 머신러닝 절차(전체 공정 5단계내에서)
  - 알고리즘 선정
  - 학습, 테스트용 데이터 준비
  - 학습
    - 1차적인 기본 학습 진행
    - 운영:온라인학습, 배치학습, 미니배치학습, 등등.. 
      - 알고리즘을 주기적으로 교체(자동, 반자동, 수동)
      - 실시간으로 반영되면서 교체(실시간온라인,주단위로 특정일에 갱신)
      - 롤백이 가능
  - 예측
  - 성능평가
    - 목표치에 도달하기 위해 -> 정확도를 올린다, 손실값을 줄인다등등
    - 판단 기준 => 분류, 회귀, 비지도학습, 강화학습등등에 따라 달라진다
    - **성능을 높이기 위해서 => 파이프라인, 교차검증, 하이퍼파라미터튜닝**
      => *알고리즘을 선정*
    - 성능평가 방법 => 분류, 회귀, 비지도학습, 강화학습등등에 따라 달라진다
      => 분류 : 혼동행렬(오차행렬), ROC 커브, AUC 값등등 비교
      => 회귀 : 지표로 판단, 손실함수값(평균제곱근오차값이용)
  
  - 알고리즘 덤프(향후 시스템통합에 사용할수 있게 구성)

# 단일 알고리즘 적용하여 머신러닝 프로세스 진행

In [0]:
# 1. 모듈가져오기
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
# 머신러닝 모델링 : 75(=50:25):25
# 통계적 모델링   : 80:20

In [0]:
# 2. 데이터 확보, 수집 (생략, 제공된다)
cancer = load_breast_cancer()

In [9]:
# 3. 데이터 준비
# 데이터의 기초적인 정보, 통계정보를 살펴보고 기본 통찰을 획득
# 준비 -> 품질향상, 학습에 필요한 형태로 구성
type(cancer), dir(cancer), print(cancer.DESCR[:50])

.. _breast_cancer_dataset:

Breast cancer wisconsi


(sklearn.utils.Bunch,
 ['DESCR', 'data', 'feature_names', 'filename', 'target', 'target_names'],
 None)

In [10]:
# 데이터의 볼륨 : 데이터는 569개, 특성 30개(독립변수)
cancer.data.shape

(569, 30)

In [11]:
# 종속변수, 암이냐, 아니냐
cancer.target.shape,  cancer.target[:5]

((569,), array([0, 0, 0, 0, 0]))

In [12]:
# '악성':0, '양성':1
cancer.target_names

array(['malignant', 'benign'], dtype='<U9')

In [0]:
# 4. 데이터 분석 (생략)

In [0]:
# 5. 예측 모델링 구축
# 데이터가 특성과 정답을 가지고 있으므로, 지도학습>분류

In [0]:
# 5-1. 알고리즘 선정 (임의 선정)
clf = SVC()

In [0]:
# 5-2. 학습, 테스트용 데이터 준비
# 독립변수와 종송변수의 데이터의 수는 일치, 차원을 1개 차이가 나고
# return: 훈련용 독립변수, 테스트용 독립변수, 훈련용 정답, 테스트용 정답
X_train, X_test, y_train, y_test = train_test_split( 
  cancer.data,   # 독립변수, 30개 특성에 대한 개별값들, 2-ndarray
  cancer.target, # 종속변수, 악성(0), 양성(1), 1-ndarray
  random_state=0,# 난수의 seed를 고정함으로써, 매번 돌릴때마다, 
                 # 데이터가 섞이는 순서가 동일하다 => 실험환경을 통제한다
                 # 오늘, 내일, 내년등 해도 항상 동일한 결과를 가져온다
                 # 사용하지 않으면 통상 현재시간을 seed로 사용
  test_size=0.25 # 테스트 데이터는 25%를 책정한다. 사용하지 않아도 기본값이 0.25
)

In [20]:
# 훈련용 데이터가  테스트용 데이터의 약 3배의 볼륨을 가진다
X_train.shape, X_test.shape, (143*3)

((426, 30), (143, 30), 429)

In [21]:
# 5-3 학습 시킨다, 이런 데이터에 대해 훈련되었다
# clf : 분류기 => 분류 알고리즘(여기서는 사용한 제품이 SVC)
clf.fit( X_train, y_train )

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [22]:
# 5-4 예측해라. 한번도 접하지 않은 데이터를 
predict = clf.predict( X_test )
# 예측값은 0 아니면 1
predict

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0,
       1, 1, 0, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 1,
       1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1,
       0, 0, 0, 1, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1,
       0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 0])

In [0]:
# 5-5 성능 평가를 수행 (분류, 회귀, 비지도, 강화 =>방법이 바뀐다)
# 분류 -> 혼동(오차)행렬 -> 정밀도, 재현율, 정확도, f1-score, AUC, ROC
# 정확도만 일단 살펴보겟다
from sklearn import metrics

In [24]:
# (실제 정답, 알고리즘이 예측한 값)
metrics.accuracy_score( y_test, predict )

0.9370629370629371

In [25]:
# 예측후 평가를 바로 진행
clf.score( X_test, y_test )

0.9370629370629371

# 정확도를 높이기 위해서 조치




## 데이터의 양 추가(여기서는 불가)

## 데이터 품질 향상 (전처리기를 이용한 정규화처리)

- 현재 정확도는 0.937 %이다 
- 만약 현 site의 목표 임계치가 96%라면 현 알고리즘을 개선, 교체, 데이터를 증설등등 조치가 필요하다
- 추가 데이터 유입은 불가
- 품질 향상을 하는 방향으로 진행-> 3단계 조치사항의 목표
  - 전처리 (preprocessing) => 정규화, 수치 조정등등 진행

In [28]:
# 컬럼간 데이터의 편차가 비교적 크다()=> 정규화를 통해서 
# 0~1사이로 구성, 최소값을0, 최대값 1로 둔다면
# MinMaxScaler 
X_train[:1], X_train[-1:] 

(array([[1.185e+01, 1.746e+01, 7.554e+01, 4.327e+02, 8.372e-02, 5.642e-02,
         2.688e-02, 2.280e-02, 1.875e-01, 5.715e-02, 2.070e-01, 1.238e+00,
         1.234e+00, 1.388e+01, 7.595e-03, 1.500e-02, 1.412e-02, 8.578e-03,
         1.792e-02, 1.784e-03, 1.306e+01, 2.575e+01, 8.435e+01, 5.178e+02,
         1.369e-01, 1.758e-01, 1.316e-01, 9.140e-02, 3.101e-01, 7.007e-02]]),
 array([[1.151e+01, 2.393e+01, 7.452e+01, 4.035e+02, 9.261e-02, 1.021e-01,
         1.112e-01, 4.105e-02, 1.388e-01, 6.570e-02, 2.388e-01, 2.904e+00,
         1.936e+00, 1.697e+01, 8.200e-03, 2.982e-02, 5.738e-02, 1.267e-02,
         1.488e-02, 4.738e-03, 1.248e+01, 3.716e+01, 8.228e+01, 4.742e+02,
         1.298e-01, 2.517e-01, 3.630e-01, 9.653e-02, 2.112e-01, 8.732e-02]]))

In [0]:
from sklearn.preprocessing import MinMaxScaler

In [30]:
scaler = MinMaxScaler().fit( X_train )
scaler

MinMaxScaler(copy=True, feature_range=(0, 1))

In [31]:
# 스케일러를 통해서 변환
X_train_scaled = scaler.transform( X_train )
X_train_scaled

array([[0.23044157, 0.32157676, 0.21940433, ..., 0.31484671, 0.30277942,
        0.09858323],
       [0.20062473, 0.42116183, 0.19452699, ..., 0.06965208, 0.34042973,
        0.06677161],
       [0.62232003, 0.76929461, 0.60403566, ..., 0.56079917, 0.19850187,
        0.07431457],
       ...,
       [0.11619102, 0.35726141, 0.11077327, ..., 0.17402687, 0.17524147,
        0.17263545],
       [0.12963226, 0.35311203, 0.11706171, ..., 0.        , 0.06780997,
        0.06919848],
       [0.21434995, 0.59004149, 0.21235575, ..., 0.33251808, 0.10782574,
        0.21172767]])

- 알고리즘을 새로 만들어서 새로운 데이터로 다시 절차 수행
  - 단, 스케일러 생성시 사용했던 재료가, 전체 데이터에 대한 부분이 아닌,
  - 훈련 데이터만 가지고 만든 스케일러라서, 테스트 데이터하고는 적합하지 않다
  - 스케일러 생성이나 적용시 시점의 조정이 필요한것으로 보인다
  - 파이프라인으로 해결가능!!

In [32]:
# 5-1. 알고리즘 선정 (임의 선정)
clf2 = SVC()
# 5-2. 학습, 테스트용 데이터 준비
# 단, 스케일러의 생성재료 X_train
X_test_scaled = scaler.transform( X_test ) 
# 5-3. 학습 시킨다, 이런 데이터에 대해 훈련되었다
clf2.fit( X_train_scaled, y_train )
# 5-4. 예측해라. 한번도 접하지 않은 데이터를 
# 5-5. 성능 평가를 수행
clf2.score( X_test_scaled, y_test )

0.972027972027972

## 하이퍼파라미터 튜닝 적용

- 머신러닝 모형이 완성(알고리즘을 선정하고나서)되고, 알고리즘 선정간에 적용
- 매개변수 최적화를 통해서 예측 성능을 극대화 한다

### 관련 함수나 클레스

- vaildation_curve : 단일 하이퍼 파라미터 최적화 도구
- **GridSearchCV     : 복수개의 알고리즘의 하이퍼파라미터 최적화 도구**
- ParameterGrid    : 복수개의 알고리즘의 하이퍼파라미터 최적화 도구

In [0]:
from sklearn.model_selection import GridSearchCV

In [0]:
# SVC 알고리즘에 대한 파라미터 값 범주(어디서부터 ~ 어디까지) 지정)
# 기본값을 센터에 두고 전후를 나열
param_grid = {
  'C':[0.001, 0.01, 0.1, 1, 10, 100, 1000],
  'gamma':[0.001, 0.01, 0.1, 1, 10, 100, 1000]
}