# 파이프라인 구축 및 하이퍼파라미터 튜닝 
---
- 머신러닝 절차 (5단계 공정
    - 알고리즘 선정 
    - 학습, 테스트용 데이터 준비
    - 학습
        - 1차적인 기본 학습 진행 
        - 운영 : 온라인 학습, 배치학습, 미니배치학습, 등등...
            - 알고리즘을 주기적으로 교체(자동, 반자동, 수동)
            - 실시간으로 반영되면서 교체(실시간온라인, 주단위로 특정일에 갱신)
            - 롤백이 가능 
    - 예측
    - 성능평가
        - 목표치에 도달하기 위해서 
            -> 정확도를 올린다 , 손실값을 줄인다 등등...
        - 판단 기준 
            => 분류, 회귀, 비지도학습, 강화학습등등에 따라 달라짐
            
        **- 성능 평가에서 성능을 높이기 위해서 
            => 파이프라인을 구축, 교차검증, 하이퍼파라미터튜닝 = 알고리즘 성능 향상** 
            
        - 성능평가 방법 => 분류, 회귀, 비지도학습, 강화학습 등등에 따라 달라짐
            => 분류 : 혼동 행렬(오차행렬),ROC커브, AUC값 등등 비교 
            => 회귀 : 지표로 판단, 손실함수 값(평균제곱근오차값이용)
            
    - 모델덤프(향후 시스템 통합에 사용할 수 있게 구성)
---


### 단일 알고리즘으로 알고리즘 적용하여 머신러닝 프로세스를 진행 

In [3]:
# ! pip install sklearn



In [4]:
# 1. 모듈 가지고 오기
from sklearn.svm import SVC
from sklearn.datasets import load_breast_cancer  # 데이터 불러오기 
from sklearn.model_selection import train_test_split 
# ml 황금비율 75(=50:25(검증)) : 25 
# 통계 황금비율: 80:20

In [6]:
# 2. 데이터 확보, 수집(생략, 제공된다)
cancer = load_breast_cancer()
cancer

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
         1.189e-01],
        [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
         8.902e-02],
        [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
         8.758e-02],
        ...,
        [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
         7.820e-02],
        [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
         1.240e-01],
        [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
         7.039e-02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
        1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
        1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
        1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0

In [None]:
# 3. 데이터 준비 
# 데이터 기초적인 정보, 통계정보를 살펴보고 기본 통찰을 획득 
# 준비 -> 품질 향상 학습에 필요한 형태로 구성 

In [8]:
print(cancer.DESCR)

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry 
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 3 is Mean Radius, f

In [10]:
# 데이터의 볼륨 : 데이터는 569개 ,특성 30개(독립변수)
cancer.data.shape

(569, 30)

In [12]:
# 종속 변수 - 암의 여부 
cancer.target.shape, cancer.target[:5]

((569,), array([0, 0, 0, 0, 0]))

In [13]:
cancer.target_names  # ['악성 => 0', '양성 => 1']

array(['malignant', 'benign'], dtype='<U9')