## __1. 개괄적 계획__
---

### __1.1 문제 정의__

모델을 만드리 위해서 우선 모델의 목적이 무엇인지 파악해야합니다. 
> 무엇을 하는 모델을 만드는가?  
  완성된 모델을 어떻게 사용할 것인가?  
  가지고 있는 데이터, 시스템은 어떠한가?
  이를 바탕으로 어떠한 알고리즘 종류를 사용할 것인가?

### __1.2 성능지표 선택__

성능지표(metric)란 모델의 훈련이 끝난 뒤 그 모델의 성능을 나타내는 지표입니다.  
모델마다 알고리즘, 데이터에 따라 특징이 다르므로 적합한 성능지표를 선택해야합니다.    

#### 분류의 성능지표  
중요한 집단, 집단의 분포비 등을 고려해서 선정합니다.
> 정확도, 정밀도, 재현율, F1-Score, Roc-Auc 등  

#### 예측의 성능지표
이상치, 데이터의 분포를 고려해서 선정합니다.
> RMSE, AME, pinball, $r^2$ 등

## __2. 데이터 준비__
---

모델의 계획이 끝났다면 이제 적합한 데이터를 구해야합니다. 그리고 그 데이터를 이해하고 목적에 맞게 가공해야합니다.

### __2.0 데이터 분할__
머신러닝은 일반화를 위한 모델입니다. 새로운 데이터에 일반화되었는지 확인하기 위하여 데이터의 일부를 <b>테스트 세트</b>로 나누어 완성된 모델의 성능을 평가하는 것에 사용합니다.

### __2.1 데이터 탐색 및 시각화__
데이터를 요약된 정보와 눈으로 이해하는 단계입니다.  
필요한 경우 데이터 분야에 대한 배경지식을 통해 없는 특성을 계산하여 추가할 수도 있습니다. 
> `pandas.DataFrame`에 있는 `head(), describe(), info(), value_count()`등의 함수를 통해 데이터를 요약하여 확인할 수 있습니다.  
  `Matplotlib` 라이브러리를 통해 데이터를 시각화하여 눈으로 데이터의 경향을 파악할 수도 있습니다.  

### __2.2 데이터 정제__
이상치, 누락값 등을 처리하고 특성들의 수치를 모델이 학습하기 쉽게 변환해 주는 단계입니다.  
> 텍스트 혹은 숫자로 되어있는 범주형 특성들은 <b>one-hot encoding</b>으로 희소행렬로 변환해주어야 대부분의 모델이 학습할 수 있습니다.  
> 일반적으로 수치형 특성들은 <b>스케일링</b>을 통해 수치의 범위를 동일하게 만들어주어야 학습이 잘 됩니다.  

* __파이프라인__  
  데이터 정제의 과정을 자동화하면 재사용성이 높아지고 최적의 정제를 찾기 편해집니다.
  > `sklearn.pipeline.Pipeline'는 사이킷런의 변환기/추정기를 지닌 함수들을 자동화할 수 있습니다..
  ```python
  my_pipeline = Pipeline([
    ('이름',추정기()),
    (...,...)
  ])
  ```

## __3. 모델 훈련__
---

다양한 모델을 훈련시켜 최적의 모델을 찾아야합니다.

### __3.1 검증 데이터 세트__
여러 모델을 비교하기 위하여 훈련데이터 세트의 일부를 검증용으로 분리하는 작업업니다. 훈련데이터 세트가 작아 나누기 부담스럽다면 <b>k-fold cross validation</b>기법을 사용하여 검증할 수도 있습니다.

### __3.2 세부 튜닝__
모델 비교를 통해 모델을 정했다면 그 모델의 파<b>파라미터</b>를 조정하여 더욱 성능을 높일 수 있습니다.
#### __3.2.1 그리드 탐색__
그리드탐색은 파라미터 목록을 주어 교차검증을 통해 최적의 조합을 찾는 방법입니다.
> `sklearn.model_selection.GridSerchCV`는 딕셔너리별로 조합하여 검증을 시행합니다
  ```python
    grid = [
        {'파라미터1':[x1, x2, ...], '파라미터2':[y1, y2, ...],...  }
        {...}
    ]

    gs = GridSerchCV(MODEL, grid, cv='N', scoring='METRIC',...)
    gs.fit(x,y)
  ```

#### __3.2.2 랜덤 탐색__
랜덤탐색은 파라미터의 분포/범위를 주면 랜덤하게 조합을 하여 검증하는 방법입니다.
```python
  grid = {
    '파라미터1':분포 or 범위,
    ...
    }
  RandomizedSearchCV(MODEL, grid, cv='N', scoring='METRIC',n-iter=N, ...)
```

#### __3.2.3 앙상블__
앙상블을 여러가지 모델을 연결하여 성능을 개선하는 방법입니다.
> 7장에서 자세하게 설명합니다.

#### __3.2.4 모델 저장__
모델을 저장하여 백업/유지관리에 활용할 수 있습니다.
> `pickle` 라이브러리를 활용할 수 있습니다.

### __3.3 모델 평가__
훈련 초기에 나누어둔 테스트 세트를 통해 모델의 최종 성능을 평가합니다.  
성능은 검증데이터를 한 것보다 당연히 안좋으며, 테스트 세트 성능을 올리기 위하여 추가로 튜닝을 하는 것은 무의미합니다.