# 6장 일반적인 머신 러닝 워크플로우

머신 러닝의 일반적인 워크플로
1. 작업 정의
  - 문제 영역과 고객의 이면에 있는 비즈니스 로직을 이해
  - 데이터 수집, 데이터 이해, 작업의 성공을 측정하는 방법을 선택
2. 모델 개발
  - 머신 러닝 모델로 처리할 수 있는 데이터를 준비
  - 모델 평가 방법과 기준점 선택
  - 일반화 성능을 가지며 과대적합할 수 있는 모델 훈련
  - 최대의 일반화 성능에 도달할 때까지 모델에 규제를 추가
3. 모델 배포
  - 모델을 웹 서버, 모바일 웹, 웹 페이지 또는 임베디드 장치에 배포
  - 실전에서 모델의 성능을 모니터링
  - 차세대 모델을 구축하기 위한 데이터 수집을 시작

## 6.1 작업 정의

### 6.1.1 문제 정의

우선 순위 질문
- 가용 데이터 유무 (많은 경우 새로운 데이터를 수집하고 레이블을 부여해야 한다)
- 당면한 문제의 종류 (머신 러닝이 아니라 통계 분석과 같은 다른 방법을 사용해야 할 수도 있다.)
  - 이진 분류
  - 다중 분류
  - 스칼라 회귀
  - 벡터 회귀
  - 다중 레이블 다중 분류
  - 이미지 분할
  - 군집
  - 생성 
  - 강화 학습
- 기존 솔루션 (어떤 시스템으로 어떻게 일하고 있는지 이해해야 한다)
- 고려해야 할 특별한 제약 (작업이 충족시켜야 할 조건을 완벽하게 이해)

초기 단계에서의 가설
- 주어진 입력으로 타깃을 예측할 수 있다고 가정한다.
- 가용한 데이터(또는 수집할 데이터)에 입력과 출력 사이의 관계를 학습하는 데 충분한 정보가 있다고 가정한다.

### 6.1.2 데이터 수집

머신러닝 프로젝트에서 가장 힘들고 시간이 많이 걸리며 비용이 많이 드는 단계

#### 데이터 애너테이션 인프라에 투자하기

#### 대표성 없는 데이터 주의하기

(가능하다면) 모델이 사용될 환경에서 직접 데이터를 수집

개념 이동(concept drift)
- 제품 환경에서 데이터의 속성이 시간에 따라 변할 때 일어난다.
- 이로 인해 모델 정확도가 점진적으로 감소된다.
- 빠르게 변하는 개념 이동에 대처하려면 지속적인 데이터 수집, 애너테이션, 모델 재훈련이 필요하다. 

샘플링 편향
- 데이터 수집 과정이 예측 대상과 상호 작용하여 편향된 측정 결과를 만들 때 일어난다.

### 6.1.3 데이터 이해

모델을 훈련을 시작하기 전에 데이터를 탐색하고 시각화하여 예측 능력을 가진 특성에 대한 통찰을 얻어야 한다.

타깃 누출(target leaking)
- 데이터에 타깃에 관한 정보를 제공하는 특성이 있는지 확인
- 데이터에 있는 모든 특성이 제품 환경에도 동일한 형태로 제공될 수 있는지 확인
- 예. 암 치료를 받을지 예측하는 모델에서 암 진단을 받았다는 특성이 있는 경우

### 6.1.4 성공 지표 선택

성공의 지표가 프로젝트 전반에 걸쳐 내리는 기술적 선택을 결정하게 된다.

클래스 분포가 균일한 분류 문제
- 정확도
- ROC 곡선 아래 면적인 ROC AUC

클래스 분포가 균등하지 않은 문제, 랭킹 문제, 다중 레이블 분제
- 정밀도
- 재현율
- 정확도
- ROC AUC의 가중 평균




## 6.2 모델 개발

대부분의 튜토리얼과 연구 프로젝트는 "모델 개발" 단계만 수행한다.

문제 정의, 데이터 수집 -> **모델 개발** -> 모델 배포 및 유지 관리

### 6.2.1 데이터 준비

데이터 전처리
- 주어진 원본 데이터를 신경망에 적용하기 쉽도록 만드는 것
- 예. 벡터화, 정규화, 누락된 값 다루기 등
- 전처리 기법은 도메인에 특화되어 있다.

#### 벡터화

신경망에서는 모든 입력과 출력은 일반적으로 부동 소수점(혹은 정수, 문자열)로 이루어진 텐서여야 한다.

처리해야 하는 것을 텐서로 변환하는 것을 데이터 벡터화(data vectorization)라고 한다.

#### 값 정규화

(큰 값) 데이터를 네트워크에 주입하기 전에 0-1 사이의 부동 소수점 값으로 전환한다.

(균일하지 않은 데이터) 데이터를 네트워크에 주입하기 전에 각 특성을 독립적으로 정규화하여 평균이 0이고 표준 편차가 1이 되도록 만든다.

큰 값과 균일 하지 않은 데이터를 신경망에 바로 주입하는 것은 위험하다. 업데이트할 그레이디언트가 커져 네트워크가 수렴하는 것을 방해한다.

네트워크를 쉽게 학습시키도록 데이터는
1. 작은 값을 취해야 한다. (0-1)
2. 균일해야 한다. (모든 특성이 대체로 비슷한 범위를 가져야 한다)

엄격하게 정규화를 한다면
1. 각 특성별로 평균이 0이 되도록 정규화
2. 각 특성별로 표준편차가 1이 되도록 정규화

넘파일 배열에서 정규화

```py
x -= x.mean(axis=0) # x가 (샘플, 특성) 크기인 2D 행렬이라고 가정
x /= x.std(axis=0)
```

#### 누락된 값 처리하기

훈련 데이터에는 누락된 값이 포함될 수 있다.

삭제 할 수도 있지만
- 범주형 특성: 누락된 값이라는 의미의 새로운 범주를 만드는 것이 안전하다.
- 수치형 특성: 누락된 값을 임의의 값(0) 대신 해당 특성의 평균이나 중간 값으로 대체하거나, 다른 특성 값에서 누락된 값을 예측하는 모델을 훈련할 수도 있다.

### 6.2.2 평가 방법 선택

검증 지표를 통해 모델의 일반화 성능을 측정(신뢰성)

세가지 평가 방법
- 홀드아웃 검증: 데이터가 풍부할 때.
- K-겹 교차 검증: 데이터가 적을 때.
- 반복 K-겹 교차 검증: 데이터가 적고 매우 정확한 모델 평가가 필요할 때.

주의사항
- 검승 세트의 대표성 유의
- 훈련 세트와 검증 세트 간 중복된 샘플이 없도록 주의

### 6.2.3 기준 모델 뛰어넘기

초기 목표
- 통계적 검정력(statistical power)을 달성하는 것
- 간단한 기준점을 넘을 수 있는 모델을 개발

중점
- 특성 공학: 유용하지 않은 특성을 제외하고, 문제에 대한 지식을 사용하여 유용할 것 같은 특성을 개발
- 구조에 대한 올바른 가정: 어떤 모델을 사용할지, 신경망 자체가 필요한지, 다른 방법은 없는지
- 좋은 훈련 옵션 선택: 손실 함수, 배치 크기, 학습률 등

올바른 손실 함수 사용하기
- 손실 함수는 미니 배치 데이터에서 계산 가능하고 미분 가능해야 한다.
- ROC AUC는 직접 최적화 할 수 없기 때문에 크로스엔트로피처럼 ROC AUC를 대신할 지표를 최적화한다. 
- 크로스엔트로피가 낮을 수록 ROC AUC가 높다고 기대할 수 있다. 

모델에 맞는 마지막 층의 활성화 함수와 손실 함수 선택
| 문제 유형 | 마지막 층의 활성화 함수 | 손실 함수 |
| -- | -- | -- |
| 이진 분류 | sigmoid | binary_crossentropy |
| 단일 레이블 다중 분류 | softmax | categorical_crossentropy |
| 다중 레이블 다중 분류 | sigmoid | binary_crossentropy |

주어진 작업에 잘 맞는 특성 공학 기법과 모델 구조를 찾기 위해 선행 기술을 조사해야 한다. 

간단한 기준점을 넘어서지 못한다면, 입력 데이터에 존재하지 않는 것을 얻으려고 한다는 신호일 수 있다.

가설
- 주어진 입력으로 타깃을 예측할 수 있다고 가정한다.
- 가용한 데이터에 입력과 출력 사이의 관계를 학습하는 데 충분한 정보가 있다고 가정한다.

가설이 잘못되었다면 처음으로 돌아가야 한다.

### 6.2.4 모델 용량 키우기: 과대적합 모델 만들기

모델이 충분한 성능을 내는지 평가
- 주어진 문제를 모델링하기에 충분한 층과 파라미터가 있는지

과소적합과 과대적합의 경계점을 알기 위해서는 우선 "과대적합"된 모델을 만들어야 한다.
1. 층 추가
2. 층 크기 키우기
3. 더 많은 에포크 동안 훈련

검증 데이터에서 모델 성능이 감소하기 시작했을 때 과대적합에 도달한 것이다. (검증 손실)

### 6.2.5 모델 규제와 하이퍼파라미터 튜닝

일반화 성능을 최대화하는 것

반복적으로 모델을 수정, 훈련, 검증 데이터 평가
- 다른 구조 시도 (층 추가, 제거)
- 드롭아웃 추가
- L1, L2 규제 추가
- 하이퍼파라미터 튜닝 (층의 유닛 개수, 옵티마이저의 학습률 등)
- 데이터 큐레이션, 특성 공학 시도

자동화된 하이퍼파라미터 튜닝 소프트웨어 (예. 케라스 튜너)를 사용하여 작업의 많은 부분을 자동화 할 수 있다.

검증 과정에서 얻은 피드백을 바탕으로 모델을 다시 튜닝을 하게 되면 결국 검증 과정에 과대적합 될 수 있다. 

만족할 만한 설정 값(하이퍼파라미터 튜닝...)을 얻으면 최종적으로 모델을 만들고, 테스트 세트에서 평가한다. 

테스트 세트 << 검증 세트: 검증 과정에 신뢰성이 없거나 검증 데이터에 과대적합된 것이다. 이런 경우 더 신뢰할 평가 방법으로 바꾸는 것이 좋다. (ex. 반복 K-겹 교차 검증)










## 6.3 모델 배포

### 6.3.1 고객에게 작업 설명하고 기대치 설정하기

### 6.3.2 추론 모델 배치하기

#### REST API로 모델 배포하기

#### 장치로 모델 배포하기

#### 브라우저에 모델 배포하기

#### 추론 모델 최적화

### 6.3.3 작동 중 모델 모니터링 하기

### 6.3.4 모델 유지 관리

## 6.4 요약

문제 정의
- 넓은 맥락에서 일 이해 (최종 목표, 제약 사항...)
- 데이터셋 수집 (데이터 이해)
- 성공 측정 방법 (검증 데이터에서 모니터링할 지표)

모델 개발
- 데이터 준비
- 평가 방법 선택 (홀드아웃 검증, K-겹 교차 검증, 검증 데이터 세트 비중)
- 통계적 검정력 (간단한 기준점)
- 용량 늘이기 (과대적합할 수 있는 모델)
- 규제 적용 및 하이퍼파라미터 튜닝

