# 머신러닝 프로세스
## 데이터로부터 머신러닝이 작동하는 방법
- 도전 과제: 알고리듬을 작업에 매칭
  - 정보력이 있는 데이터를 많이 가질수록 큰 가설 공간을 가진 모델이 성공할 가능성이 크다.
- 지도학습: 예제에 의한 학습
  - 지도란 당면한 작업에 대한 해답을 수정하는 알고리듬을 가르쳐준다.
  - 입력과 출력 데이터 간의 함수적 관계를 반영하는 데이터에서 이러한 관계를 포착하고, 학습을 적용해 새로운 데이터에 대해 유효한 명제를 도출하게 한다.
  - 무작위 잡음을 많이 학습하게 되면 오버피팅되며 너무 간단하면 편향된 결과를 낳는다.
- 비지도학습: 유용한 패턴의 발견
  - 특성만을 관찰하며 결과에 대한 측정을 갖지 않는다.
  - 결과 정보에 의해 제공되는 지도 없이 목적을 달성해야 한다.
  - 클러스터링 알고리듬: 유사한 관측을 찾는 것 -> K-means, 가우시안, 밀도 기반, 계층적
  - 차원 축소: 정보의 압축 -> 주성분 분석, 매니폴드 학습, 오토 인코더
- 강화 학습: 환경에 의해 주어진 정보를 기반으로 매 타임 스텝에서 행동을 선택하는 에이전트에 초점을 맞춘다.
  - 확실한 보상을 산출했던 행동 경로의 활용과 미래에 보상을 증가시킬 새로운 행동의 탐험을 관리할 필요가 있기 때문이다.

## 머신러닝 워크플로
1. 문제를 구성하고 타깃 척도를 식별하고 성공을 정의한다.
2. 데이터를 소스하고 정제하고 검증한다.
3. 데이터를 이해하고 정보성 특성을 생성한다.
4. 데이터에 적합한 하나 이상의 머신러닝 알고리듬을 선택한다.
5. 모델을 훈련, 테스트하고 조정한다.
6. 모델을 사용해 원문제를 푼다.

### 예제
- 데이터: 주택 가격 데이터 세트 (Github 참조, 캐글 원문)
k-NN 알고리듬 사용

- 문제의 구성: 목적과 성과 측정
  - 트레이딩 신호를 산출하고자 결과를 예측하는 것
  - 추론과 예측은 모델이 얼마나 목적을 잘 달성했는가를 평가하는 척도를 사용한다.
  - 예측 모델을 출력의 성격으로 구별한다.
  - 연속 출력 변수는 회귀 문제
  - 범주형 변수는 분류 문제
  - 순서가 있는 범주형 변수는 순위 문제를 의미

#### 예측 대 추론
- 지도학습 알고리듬에 의해 산출된 함수 관계는 추론을 위해 사용될 수 있다.
  - 어떤 관측이 리스크 팩터의 영향이 아니라 얼마나 잡음에 기인하는 것인지 평가한다.
- 예측은 자산 수익률과 가격을 예측하는 데 도움이 되고 트레이딩 신호로 전환될 수 있는 리스크 팩터를 예측하는 데 사용할 수 있다.

- 인과추론: 상관관계는 인과를 의미하지 않는다.
  - K-NN의 non-parametric 성격은 추론과는 잘 맞지 않아서 작업 흐름도의 추론 스템은 7장에서.

#### 회귀: 인기있는 손실 함수와 오차 척도
- 평균제곱근 오차가 대표적으로 제곱근을 사용하므로 오차를 타깃 변수의 단위로 측정하는 장점이 있다.

#### 분류 문제: 혼동 행렬의 이해
- 범주형 결과 변수를 갖는다.
- 이진 분류의 경우 0과 1로 변화하거나 이에 맞춰 정규화된다.
- 정밀도~재현율 곡선: 여러 임곗값에 대한 오차 척도 간의 트레이드오프를 시각화한다.

#### ML 알고리듬 선택
- 가정을 적게 할수록 학습 프로세스가 성공적이 되려면 입출력 관계에 대한 의미 있는 정보를 가진 데이터를 더 많이 요구한다.

#### 모델 설계와 조정
- 편향에서 기인한 에러: 과소 적합
- 분산에서 기인한 에러: 오버피팅

