# Chapter 1. 컴퓨터에 데이터를 학습할 수 있는 능력 부여하기

### 주제
- 머신러닝의 일반적인 개념.
- 학습의 세가지 유형과 기초용어.
- 머신러닝 시스템을 성공적으로 설계하기 위한 요소의 구성과정.

## 1.1 데이터를 지식으로 변환하기 위한 지능형 기계 구성

- 인간이 많은 양의 데이터를 분석함으로써 수동으로 규칙을 도출하고 모델을 생성하는 대신, __머신러닝은 데이터에서 지식을 포착하여 예측모델의 성능을 개선하고, 데이터를 기반으로 의사결정을 내릴 수 있는 더욱 효율적인 방법을 제시함.__
- 머신러닝 in 일상생활:
    - 이메일 스팸 필터링
    - 텍스트 인식
    - 음성 인식
    - 검색엔진
    - 체스 플레이어

## 1.2 머신러닝의 세가지 유형
- 지도학습(Supervised Learning)
- 비지도학습(Unsupervised Learning)
- 강화학습(Reinforcement Learning)

### 1.2.1 지도학습(Supervised Learning)

<img width=60% src="img/supervised_learning.png"/>
- 미래에 관한 예측
- 주요 목적 : 레이블이 있는 훈련 데이터로 모델을 학습하여 경험하지 못한 데이터나 미래의 데이터에 관한 예측을 함.
- Supervised라는 용어는 원하는 출력 신호(레이블)를 이미 알고 있는 샘플 데이터를 의미.


#### 1) 분류 모델(Classification)

<img width=60% src="img/classification.png"/>
- 과거 관측치에 기반하여 새로운 인스턴스들의 분류 레이블을 예측하는 것을 목표로 함.
- Binary class Classification
    - ex) 스팸메일 필터링 : 이메일이 스팸인지 아닌지 레이블된 이메일 텍스트로 모델링 -> 새로운 이메일이 스팸인지 아닌지 예측.
- Multi-class Classification
    - ex) 필기 숫자 인식 : MNIST dataset

#### 2) 회귀 모델(Regression)

<img width=60% src="img/regression.png"/>
- 연속형 결과를 예측.
- 복수개의 예측(설명) 변수들과 하나의 연속형 반응 변수(결과) -> __변수들 간의 관계를 찾아서 결과를 예측.__
- 샘플 점들과 피팅될 선 간의 거리(일반적으로 평균 제곱 거리)를 최소화하는 하나의 직선을 피팅.

### 1.2.2 비지도학습(Unsupervised Learning)

- 지도학습과는 다르게 레이블이 없는 데이터를 다루거나 구조를 모르는 데이터를 다룸.
- 알려진 결과변수나 보상함수의 도움을 받지 않고서도 데이터 구조를 탐색하여 의미 있는 정보를 추출.

#### 1) 군집분석(Clustering)
<img width=60% src="img/clustering.png"/>
- 그룹 요소에 대한 어떤 사전 지식 없이도 정보의 더미를 의미있는 서브 그룹(군집)으로 구조화 할 수 있게 해주는 __탐색적 데이터 분석 기법.__
- 정보를 구조화하고 데이터 간 의미 있는 관계를 파생.
    - 예) 고객의 관심을 기반으로 고객 그룹 발견.

#### 2) 차원축소(Dimension Reduction)
<img width=100% src="http://www.nlpca.org/fig_pca_principal_component_analysis.png"/>
- 고차원의 데이터 -> 제한된 스토리지 공간과 머신러닝 알고리즘의 계산 성능의 한계.
- 일반적으로 고차원 데이터의 잡음을 제거하기 위해 피처를 전처리 할 때 사용.
- 특정 알고리즘의 예측 성능을 떨어뜨릴 수 있으며 관계 정보의 대부분은 유지한 채 데이터를 하위 차원의 부분 공간으로 압축함.

### 1.2.3 강화학습(Reinforcement Learning)

<img width=60% src="img/rein_learning.png"/>
- 환경과의 상호작용을 기반으로 하여 자신의 성능을 개선하는 시스템(에이전트)을 개발하는 것이 목표.
- 강화학습을 통해서 에이전트는 실험적 시행착오 방법이나 심도 있는 계획을 통해 보상을 최대화 할 수 있는 연속된 움직임을 학습.
- 예) 체스 엔진:
    - 에이전트는 체스판(환경)의 상황에 따라 연속된 움직임을 결정하고 보상은 게임의 마지막에 승 혹은 패로 정의 될 수 있음.

## 1.3 기초 용어와 표기 소개

<img width=100% src="img/1_3.png"/>

## 1.4 머신러닝 시스템 구축을 위한 로드맵

<img width=100% src="img/roadmap.png"/>
### 1) 전처리
- 가공되지 않은 데이터가 학습 알고리즘의 최적 성능을 내기 위해 필요한 형식으로 존재하는 것은 매우 드문일.
- __데이터의 전처리는 모든 머신러닝 애플리케이션에서 가장 중요한 단계 중 하나__
- 선택된 피쳐들의 일부는 대단히 상관되어 있기 때문에 특정 수준에서는 불필요 할 수 있음. -> 차원축소 -> 더 작은 스토리지 공간, 빠른 학습!!

### 2) 예측모델의 훈련 및 선택
- 여러가지 모델을 비교하기 전에 성능 측정을 위한 메트릭을 먼저 결정.
- '테스트 데이터를 모델 선택에는 사용하지 않고 최종 모델 평가를 위해서만 사용한다면, 어떤 모델이 최종 테스트 데이터와 실제 데이터에 대해 잘 수행하는지 어떻게 알 수 있나?'
    - 훈련데이터 -> 훈련 서브 집합 & 검증 서브 집합 분리
    
### 3) 모델 평가와 경험하지 않은 데이터 인스턴스 예측