# 머신러닝 이란?
: 수 많은 데이터를 학습시켜 패턴을 찾아내고 이를 기반으로 데이터를 분류하거나 예측하는 기술
- 일반 소프트웨어(결정론적 소프트웨어)는 언제나 똑같은 과정을 거쳐 같은 결과를 내놓는다.
- 머신러닝 기반 소프트웨어(비결정론적 소프트웨어)는 데이터와 알고리즘에 따라 떄로는 다른 결과를 추론해낸다.
(추론: 이미 알고있는 사실을 바탕으로 논리적 결론을 도출하는 과정)

## 작업 방법
- 어느 정도 규모가 있는 샘플 데이터를 입력으로 넣어 분석 시킨다. (데이터는 최소 150개 이상)
- 데이터에서 일정한 규칙을 찾아낸다.
- 찾아낸 규칙을 바탕으로 새로운 데이터를 예측하거나 분류한다.

### 어떻게 특징과 규칙을 찾을까?
- 특정 추출데이터가 어떤 특징을 가지고 있는지 찾고 벡터(행렬)로 만드는 처리과정
- 어떤 특징(feature)을 추출할지는 분석가가 결정. 이것이 머신러닝의 중요한 포인트 -> Feature Engineering
- 회귀분석(Y = aX + b) 데이터가 연속된 값일 때 사용하며 이를 선형회귀(linear regression)이라고 한다.   
  (선형회귀에서 발전된 게 인공신경망, 인공신경망에서 발전된 게 딥러닝)

# 머신러닝의 종류
### 지도학습(Supervised Learning)
: 학습시 데이터와 답을 함께 주어 학습시켜 다른 데이터의 답을 예측한다.
### 비지도학습(Unsupervised Learning)
: 학습시 데이터만 주어 학습시켜 데이터의 규칙을 찾는다.
- 클러스터 분석(Cluster Analysis)
- 주성분 분석(Principal Component Analysis)
### 강화학습(Reinforcement Learning)
: 부분적으로 답을 입력한 후 데이터를 기반으로 최적의 답을 찾는다.


# 머신러닝의 흐름
(1) 데이터 수집
(2) 데이터 가공 -> 분석
(3) 데이터 학습
(3-1) 학습 방법 선택
(3-2) 매개변수(Hyper Parameter) 조정
(3-3) 모델 학습
(4) 모델 평가
(5) 예측력(정확도)과 오분류표가 좋은 경우 다음 단계 진행하고 아니면 (3)부터 재실행
(6) 최종 모델 완성

# 머신러닝 응용 분야
#### 클래스 분류(Classification)
- 특정 데이터에 Target을 붙여 분류
- 스팸 메일 분류, 필기인식, 증권 사기
#### 이진분류(Binary Classification)
- 둘 중 하나의 값으로 분류하는 경우
#### 다중분류(Multi Classification)
- 여러 개의 분류값 중에서 하나의 값으로 예측하는 경우

# 클러스터링(Clustering): 그룹 나누기
- 값의 유사성을 기반으로 데이터를 여러 그룹으로 나눌 수 있다.
- 사용자의 취향을 그룹으로 묶어 사용에 취향에 맞는 추천 시스템 제공

# 추천(Recommendation)
- 특징 데이터를 기반으로 다른 데이터를 추천하는 것
- 인터넷 서점에서 구매한 책들을 기반으로 다른 책을 추천


# 차원 축소(Dimensionality Reduction)
- 데이터의 특성을 유지하면서 데이터의 양을 줄이는 것
- 데이터를 시각화 하거나 구조를 추출해서 용량을 줄여 계산을 빠르게 하거나 메모리를 절약

# 프로젝트 과정
### 문제 정의
- 프로젝트의 목표를 정의하고 그에 따른 계획을 세우는 단계
- 대략적으로 어떤 데이터를 수집해서 어떤 머신러닝 알고리즘으로 문제를 해결할 것인지 결정하는 단계
### 데이터 획득
- 머신러닝 모델 학습에 필요한 데이터를 수집하는 단계
- 성공적인 머신러닝 프로젝트는 뛰어난 머신러닝 실력보다도 얼마나 충분한 데이터를 획득했느냐에 의해 결정
- 획득한 데이터는 학습(Training)데이터, 검증(Validation)데이터, 테스트(Test)데이터로 나누어 사용
### 모델 구현
- 학습 데이터를 기반으로 한개 이상의 머신러닝 모델을 구현하는 단계
### 검증
- 검증 데이터를 사용해 구현된 머신러닝 모델들의 성능을 검증하는 단계
- 최종적으로 검증결과가 가장 높은 모델 하나를 선택
### 평가
- 검증 결과를 통해 선택된 모델의 성능을 일반화 성능 확인하는 단계
- 평가 결과에 따라 프로젝트를 마무리 할 지 이전 단계로 돌아가 개선할 지 결정

# 머신러닝의 필수 개념
- 데이터에서 충분한 특징을 찾지 못하고 머신러닝 모델을 학습할 경우 모델이 과소적합 될 수 있으며, 반대로 데이터에 너무 잘 맞추면 과대적합 될 수 있다.
### 과소적합(Underfitting)
- 모델이 훈련 데이터와 검증 데이터 모두에서 성능이 낮은 경우
- 시험공부를 적게 해서 시험 점수가 낮게 나오는 것과 같은 원리(데이터의 패턴을 제대로 학습하지 못함)
### 과대적합(Overfitting)
- 모델이 훈련 데이터에 너무 잘 맞춰져서, 학습 데이터 외 다른 데이터에는 정확도가 낮게 나오는 경우
- 데이터의 특징들의 수치값을 정규화(Normalization)하거나, 모델의 복잡도를 줄임으로써 과대적합을 피할 수 있다.