# Types of Machine Learning Systems

다양한 종류의 머신러닝 시스템은 다음과 같은 기준으로 분류할 수 있다.

- 학습 시 사람의 supervision의 유무
    - Supervised Learning
    - Unsupervised Learning
    - Semisupervised Learning
    - Reinforcement Learning

- 점진적 학습의 가능 여부
    - Online Learning
    - Batch Learning
    
- 단순히 새로운 데이터와 기존의 데이터를 비교하는지 아니면 학습 데이터로부터 패턴을 학습해 예측 모델을 만드는지?
    - Instance-based Learning
    - Model-based Learning

## Supervised / Unsupervised Learning

### Supervised Learning

Supervised learning에서는 학습 데이터와 solution(label)이 함께 알고리즘에 주입된다. 일반적인 Supervised learning 작업에는 classification과 regression이 있다.

#### Classification
Classification은 아래 그림의 스팸 필터와 같이 데이터를 특정 class(스팸인지 아닌지)로 분류하는 것이다.

<br/>
<img src="./images/classification.png" alt="classification"  width="50%"> 
<br/>

#### Regression
Regression은 아래 그림과 같이 연속적인 수치 값(자동차 가격, 부동산 가격 등)을 예측하는 것이다.

<br/>
<img src="./images/regression.png" alt="regression"  width="50%"> 
<br/>

몇가지 regression 알고리즘은 classification에 사용될 수 있는데, 예를 들어 Logistic Regression은 class에 속할 확률 값을 출력할 수 있기 때문에 일반적으로 classification에 사용된다.

중요한 supervised learning algorithm들은 다음과 같다.
- k-Nearest Neighbors
- Linear Regression
- Logistic Regression
- Support Vector Machines (SVMs)
- Decision Trees and Random Forests
- Neural networks

### Unsupervised Learning

Unsupervised learning에서는 학습 데이터에 label이 없다.

<br/>
<img src="./images/unsupervised_learning.png" alt="unsupervised_learning" width="50%"> 
<br/>

중요한 unsupervised learning algorithm들은 다음과 같다.
- Clustering
    - K-Means
    - DBSCAN
    - Hierarchical Cluster Analysis (HCA)
- Anomaly detection and novelty detection
    - One-class SVM
    - Isolation Forest
- Visualization and dimensionality reduction
    - Principal Component Analysis (PCA)
    - Kernel PCA
    - Locally-Linear Embedding (LLE)
    - t-distributed Stochastic Neighbor Embedding (t-SNE)
- Association rule learning
    - Apriori
    - Eclat

#### Clustering
    
Clustering은 유사한 데이터끼리의 grouping에 사용된다. 

블로그 방문자 데이터를 예로 들면, 다음 그림과 같이 유사한 방문자끼리 grouping하는데에 사용할 수 있다.

<br/>
<img src="./images/clustering.png" alt="clustering" width="50%"> 
<br/>

#### Visualization
    
Visualization의 알고리즘은 복잡하고 많은 unlabeled 데이터를 2D 또는 3D로 표현해 쉽게 plot되도록 해준다. 이는 데이터의 구조를 이해하는데 도움을 주고 예상치 못한 패턴을 발견할 수도 있다.

<br/>
<img src="./images/t_sne_visualization.png" alt="t_sne_visualization" width="50%"> 
<br/>


#### Dimensionality Reduction

Dimensionality reduction은 많은 정보를 잃지 않으면서 데이터를 simplify 하는 것이다. 한가지 방법으로는 연관된 여러 feature들을 하나로 합치는 것이 있다.

#### Anomaly Detection

Anomaly detection은 데이터와 크게 다른 것으로 의심되는 것을 감지하는 것이다. 이 경우, normal instance로 훈련한 후 normal한지 anomal한지를 감지한다.

<br/>
<img src="./images/anomaly_detection.png" alt="anomaly_detection" width="50%"> 
<br/>

#### Novelty Detection
Novelty detection은 오직 normal 데이터만을 찾도록 학습한다. Anomaly detection은 novelty detection보다 조금 더 tolerant해서 이상치가 있더라도 동작한다는 것이 차이점이다.

#### Association Rule Learning

Association rule learning은 대규모 데이터에서 feature간의 흥미로운 관계를 찾는 것이다.

## Semisupervised Learning

전체 데이터 중에서 일부만 label이 있고, 나머지는 label이 없는 경우를 semisupervised learning이라고 한다.(많은 unlabeled data와 적은 labeled data로 구성되는 경우가 많음) 대부분의 semisupervised learning 알고리즘은 unsupervised와 supervised를 결합한 것이다.

<br/>
<img src="./images/semisupervised_learning.png" alt="semisupervised_learning"  width="50%">
<br/>

## Reinforcement Learning

Reinforcement learning은 매우 다른 구조를 가진다.

학습 시스템인 agent은 environment를 관찰하고, action을 선택하고 수행한다. 그리고 그 결과로 rewards를 받는다.

그 후 시간이 지남에 따라 가장 좋은 reward를 받기 위한 최상의 전략(policy)이 무엇인지 스스로 학습한다. policy는 주어진 상황에서 agent가 선택해야 할 action을 정의한다.

<br/>
<img src="./images/reinforcement_learning.png" alt="reinforcement_learning"  width="50%"> 
<br/>

## Batch and Online Learning

### Batch Learning
Batch learning은 점진적으로 증가하는 형태로 학습하지 못하는 경우를 의미한다. 따라서 시스템이 학습되고 제품으로 출시되면, 더이상의 학습 없이 실행된다. 이 경우를 offline learning이라고 한다.

Batch learning system에 새로운 데이터를 적용하기 위해서는 전체 시스템을 새로 학습시켜야 한다.

따라서 데이터의 양이 매우 많아서 한번에 학습시키기 어렵거나 계속해서 변하는 데이터를 적용해야 하는 경우에는 부적절하다.

### Online Learning

Online learning은 데이터를 하나씩 또는 mini-batch라고 부르는 작은 그룹씩 순차적으로 주입하며 점진적으로 학습한다. 각 학습 step은 빠르고 연산이 적기 때문에, 새로운 데이터를 도착하는 즉시 학습할 수 있다.

Online learning은 데이터가 연속적으로 들어오고 빠르게 변화를 적용해야 하는 경우에 적합하다. 또한, 한번 학습된 데이터는 더이상 필요하지 않으므로 제거할 수 있기 때문에 제한된 computing resource가 있는 경우에도 적합하다.

<br/>
<img src="./images/online_learning.png" alt="online_learning" width="50%"> 
<br/>

Online learning에서 중요한 파라미터는 데이터 변화를 얼마나 빨리 적용할 것인지를 결정하는 learning rate이다.

높은 learning rate를 적용하면, 새로운 데이터를 빨리 적용하기 때문에, 기존의 데이터를 빨리 잊으며, 반대로 낮은 learning rate를 적용하면, 더 느리게 학습되지만 새로운 데이터의 노이즈나 대표성 없는 데이터 포인트에 대해 덜 민감해집니다.

## Instance-Based vs Model-Based Learning

### Instance-Based Learning

Instance-based learning은 단순히 데이터를 기억한 후, 새로운 데이터와의 유사도 측정을 사용해 일반화 하는 방법이다.

<br/>
<img src="./images/instance_based_learning.png" alt="instance_based_learning" width="50%"> 
<br/>


### Model-Based Learning

Model-based learning은 데이터에 대한 모델을 만든 후, 모델의 예측 결과를 통해 일반화 하는 방법이다.

<br/>
<img src="./images/model_based_learning.png" alt="model_based_learning" width="50%"> 
<br/>

## Typical Machine Learning Project Workflow

- 데이터를 분석한다.
- 모델을 선정한다.
- training data로 학습한다.
    - cost function을 최소화 하는 모델 파라미터를 찾는 과정
- 새로운 데이터에 대해 예측하도록 모델을 적용한다.(inference)