# 머신러닝( Machine Learning, 기계학습 )

## 머신러닝이란?

1. 인공지능( Artificial Intelligence, AI )의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다.
2. 데이터에서 법칙성( 패턴 )을 추출하는 통계적 방법의 하나이고, 학습하도록 컴퓨터를 프로그래밍하는 과학이다.
3. 법칙을 추출하여 예측, 분류하는 다양한 모델( 알고리즘 )이 있다.
4. 손글씨 문자 식별, 물체 식별, 문장 분류, 음성인식, 주식 예측, 질병 진단등 다양한 분야에 걸쳐 응용할 수 있다.
5. 이미지 인식 정확도가 높은 딥러닝( Deep Learning )도 머신러닝의 일부로, 뇌의 신경 세포를 모방한 신경망 모델의 한 형태이다.

## 머신러닝 적용 방법

1. 공개된 라이브러리를 활용하여 모델의 동작 원리를 자세히 알지 못해도 일단 부딪혀보고 도전하여, 기대했던 출력을 얻어 활용하는 방법
2. 머신러닝의 원리와 이론을 제대로 이해하여 직면한 문제에 더욱 적절한 모델을 고를 수 있게 되고, 제대로 동작하지 않을 때는 적절한 조치를 취할 수 있으며, 목적에 부합하는 자신만의 모델을 개발하는 것도 가능하다.

## 머신러닝 시스템 종류

- 사람의 감독하에 훈련하는 것인지 그렇지 않은 것인지 - 지도학습, 비지도학습, 준지도학습, 강화학습
- 실시간으로 점진적인 학습을 하는지 아닌지 - 온라인학습, 배치학습
- 단순하게 알고 있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인지 아니면 과학자들이 하는 것처럼 훈련 데이터셋에서 패턴을 발견하여 예측 모델을 만드는지 - 사례 기반 학습, 모델 기반 학습

### 머신러닝 시스템을 '학습하는 동안의 감독 형태나 정보량'에 따른 분류

1. 지도 학습( Supervised Learning ) : 입력에 대한 적절한 출력을 구하는 문제
    - 알고리즘에 주입하는 훈련 데이터에 레이블( label )이라는 원하는 답이 포함된다.
    - 분류( classification )가 전형적인 지도 학습 작업이다.
    - 예측 변수( predictor variable )라는 특성( feature )을 사용해 타깃( target ) 수치를 예측하는 것이다. 회귀( regression )라 부른다.
    - 지도학습 알고리즘 종류
        - k-최근접 이웃( k-nearest neighbors )
        - 선형 회귀( linear regression )
        - 로지스틱 회귀( logistic regression )
        - 서포트 벡터 머신( support vector machine, SVM )
        - 결정 트리( decision tree )
        - 랜덤 포레스트( random forest )
        - 신경망( neural networks )
        
2. 비지도 학습( Unsupervised Learning ) : 입력 정보의 특징을 찾는 문제
    - 훈련 데이터에 레이블이 없다. 시스템은 아무런 도움 없이 학습해야 한다.
    - 비지도 학습 알고리즘
        - 군집( clustering ), 계층 군집( hierachical clustering ) : 알고리즘을 사용하여 그룹을 세분화
            - k-평균( k-means )
            - DBSCAN
            - 계층 군집 분석( hierachical cluster analysis, HCA )
            - 이상치 탐지( outlier detection )와 특이치 탐지( novelty detection )
            - 원-클래스( one-class SVM )
            - 아이솔레이션 포레스트( isolation forest )
        - 시각화( visualization ) : 레이블이 없은 대규모의 고차원 데이터를 넣으면 도식화가 가능한 2D/3D 표현을 만들어 준다.
        - 차원축소( dimensionality reduction ) : 비슷한 작업으로는 너무 많은 정보를 잃지 않으면서 데이터 간소화
            - 주성분 분석( principal component analysis, PCA )
            - 커널( kernel ) PCA
            - 지역적 선형 임베딩( locally-linear embedding, LLE )
            - t-SNE( t-distributed stochastic neighbor embedding )
        - 연관 규칙 학습( association rule learning ) : 대량의 데이터에서 특성 간의 흥미로운 관계를 파악
            - 어프라이어리( Apriori )
            - 이클렛( Eclat )
            
3. 준지도 학습( semisupervised Learning ) : 일부만 레이블이 있는 데이터를 다루는 문제, 지도 학습과 비지도 학습의 조합으로 이루어져 있다.
    - 심층 신뢰 신경망( deep belief network, DBN )을 여려 겹 쌓은 제한되 볼츠만 머신( restricted Boltzmann machine, RBM )

4. 강화 학습( Reinforcement Learning ) : 마지막 결과( 전체적인 결과 )가 가장 좋은 행동을 찾는 문제

### 머신러닝 시스템을 입력 데이터의 스트림( stream )부터 점진적으로 학습할 수 있는지 여부에 따른 분류

- 배치 학습( batch learning )
    - 시스템이 점진적으로 학습할 수 없다.
    - 가용한 데이터를 모두 사용해 훈련시켜야 한다.
    - 시간과 자원이 많이 소모되므로 보통 오프라이에서 수행된다.
    - 먼저 시스템을 훈련시키고 그런 다음 제품 시스템에 적용하면 더 이상의 학습없이 실행된다. 즉, 학습한 것을 단지 적용만 한다. 오프라인 학습( offline learning )이라고 한다.
    
- 온라인 학습( online learning )
    - 데이터를 순차적으로 한 개씩 또는 미니배치( mini-batch )라 부르는 작은 묶음 단위로 주입하여 시스템을 학습시킨다.
    - 매 학습 단계가 빠르고 비용이 적게 들어 시스템은 데이터가 도착하는 데로 즉시 학습할 수 있다.
    - 온라인 학습은 연속적으로 데이터를 받고 빠른 변화에 스스로 적응해야 하는 시스템에 적합하다.
    - 컴퓨팅 자원이 제한되 경우에도 좋은 선택이다.
    - 온라인 학습 시스템에서 중요한 파라미터 하나는 변화하는 데이터에 얼마나 빠르게 적응할 것 인지이며 학습률( learning rate )라 한다.
    - 온라인 학습에서 가장 큰 문제점은 시스템에 나쁜 데이터가 주입되었을 때 시스템 성능이 점진적으로 감소한다는 점이다.

### 머신러닝 시스템은 어떻게 일반화( generalize ) 되는가에 따른 분류

- 대부분의 머신러닝 작업은 예측을 만든는 것이다.
- 즉 주어진 훈련 데이터로 학습하고 훈련 데이터에서는 본 적 없는 새로운 데이터에서 좋은 예측을 만들어야( 일반화되어야 ) 한다는 뜻이다.
- 훈련 데이터에 높은 성능을 내는 것이 좋지만 진짜 목표는 새로운 샘플에 잘 작동하는 모델이다.   


- 사례 기반 학습 : 시스템이 훈련 샘플을 기억함으로써 학습한다. 유사도 측정을 사용해 새로운 데이터와 학습한 샘플을( 또는 학습한 샘플중 일부를 ) 비교하는 식으로 일반화한다.
- 모델 기반 학습 : 샘플들의 모델을 만들어 예측( prediction )에 사용하는 것

## 머신러닝의 주요 도전 과제

- 학습 알고리즘을 선택해서 어떤 데이터에 훈련시키는 것이므로 문제가 될 수 있는 두 가지는 '나쁜 알고리즘'과 '나쁜 데이터' 이다.

1. 충분하지 않은 양의 훈련 데이터
    - 머신러닝 알고리즘이 잘 작동하려면 데이터가 많아야 한다. 
    
2. 대표성이 없는 훈련 데이터
    - 일반화가 잘되려면 우리가 일반화하기 원하는 새로운 사례를 훈련 데이터가 잘 대표하는 것이 중요한다.
    - 샘플이 작으면 샘플링 잡음( sampling noise )이 생기고, 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지 못할 수 있으므로 새플링 편향( sampling bias )이 생ㅅ긴다.
    
3. 낮은 품질의 데이터
    - 훈련 데이터가 에러, 이상치( outlier ), 잡음으로 가득하다면 머신러닝 시스템이 내재된 패턴을 찾기 어려워 잘 작동하지 않는다.
    
4. 관련 없는 특성
    - 엉터리가 들어가면 엉터리가 나온다( garbage in, garbage out )
    - 훈련 데이터에 관련 없는 특성이 적고 관련 있는 특성이 충분해야 시스템이 학습할 수 있다.
    - 특성 공학( feature engineering ) : 좋은 특성을 찾는 것
        - 특성 선택( feature selection ) : 가지고 있는 특성 중에서 훈련에 가장 유용한 특성을 선택한다.
        - 특성 추출( feature extraction ) : 특성을 결합하여 더 유용한 특성을 만든다.( 차원 축소 알고리즘이 도움 될 수 있다. )
        - 새로운 데이터를 수집해 새 특성을 만든다.
        
5. 훈련 데이터 과대적합
    - 과대적합( overfitting ) : 모델이 훈련 데이터에 너무 잘 맞지만 일반성이 떨어진다는 뜻
        - 모델을 단순하게 하고 과대적합의 위험을 감소시키기 위해 모델에 제약을 가하는 것을 규제( regularization )라 한다.
        - 학습하는 동안 적용할 구제의 양은 하이퍼파라미터( hyperparameter )가 결정한다.
        
6. 훈련 데이터 과소적합
    - 과소적합( underfitting ) : 모델이 너무 단순해서 데이터의 내재된 구조를 학습하지 못할 때 일어난다.
        - 모델 파라미터가 더 많은 강력한 모델을 선택한다.
        - 학습 알고리즘에 더 좋은 특성을 제공한다.( 특성 공학 )
        - 모델의 제약을 줄인다.( 규제 하이퍼파라미터를 감소시킨다. )

### 테스트와 검증

- 모델이 새로운 샘플에 얼마나 잘 일반화될지 아는 유일한 방법은 새로운 샘플에 실제로 적용해 보는 것이다.
- 훈련 데이터를 훈련 세트와 테스트 세트 두 개로 나누는 것이다. 훈련 세트를 사용해 모델을 훈련하고, 테스트 세트를 사용해 모델을 테스트한다.
- 새로운 샘플에 대한 오류 비율을 일반화 오차( generalization error, 외부 샘플 오차 out-of-sample error )라 하고, 테스트 세트에서 모델을 평가함으로써 이 오차에 대한 추정값( estimation )을 얻는데, 이전에 본 적이 없는 새로운 샘플에 모델이 얼마나 잘 작동할지 알려준다.
- 훈련 오차가 낮지만 일반화 오차가 높다면 이는 모델이 훈련 데이터에 과대적합되었다는 뜻이다.

#### 하이퍼파라미터 튜닝과 모델 선택

- 모델평가는 두 모델( 선형 모델과 다항 선형 모델 ) 모두 훈련 세트로 훈련하고 테스트 세트를 사용해 얼마나 잘 일반화되는지 비교해보면 된다.
- 홀드아웃 검증( holdout validation ) : 훈련 세트의 일부를 떼어내어 여러 후보 모델을 평가하고 가장 좋은 하나를 선택한다. 새로운 홀드 아웃 세트를 검증 세트( validation set )라 한다. 줄어든 훈련 세트에서 다양한 하이퍼파라미터 값을 가진 여러 모델을 훈련한다. 그 다음 검증 세트에서 가장 높은 성능을 내는 모델을 선택한다.
- 교차 검증( cross-validation ) : 작은 검증 세트를 여러 개 사용해 반복적인 검증 수행

#### 데이터 불일치

- 쉽게 많은 양의 훈련 데이터를 얻을수 있지만 이 데이터가 실제 제품에 사용될 데이터를 완벽하게 대표하지 못할 수 있다.
- 중요한 규칙은 검증 세트와 테스트 세트가 실전에서 기대하는 데이터를 가능한 한 잘 대표해야 한다는 것이다.