# 1장 - 한눈에 보는 머신러닝

## 1.1 머신러닝이란?

머신러닝은 데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학(또는 예술)입니다.

조금 더 일반적인 정의는 다음과 같습니다.  

```
[머신러닝]은 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야다.
```

조금 더 공학적인 정의는 다음과 같습니다.  

```
어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정했을 때 경험 E로 인해 성능이 향상됐다면, 이 컴퓨터 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다.
```

## 1.2 왜 머신러닝을 사용하는가?

전통적인 프로그래밍 기법을 사용해 유지보수가 많은 프로그램을 제작한다고 생각해봅시다.

문제가 어렵고 규칙이 길고 복잡한 경우 유지 보수를 하기 매우 힘들어집니다. 반면 머신러닝 기법에 기반을 둔 프로그램을 제작한 경우 조건에 맞는 기준을 자동으로 학습합니다. 이 경우 프로그램이 훨씬 짧아지고 유지 보수하기 쉬우며 대부분 정확도가 더 높습니다.

---

머신러닝이 유용한 또 다른 분야는 전통적인 방식으로는 너무 복잡하거나 알려진 알고리즘이 없는 문제입니다.

음성 인식을 예로 들 수 있습니다. 'one'과 'two' 두 단어를 구분하는 프로그램을 작성한다고 합시다.  
단어 'two'는 높은 피치의 사운드('T')로 시작하므로 높은 피치의 사운드 강도를 측정하는 알고리즘을 하드코딩해서 'one'과 'two'를 구분할 수도 있습니다. 당연히 이 방법은 소음이 있는 환경에서 수백만 명이 말하는 여러 언어로 된 수천개의 단어를 구분하는 것으로 확장하기 어렵습니다. 각 단어를 녹음한 샘플을 사용해 스스로 학습하는 알고리즘을 작성하는 것이 현재 가장 좋은 솔루션입니다.

---

우리는 머신러닝을 통해 배울 수도 있습니다.

즉, 머신러닝 알고리즘이 학습한 것을 조사할 수 있습니다(어떤 알고리즘은 이렇게 하기 어렵습니다).  
예를 들어 스팸 필터가 충분한 스팸 메일로 훈련되었다면 스팸을 예측하는 데 가장 좋은 단어 및 단어의 조합이 무엇인지 확인할 수 있습니다. 가끔 예상치 못한 연관 관계나 새로운 추세가 발견되기도 해서 해당 문제를 더 잘 이해하도록 도와줍니다.  
머신러닝 기술을 적용해서 대용량의 데이터를 분석하면 겉으로는 보이지 않던 패턴을 발견할 수 있습니다. 이를 **데이터 마이닝** 이라고 합니다.

---

요약하면 머신러닝은 다음 분야에 뛰어납니다.

- 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제: 하나의 머신러닝 모델이 코드를 간단하게 만들고 전통적인 방법보다 더 잘 수행되도록 할 수 있습니다.
- 전통적인 방식으로는 해결 방법이 없는 복잡한 문제: 가장 뛰어난 머신러닝 기법으로 해결 방법을 찾을 수 있습니다.
- 유동적인 환경: 머신러닝 시스템은 새로운 데이터에 적응할 수 있습니다.
- 복잡한 문제와 대량의 데이터에서 통찰 얻기

## 1.3 애플리케이션 사례

구체적인 머신러닝 작업의 사례와 이를 위한 기술을 함께 살펴보겠습니다.

- 생산 라인에서 제품 이미지를 분석해 자동으로 분류하기: 이미지 분류 작업입니다. 일반적으로 합성곱 신경망$^{convolutional\ neural\ network}$(CNN, 14장)을 사용하여 수행합니다.
- 뇌를 스캔하여 종양 진단하기: 시맨틱 분할 작업입니다. 일반적으로 CNN을 사용해 이미지의 각 픽셀을 분류합니다(종양의 정확한 위치와 모양을 결정해야 합니다).
- 자동으로 뉴스 기사를 분류하기: 자연어 처리$^{natural\ language\ processing}$(NLP) 작업입니다. 더 구체적으로 말하면 텍스트 분류입니다. 순환 신경망$^{recurrent\ neural\ network}$(RNN), CNN, 프랜스포머$^{Transformer}$(16장을 참조)를 사용해 해결할 수 있습니다.
- 토론 포럼에서 부정적인 코멘트를 자동으로 구분하기: 역시 텍스트 분류 작업입니다. NLP 도구를 사용합니다.
- 챗봇$^{chatbot}$ 또는 개인 비서 만들기: 자연어 이해$^{natural language understanding}$(NLU)와 질문-대답$^{question-answering}$ 모듈을 포함해 여러 가지 NLP 컴포넌트가 필요합니다.
- 다양한 성능 지표를 기반으로 회사의 내년도 수익을 예측하기: 회귀$^{regression}$ 작업입니다(즉 숫자로 값을 예측합니다). 선형 회귀$^{linear regression}$나 다항 회귀$^{polynomial regression}$ 모델(4장), 회귀 SVM(5장), 회귀 핸덤 포레스트$^{random forest}$(7장), 인공 신경망$^{artificial neural network}$(10장)과 같은 회귀 모델을 사용해서 해결할 수 있습니다. 지난 성능 지표의 시퀀스를 고려한다면 RNN, CNN 또는 트랜스포머(15장, 16장)를 사용할 수 있습니다.
- 음성 명령에 반응하는 앱을 만들기: 음성 인식 작업입니다. 오디오 샘플을 처리해야 합니다. 이는 길고 복잡한 시쿼스이므로 일반적으로 RNN, CNN 또는 트랜스포머(15장, 16장)를 사용합니다.
- 신용 카드 부정 거래 감지하기: 이상치 탐지 작업입니다(9장).
- 구매 이력을 기반으로 고객을 나누고 각 집합마다 다른 마케팅 전략을 계획하기: 군집$^{clustering}$ 작업입니다(9장).
- 고차원의 복잡한 데이터셋을 명확하고 의미 있는 그래프로 표현하기: 데이터 시각화 작업입니다. 차원 축소$^{dimensionality reduction}$ 기법을 많이 사용합니다(8장).
- 과거 구매 이력을 기반으로 고객이 관심을 가질 수 있는 상품 추천하기: 추천 시스템입니다. 과거 구매 이력을 (그리고 고객에 관한 다른 정보를) 인공 신경망(10장)에 주입하고 다음에 구매할 가능성이 가장 높은 상품을 출력하는 것이 한 가지 방법입니다. 일반적으로 모든 고객의 구매 이력을 기반으로 훈련합니다.
- 지능형 게임 봇$^{bot}$ 만들기: 보통 강화 학습$^{reinforcement learning}$(RL, 18장)으로 해결합니다. 시간이 지나면 (게임 같은) 주어진 환경에서 보상이 최대가 되는 행동을 선택하는 (봇과 같은) 에이전트를 훈련하는 머신러닝의 한 분야입니다(예를 들어 상대 플레이어가 점수를 잃을 때마다 봇이 보상을 받을 수 있습니다). 바둑 세계 챔피언을 이긴 유명한 알파고$^{AlphaGo}$가 강화 학습을 사용해 구축되었습니다.

이 목록이 전부는 아니지만 머신러닝이 다룰 수 있는 작업의 복잡도와 다양성은 물론 이런 작업에 사용할 수 있는 기술에 대해 감을 얻었기를 바합니다.

## 1.4 머신러닝 시스템의 종류

머신러닝 시스템의 종류는 굉장히 많으므로 넓은 범주에서 분류하면 도움이 됩니다.

- 사람의 감독하에 훈련하는 것인지 그렇지 않은 것인지(지도, 비지도, 준지도, 강화 학습)
- 실시간으로 점진적인 학습을 하는지 아닌지(온하인 학습과 배치 학습)
- 단순하게 알고 있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인지 아니면 과학자들이 하는 것처럼 훈련 데이터셋에서 패턴을 발견하여 예측 모델을 만드는지(사례 기반 학습과 모델 기반 학습)

이 범주들은 서로 배타적이지 않으며 원하는 대로 연결할 수 있습니다. 예를 들어 최첨단 스팸 필터가 심층 신경망 모델을 사용해 스팸과 스팸이 아닌 메일에서부터 실시간으로 학습할지도 모릅니다. 그렇다면 이 시스템은 온라인이고 모델 기반이며 지도 학습 시스템입니다.  

이 범주들을 조금 더 자세히 들여다보겠습니다.

### 1.4.1 지도 학습과 비지도 학습

머신러닝 시스템을 '학습하는 동안의 감독 형태나 정보량'에 따라 분류할 수 있습니다. 지도 학습, 비지도 학습, 준지도 학습, 강화 학습 등 네 가지 주요 범주가 있습니다.

#### 지도 학습

<span style="color: #008000">지도 학습</span>$^{supervised \ learning}$에는 알고리즘에 주입하는 훈련 데이터에 <span style="color: #008000">레이블</span>$^{label}$\*이라는 원하는 답이 포함됩니다.

<span style="color: #008000">분류</span>$^{classification}$가 전형적인 지도 학습 작업이며, 스팸 필터가 좋은 예입니다. 스팸 필터는 많은 메일 샘플과 소속 정보(스팸인지 아닌지)로 훈련되어야 하며 어떻게 새 메일을 분류할지 학습해야 합니다.

또 다른 전형적인 작업은 <span style="color: #008000">예측 변수</span>$^{predictor \ variable}$라 부르는 <span style="color: #008000">특성</span>$^{feature}$(주행거리, 연식, 브랜드 등)을 사용해 중고차 가격 같은 <span style="color: #008000">타깃</span>$^{target}$ 수치를 예측하는 것입니다. 이런 종류의 작업을 <span style="color: #008000">회귀</span>$^{regression}$\*\*라고 부릅니다. 시스템을 훈련하려면 예측 변수와 레이블(중고차 가격)이 포함된 중고차 데이터가 많이 필요합니다.

<span style="color: #008000">NOTE_</span> 머신러닝에서 <span style="color: #008000">속성</span>$^{attrtibute}$은 데이터 타입(예를 들면 주행거리)을 말합니다. <span style="color: #008000">특성</span>은 문맥에 따라 여러 의미를 갖지만 일반적으로 속성과 값이 합쳐진 것을 의미합니다(예를 들면 주행거리=15,000). 하지만 많은 사람이 <span style="color: #008000">속성</span>과 <span style="color: #008000">특성</span>을 구분하지 않고 사용합니다.***

일부 회귀 알고리즘은 분류에 사용할 수도 있습니다. 반대로 일부 분류 알고리즘을 회귀에 사용할 수도 있습니다. 예를 들어 분류에 널리 쓰이는 <span style="color: #008000">로지스틱 회귀</span>는 클래스에 속할 확률을 출력합니다(예를 들면 스팸일 가능성 20%).

다음은 가장 중요한 지도 학습 알고리즘들입니다(이 책에서 모두 다룹니다).

- k-최근접 이웃$^{k-nearest \ neighbors}$
- 선형 회귀$^{linear \ regression}$
- 로지스틱 회귀$^{logistic \ regression}$
- 서포트 벡터 머신$^{support \ vector \ machine}$(SVM)
- 결정 트리$^{decision \ tree}$와 랜덤 포레스트$^{random \ fprest}$
- 신경망$^{neural \ networks}$****

---

\* 머신러닝에서 레이블의 범주를 클래스(class)라고 부릅니다. 이 책에서는 프로그램 언어의 클래스와 같은 용어를 사용하므로 혼동하지 않도록 주의하세요

\** 재미있는 사실: 이 이상한 이름은 프랜시스 골턴(Francis Galton)이 키가 큰 사람의 아이가 부모보다 작은 경향이 있다는 사실을 연구하면서 소개한 통계학 용어입니다. 부모보다 아이가 더 작기 때문에 이를 평균으로 회귀한다고 불렀습니다. 그 후 프랜시스가 두 변수 사이의 상관관계를 분석하기 위해 사용 방법에 이 이름을 붙였습니다.

\*** 이러한 이유로 원서에서는 데이터의 열(column)을 표현할 때 특성과 속성을 혼용하고 있습니다. 번역서에서는 데이터의 열 또는 변수를 의미할 때는 '특성'으로, 파이썬 클래스나 인스턴스의 변수를 의미하는 'property'와 'attribute'는 '속성'으로 번역했습니다.

\**** 오코인코더나 제한된 볼츠만 머신(resricted Boltzmann machine) 같이 일부 신경망 구조는 비지도 학습일 수 있습니다. 신경망은 또한 심층 신회 신경망(deep belief networks)이나 비지도 사전훈련(unsupervised pretraining)처럼 준지도 학습일 수도 있습니다. 비지도 사전훈련은 11장을, 제한된 볼츠만 머신과 심층 신뢰 신경망은 부록 E를 참조하세요. 오토인코더는 17장에서 자세히 설명합니다.

#### 비지도 학습

<span style="color: #008000">비지도 학습</span>$^{unsupervised \ learning}$에는 말 그대로 훈련 데이터에 레이블이 없습니다. 시스템이 아무런 도움 없이 학습해야 합니다.

다음은 가장 중요한 비지도 학습 알고리즘입니다(이 중 대부분을 8장과 9장에서 다룹니다).

- 군집$^{clustering}$
    - k-평균$^{k-means}$
    - DBSCAN
    - 계층 군집 분석$^{hierarchical \ cluster \ analysis}$(HCA)

- 이상치 탐지$^{outlier \ detection}$와 특이치 탐지$^{novelty \ detection}$
    - 원-클래스$^{one-class \ SVM}$
    - 아이솔레이션 포레스트$^{isolation forest}$

- 시각화$^{visualization}$와 차원 축소$^{dimensionality \ reduction}$
    - 주성분 분석$^{principal \ component \ analysis}$(PCA)
    - 커널$^{kernel}$PCA
    - 지역적 선형 임베딩$^{locally-linear \ embedding}$(LLE)
    - t-SNE$^{t-distributed \ stochastic \ neighbor \ embedding}$

- 연관 규칙 학습$^{association \ rule \ learnung}$
    - 어프라이어리$^{Apriori}$
    - 이클렛$^{Eclat}$

예를 들어 블로그 방문자에 대한 데이터가 많이 있다고 합시다. 비슷한 방문자들을 그룹으로 묶기 위해 군집 알고리즘을 적용하려 합니다. 하지만 방문자가 어떤 그룹에 속하는지 알고리즘에게 알려줄 수 있는 데이터 포인트가 없습니다. 그래서 알고리즘이 스스로 방문자 사이의 연결고리를 찾습니다. 예를 들어 40%의 방문자가 만화책을 좋아하며 저녁때 블로그 글을 읽는 남성이고, 20%는 주말에 방문하는 SF를 좋아하는 젊은 사람임을 알게 될지도 모릅니다. <span style="color: #008000">계층 군집</span>$^{hierarchical \ clustering}$ 알고라즘을 사용하면 각 그룹을 더 작은 그룹으로 세분화할 수 있습니다.\* 그러면 각 그룹에 맞춰 블로그에 글을 쓰는 데 도움이 될 것입니다.

<span style="color: #008000">시각화</span>$^{visualization}$ 알고리즘도 비지도 학습 알고리즘의 좋은 예입니다. 레이블이 없는 대규모의 고차원 데이터를 넣으면 도식화가 가능한 2D나 3D 표현을 만들어줍니다. 이런 알고리즘은 가능한 한 구조를 그대로 유지하려 하므로(예를 들어 입력 공간에서 떨어져 있던 클러스터$^{cluster}$는 시각화된 그래프에서 겹쳐지지 않게 유지됩니다) 데이터가 어떻게 조직되어 있는지 이해할 수 있고 예상하지 못한 패턴을 발견할 수도 있습니다.

비슷한 작업으로는 너무 많은 정보를 잃지 않으면서 데이터를 간소화하려는 <span style="color: #008000">차원 축소</span>$^{dimensionality \ reduction}$가 있습니다. 이렇게 하는 한 가지 방법은 상관관계가 있는 여러 특성을 하나로 합치는 것입니다. 예를 들어 차의 주행거리는 연식과 강하게 연관되어 있으므로 차원 축소 알고리즘으로 두 특성을 차의 마모 정도를 나타내는 하나의 특성으로 합칠 수 있습니다. 이를 <span style="color: #008000">특성 추출</span>$^{feature \ extraction}$

(지도 학습 알고리즘 같은) 머신러닝 알고리즘에 데이터를 주입하기 전에 차원 축소 알고리즘을 사용하여 훈련 데이터의 차원을 줄이는 것이 유용할 때가 많습니다. 실행 속도가 훨씬 빨라지고 디스크와 메모리를 차지하는 공간도 줄고 경우에 따라 성능이 좋아지기도 합니다.

또 하나의 중요한 비지도 학습은 <span style="color: #008000">이상치 탐지</span>$^{outlier \ detection}$입니다. 예를 들어 부정 거래를 막기 위해 이상한 신용카드 거래를 감지하고, 제조 결함을 잡아내고, 학습 알고리즘에 주입하기 전에 데이터셋에서 이상한 값을 자동으로 제거하는 것 등입니다. 시스템은 훈련하는 동안 대부분 정상 샘플을 만나 이를 인식하도록 훈련됩니다. 그다음 새로운 샘플을 보고 정상 데이터인지 혹은 이상치인지 판단합니다. 매우 비슷한 작업으로 <span style="color: #008000">특이치 탐지</span>$^{novelty detection}$가 있습니다. 훈련 세트에 있는 모든 샘플과 달라 보이는 새로운 샘플을 탐지하는 것이 목적입니다. 알고리즘으로 감지하고 싶은 모든 샘플을 제거한 매우 '깨끗한'훈련 세트가 필요합니다. 예를 들어 강아지 사진 수천 장이 있고 그중에 1%가 치와와 사진이라면 특이치 탐지 알고리즘이 치와와 사진을 새로운 특이한 것으로 처리하지 못합니다. 반면 이상치 탐지 알고리즘은 이 강아지 사진을 매우 드물고 다른 강아지와 다르다고 인식하여 이상치로 분류할 것입니다(치와와를 싫어하는 것은 아닙니다).

널리 사용되는 또 다른 비지도 학습은 대량의 데이터에서 특성 간의 흥미로운 관계를 찾는 <span style="color: #008000">연관 규칙 학습</span>$^{association \ rule \ learning}$입니다.\** 예를 들어 여러분이 슈퍼마켓을 운영한다고 가정합시다. 판매 기록에 연관 규칙을 적용하면 바비큐 소스와 감자를 구매한 사람이 스테이크도 구매하는 경향이 있다는 것을 찾을지도 모릅니다. 아마 이 상품들을 서로 가까이 진열하고 싶을 것입니다.

---

\* 여기에서 설명하는 계층 군집은 하향식(top-down)인 분할 군집(divisive clustering)을 말합니다. 사이킷런(scikit-learn)에서는 상향식(buttom-up) 계층 군집인 병합 군집(agglomerative clustering, http://goo.gl/9xKpxQ) 알고리즘을 제공하고 있습니다.

\** 연관 규칙은 규칙 기반(rule-based) 학습의 한 종류로, 사이킷런에서는 제공하지 않습니다.


**준지도 학습**

데이터에 레이블을 다는 것은 일반적으로 시간과 비용이 많이 들기 때문에 레이블이 없는 샘플이 많고 레이블된 샘플은 적은 경우가 많습니다. 어떤 알고리즘은 일부만 레이블이 있는 데이터를 다룰 수 있습니다. 이를 <span style="color: #008000">준지도 학습</span>$^{semisupernised \ learning}$이라고 합니다.

구글 포토 호스팅 서비스가 좋은 예입니다. 이 서비스에 가족사진을 모두 올리면 사람 A는 사진 1, 5, 11에 있고, 사람 B는 2, 5, 7에 있다고 자동으로 인식합니다. 이는 비지도 학습(군집)입니다. 이제 시스템에 필요한 것은 이 사람들이 누구인가 하는 정보입니다. 사람마다 레이블을 하나만 추가하면\* 사진에 있는 모든 사람의 이름을 할 수 있고, 편리하게 사진을 찾을 수 있습니다.

대부분 준지도 학습 알고리즘은 지도 학습과 비지도 학습의 조합으로 이루어져 있습니다. 예를 들어 <span style="color: #008000">심층 신뢰 신경망</span>$^{deep \ belief \ network}$(DBN)은 여러 겹으로 쌓은 <span style="color: #008000">제한된 볼츠만 머신</span>$^{restricted \ Boltzmann \ machine}$(RBM)이라 불리는 비지도 학습에 기초합니다. RBM이 비지도 학습 방식으로 순차적으로 훈련된 다음 전체 시스템이 지도 학습 방식으로 세밀하게 조정됩니다.

---

\* 이는 시스템이 완벽했을 때입니다. 실제로는 사람마다 여러 개의 군집이 만들어지고 때로는 비슷한 외모의 두 사람이 섞이기도 합니다. 그래서 사람마다 여러 번 레이블을 부여하고 어떤 군집은 수동으로 정리해야 합니다.

**강화 학습**

<span style="color: #008000">강화 학습</span>$^{reinforcement \ learning}$은 매우 다른 종류의 알고리즘입니다. 여기서는 학습하는 시스템을 <span style="color: #008000">에이전트</span>라고 부르며 환경$^{environment}$을 관찰해서 행동$^{action}$을 실행하고 그 결과로 <span style="color: #008000">보상</span>$^{reward}$(또는 부정적인 보상에 해당하는 <span style="color: #008000">벌점</span>$^{penalty}$)을 받습니다. 시간이 지나면서 가장 큰 보상을 얻기 위해 <span style="color: #008000">정책</span>$^{policy}$이라고 부르는 최상의 전략을 스스로 학습합니다. 정책은 주어진 상황에서 에이전트가 어떤 행동을 선택해야 할지 정의합니다.

예를 들어 보행 로봇을 만들기 위해 강화 학습 알고리즘을 많이 사용합니다. 딥마인드$^{DeepMind}$의 알파고$^{AlphaGo}$ 프로그램도 강화 학습의 좋은 예입니다. 2017년 5월 바둑 세계 챔피언인 커제 선수를 이겨서 신문의 헤드라인을 장식했습니다. 알파고는 수백만 개의 게임을 분석해서 승리에 대한 전략을 학습했으며 자기 자신과 많은 게임을 했습니다. 알파고가 세계 챔피언과 게임할 때는 학습 기능을 끄고 그동안 학습했던 전략을 적용한 것입니다.\*

---

\* 딥마인드는 2017년 10월에 기보 없이 스스로 학습하여 기존 알파고를 능가하는 알파고 제로(AlphaGo Zero)를 공개했습니다. https://goo.gl/MeDZmM

### 1.4.2 배치 학습과 온라인 학습

머신러닝 시스템을 분류하는 데 사용하는 다른 기준은 입력 데이터의 스트림$^{steam}$으로부터 점진적으로 학습할 수 있는지 여부입니다.

**배치 학습**

<span style="color: #008000">배치 학습</span>$^{batch \ learning}$에서는 시스템이 점진적으로 학습할 수 없습니다. 가용한 데이터를 모두 사용해 훈련시켜야 합니다. 일반적으로 이 방식은 시간과 자원을 많이 소모하므로 보통 오프라인에서 수행됩니다. 먼저 시스템을 훈련시키고 그런 다음 제품 시스템에 적용하면 더 이상의 학습 없이 실행됩니다. 즉, 학습한 것을 단지 적용만 합니다. 이를 <span style="color: #008000">오프라인 학습</span>$^{offline \ learning}$이라고 합니다.

배치 학습 시스템이 (새로운 종류의 스팸 같은) 새로운 데이터에 대해 학습하려면 (새로운 데이터뿐만 아니라 이전 데이터도 포함한) 전체 데이터를 사용하여 시스템의 새로운 버전을 처음부터 다시 훈련해야 합니다. 그런 다음 이전 시스템을 중지시키고 새 시스템으로 교체합니다.

다행히 머신러닝 시스템을 훈련, 평가, 론칭하는 전체 과정이 쉽게 자동화될 수 있어서 배치 학습 시스템도 변화에 적응할 수 있습니다. 데이터를 업데이트하고 시스템의 새 버전을 필요한 만큼 자주 훈련시키면 됩니다.

이런 방식이 간단하고 잘 작동하지만 전체 데이터셋을 사용해 훈련하는 데 몇 시간이 소요될 수 있습니다. 보통 24시간마다 또는 매주 시스템을 훈련시킵니다. 시스템이 빠르게 변하는 데이터에 적응해야 한다면 (예를 들면 주식가격) 더 능동적인 작업이 필요합니다.

또한 전체 데이터셋을 사용해 훈련한다면 많은 컴퓨팅 자원이 필요합니다(CPU, 메모리 공간, 디스크 공간, 디스크 IO, 네트워크 IO 등). 대량의 데이터를 가지고 있는데 매일 처음부터 새로 훈련시키도록 시스템을 자동화한다면 큰 비용이 발생할 것입니다. 데이터 양이 아주 많으면 배치 학습 알고리즘을 사용하는 게 불가능할 수도 있습니다.

마지막으로, 자원이 제한된 시스템(예를 들면 스마트폰 또는 화성 탐사 로버$^{rover}$)이 스스로 학습해야 할 때 많은 양의 훈련 데이터를 나르고 학습을 위해 매일 몇 시간씩 많은 자원을 사용하면 심각한 문제를 일으킵니다.

이런 경우에는 점진적으로 학습할 수 있는 알고리즘을 사용하는 편이 낫습니다.

**온라인 학습**

<span style="color: #008000">온라인 학습</span>$^{online \ learning}$에서는 데이터를 순차적으로 한 개씩 또는 <span style="color: #008000">미니 배치</span>$^{mini-batch}$라 부르는 작은 묶음 단위로 주입하여 시스템을 훈련시킵니다. 매 학습 단계가 빠르고 비용이 적게 들어 시스템은 데이터가 도착하는 대로 즉시 학습할 수 있습니다.

온라인 학습은 연속적으로 데이터를 받고(예를 들면 주식가격) 빠른 변화에 스스로 적응해야하는 시스템에 적합합니다. 컴퓨팅 자원이 제한된 경우에도 좋은 선택입니다. 온라인 학습 시스템이 새로운 데이터 샘플을 학습하면 학습이 끝난 데이터는 더는 필요하지 않으므로 버리면 됩니다(이전 상태로 되돌릴 수 있도록 데이터를 재사용하기 위해 보관할 필요가 없다면). 그러면 많은 공간을 절약할 수 있습니다.

컴퓨터 한 대의 메인 메모리에 들어갈 수 없는 아주 큰 데이터셋을 학습하는 시스템에도 온라인 학습 알고리즘을 사용할 수 있습니다(이를 <span style="color: #008000">외부 메모리</span>$^{out-of-core}$ 학습이라고 합니다). 알고리즘이 데이터 일부를 읽어 들이고 훈련 단계를 수행합니다. 전체 데이터가 모두 적용될 때까지 이 과정을 반복합니다.

온라인 학습 시스템에서 중요한 파라미터 하나는 변화하는 데이터에 얼마나 빠르게 적응할 것인지입니다. 이를 <span style="color: #008000">학습률</span>$^{learning \ rate}$이라고 합니다.\* 학습률을 높게 하면 시스템이 데이터에 빠르게 적응하지만 예전 데이터를 금방 잊어버릴 것입니다(최근에 나타난 스팸의 종류만 걸러낼 수 있는 스팸 필터를 원할 리는 없습니다). 반대로 학습률이 낮으면 시스템의 관성이 더 커져서 더 느리게 학습됩니다. 하지만 새로운 데이터에 있는 잡음이나 대표성 없는 데이터 포인트에 덜 민감해집니다.

온라인 학습에서 가장 큰 문제점은 시스템에 나쁜 데이터가 주입되었을 때 시스템 성능이 점진적으로 감소한다는 점입니다. 운영 중인 시스템이라면 고객이 눈치챌지 모릅니다. 예를 들어 로봇의 오작동 센서에서부터, 혹은 검색 엔진을 속여 검색 결과 상위에 노출시키려는 누군가로부터 나쁜 데이터가 올 수 있습니다. 이런 위험을 줄이려면 시스템을 면밀히 모니터링하고 성능 감소가 감지되면 즉각 학습을 중지시켜야 합니다(가능하면 이전 운영 상태로 되돌립니다). 입력 데이터를 모니터링해서 비정상 데이터를 잡아낼 수도 있습니다(예를 들면 이상치 탐지 알고리즘을 사용해서).

---

학습률은 대표적인 하이퍼파라미터입니다. 하이퍼파라미터에 대해서는 1.5.5절을 참조하세요.

### 1.4.3 사례 기반 학습과 모델 기반 학습

머신러닝 시스템은 어떻게 <span style="color: #008000">일반화</span>$^{generalize}$되는가에 따라 분류할 수도 있습니다. 대부분의 머신러닝 작업은 예측을 만드는 것입니다. 이 말은 주어진 훈련 데이터로 학습하고 훈련 데이터에서는 본 적 없는 새로운 데이터에서 좋은 예측을 만들어야 (일반화되어야) 한다는 뜻입니다. 훈련 데이터에서 높은 성능을 내는 것이 좋지만 그게 전부는 아닙니다. 진짜 목표는 새로운 샘플에 잘 작동하는 모델입니다.

일반화를 위한 두 가지 접근법은 사례 기반 학습과 모델 기반 학습입니다.