# 1장 - 한눈에 보는 머신러닝

## 1.1 머신러닝이란?

머신러닝은 데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학(또는 예술)입니다.

조금 더 일반적인 정의는 다음과 같습니다.  

```
[머신러닝은] 명시적인 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야다.
```

조금 더 공학적인 정의는 다음과 같습니다.  

```
어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P로 측정했을 때 경험 E로 인해 성능이 향상됐다면, 이 컴퓨터 프로그램은 작업 T와 성능 측정 P에 대해 경험 E로 학습한 것이다.
```

## 1.2 왜 머신러닝을 사용하는가?

전통적인 프로그래밍 기법을 사용해 유지보수가 많은 프로그램을 제작한다고 생각해봅시다.

문제가 어렵고 규칙이 길고 복잡한 경우 유지 보수를 하기 매우 힘들어집니다. 반면 머신러닝 기법에 기반을 둔 프로그램을 제작한 경우 조건에 맞는 기준을 자동으로 학습합니다. 이 경우 프로그램이 훨씬 짧아지고 유지 보수하기 쉬우며 대부분 정확도가 더 높습니다.

---

머신러닝이 유용한 또 다른 분야는 전통적인 방식으로는 너무 복잡하거나 알려진 알고리즘이 없는 문제입니다.

음성 인식을 예로 들 수 있습니다. 'one'과 'two' 두 단어를 구분하는 프로그램을 작성한다고 합시다.  
단어 'two'는 높은 피치의 사운드('T')로 시작하므로 높은 피치의 사운드 강도를 측정하는 알고리즘을 하드코딩해서 'one'과 'two'를 구분할 수도 있습니다. 당연히 이 방법은 소음이 있는 환경에서 수백만 명이 말하는 여러 언어로 된 수천개의 단어를 구분하는 것으로 확장하기 어렵습니다. 각 단어를 녹음한 샘플을 사용해 스스로 학습하는 알고리즘을 작성하는 것이 현재 가장 좋은 솔루션입니다.

---

우리는 머신러닝을 통해 배울 수도 있습니다.

즉, 머신러닝 알고리즘이 학습한 것을 조사할 수 있습니다(어떤 알고리즘은 이렇게 하기 어렵습니다).  
예를 들어 스팸 필터가 충분한 스팸 메일로 훈련되었다면 스팸을 예측하는 데 가장 좋은 단어 및 단어의 조합이 무엇인지 확인할 수 있습니다. 가끔 예상치 못한 연관 관계나 새로운 추세가 발견되기도 해서 해당 문제를 더 잘 이해하도록 도와줍니다.  
머신러닝 기술을 적용해서 대용량의 데이터를 분석하면 겉으로는 보이지 않던 패턴을 발견할 수 있습니다. 이를 **데이터 마이닝** 이라고 합니다.

---

요약하면 머신러닝은 다음 분야에 뛰어납니다.

- 기존 솔루션으로는 많은 수동 조정과 규칙이 필요한 문제: 하나의 머신러닝 모델이 코드를 간단하게 만들고 전통적인 방법보다 더 잘 수행되도록 할 수 있습니다.
- 전통적인 방식으로는 해결 방법이 없는 복잡한 문제: 가장 뛰어난 머신러닝 기법으로 해결 방법을 찾을 수 있습니다.
- 유동적인 환경: 머신러닝 시스템은 새로운 데이터에 적응할 수 있습니다.
- 복잡한 문제와 대량의 데이터에서 통찰 얻기

## 1.3 애플리케이션 사례

구체적인 머신러닝 작업의 사례와 이를 위한 기술을 함께 살펴보겠습니다.

- 생산 라인에서 제품 이미지를 분석해 자동으로 분류하기: 이미지 분류 작업입니다. 일반적으로 합성곱 신경망$^{convolutional\ neural\ network}$(CNN, 14장)을 사용하여 수행합니다.
- 뇌를 스캔하여 종양 진단하기: 시맨틱 분할 작업입니다. 일반적으로 CNN을 사용해 이미지의 각 픽셀을 분류합니다(종양의 정확한 위치와 모양을 결정해야 합니다).
- 자동으로 뉴스 기사를 분류하기: 자연어 처리$^{natural\ language\ processing}$(NLP) 작업입니다. 더 구체적으로 말하면 텍스트 분류입니다. 순환 신경망$^{recurrent\ neural\ network}$(RNN), CNN, 프랜스포머$^{Transformer}$(16장을 참조)를 사용해 해결할 수 있습니다.
- 토론 포럼에서 부정적인 코멘트를 자동으로 구분하기: 역시 텍스트 분류 작업입니다. NLP 도구를 사용합니다.
- 챗봇$^{chatbot}$ 또는 개인 비서 만들기: 자연어 이해$^{natural language understanding}$(NLU)와 질문-대답$^{question-answering}$ 모듈을 포함해 여러 가지 NLP 컴포넌트가 필요합니다.
- 다양한 성능 지표를 기반으로 회사의 내년도 수익을 예측하기: 회귀$^{regression}$ 작업입니다(즉 숫자로 값을 예측합니다). 선형 회귀$^{linear regression}$나 다항 회귀$^{polynomial regression}$ 모델(4장), 회귀 SVM(5장), 회귀 핸덤 포레스트$^{random forest}$(7장), 인공 신경망$^{artificial neural network}$(10장)과 같은 회귀 모델을 사용해서 해결할 수 있습니다. 지난 성능 지표의 시퀀스를 고려한다면 RNN, CNN 또는 트랜스포머(15장, 16장)를 사용할 수 있습니다.
- 음성 명령에 반응하는 앱을 만들기: 음성 인식 작업입니다. 오디오 샘플을 처리해야 합니다. 이는 길고 복잡한 시쿼스이므로 일반적으로 RNN, CNN 또는 트랜스포머(15장, 16장)를 사용합니다.
- 신용 카드 부정 거래 감지하기: 이상치 탐지 작업입니다(9장).
- 구매 이력을 기반으로 고객을 나누고 각 집합마다 다른 마케팅 전략을 계획하기: 군집$^{clustering}$ 작업입니다(9장).
- 고차원의 복잡한 데이터셋을 명확하고 의미 있는 그래프로 표현하기: 데이터 시각화 작업입니다. 차원 축소$^{dimensionality reduction}$ 기법을 많이 사용합니다(8장).
- 과거 구매 이력을 기반으로 고객이 관심을 가질 수 있는 상품 추천하기: 추천 시스템입니다. 과거 구매 이력을 (그리고 고객에 관한 다른 정보를) 인공 신경망(10장)에 주입하고 다음에 구매할 가능성이 가장 높은 상품을 출력하는 것이 한 가지 방법입니다. 일반적으로 모든 고객의 구매 이력을 기반으로 훈련합니다.
- 지능형 게임 봇$^{bot}$ 만들기: 보통 강화 학습$^{reinforcement learning}$(RL, 18장)으로 해결합니다. 시간이 지나면 (게임 같은) 주어진 환경에서 보상이 최대가 되는 행동을 선택하는 (봇과 같은) 에이전트를 훈련하는 머신러닝의 한 분야입니다(예를 들어 상대 플레이어가 점수를 잃을 때마다 봇이 보상을 받을 수 있습니다). 바둑 세계 챔피언을 이긴 유명한 알파고$^{AlphaGo}$가 강화 학습을 사용해 구축되었습니다.

이 목록이 전부는 아니지만 머신러닝이 다룰 수 있는 작업의 복잡도와 다양성은 물론 이런 작업에 사용할 수 있는 기술에 대해 감을 얻었기를 바합니다.

## 1.4 머신러닝 시스템의 종류

머신러닝 시스템의 종류는 굉장히 많으므로 넓은 범주에서 분류하면 도움이 됩니다.

- 사람의 감독하에 훈련하는 것인지 그렇지 않은 것인지(지도, 비지도, 준지도, 강화 학습)
- 실시간으로 점진적인 학습을 하는지 아닌지(온하인 학습과 배치 학습)
- 단순하게 알고 있는 데이터 포인트와 새 데이터 포인트를 비교하는 것인지 아니면 과학자들이 하는 것처럼 훈련 데이터셋에서 패턴을 발견하여 예측 모델을 만드는지(사례 기반 학습과 모델 기반 학습)

이 범주들은 서로 배타적이지 않으며 원하는 대로 연결할 수 있습니다. 예를 들어 최첨단 스팸 필터가 심층 신경망 모델을 사용해 스팸과 스팸이 아닌 메일에서부터 실시간으로 학습할지도 모릅니다. 그렇다면 이 시스템은 온라인이고 모델 기반이며 지도 학습 시스템입니다.  

이 범주들을 조금 더 자세히 들여다보겠습니다.

### 1.4.1 지도 학습과 비지도 학습

머신러닝 시스템을 '학습하는 동안의 감독 형태나 정보량'에 따라 분류할 수 있습니다. 지도 학습, 비지도 학습, 준지도 학습, 강화 학습 등 네 가지 주요 범주가 있습니다.

---

**지도 학습**

<span style="color: #008000">지도 학습</span>$^{supervised \ learning}$에는 알고리즘에 주입하는 훈련 데이터에 <span style="color: #008000">레이블</span>$^{label}$\*이라는 원하는 답이 포함됩니다.

<span style="color: #008000">분류</span>$^{classification}$가 전형적인 지도 학습 작업이며, 스팸 필터가 좋은 예입니다. 스팸 필터는 많은 메일 샘플과 소속 정보(스팸인지 아닌지)로 훈련되어야 하며 어떻게 새 메일을 분류할지 학습해야 합니다.

또 다른 전형적인 작업은 <span style="color: #008000">예측 변수</span>$^{predictor \ variable}$라 부르는 <span style="color: #008000">특성</span>$^{feature}$(주행거리, 연식, 브랜드 등)을 사용해 중고차 가격 같은 <span style="color: #008000">타깃</span>$^{target}$ 수치를 예측하는 것입니다. 이런 종류의 작업을 <span style="color: #008000">회귀</span>$^{regression}$\*\*라고 부릅니다. 시스템을 훈련하려면 예측 변수와 레이블(중고차 가격)이 포함된 중고차 데이터가 많이 필요합니다.

<span style="color: #008000">NOTE_</span> 머신러닝에서 <span style="color: #008000">속성</span>$^{attrtibute}$은 데이터 타입(예를 들면 주행거리)을 말합니다. <span style="color: #008000">특성</span>은 문맥에 따라 여러 의미를 갖지만 일반적으로 속성과 값이 합쳐진 것을 의미합니다(예를 들면 주행거리=15,000). 하지만 많은 사람이 <span style="color: #008000">속성</span>과 <span style="color: #008000">특성</span>을 구분하지 않고 사용합니다.***

일부 회귀 알고리즘은 분류에 사용할 수도 있습니다. 반대로 일부 분류 알고리즘을 회귀에 사용할 수도 있습니다. 예를 들어 분류에 널리 쓰이는 <span style="color: #008000">로지스틱 회귀</span>는 클래스에 속할 확률을 출력합니다(예를 들면 스팸일 가능성 20%).

다음은 가장 중요한 지도 학습 알고리즘들입니다(이 책에서 모두 다룹니다).

- k-최근접 이웃
- 선형 회귀
- 로지스틱 회귀
- 서포트 벡터 머신
- 결정 트리와 랜덤 포레스트
- 신경망****

---

\* 머신러닝에서 레이블의 범주를 클래스(class)라고 부릅니다. 이 책에서는 프로그램 언어의 클래스와 같은 용어를 사용하므로 혼동하지 않도록 주의하세요

\** 재미있는 사실: 이 이상한 이름은 프랜시스 골턴(Francis Galton)이 키가 큰 사람의 아이가 부모보다 작은 경향이 있다는 사실을 연구하면서 소개한 통계학 용어입니다. 부모보다 아이가 더 작기 때문에 이를 평균으로 회귀한다고 불렀습니다. 그 후 프랜시스가 두 변수 사이의 상관관계를 분석하기 위해 사용 방법에 이 이름을 붙였습니다.

\*** 이러한 이유로 원서에서는 데이터의 열(column)을 표현할 때 특성과 속성을 혼용하고 있습니다. 번역서에서는 데이터의 열 또는 변수를 의미할 때는 '특성'으로, 파이썬 클래스나 인스턴스의 변수를 의미하는 'property'와 'attribute'는 '속성'으로 번역했습니다.