(ch:ml_landscape)=
# 한눈에 보는 머신러닝

**감사의 글**

오렐리앙 제롱<font size='2'>Aurélien Géron</font>의 [Hands-On Machine Learning with Scikit-Learn and PyTorch (O'Reilly, 2025)](https://github.com/ageron/handson-mlp)에 사용된 코드를 참고한 강의노트입니다. 자료를 공개한 오렐리앙 제롱과 일부 그림 자료를 제공해 준 한빛아카데미에게 진심어린 감사를 전합니다.

**소스코드**

본문 내용의 일부를 파이썬으로 구현한 내용은 
[(구글코랩) 한눈에 보는 머신러닝](https://colab.research.google.com/github/codingalzi/handson-ml3/blob/master/notebooks/code_ml_landscape.ipynb)에서 
확인할 수 있다.

## 머신러닝 활용

컴퓨터에 위키백과 문서를 모두 저장했다고 하자.
이 경우 컴퓨터는 단지 데이터를 더 많이 보관하게 된 것일 뿐이다.
하지만 그렇다고 해서 컴퓨터가 더 똘똘해지는 것은 아니다.
머신러닝은 단순히 데이터를 저장하는 것이 아니라,
저장된 데이터를 학습해서 컴퓨터의 능력을 향상시키는 과정을 의미한다.

### 전통적 프로그래밍 vs. 머신러닝 프로그래밍

전통적인 프로그래밍은 일정한 과정을 따라 진행된다.
먼저 문제 연구 단계에서 해결해야 할 문제를 분석하고, 이를 해결할 수 있는 알고리즘을 연구한다. 
다음으로 규칙 작성 단계에서는 연구된 알고리즘을 실제 코드로 구현한다. 
이후에는 평가 단계가 이어지는데, 이 단계에서는 구현된 프로그램을 테스트하여 올바르게 작동하는지 확인한다.
테스트를 통과하면 프로그램은 실전 배치된다.
그러나 테스트에 실패할 경우, 발생한 오차를 분석한 뒤 다시 문제 연구 단계로 돌아가 알고리즘을 수정하고 개선하는 과정을 반복한다.

<div align="center"><img src="https://github.com/codingalzi/handson-ml3/blob/master/jupyter-book/imgs/ch01/homl01-01.png?raw=true" style="width:400px;"></div>

예를 들어, 전통적인 프로그래밍 방식으로 구현된 스팸 메일 분류기는 특정 단어가 이메일 제목에 포함되면 스팸으로 처리하도록 규칙을 작성한다. 개발자는 직접 코드에 조건문을 넣어 “제목에 ‘무료’, ‘당첨’, ‘신용카드 정보’, ‘광고’ 등이 있으면 스팸으로 분류하라”는 규칙을 명시한다.  

```python
if "무료" in subject or "당첨" in subject or "신용카드 정보" in subject:
    label = "spam"
else:
    label = "ham"
```

이처럼 규칙을 코드로 작성해두면 초기에는 잘 작동한다. 하지만 프로그램이 실제로 운영된 이후 새로운 스팸 단어가 등장하면 기존 규칙만으로는 제대로 분류하지 못한다. 따라서 개발자가 매번 새로운 규칙을 추가하거나 수정해야 하며, 이로 인해 유지 보수가 매우 어렵다.

### 머신러닝 프로그래밍

스팸으로 지정된 메일에 '무료', '당첨', '신용카드 정보', '광고', '투^^자', '무&#10084;료' 등의 표현이 
자주 등장하는 경우 새로운 메일에 그런 표현이 사용되면 
자동으로 스팸으로 분류하도록 **스스로 학습하는 프로그램인 머신러닝 모델**을 작성한다.

<p><div align="center"><img src="https://github.com/codingalzi/handson-ml3/blob/master/jupyter-book/imgs/ch01/homl01-02.png?raw=true" style="width:420px;"></div></p>

스팸 메일 분류 머신러닝 모델의 학습은 스팸 메일과 아닌 메일의 구분법을 학습하기 위해
다량의 스팸 메일과 스팸이 아닌 메일로 구성된 훈련셋을 활용한다.
학습이 완료된 스팸 메일 분류 머신러닝 모델은 새로운 이메일에 대해
학습된 정보를 이용하여 스팸인지 아닌지 판별한다.

**머신러닝 프로그램 학습 과정의 자동화**

머신러닝 프로그램을 학습시키는 과정을 관장하는 **머신러닝 파이프라인** 
또는 **MLOps(Machine Learning Operations, 머신러닝 운영)** 의
자동화가 가능하다.
MLOps를 활용하면 기존에 학습되지 않은 새로운 종류의 스팸 메일이 많이 신고되는 경우
신고된 스팸 메일의 내용을 분석한 다음에
스팸 메일 분류 모델을 새로운 훈련셋을 이용하여 훈련시키는 과정을
자동화할 수 있다.

<p><div align="center"><img src="https://github.com/codingalzi/handson-ml3/blob/master/jupyter-book/imgs/ch01/homl01-03.png?raw=true" style="width:440px;"></div></p>

**머신러닝 프로그래밍의 장점**

머신러닝 프로그래밍은 전통적인 규칙 기반 접근 방식으로는 유지보수가 어렵거나 해결하기 힘든 문제들을 보다 효율적으로 다룰 수 있게 한다. 예를 들어, 스팸 메일 분류기는 수많은 규칙을 직접 작성해야 하는데, 머신러닝을 활용하면 이러한 복잡한 규칙을 자동으로 학습하여 훨씬 간단하게 구현할 수 있다.

또한 음성 인식처럼 전통적인 방식으로는 지나치게 복잡한 문제도 머신러닝을 통해 해결할 수 있다. 머신러닝 모델은 새로운 환경과 데이터에 쉽게 적응할 수 있어 변화하는 상황에서도 유연하게 대응할 수 있는 시스템을 개발할 수 있다.

마지막으로, 머신러닝은 복잡한 문제와 방대한 데이터를 분석하여 기존 방식으로는 얻기 어려운 깊은 통찰을 제공한다. 이는 빅데이터 시대에 특히 중요한 장점으로, 데이터 속에 숨겨진 패턴과 의미를 발견하는 데 큰 도움을 준다.

<p><div align="center"><img src="https://github.com/codingalzi/handson-ml3/blob/master/jupyter-book/imgs/ch01/homl01-04.png?raw=true" style="width:440px;"></div></p>

## 머신러닝 활용 사례

아래 그림은 다양한 분야에서 활용되고 있는 머신러닝 기술의 대표적인 활용 사례들을 시각적으로 정리한 인포그래픽입니다.

<p><div align="center"><img src="https://github.com/codingalzi/code-workout-ml/blob/master/images/ch01/applications-of-ML.jpg?raw=true" style="width:600px;"></div></p>

## 머신러닝 모델 유형

머신러닝 모델은 학습 패러다임, 작업 내용, 학습 방식, 모델링 방식 등에 따라 구분되며,
아래 표에 정리되어 있다.

| 학습 패러다임        | 작업 과제        | 학습 방식 | 모델링 방식   | 기타      |
|----------------------|-----------------|-----------|--------------|-----------|
| 지도 학습            | 회귀            | 배치 학습 | 사례 기반    | 전이 학습 |
| 자기 지도 학습       | 분류            | 온라인 학습 | 모델 기반   | 앙상블    |
| 준지도 학습          | 군집화          |           |              | 연합 학습 |
| 비지도 학습          | 차원 축소       |           |              | 메타 학습 |
| 강화 학습            | 이상 탐지 / 신규 탐지 |           |              | ...       |

## 머신러닝 모델 훈련의 어려움

머신러닝 모델을 훈련할 때 경험할 수 있는 어려운 점들을 살펴본다.
기본적으로 훈련에 사용되는 훈련 데이터 또는 훈련 알고리즘 둘 중에 하나에 기인한다. 

**데이터 문제**

- 충분치 않은 양의 훈련 데이터: 머신러닝 알고리즘을 제대로 학습시키려면 많은 양의 데이터가 필요하다.
    이미지 분류, 자연어 처리 등의 문제는 수백, 수천만, 수억, 수십억 개가 필요할 수도 있다.
- 저품질 훈련 데이터: 편향되거나 잘못 측정된 값 등 머신러닝 알고리즘에 나쁜 영향을 미치는 데이터가 포함될 수 있다. 
- 특성 공학: 해결하는 문제에 관련이 높은 데이터의 특성을 파악해 내야 성능이 좋은 모델을 학습시킬 수 있다.

**훈련 알고리즘 문제**

- 과대 적합: 모델이 학습에 사용된 훈련셋에 너무 특화되어 실전에서 제대로 성능이 발휘되지 못하는 현상
- 과소 적합: 모델 학습이 제대로 진행되지 못하는 현상. 기본적으로 훈련 알고리즘 문제이지만 훈련 데이터셋의 문제일 수도 있음.

(sec:model_based_learning)=
## 예제: 삶의 만족도 예측 선형 모델

**데이터셋**

OECD(경제협력개발기구) 국가의 1인당 GDP(국내 총생산)와 삶의 만족도 사이의 관계를 
확인한다.
여기서는 2015년 기준으로 OECD에 속한 36개 국가의 데이터를 이용한다. 
아래 표는 그중 5개 국가의 1인당 GDP와 삶의 만족도를 보여준다. 

| Country | GDP percapita | Life satisfaction |
| :--- | :--- | :--- |
| Hungary | 12239.894 | 4.9 |
| Korea | 27195.197 | 5.8 |
| France | 37675.006 | 6.5 |
| Austrailia | 50961.865 | 7.3 |
| United States | 55805.204 | 7.2 |

머신러닝 모델을 훈련시킬 때 발생할 수 있는 과대적합 문제를 설명하기 위해
고의로 7개 국가의 데이터를 데이터 셋에서 제외시키고 훈련 시킬 때와
그렇지 않을 때를 비교한다.

제외 대상 국가는 브라질, 멕시코, 칠레, 체코, 노르웨이, 스위스, 룩셈부르크 이다.
아래 그래프는 36개 국가 중에서 언급된 7개을 제외한
29개 국가를 대상으로 1인당 GDP와 삶의 만족도를 이용한
산점도<font size="2">scatter plot</font>이다. 
1인당 GDP가 증가할 수록 삶의 만족도가 
선형적<font size="2">linear</font>으로 증가하는 것처럼 보인다.

<p><div align="center"><img src="https://github.com/codingalzi/handson-ml3/blob/master/jupyter-book/imgs/ch01/homl01-17-a.png?raw=true" style="width:450px;"></div></p>

**선형 모델 훈련**

위 가정을 바탕으로 1인당 GDP가 알려진 국가의 삶의 만족도를 예측하는 머신러닝 모델을 구현한다.
여기서는 1인당 GDP와 삶의 만족도 사이의 관계를 설명하는 예제 모델로
선형 회귀 모델<font size="2">linear regression model</font>을 선택한다.

선형 회귀 모델은 아래 모양의 일차 방정식을 이용하여 
1인당 GDP가 주어졌을 때 해당 국가의 삶의 만족도를 예측하게 된다.

$$
\text{삶의만족도} = \theta_0 + (\text{1인당GDP}) \cdot \theta_1
$$

아래 이미지는 세 개의 적절하지 않은 선형 회귀 모델을 보여준다.

<p><div align="center"><img src="https://github.com/codingalzi/handson-ml3/blob/master/jupyter-book/imgs/ch01/homl01-18-a.png?raw=true" style="width:450px;"></div></p>

선형 회귀 모델은 1인당 GDP가 주어졌을 때 해당 국가의 삶의 만족도를 아래 그림에서처럼 최대한 정확하게 계산하는
**최선**의 $\theta_0$와 $\theta_1$를 
주어진 훈련셋을 대상으로 반복된 훈련을 통해 찾아낸다.
아래 그림은 제대로 훈련된 선형 회귀 모델이 찾아낸 직선을 보여준다.

<p><div align="center"><img src="https://github.com/codingalzi/handson-ml3/blob/master/jupyter-book/imgs/ch01/homl01-19-a.png?raw=true" style="width:450px;"></div></p>

**데이터 문제**

머신러닝 알고리즘을 훈련시키다보면 다양한 어려움에 부딪힌다.
여기서는 선형 회귀 모델이 훈련셋에 민감하게 반응하는 것을 보인다.
앞서 제외시킨 7개 국가의 데이터를 포함해서 선형 회귀 모델을 훈련시켜 보자.
제외된 7개 국가의 데이터는 다음과 같다.

| Country | GDP percapita | Life satisfaction |
| :--- | :--- | :--- |
| Brazil | 8669.998 | 7.0 |
| Mexico | 9009.280 | 6.7 |
| Chile | 13340.905 | 6.7 |
| Czech Republic | 17256.918 | 6.5 |
| Norway | 74822.106 | 7.4 |
| Switzerland | 80675.308 | 7.5 |
| Luxembourg | 101994.093 | 6.9 |

위 7개 국가를 포함해서 모두 36개 국가를 대상으로 선형 회귀 모델을 훈련시키면 아래 그림에서
검은 직선에 해당하는 기울기와 절편을 7개 국가를 제외한 경우와는 많이 다르게 찾아낸다.

<p><div align="center"><img src="https://github.com/codingalzi/handson-ml3/blob/master/jupyter-book/imgs/ch01/homl01-21-a.png?raw=true" style="width:650px;"></div></p>

결론적으로 7개 국가를 포함하는 경우와 그렇지 않은 경우
상당히 다른 선형 회귀 모델이 훈련된다.
즉, 모델 훈련이 훈련 데이터 셋에 민감하게 반응하는 **과대 적합** 현상이 발생한다.
이런 의미에서 선형 회귀 모델은 1인당 GDP와 삶의 만족도 사이의 관계를 모델링 하기에 부적절하다고 말할 수 있다.

## 주요 내용 정리

1. 머신러닝 정의

    | 개념 | 설명 | 예시 |
    |------|------|------|
    | 머신러닝 | 데이터를 통해 학습하는 시스템 구축 | 스팸 메일 필터, 추천 시스템 |

1. 주요 응용 분야

    | 분야 | 설명 | 사례 |
    |------|------|------|
    | 복잡한 문제 해결 | 알고리즘적 해결책이 없는 문제 | 자율주행 |
    | 규칙 대체 | 수많은 규칙을 자동화 | 음성 인식 |
    | 환경 적응 | 변동하는 환경에 맞춤 | 주식 예측 |
    | 인간 학습 지원 | 데이터 마이닝 | 의료 데이터 분석 |

1. 데이터셋 구분

    | 용어 | 설명 | 예시 |
    |------|------|------|
    | 라벨링된 학습 데이터 | 각 인스턴스에 정답(라벨) 포함 | 이메일 + 스팸 여부 |
    | 테스트셋 | 일반화 오류 추정 | 실제 배포 전 성능 평가 |
    | 검증셋 | 모델 비교 및 하이퍼파라미터 튜닝 | 최적 모델 선택 |
    | Train-dev 셋 | 데이터 불일치 확인용 | 훈련 데이터 일부 분리 |

1. 학습 유형

    | 유형 | 설명 | 대표 과제 |
    |------|------|-----------|
    | 지도학습 | 입력+정답 제공 | 회귀, 분류 |
    | 비지도학습 | 정답 없음 | 군집화, 차원 축소 |
    | 강화학습 | 보상 기반 학습 | 로봇 걷기, 게임 AI |

1. 주요 알고리즘

    | 알고리즘 | 특징 | 활용 예시 |
    |----------|------|-----------|
    | 사례 기반 학습 | 유사도 측정으로 예측 | 추천 시스템 |
    | 모델 기반 학습 | 비용 함수 최소화로 최적 파라미터 탐색 | 선형 회귀 |
    | 온라인 학습 | 점진적 학습, 대규모 데이터 적합 | 실시간 뉴스 추천 |
    | Out-of-core 학습 | 메모리에 안 들어가는 대규모 데이터 처리 | 빅데이터 분석 |

1. 주요 도전 과제

    - 데이터 부족  
    - 데이터 품질 저하  
    - 대표성 없는 데이터  
    - 특징(Feature) 정보 부족  
    - 과소적합(너무 단순)  
    - 과적합(너무 복잡)  

1. 과적합 문제와 해결책

    | 상황 | 설명 | 해결책 |
    |------|------|--------|
    | 과적합 | 훈련 데이터에서는 잘 맞지만 새로운 데이터에 성능 저하 | 더 많은 데이터 확보, 모델 단순화, 정규화 적용, 데이터 잡음 제거 |

## 연습문제

1. **머신러닝이란 무엇인가?**
    
    머신러닝은 데이터를 통해 학습하는 시스템을 구축하는 것. 학습은 특정 성능 지표에 따라 어떤 작업을 점점 더 잘 수행하게 되는 것을 의미함.  

1. **머신러닝이 빛을 발하는 네 가지 응용 분야는?**

    알고리즘적 해결책이 없는 복잡한 문제 해결, 수많은 규칙을 대체하는 시스템 구축, 변동하는 환경에 적응하는 시스템 개발, 데이터 마이닝 등 인간의 학습을 돕는 분야.  

1. **라벨이 붙은 학습 데이터셋이란?**

    각 데이터 인스턴스마다 원하는 정답(라벨)이 포함된 학습 데이터셋.  

1. **가장 흔한 두 가지 지도학습 과제는?**

    회귀(regression)와 분류(classification).  

1. **대표적인 네 가지 비지도학습 과제는?**

    군집화(clustering), 시각화(visualization), 차원 축소(dimensionality reduction), 연관 규칙 학습(association rule learning).  

1. **로봇이 다양한 미지의 지형에서 걷도록 하려면 어떤 알고리즘을 써야 하나?**

    강화학습(Reinforcement Learning)이 가장 적합함.  

1. **고객을 여러 그룹으로 나누려면 어떤 알고리즘을 써야 하나?**

    그룹을 미리 정의하지 않았다면 군집화 알고리즘(비지도학습)을 사용. 그룹이 정의되어 있다면 분류 알고리즘(지도학습)을 사용.  

1. **스팸 탐지를 지도학습 문제로 볼 수 있을까, 비지도학습 문제로 볼 수 있을까?**

    지도학습 문제. 이메일과 함께 스팸 여부 라벨을 제공하여 학습함.  

1. **온라인 학습 시스템이란?**

    데이터를 한꺼번에 학습하는 배치 학습과 달리, 점진적으로 학습하여 변화하는 데이터나 대규모 데이터에 빠르게 적응할 수 있는 시스템.  

1. **Out-of-core 학습이란?**

    메인 메모리에 다 담을 수 없는 방대한 데이터를 처리하는 학습 방식. 데이터를 미니 배치로 나누고 온라인 학습 기법을 활용함.  

1. **유사도 측정에 의존해 예측하는 알고리즘은?**

    사례 기반(instance-based) 학습 알고리즘. 학습 데이터를 기억해두고 새로운 데이터가 들어오면 가장 유사한 사례를 찾아 예측함.  

1. **모델 파라미터와 하이퍼파라미터의 차이는?**

    모델 파라미터는 새로운 데이터 입력 시 예측을 결정하는 값(예: 선형 모델의 기울기). 하이퍼파라미터는 학습 알고리즘 자체의 설정값(예: 정규화 강도).  

1. **모델 기반 알고리즘은 무엇을 찾고, 어떻게 학습하며, 어떻게 예측하나?**

    새로운 데이터에 잘 일반화할 수 있는 최적의 모델 파라미터를 찾음. 보통 비용 함수 최소화를 통해 학습하며, 학습된 파라미터를 사용해 입력 특징을 모델의 예측 함수에 넣어 결과를 도출함.  

1. **머신러닝의 주요 도전 과제 네 가지는?**

    데이터 부족, 데이터 품질 저하, 대표성 없는 데이터, 정보가 부족한 특징, 과소적합(너무 단순한 모델), 과적합(너무 복잡한 모델).  

1. **훈련 데이터에서는 잘 작동하지만 새로운 데이터에는 성능이 떨어진다면? 해결책은?**

    이는 과적합(overfitting). 해결책은 더 많은 데이터 확보, 모델 단순화(알고리즘 변경, 파라미터/특징 수 축소, 정규화 적용), 훈련 데이터의 잡음 감소.  

1. **테스트셋이란 무엇이며 왜 쓰는가?**

    모델을 실제 배포 전에 새로운 데이터에서 일반화 오류를 추정하기 위해 사용함.  

1. **검증셋(validation set)의 목적은?**

    여러 모델을 비교하고 최적의 모델을 선택하며 하이퍼파라미터를 조정하는 데 사용됨.  

1. **Train-dev 셋은 무엇이며 언제, 어떻게 쓰는가?**

    훈련 데이터와 검증/테스트 데이터 간 불일치 위험이 있을 때 사용. 훈련 데이터 일부를 떼어내어 학습에는 사용하지 않고, 모델을 평가해 과적합 여부나 데이터 불일치를 확인함.  

1. **테스트셋으로 하이퍼파라미터를 조정하면 어떤 문제가 생기나?**

    테스트셋에 과적합될 위험이 있어 일반화 오류 추정이 지나치게 낙관적이 됨. 그 결과 실제 성능이 기대보다 낮을 수 있음.  