# 지도 학습

- 머신러닝의 방법 중 가장 기본적인 방법으로 분류(Classification)와 회귀(Regression)가 대표적
- 분류: 이진 분류(e.g. 성공/실패), 다중 분류(e.g. 붓꽃 분류)
- 회귀: 연속된 값에 대한 예측에 주로 활용

## 분류 vs 회귀

- 분류(그룹이 정해짐): 이진 분류/다중 분류
- 회귀(중간 값이 존재): 선형 회귀/로지스틱 회귀
- 회귀의 예: 연간소득(교육수준, 나이 등) 예측, 수확량(날씨, 인력 수, 비료량 등) 예측
- 회귀의 경우 예측 값의 미묘한 차이는 크게 중요하지 않음

In [11]:
%matplotlib inline
from mglearn import *

In [12]:
from IPython.display import Image

In [13]:
Image(url='https://image.slidesharecdn.com/aa-190217131507/95/blt-201902v1-30-638.jpg?cb=1566438712')

## 일반화, 과대적합, 과소적합

- 데이터 모델링에서 가장 중요한 개념
- 일반화(Generalization): 새로운 임의의 데이터에도 잘 들어맞는 모델의 성격
- 과소적합(Underfitting): 모델이 너무 단순해 성능이 제대로 안나옴
- 과소적합은 모델이 데이터의 패턴을 잘 따라가지 못하는 상태를 말함
- 과대적합(Overfitting): 훈련 데이터에만 잘 들어맞는 상태
- 모델이 Train data에 대해서만 잘 동작하도록 훈련되어 새로운 데이터에 대해서는 제대로 작동하지 않음
- 과대적합된 모델은 훈련 데이터에 대한 설명력은 높지만 일반성이 낮음
- 머신러닝에서는 과소/과대적합 문제를 잘 해결할 수 있는 모델을 만드는 것이 핵심 --> 모델의 일반화(Generalization)
- 출처: https://brunch.co.kr/@gimmesilver

In [14]:
Image(url='https://t1.daumcdn.net/thumb/R720x0/?fname=http://t1.daumcdn.net/brunch/service/user/Jr9/image/SbI5NgVY5ZLzvG6QCT8hUcC00lA.jpg')

- 그렇다고 해서 과소적합과 과대적합의 문제가 모델의 복잡도만으로 결정되는 것은 결코 아님
- 파라미터의 조정 등을 통해 모델의 복잡도를 개선하면 무조건 최상의 모델을 개발할 수 있는 것은 아님

In [15]:
Image(url='https://t2.daumcdn.net/thumb/R720x0/?fname=http://t1.daumcdn.net/brunch/service/user/Jr9/image/n55a5fhWRNACwZ6_joGkPxApz2o.png')

- 모델의 복잡도 보다는 오히려 분석하는 데이터의 상태, 즉 데이터의 질이 얼마나 되는지를 우선 확인
- 훈련(학습) 데이터가 충분히 분석 대상을 설명할 수 있는 정보를 가지고 있는가가 중요

In [16]:
Image(url='https://t3.daumcdn.net/thumb/R720x0/?fname=http://t1.daumcdn.net/brunch/service/user/Jr9/image/8Jx-vjq3Vb13HPt9O8nYqCY9HSI.png')

- 과소적합(Underfitting): 분석 대상을 설명하는데 필요한 충분한 신호(Signal)를 가지고 있지 않음
- 과대적합(Overfitting): 분석 대상을 설명하는데 불필요한 잡음(Noise)이 너무 많음

## 해결방법

- 과대적합은 주로 훈련 데이터의 수가 적을 경우 발생할 가능성이 높아 훈련 데이터의 양을 충분히 확보
- 학습할 데이터가 부족하다면 모델의 구조를 단순하게 만들 필요성이 있음
- 모델의 일반화를 위해 모델 기능을 제한하는 것을 규제화(Regulation)라고 함
- 데이터의 양이 많으면 일반화에 분명히 일반화에 도움이 되지만 표본의 대표성(Representativeness)을 충분히 고려해야 함

In [18]:
Image(url='https://tensorflowkorea.files.wordpress.com/2017/06/fig2-01.png?w=625')

## 지도학습의 목적

- 머신러닝에서는 과소적합과 과대적합을 모두 피해야 하며 최적의 예측을 수행할 수 있는 모델을 만드는 것이 가장 중요