# 머신 러닝

# cf) 관련 함수 불러오기
![image.png](attachment:692217f1-33bc-46eb-8be2-cadee111948c.png)

# 1. 머신러닝에 대한 이해

### 1) 학습 방법에 따른 분류

- `지도 학습(Supervised Learning)`: 학습 대상이 되는 데이터에 정답을 주어 규칙성 및 데이터 패턴을 배우게 하는 학습 방법

- `비지도 학습(Unsupervised Learning)`: 정답이 없는 데이터 만으로 배우게 하는 학습 방법

- `강화학습(Reinforcement Learning)`: 선택한 결과에 대해 보상을 받아 행동을 개선하면서 배우게 하는 학습 방법



$ $

### 2) 과제에 따른 분류
- `분류 문제(Classification)`: 이미 적절히 분류된 데이터를 학습하여 분류 규칙을 찾고, 그 규칙을 기반으로 새롭게 주어진 데이터를 적절히 분류하는 것을 목적으로 함 <span style="color:orange">(**지도 학습**)</span>

- `회귀 문제(Regression)`: 이미 결과값이 있는 데이터를 학습하여 입력 값과 결과 값의 연관성을 찾고, 그 연관성을 기반으로 새롭게 주어진 데이터에 대한 값을 예측하는 것을 목적으로 함 <span style="color:orange">(**지도 학습**)</span>

- `클러스터링(Clustering)`: 주어진 데이터를 학습하여 적절한 분류 규칙을 찾아 데이터를 분류함을 목적으로 함, 정답이 없으니 성능을 평가하기 어려움 <span style="color:green">(**비지도 학습**)</span>



![image.png](attachment:15389b4a-6484-49ec-a426-56a936e69230.png)

$ $

$ $

---

# 2. 미리 알아 둘 용어

### 1) 모델, 모델링
- 모델(Model): 데이터로부터 <span style="color:indianred">**패턴**</span>을 찾아 <span style="color:indianred">**수학식**</span>으로 정리해 놓은 것
- 모델링(Modeling): <span style="color:indianred">**오차**</span>가 적은 모델을 만드는 과정

    - **머신**이 적절한 **학습**을 통해 최선의 모델을 만들 수 있도록 **노력**하는 행동들을 **모델링**이라고 함

![image.png](attachment:a5d2af5c-7399-4e4c-8b0d-64e6bebaf214.png)

### 2) 독립변수, 종속변수

![image.png](attachment:fb562c83-1de3-475f-a270-965f2a3b5818.png)

### 3) 오차
- 오차: 관측값과 모델의 차이(이탈도, Deviance)

![image.png](attachment:4eda22d3-728b-44f6-b7f9-1ab6a0e0d7c2.png)

### 4) 데이터 분리
- 데이터 셋을 학습용, 검증용, 평가용 데이터로 분리
![image.png](attachment:af276924-7309-425a-8f37-260329f525c0.png)
    - 평가용 데이터는 별도로 제공되는 데이터일 경우가 많음
    - 검증용 데이터로 평가 전에 모데 성능을 검증해 볼 수 있음
    

##### x, y 분리

- target = ' '
- x = data.drop(target, axis=1)
- y = data.loc[:, target]

##### 학습용, 평가용 데이터 분리
- from sklearn.model_selection import train_test_split
- x_train, x_test, y_train, y_test = <span style="color:indianred">**train_test_split**</span>(x, y, test_size=0.3)

### 5) 과대적합 vs 과소적합
- `과대적합(Overfitting)`
    - 학습데이터에서 점수가 높았는데, 평가 데이터에서 점수가 낮은 경우
    - 학습데이터에 대해서만 잘 맞는 모델 -> 실전에서 예측 성능이 좋지 않음
    
- `과소적합(Underfitting)`
    - 학습 데이터보다 평가 데이터 점수가 더 높거나 두 점수 모두 낮은 경우
    - 모델이 너무 단순하여 학습 데이터에 적절히 훈련되지 않은 경우

$ $

$ $

---

# 3. 모델링 코드 구조

### 1) Scikit-Learn

- 지도/ 비지도 학습 알고리즘을 제공하는 대표적인 파이썬 라이브러리
- '사이킷런'이라고 읽음
- 오픈 소스로써 누구나 무료로 사용가능
- 여러 예제 데이터셋을 포함하고 있어 학습에 용이

##### 순서
1) `불러오기`
    - 라이브러리 <span style="color:tan">**import**</span>
2) `선언하기`
    - 사용할 알고리즘을 모델로 선언
3) `학습하기`
    - 모델.<span style="color:tan">**fit**</span>(x_train, y_train)형태로 학습 시키기
4) `예측하기`
    - 모델.<span style="color:tan">**predict**</span>(x_test)형태로 예측 값 만들기
5) `평가하기`
    - 예측 값과 실제 값으로 평가

##### 예시 - 데이터준비

In [None]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

# 데이터 읽어오기
data = pd.read_csv('')

# x, y 분리
target = '  '
x = data.drop(target, axis=1)
y = data.loc[:, target]

# 학습용, 평가용 데이터 분리
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3)

##### 예시 - 모델링

In [None]:
# 회귀
# 1단계: 불러오기
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error

# 2단계: 선언하기
model = LinearRegression()

# 3단계: 학습하기
model.fit(x_train, y_train)

# 4단계: 예측하기
y_pred = model.predict(x_test)

# 5단계: 평가하기
print(mean_absolute_error(y_test, y_pred))


![image.png](attachment:07ef6918-f2e6-4d46-972e-7ce330ecad32.png)