## 회귀 모델 성능 평가

* 회귀 모델 성능 평가하기
> 회귀 모델은 오차를 줄여야한다. 즉 예측값이 실제값에 가까워야 좋은 모델이다.

* 실제값,예측값,평균값 개념이해

> 실제값 : 우리가 실제로 예측하고 싶은 값, 목표값

> 예측값 : 머신러닝 알고리즘으로 우리가 새롭게 예측한 값 / 이 예측값이 얼마나 정확한지 파악

> 평균값 : 이미 알고 있는, 기존에 예측한 값

* MSE, RMSE, MAE, MAPE 개념이해

> MSE : mean sqaured error

> RMSE : root mean sqaured error

> MAE : mean absolute error

> MAPE : mean absolute percentage error

* SST, SSR, SSE, 결정계수 개념이해

> SST : sum squared total / 전체 오차 (우리가 줄여야하는 오차)

> SSR : sum squared regressin / 전체 오차 중에서 회귀식이 잡은 오차

> SSE : sum squared error / 우리가 못 잡아낸 오차

> SST = SSE + SSR

> 결정계수 : 전체 오차 중에서 회귀식이 잡아낸 오차 비율 0~1사이의 값이 나온다. 1에 가까울수록 완벽한 학습이 된 것

In [2]:
# 라이브러리 불러오기
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

%config InlineBackend.figure_format = 'retina'

In [3]:
# 데이터 읽어오기
path = 'https://raw.githubusercontent.com/Jangrae/csv/master/airquality_simple.csv'
data = pd.read_csv(path)

### 데이터준비

In [4]:
# 결측치 확인
data.isnull().sum()

Ozone      0
Solar.R    7
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

In [5]:
# 전날 값으로 결측치 채우기
data.fillna(method='ffill', inplace=True)

# 확인
data.isnull().sum()

Ozone      0
Solar.R    0
Wind       0
Temp       0
Month      0
Day        0
dtype: int64

In [6]:
# 불필요한 변수 제거
col_x = ['Month', 'Day']
data.drop(col_x, axis=1, inplace=True)

# 확인
data.head()

Unnamed: 0,Ozone,Solar.R,Wind,Temp
0,41,190.0,7.4,67
1,36,118.0,8.0,72
2,12,149.0,12.6,74
3,18,313.0,11.5,62
4,19,313.0,14.3,56


In [7]:
# target 확인
target = 'Ozone'

# 데이터 분리
x = data.drop(target, axis=1)
y = data[target]

In [8]:
# 모듈 불러오기 & 7:3으로 데이터 나누기
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=2022)

### 모델링

In [9]:
#불러오기
from sklearn.linear_model import LinearRegression

In [10]:
#선언하기
model = LinearRegression()

In [12]:
#학습하기
model.fit(x_train, y_train)

LinearRegression()

In [13]:
#예측하기
y_pred = model.predict(x_test)

### 회귀 성능 평가하기

In [14]:
# MAE 

from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, y_pred)

13.377390093696068

In [16]:
# MSE
 
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred)

298.7074379241612

In [19]:
# RMSE

print(mean_squared_error(y_test, y_pred)**0.5)

17.283154744552892


In [21]:
# MAPE

from sklearn.metrics import mean_absolute_percentage_error
mean_absolute_percentage_error(y_test, y_pred)

0.6789087709628866

In [22]:
# 결정계수
from sklearn.metrics import r2_score

r2_score(y_test,y_pred)

0.6673645301519783