# 회귀 (Regression)
- 독립변수(특성)과 종속변수(레이블)간 관계를 모델링하는 방법
- 레이블 또는  타겟이 연속형일때 사용
- 독립변수와 종속변수의 관계를 기반으로 최적의 회귀 계수를 찾음|

In [1]:
# 회귀 예측 결과 데이터 불러오기
import pandas as pd
df = pd.read_csv('/mnt/elice/dataset/regression result.csv')
df # 연속형 값

Unnamed: 0,실제값,예측값
0,22.6,25.0
1,50.0,23.7
2,23.0,29.1
3,8.3,12.3
4,21.2,21.6
5,19.9,19.1
6,20.6,20.8
7,18.7,21.4
8,16.1,18.4
9,18.6,19.3


## R Squared
- `sklearn.metrics.r2_score`
- 실제 값의 분산 대비 예측 값의 분산 비율(최고 : 1, 최악 : 음수) 
- 모델 예측 성능(설명력)을 평가하는 목적

In [2]:
import numpy as np
1 - (np.sum(np.square(df['실제값'] - df['예측값'])) /  np.sum(np.square(df['실제값'] - df['실제값'].mean())))

0.5145225055729962

In [3]:
from sklearn.metrics import r2_score
r2_score(df['실제값'], df['예측값'])

0.5145225055729962

## Mean Absolute Error
- `sklearn.metrics.mean_absolute_error`
- 실제 값과 예측 값의 차이를 절대값으로 변환해 평균 계산
- 오차의 크기를 그래도 반영하여 오차 평균 크기를 확인
- 작을수록 좋지만 너무 작으면 과적합일 수 있음

In [4]:
np.mean(np.abs(df['실제값'] - df['예측값']))
# 단위가 kg이었으면 3.92...kg으로 단위 그대로 사용 가능

3.9294117647058826

In [5]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(df['실제값'], df['예측값'])

3.9294117647058826

## Mean Squared Error
- `sklearn.metrics.mean_squared_error(squared=True)`
- 실제 값과 예측 값의 차이를 제곱해서 평균 계산
- 작을수록 좋지만 너무 작으면 과적합일 수 있음
- 큰 오차를 더 크게, 작은 오차는 더 작게 평가하여 이상치에 민감

In [6]:
np.mean(np.square(df['실제값'] - df['예측값']))

41.762745098039225

In [7]:
from sklearn.metrics import mean_squared_error
mean_squared_error(df['실제값'], df['예측값'])

41.762745098039225

## Root Mean Squared Error
- sklearn.metrics.mean_squared_error(squared=False)
- 오차의 평균 크기를 확인하는 목적, 모델 간 잔차 비교 가능 
    - 이상치에 덜 민감함
- 큰 오류값 차이에 대해 크게 패널티를 주기 때문
- MSE의 크기를 줄이기 위한 목적으로 사용

In [8]:
np.sqrt(np.mean(np.square(df['실제값'] - df['예측값'])))

6.462410161699675

In [9]:
from sklearn.metrics import mean_squared_error
mean_squared_error(df['실제값'], df['예측값'], squared=False)

6.462410161699675

## MSLE
- MSE방식에 로그를 적용한 것
- 결정 값이 클수록 오류값도 커지기 때문에 일부 큰 오류값들로 인해 전체 오류값이 커지는 것을 막아줌

In [10]:
from sklearn.metrics import mean_squared_log_error
mean_squared_log_error(df['실제값'], df['예측값'])

0.07368722480462772

## RMSLE(MSLE에 root 적용)
- 아웃라이어에 덜 민감함 (robust)
    - 값의 변동폭이 크지 않음
- 상대적 Error를 측정함
    - 예측값 = 100, 실제값 = 90일 때, RMSLE = 0.1053, RMSE = 10
    - 예측값 = 10,000, 실제값 = 9,000일 때, RMSLE = 0.1053, RMSE = 1,000
- Under Estimation에 큰 패널티를 부여
- 실제값과 예측값이 0일 경우 -infinity가 나옴.(로그니까) 유의하기

In [None]:
from sklearn.metrics import mean_squared_log_error
mean_squared_log_error(df['실제값'], df['예측값'], squared=False)

## 제출

제출을 위해 새로 불러온 `regression result.csv` 데이터에서 실제값과 예측값의 Mean Absolute Error 값을 구한 결과를 `result`에 저장하세요.

In [11]:
df = pd.read_csv('/mnt/elice/dataset/regression result.csv')

# TODO: MAE 값을 계산하세요.
result = mean_absolute_error(df['실제값'], df['예측값'])

## 채점 수행

아래 코드는 채점 수행을 위한 코드입니다.

따라서 이를 수정했을시 **채점이 제대로 이루어지지 않습니다.**

**주의**: 채점 코드를 실행하기 전에 반드시 코드 파일을 한번 저장하시길 바랍니다.

In [12]:
import os
import json

with open('result.json', 'w') as f:
    json.dump(float(result), f)

os.system('elice_grade result.json cds_ai_exercise.ipynb')

send files ['result.json', 'cds_ai_exercise.ipynb'] for grade...
waiting result...
waiting result...
waiting result...
done!

Score: 100.000000
Duration: 2.655 seconds
=== Message ===
제출 완료되었습니다.


0