# Multiple Linear Regression

원 - 핫 인코딩(One-Hot Encoder):
- 표현하고 싶은 건 1. 그 외는 0으로 표현
- 독립변수들 간의 상관 관계를 줄이기 위해 더미 컬럼을 삭제하는 것

In [1]:
import matplotlib.pyplot as plt
import pandas as pd

dataset = pd.read_csv('MultipleLinearRegressionData.csv')

dataset

Unnamed: 0,hour,absent,place,score
0,0.5,3,Home,10
1,1.2,4,Library,8
2,1.8,2,Cafe,14
3,2.4,0,Cafe,26
4,2.6,2,Home,22
5,3.2,0,Home,30
6,3.9,0,Library,42
7,4.4,0,Library,48
8,4.5,5,Home,38
9,5.0,1,Cafe,58


In [2]:
X = dataset.iloc[:,:-1].values # 처음부터 마지막 컬럼 직전까지의 데이터(독립변수)
y = dataset.iloc[:, -1].values # 처음부터 마지막 컬럼까지(종속변수)

In [3]:
X

array([[0.5, 3, 'Home'],
       [1.2, 4, 'Library'],
       [1.8, 2, 'Cafe'],
       [2.4, 0, 'Cafe'],
       [2.6, 2, 'Home'],
       [3.2, 0, 'Home'],
       [3.9, 0, 'Library'],
       [4.4, 0, 'Library'],
       [4.5, 5, 'Home'],
       [5.0, 1, 'Cafe'],
       [5.3, 2, 'Cafe'],
       [5.8, 0, 'Cafe'],
       [6.0, 3, 'Library'],
       [6.1, 1, 'Cafe'],
       [6.2, 1, 'Library'],
       [6.9, 4, 'Home'],
       [7.2, 2, 'Cafe'],
       [8.4, 1, 'Home'],
       [8.6, 1, 'Library'],
       [10.0, 0, 'Library']], dtype=object)

In [10]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(drop='first'), [2])], remainder='passthrough')

# remainder - onehotencoder 에 적용하지 않는 데이터는 어떻게 할건지?

X = ct.fit_transform(X)
X

# 1 0 : Home
# 0 1 : Library
# 0 0 : Cafe

array([[1.0, 0.0, 0.5, 3],
       [0.0, 1.0, 1.2, 4],
       [0.0, 0.0, 1.8, 2],
       [0.0, 0.0, 2.4, 0],
       [1.0, 0.0, 2.6, 2],
       [1.0, 0.0, 3.2, 0],
       [0.0, 1.0, 3.9, 0],
       [0.0, 1.0, 4.4, 0],
       [1.0, 0.0, 4.5, 5],
       [0.0, 0.0, 5.0, 1],
       [0.0, 0.0, 5.3, 2],
       [0.0, 0.0, 5.8, 0],
       [0.0, 1.0, 6.0, 3],
       [0.0, 0.0, 6.1, 1],
       [0.0, 1.0, 6.2, 1],
       [1.0, 0.0, 6.9, 4],
       [0.0, 0.0, 7.2, 2],
       [1.0, 0.0, 8.4, 1],
       [0.0, 1.0, 8.6, 1],
       [0.0, 1.0, 10.0, 0]], dtype=object)

## 데이터 세트 분리

In [11]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

## 학습 (다중 선형 회귀)

In [12]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_train, y_train)

## 예측 값과 실제 값 비교 (테스트 세트)

In [13]:
y_pred = reg.predict(X_test)
y_pred # 예측 값

array([ 92.15457859,  10.23753043, 108.36245302,  38.14675204])

In [14]:
y_test # 실제 값

array([ 90,   8, 100,  38], dtype=int64)

In [17]:
reg.coef_ 

array([-5.82712824, -1.04450647, 10.40419528, -1.64200104])

In [18]:
reg.intercept_

5.365006706544747

# 모델 평가 - R2 (결정 계수):기본 모델 평가 지표

In [19]:
reg.score(X_train, y_train) # 훈련 세트

0.9623352565265527

In [20]:
reg.score(X_test, y_test) # 테스트 세트

0.9859956178877445

## 다양한 평가(Evaluation)지표 (회귀 모델)

- MAE(Mean Absolute Error) : 실제값과 예측값 차이의 절대값
- MSE(Mean Squared Error) : 실제값과 예측값 차이의 제곱값
- RMSE(Root Mean Squared Error) : 실제값과 예측값 차이의 제곱의 제곱근
- R2 : 결정 계수

R2는 1에 가까울수록 모델의 평가가 좋다.

## 그 외 평가 지표를 통해 동일한 모델을 평가했을 때

In [30]:
from sklearn.metrics import mean_absolute_error # MAE
mean_absolute_error(y_test, y_pred) # 실제값과 예측값

3.2253285188288023

In [31]:
from sklearn.metrics import mean_squared_error # MSE
mean_squared_error(y_test, y_pred) # 실제값과 예측값

19.900226981515015

In [33]:
from sklearn.metrics import mean_squared_error # RMSE
mean_squared_error(y_test, y_pred, squared=False) # 실제값과 예측값

4.460967045553578

In [34]:
from sklearn.metrics import r2_score # R2
r2_score(y_test, y_pred) # 실제값과 예측값

0.9859956178877445

2개 회귀 모델, 1개 분류, 1개 비지도 학습 -> 연습문제 -> 영화 추천하는 인공지능 웹 시스템 -> openCV