# 2. Multiple Linear Regression (다중 선형 회귀)
#### 결석 횟수와 공부 장소까지 포함

## One-Hot Encoding

다중 공선성 Multicollinearity
하나의 피처가 다른 피처에 영향을 미침 Home, Library, Cafe 라는 장소 3가지가 있을 때,
D1(Home)+D2(Library)+D3(Cafe) = 1 -> D3 = 1-(D1+D2)
이 뜻은 독립변수 사이에 상관 관계가 있다는 뜻임.(실질적으로 있을 가능성은 낮지만 있을 수는 있음)
그렇기 때문에 D3를 지움으로 써 1,0은 D1, 0,1은 D2, 0,0은 D3가 되어 상관관계가 사라짐

In [2]:
import pandas as pd

In [3]:
dataset = pd.read_csv('data/MultipleLinearRegressionData.csv')

In [4]:
dataset

Unnamed: 0,hour,absent,place,score
0,0.5,3,Home,10
1,1.2,4,Library,8
2,1.8,2,Cafe,14
3,2.4,0,Cafe,26
4,2.6,2,Home,22
5,3.2,0,Home,30
6,3.9,0,Library,42
7,4.4,0,Library,48
8,4.5,5,Home,38
9,5.0,1,Cafe,58


In [5]:
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values
X

array([[0.5, 3, 'Home'],
       [1.2, 4, 'Library'],
       [1.8, 2, 'Cafe'],
       [2.4, 0, 'Cafe'],
       [2.6, 2, 'Home'],
       [3.2, 0, 'Home'],
       [3.9, 0, 'Library'],
       [4.4, 0, 'Library'],
       [4.5, 5, 'Home'],
       [5.0, 1, 'Cafe'],
       [5.3, 2, 'Cafe'],
       [5.8, 0, 'Cafe'],
       [6.0, 3, 'Library'],
       [6.1, 1, 'Cafe'],
       [6.2, 1, 'Library'],
       [6.9, 4, 'Home'],
       [7.2, 2, 'Cafe'],
       [8.4, 1, 'Home'],
       [8.6, 1, 'Library'],
       [10.0, 0, 'Library']], dtype=object)

In [6]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(drop='first'), [2])], remainder='passthrough')

# ColumnTransformer에 들어갈 매개변수
# transformers=[원핫인코딩을 위해 바꾸어줄 내용], remainder='남은건 어떻게 할건지')

# transformers에 들어갈 매개변수
# OneHotEncoder(drops='뭐를 지울건지', [어떤것을 기준으로 OneHotEncoding을 진행할 것인지->우리는 장소])

In [7]:
X = ct.fit_transform(X)
 # 지금 만들어준 원핫인코딩의 형태에 맞춰 X에 집어넣어줌
X
# 1, 0 home
# 0, 1 library
# 0, 0 cafe

array([[1.0, 0.0, 0.5, 3],
       [0.0, 1.0, 1.2, 4],
       [0.0, 0.0, 1.8, 2],
       [0.0, 0.0, 2.4, 0],
       [1.0, 0.0, 2.6, 2],
       [1.0, 0.0, 3.2, 0],
       [0.0, 1.0, 3.9, 0],
       [0.0, 1.0, 4.4, 0],
       [1.0, 0.0, 4.5, 5],
       [0.0, 0.0, 5.0, 1],
       [0.0, 0.0, 5.3, 2],
       [0.0, 0.0, 5.8, 0],
       [0.0, 1.0, 6.0, 3],
       [0.0, 0.0, 6.1, 1],
       [0.0, 1.0, 6.2, 1],
       [1.0, 0.0, 6.9, 4],
       [0.0, 0.0, 7.2, 2],
       [1.0, 0.0, 8.4, 1],
       [0.0, 1.0, 8.6, 1],
       [0.0, 1.0, 10.0, 0]], dtype=object)

### 데이터 세트 분리

In [8]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

### 학습(다중 선형 회귀)

In [9]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_train, y_train)

LinearRegression()

### 예측 값과 실제 값 비교 (테스트 세트)

In [15]:
y_pred = reg.predict(X_test)
y_pred, y_test

(array([ 92.15457859,  10.23753043, 108.36245302,  38.14675204]),
 array([ 90,   8, 100,  38], dtype=int64))

In [25]:
reg.coef_ # 기울기인데...
# 집, 도서관, 공부시간, 결석회수 에 따른 점수 영향
# 여기서 그럼 카페에선...? -> 둘다 0, 0 이니까 뭘 해도 식상으로는 0이 나옴


array([-5.82712824, -1.04450647, 10.40419528, -1.64200104])

In [14]:
reg.intercept_ # y절편

5.365006706544747

1. MAE (Mean Absolute Error) : 실제값들과 예측값들 차이의 절대값들의 평균
1. MSE (Mean Squared Error) : 실제값과 예측값 차이의 제곱한 값들의 평균
1. RMSE (Root Mean Squared Error) : MSE에 루트를 적용 
1. R^2 (R Square) : 결정계수(데이터이의 분산을 기반으로 한 평가 지표)
1. R^2 = 1-(실제값-예측값)^2의합/(실제값-평균값)^2의합    (1:42:00 다시 보기)
> R2는 1에 가까울수록, 나머지는 0에 가까울수록 좋음

### 다양한 평가 지표 (회귀 모델)

In [21]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, y_pred) # 실제 값, 예측 값을 통한 MAE

3.2253285188288023

In [22]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred) # 실제 값, 예측 값을 통한 MSE

19.900226981515015

In [23]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred, squared=False) # RMSE, squared=false는 제곱하지 말라는 뜻

4.460967045553578

In [24]:
from sklearn.metrics import r2_score
r2_score(y_test, y_pred) #R2

0.9859956178877445

In [60]:
dummy = pd.get_dummies(dataset)
dummy
# pd.get_dummies() 의 경우 범주형 데이터에 대해서만 적용이 되며, 새로운 데이터셋에서 작업을 할 때마다 모든 차원과 ordering이 바뀜

Unnamed: 0,hour,absent,score,place_Cafe,place_Home,place_Library
0,0.5,3,10,0,1,0
1,1.2,4,8,0,0,1
2,1.8,2,14,1,0,0
3,2.4,0,26,1,0,0
4,2.6,2,22,0,1,0
5,3.2,0,30,0,1,0
6,3.9,0,42,0,0,1
7,4.4,0,48,0,0,1
8,4.5,5,38,0,1,0
9,5.0,1,58,1,0,0
