# Mutiple Linear Regression (다중 선형 회귀)

- 선형 회귀   
$y = mx + b$ 독립변수가 하나인 경우임  
이것을 Simple Linear Regression (단순 선형 회귀)라고 함  
  
- 다중 선형 회귀  
$y = b + m_1x_1 + m_2x_2 + \cdot\cdot\cdot + m_nx_n$  
여러개의 독립 변수를 가지는 것  
독립변수가 2개인 경우 3차원 그래프로 그려질 것임  


example) 공부시간, 결석 횟수, 공부 장소에 따른 독립변수가 있을 때 시험 점수가 몇점인지
$y = b + m_1x_1(공부시간) + m_2x_2(결석횟수) + m_3x_3(공부장소)$ 

# One-Hot Encoding
example) 공부 장소의 경우 문자로 되어 있는 경우  
회귀모델의 경우 연속형 변수를 통해 예측하는 것이기 때문에 범주형 변수는 수정을 해주어야함  
-> 표현하고 싶은 값은 1으로 하고 아닌 경우는 모두 0 (boolean?)  
더미 컬럼을 생성하여 분석

# Multicollinearity (다중공선성)
독립 변수들 간에 서로 강한 상관관계를 가지면서 회귀계수 추정의 오류가 나타나는 문제  
하나의 피처가 다른 피처에 영향을 미침 = 독립적이지 않은 케이스 

example) 공부 장소가 Home, Library, Cafe 가 있는 경우 컬럼은  
$D_1 + D_2 + D_3 = 1$  
$D_3 = 1 - (D_1 + D_2)$  
이 식이 성립이 된다는 것은 서로 상관관계가 있다는 것

|D1|D2|D3|
|-|-|-|
|Home|Library|Cafe|
|1|0|0|
|0|1|0|
|0|0|1


### 다중공선성
상관관계를 없애기 위해서 Dummy Column이 $n$개면 $n-1$개만 사용하는 것  
즉, 위 표에서 Cafe 컬럼을 삭제하여 분석 진행  
삭제해도 데이터 구분은 가능하다. (Home = 0 , Library = 0 이면 Cafe 인 것)  
= Dummy variable trap

|D1|D2|
|-|-|
|Home|Library|
|1|0|
|0|1|
|0|0|


----

# 2. Mutiple Linear Regression 

### One-Hot encoding

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [4]:
dataset = pd.read_csv("MultipleLinearRegressionData.csv")
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

In [3]:
dataset.head()

Unnamed: 0,hour,absent,place,score
0,0.5,3,Home,10
1,1.2,4,Library,8
2,1.8,2,Cafe,14
3,2.4,0,Cafe,26
4,2.6,2,Home,22


In [5]:
X, y

(array([[0.5, 3, 'Home'],
        [1.2, 4, 'Library'],
        [1.8, 2, 'Cafe'],
        [2.4, 0, 'Cafe'],
        [2.6, 2, 'Home'],
        [3.2, 0, 'Home'],
        [3.9, 0, 'Library'],
        [4.4, 0, 'Library'],
        [4.5, 5, 'Home'],
        [5.0, 1, 'Cafe'],
        [5.3, 2, 'Cafe'],
        [5.8, 0, 'Cafe'],
        [6.0, 3, 'Library'],
        [6.1, 1, 'Cafe'],
        [6.2, 1, 'Library'],
        [6.9, 4, 'Home'],
        [7.2, 2, 'Cafe'],
        [8.4, 1, 'Home'],
        [8.6, 1, 'Library'],
        [10.0, 0, 'Library']], dtype=object),
 array([ 10,   8,  14,  26,  22,  30,  42,  48,  38,  58,  60,  72,  62,
         68,  72,  58,  76,  86,  90, 100], dtype=int64))

In [10]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(drop='first'), [2])], remainder='passthrough')
# Column Transform을 할 것인데 어떤 옵션으로 변경할 것인지.
# one-hot encoder을 하기 위해 encoder 옵션
# OneHotEncoder을 할 때 어떤 컬럼을 뺄 것인지 (drop) first이므로 첫번째 컬럼 제외
# 어떤 데이터를 적용할 것인지. -> 독립 변수에서 index로 지정
# remainder는 나머지 데이터는 어떻게 할 것인지. -> passthrough이면 그대로 둔다는 것

X_trans = ct.fit_transform(X)
X_trans

# 1, 0 = Home
# 0, 1 = Library
# 0, 0 = Cafe

array([[1.0, 0.0, 0.5, 3],
       [0.0, 1.0, 1.2, 4],
       [0.0, 0.0, 1.8, 2],
       [0.0, 0.0, 2.4, 0],
       [1.0, 0.0, 2.6, 2],
       [1.0, 0.0, 3.2, 0],
       [0.0, 1.0, 3.9, 0],
       [0.0, 1.0, 4.4, 0],
       [1.0, 0.0, 4.5, 5],
       [0.0, 0.0, 5.0, 1],
       [0.0, 0.0, 5.3, 2],
       [0.0, 0.0, 5.8, 0],
       [0.0, 1.0, 6.0, 3],
       [0.0, 0.0, 6.1, 1],
       [0.0, 1.0, 6.2, 1],
       [1.0, 0.0, 6.9, 4],
       [0.0, 0.0, 7.2, 2],
       [1.0, 0.0, 8.4, 1],
       [0.0, 1.0, 8.6, 1],
       [0.0, 1.0, 10.0, 0]], dtype=object)

### 데이터 세트 분리

In [12]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_trans, y, test_size=0.2, random_state=0)

### 학습 (다중 선형 회귀)

In [13]:
from sklearn.linear_model import LinearRegression
reg = LinearRegression()
reg.fit(X_train, y_train)

### 예측 값과 실제 값 비교 (테스트 세트)

In [14]:
y_pred = reg.predict(X_test)
y_pred

array([ 92.15457859,  10.23753043, 108.36245302,  38.14675204])

In [15]:
y_test

array([ 90,   8, 100,  38], dtype=int64)

In [17]:
reg.coef_ # 기울기

array([-5.82712824, -1.04450647, 10.40419528, -1.64200104])

In [19]:
reg.intercept_ # 절편

5.365006706544733

### 모델 평가

In [20]:
reg.score(X_train, y_train) # 훈련세트

0.9623352565265528

In [21]:
reg.score(X_test, y_test) # 테스트 세트

0.9859956178877445

### 다양한 평가 지표(회귀 모델)

1. MAE (Mean Absolute Error) : (실제 값과 예측 값) 차이의 절대값  
1. MSE (Mean Squared Error) : (실제값과 예측값) 차이의 제곱  
1. RMSE (Root Mean Squared Error) : (실제값과 예측값) 차이의 제곱에 루트  
1. $R^2$ : 결정 계수 

> $R^2$는 1에 가까울수록, 나머지는 0에 가까울 수록 좋음

In [22]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, y_pred) # 실제값, 예측값을 넣었을 때 MAE

3.225328518828811

In [23]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred) # 실제값, 예측값을 넣었을 때 MSE

19.90022698151514

In [24]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred, squared=False) # 실제값, 예측값을 넣었을 때 RMSE

4.460967045553591

In [26]:
from sklearn.metrics import r2_score
r2_score(y_test, y_pred) # R^2
# reg.score와 동일함.

0.9859956178877445