<a href="https://colab.research.google.com/github/sy-veronica/ML/blob/main/02_Multiple_Linear_Regression.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **2. Multiple Linear Regression (다중 선형 회귀)**

### **One-Hot Encoding (원-핫 인코딩)**


In [44]:
# (1) 라이브러리 불러오기
import pandas as pd
import matplotlib.pyplot as plt

In [45]:
# (2) 데이터 불러오기
dataset = pd.read_csv('/content/drive/MyDrive/03. 파이썬 (ML)/02. dataset/MultipleLinearRegressionData.csv')
dataset.head()

Unnamed: 0,hour,absent,place,score
0,0.5,3,Home,10
1,1.2,4,Library,8
2,1.8,2,Cafe,14
3,2.4,0,Cafe,26
4,2.6,2,Home,22


In [46]:
# (3-1) 독립변수, 원인(X) & 종속변수, 결과(y) 지정하기
X = dataset.iloc[:, :-1].values # 처음부터 마지막 컬럼 직전까지의 데이터
y = dataset.iloc[:, -1].values  # 마지막 컬럼 데이터
X

array([[0.5, 3, 'Home'],
       [1.2, 4, 'Library'],
       [1.8, 2, 'Cafe'],
       [2.4, 0, 'Cafe'],
       [2.6, 2, 'Home'],
       [3.2, 0, 'Home'],
       [3.9, 0, 'Library'],
       [4.4, 0, 'Library'],
       [4.5, 5, 'Home'],
       [5.0, 1, 'Cafe'],
       [5.3, 2, 'Cafe'],
       [5.8, 0, 'Cafe'],
       [6.0, 3, 'Library'],
       [6.1, 1, 'Cafe'],
       [6.2, 1, 'Library'],
       [6.9, 4, 'Home'],
       [7.2, 2, 'Cafe'],
       [8.4, 1, 'Home'],
       [8.6, 1, 'Library'],
       [10.0, 0, 'Library']], dtype=object)

In [47]:
# (3-2) 원-핫 인코딩으로 'place' 컬럼을 구분하기기
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers = [('encoder', OneHotEncoder(drop='first'), [2])], remainder='passthrough')
X = ct.fit_transform(X)
X
# 1 0 : 'Home'
# 0 1 : 'Library'
# 0 0 : 'Cafe'

array([[1.0, 0.0, 0.5, 3],
       [0.0, 1.0, 1.2, 4],
       [0.0, 0.0, 1.8, 2],
       [0.0, 0.0, 2.4, 0],
       [1.0, 0.0, 2.6, 2],
       [1.0, 0.0, 3.2, 0],
       [0.0, 1.0, 3.9, 0],
       [0.0, 1.0, 4.4, 0],
       [1.0, 0.0, 4.5, 5],
       [0.0, 0.0, 5.0, 1],
       [0.0, 0.0, 5.3, 2],
       [0.0, 0.0, 5.8, 0],
       [0.0, 1.0, 6.0, 3],
       [0.0, 0.0, 6.1, 1],
       [0.0, 1.0, 6.2, 1],
       [1.0, 0.0, 6.9, 4],
       [0.0, 0.0, 7.2, 2],
       [1.0, 0.0, 8.4, 1],
       [0.0, 1.0, 8.6, 1],
       [0.0, 1.0, 10.0, 0]], dtype=object)

### **데이터 세트 분리**

In [48]:
# (3-3) 데이터 세트 분리하기
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [49]:
# (4) 다중 선형 회귀 모델 만들기
from sklearn.linear_model import LinearRegression
reg = LinearRegression()  # 객체 생성
reg.fit(X_train, y_train) # 모델 생성 (학습)

LinearRegression()

### **테스트 세트 : 예측값과 실제값 비교**

In [50]:
# (5) 학습을 통해 생성된 모델을 바탕으로 예측값(y_pred) 출력
y_pred = reg.predict(X_test)   # 테스트 세트 x에 대한 예측값(y_pred)
y_pred

array([ 92.15457859,  10.23753043, 108.36245302,  38.14675204])

In [51]:
y_test                         # 테스트 세트의 실제 y값

array([ 90,   8, 100,  38])

In [52]:
# (8) 다중 선형 회귀 모델의 기울기와 y절편 검토하기   (y = b + m₁x₁ + m₂x₂ + m₃x₃ + m₄x₄)
reg.coef_        # 기울기(m)

array([-5.82712824, -1.04450647, 10.40419528, -1.64200104])

In [53]:
reg.intercept_   # y 절편(b)

5.365006706544776

### **모델평가**

In [54]:
# (9) 모델이 잘 만들어졌는지 평가하기
reg.score(X_train, y_train) # 훈련 세트를 통한 모델 평가

0.9623352565265527

In [55]:
reg.score(X_test, y_test)   # 테스트 세트를 통한 모델 평가

0.9859956178877446

### **다양한 평가지표 (회귀 모델)**

1. MAE (Mean Absolute Error)      : 실제값과 예측값 차이의 절대값
2. MSE (Mean Squared Error)       : 실제값과 예측값 차이의 제곱
3. RMSE (Root Mean Squared Error) : (실제값과 예측값 차이의 제곱)의 루트
4. R2 : 결정계수
> R2는 1에 가까울수록, 나머지는 0에 가까울수록 좋음

In [56]:
# (9-1) MAE : 실제값과 예측값 차이의 절대값
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, y_pred)

3.2253285188288

In [57]:
# (9-2) MSE : 실제값과 예측값 차이의 제곱
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred)

19.900226981514916

In [58]:
# (9-3) RMSE : (실제값과 예측값 차이의 제곱)의 루트
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred, squared=False)

4.460967045553566

In [59]:
# (9-4) R2 : 결정계수
from sklearn.metrics import r2_score
r2_score(y_test, y_pred)

0.9859956178877446