# 2. Multiple Linear Regression

## 원 핫 인코딩
표현하고 싶은 단어이 인덱스에 1의 값을 부여하고 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식

In [1]:
import pandas as pd
dataset = pd.read_csv('MultipleLinearRegressionData.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values
X

array([[0.5, 3, 'Home'],
       [1.2, 4, 'Library'],
       [1.8, 2, 'Cafe'],
       [2.4, 0, 'Cafe'],
       [2.6, 2, 'Home'],
       [3.2, 0, 'Home'],
       [3.9, 0, 'Library'],
       [4.4, 0, 'Library'],
       [4.5, 5, 'Home'],
       [5.0, 1, 'Cafe'],
       [5.3, 2, 'Cafe'],
       [5.8, 0, 'Cafe'],
       [6.0, 3, 'Library'],
       [6.1, 1, 'Cafe'],
       [6.2, 1, 'Library'],
       [6.9, 4, 'Home'],
       [7.2, 2, 'Cafe'],
       [8.4, 1, 'Home'],
       [8.6, 1, 'Library'],
       [10.0, 0, 'Library']], dtype=object)

In [2]:
from sklearn.compose import ColumnTransformer  
from sklearn.preprocessing import OneHotEncoder  
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(drop='first'), [2])], remainder='passthrough')
# 원핫 인코딩을 위해서:encoder , 인코딩을수행할 클래스 객체(OneHotEncoder) ,즉 원핫인코딩을 하는데 다중공선성을 없애기 위해서  
#  drop='first' 를 넣어주고, 그러면 3개면 2개만 적어주고 10개면 9개만 쓰도록 함으로써 다중공선성 문제를 해결..
# 그리고 [2]라고 써줌으로써 3번째것만 적용한다라는것을 적어주고, reminder은 다중공선성을 적용하지 않는 것들은 어떻게 할거냐를
# 묻는것으로 passthrought를 적으므로 다중공선성을 적용하지 않고 그냥 놔두겠다라는 의미!! 이렇게 ColumnTransformer 을 만들고...
X = ct.fit_transform(X)   # 앞에서 불러왔던 X값들을 fit_transform 을 해서 새로운 X를 만든다.
X


# 1 0 : Home
# 0 1 : Library
# 0 0 : Cafe

array([[1.0, 0.0, 0.5, 3],
       [0.0, 1.0, 1.2, 4],
       [0.0, 0.0, 1.8, 2],
       [0.0, 0.0, 2.4, 0],
       [1.0, 0.0, 2.6, 2],
       [1.0, 0.0, 3.2, 0],
       [0.0, 1.0, 3.9, 0],
       [0.0, 1.0, 4.4, 0],
       [1.0, 0.0, 4.5, 5],
       [0.0, 0.0, 5.0, 1],
       [0.0, 0.0, 5.3, 2],
       [0.0, 0.0, 5.8, 0],
       [0.0, 1.0, 6.0, 3],
       [0.0, 0.0, 6.1, 1],
       [0.0, 1.0, 6.2, 1],
       [1.0, 0.0, 6.9, 4],
       [0.0, 0.0, 7.2, 2],
       [1.0, 0.0, 8.4, 1],
       [0.0, 1.0, 8.6, 1],
       [0.0, 1.0, 10.0, 0]], dtype=object)

## 데이터 세트 분리

In [3]:
import pandas as pd
from sklearn.compose import ColumnTransformer  
from sklearn.preprocessing import OneHotEncoder  
from sklearn.model_selection import train_test_split 

dataset = pd.read_csv('MultipleLinearRegressionData.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(drop='first'), [2])], remainder='passthrough')
X = ct.fit_transform(X) 

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)  # 데이터 세트 분리



## 학습(다중 선형 회귀)

In [4]:
import pandas as pd
from sklearn.compose import ColumnTransformer   # 원핫 인코딩
from sklearn.preprocessing import OneHotEncoder  # 원핫인코딩
from sklearn.model_selection import train_test_split # 데이터 세트 분리
from sklearn.linear_model import LinearRegression  # 선형회귀

dataset = pd.read_csv('MultipleLinearRegressionData.csv')
X = dataset.iloc[:, :-1].values
y = dataset.iloc[:, -1].values   # 판다스로 가져와서 각각 저장

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(drop='first'), [2])], remainder='passthrough')
X = ct.fit_transform(X)    # 원핫 인코딩 수행

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)   # 데이터 세트 분리
 
reg = LinearRegression()  # 분리된 데이터 세트로 객체 생성
reg.fit(X_train, y_train)  # 훈련 세트로 학습  ---> 아래처럼 학습된 객체 생성

### 예측 값과 실제 값 비교(테스트 세트)

In [5]:
y_pred = reg.predict(X_test)
y_pred   # 학습한 이후 X_test 의 예측값

array([ 92.15457859,  10.23753043, 108.36245302,  38.14675204])

In [6]:
y_test # 실제 값  : 실제값은 90 인데 예측값은 92.15 정도...

array([ 90,   8, 100,  38], dtype=int64)

In [7]:
reg.coef_ # 집,도서관, 공부시간, 결석횟수 계수로 카페는 없으므로 0 이라고 보면 집 < 도서관 < 카페 가 효율적, 공부시간은 1시간마다
#  10점정도, 결석은 한번 할때마다 -1.6 점정도 영향을 준다는 의미!!

array([-5.82712824, -1.04450647, 10.40419528, -1.64200104])

In [8]:
reg.intercept_

5.365006706544747

### 모델 평가

In [9]:
reg.score(X_train, y_train) # 훈련 세트

0.9623352565265527

In [10]:
reg.score(X_test, y_test) # 테스트 세트

0.9859956178877445

#  다양한 평가 지표(회귀 모델)

1. MAE (Mean Absolute Error) : (실제 값과 예측 값)차이의 절대값
1. MSE (Mean Squared Error) : (실제 값과 예측 값)차이의 제곱
1. RMSE (Root Mean Squared Error) : (실제 값과 예측 값)차이의 제곱에 루트
1. R2 : 결정 계수
> R2 는 1에 가까울수록, 나머지는 0에 가까울수록 좋음

In [11]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(y_test, y_pred)  # 실제값과 예측값의 MAE

3.2253285188288023

In [12]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred)  # 실제값과 예측값의 MSE

19.900226981515015

In [13]:
from sklearn.metrics import mean_squared_error
mean_squared_error(y_test, y_pred, squared=False)  # 실제값과 예측값의 RMSE

4.460967045553578

In [14]:
from sklearn.metrics import r2_score
r2_score(y_test, y_pred)   # R2

0.9859956178877445