## 다중 선형 회귀 (Multiple Linear Regression)

#### 1. 개념
- **정의**: 다중 선형 회귀는 여러 개의 독립 변수와 하나의 종속 변수 간의 관계를 모델링하는 회귀 분석 방법
- **목적**: 여러 독립 변수를 사용하여 종속 변수의 값을 예측하고, 각 독립 변수가 종속 변수에 미치는 영향을 이해

#### 2. 수학적 표현식
$$y = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n + \epsilon $$

#### 3. 특징
- **선형성**: 독립 변수와 종속 변수 간의 관계가 선형으로 가정됨.
- **단순성**: 모델이 단순하고 해석이 용이함.
- **다중 공선성**: 독립 변수들 간의 상관관계가 높을 경우 다중 공선성이 발생할 수 있으며, 이는 회귀 계수의 불안정성을 초래함.

#### 1. 데이터 load

In [7]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

df = pd.read_csv('./dataset/50_Startups.csv')

df.head()

Unnamed: 0,R&D Spend,Administration,Marketing Spend,State,Profit
0,165349.2,136897.8,471784.1,New York,192261.83
1,162597.7,151377.59,443898.53,California,191792.06
2,153441.51,101145.55,407934.54,Florida,191050.39
3,144372.41,118671.85,383199.62,New York,182901.99
4,142107.34,91391.77,366168.42,Florida,166187.94


#### 2. 학습데이터(X) - 타겟데이터(y) 분리

In [8]:
X = df[df.columns[:-2]] ## 앞 쪽 3개의 수치형 데이터만 사용
y = df[df.columns[-1]]

X.shape, y.shape

((50, 3), (50,))

#### 3. Train Test Split

In [9]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

X_train.shape, X_test.shape, y_train.shape, y_test.shape

((40, 3), (10, 3), (40,), (10,))

#### 4. 모델 학습

In [10]:
from sklearn.linear_model import LinearRegression

regressor = LinearRegression()
regressor.fit(X_train, y_train)

#### 5. 결과 예측

In [11]:
y_pred = regressor.predict(X_test)

y_pred

array([103901.8969696 , 132763.05993126, 133567.90370044,  72911.78976736,
       179627.92567224, 115166.64864795,  67113.5769057 ,  98154.80686776,
       114756.11555221, 169064.01408795])

#### 5. 모델 평가

In [6]:
from utils import evaluate_model

evaluate_model(y_test, y_pred)

MAE: 7320.441614848122
MAPE: 6.288208342834582
MSE: 77506468.16885416
RMSE: 8803.775790469346
R2 Score: 0.939395591782057


#### 6. 범주형 지표 인코딩 후 모델 학습

In [44]:
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Importing the dataset
dataset = pd.read_csv('./dataset/50_Startups.csv')
X = dataset.iloc[:, :-1]
y = dataset.iloc[:, -1]

In [33]:
# df_encoded = pd.get_dummies(df, columns=['State'], prefix='State')

# df_encoded.head()

In [54]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ohe = OneHotEncoder()
encoded = ohe.fit_transform(df[['State']])
df_enc = pd.DataFrame(encoded.toarray(), columns=ohe.get_feature_names_out(['State']))
X_enc = pd.concat([X.drop('State', axis=1), df_enc], axis=1).values

In [50]:
# Splitting the dataset into the Training set and Test set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_enc, y, test_size = 0.2, random_state = 0)

# Training the Multiple Linear Regression model on the Training set
from sklearn.linear_model import LinearRegression
regressor = LinearRegression()
regressor.fit(X_train, y_train)

In [52]:
y_pred = regressor.predict(X_test)

y_pred

array([103015.20159796, 132582.27760816, 132447.73845174,  71976.09851258,
       178537.48221055, 116161.24230165,  67851.69209676,  98791.73374687,
       113969.43533012, 167921.0656955 ])

In [56]:
evaluate_model(y_test, y_pred)

MAE: 7514.293659640605
MAPE: 6.4497540853555
MSE: 83502864.03257743
RMSE: 9137.990152794948
R2 Score: 0.9347068473282425


In [19]:
# 계수와 상수 출력
np.set_printoptions(suppress=True)

var = regressor.feature_names_in_
coef = regressor.coef_
intercept = regressor.intercept_


print(f"종속변수: {var}")
print(f"계수: {coef}")
print(f"상수: {intercept}")


종속변수: ['R&D Spend' 'Administration' 'Marketing Spend']
계수: [0.77884104 0.0293919  0.03471025]
상수: 42989.008165086736
