# 다중 선형 회귀

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures, StandardScaler
from sklearn.linear_model import LinearRegression, Ridge, Lasso
import matplotlib.pyplot as plt

In [2]:
# 데이터 가져오기
df = pd.read_csv("perch_full.csv")
X = df.to_numpy()
Y = np.array(
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 
     1000.0, 1000.0]
     )

In [3]:
# 학습 데이터와 테스트 데이터 분할
t_x, tt_x, t_y, tt_y = train_test_split(X, Y, train_size= 0.7, random_state= 42)

In [4]:
# 데이터 전처리

# 데이터 피쳐 증가 (과소적합 방지)
p_m = PolynomialFeatures(degree= 5, include_bias= False).fit(t_x) # 학습 데이터 기반으로 피쳐 증가
p_t_x = p_m.transform(t_x)
p_tt_x = p_m.transform(tt_x)

# 데이터 밸런싱 작업 (과대적합 방지)
ss = StandardScaler().fit(p_t_x)  # 한 쪽으로 치우친 피쳐 정보를 균등하게 정리
sc_t_x = ss.transform(p_t_x)
sc_tt_x = ss.transform(p_tt_x)

In [5]:
# 모델 생성 및 학습

# 모델 생성
lr = LinearRegression()
lso = Lasso(alpha= 10)
rg = Ridge(alpha= 0.1)

# 학습
lr.fit(sc_t_x, t_y)
lso.fit(sc_t_x, t_y)
rg.fit(sc_t_x, t_y)

Ridge(alpha=0.1)

In [6]:
# 테스트 및 검증

y_p = lr.predict(sc_t_x)  # 예측값 생성
t_s = lr.score(sc_t_x, t_y)  # 학습 데이터를 이용하여 점수 확인
tt_s = lr.score(sc_tt_x, tt_y)  # 테스트 데이터를 이용하여 점수 확인
print(t_s, tt_s)

t_s = rg.score(sc_t_x, t_y)
tt_s = rg.score(sc_tt_x, tt_y) 
print(t_s, tt_s)

t_s = lso.score(sc_t_x, t_y)
tt_s = lso.score(sc_tt_x, tt_y)
print(t_s, tt_s)

1.0 -26.192517921905765
0.9897983159614501 0.9842243738800773
0.9882059522438204 0.9834044009315154
