In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import seaborn as sns
from matplotlib import font_manager, rc
import platform

# seaborn 설정 리셋
sns.reset_defaults()

# 폰트설정
if platform.system() == 'Windows' :
    path = 'c:/Windows/Fonts/malgun.ttf'
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
elif platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
else :
    print('Check your OS System')
    
# 그래프에 마이너스 표시
matplotlib.rcParams['axes.unicode_minus'] = False

In [4]:
drink = pd.read_csv('./data/04_(문제)_회귀모델_drinking_water.csv')
drink

Unnamed: 0,친밀도,적절성,만족도
0,3,4,3
1,3,3,2
2,4,4,4
3,2,2,2
4,2,2,2
...,...,...,...
259,3,4,4
260,3,4,3
261,4,4,4
262,4,4,4


In [12]:
drink_x = drink[['친밀도','적절성']]
drink_y = drink[['만족도']]

In [13]:
# 데이터 프레임 형태 > 2차원 배열 형태 변환
drink_x = drink_x.to_numpy()
drink_y = drink_y.to_numpy()

In [15]:
# 훈련데이터, 테스트데이터 분리
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = \
    train_test_split(drink_x, drink_y, random_state=42)

In [20]:
# 분리 확인
print(len(train_input))
print(len(train_target))
print(len(test_input))
print(len(test_target))

198
198
66
66


In [134]:
# 학습 및 테스트를 통한 결정계수 확인(LinearRegression 모델)
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(train_input, train_target)

print(lr.score(train_input, train_target))
print(lr.score(test_input, test_target))

# <해석> 
# 훈련데이터 및 테스트데이터의 결정계수가 0.5로 낮게 측정됨
# 모델의 결정계수가 너무 낮아 좋은 모델로 평가 할 수 없음

# <해결방안>
# 복잡도를 줘서 결정계수를 높혀보기

0.589220642902726
0.5995961077787297


In [59]:
# 학습 및 테스트를 통한 결정계수 확인(Ridge 모델)
from sklearn.linear_model import Ridge

ridge = Ridge()
ridge.fit(train_input, train_target)

print(ridge.score(train_input, train_target))
print(ridge.score(test_input, test_target))

# <해석> 
# 훈련데이터 및 테스트데이터의 결정계수가 0.5로 낮게 측정됨
# 모델의 결정계수가 너무 낮아 좋은 모델로 평가 할 수 없음

# <해결방안>
# 복잡도를 줘서 결정계수를 높혀보기

0.5891931890783967
0.5996359279316605


In [135]:
# 학습 및 테스트를 통한 결정계수 확인(Lasso 모델)
from sklearn.linear_model import Lasso

lasso = Lasso()
lasso.fit(train_input, train_target)

print(lasso.score(train_input, train_target))
print(lasso.score(test_input, test_target))

# <해석> 
# 훈련데이터 및 테스트데이터의 결정계수가 0

# <해결방안>
# 복잡도를 줘서 결정계수를 높혀보기

0.0
-0.03759780907668264


In [117]:
# 복잡도 주기
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures(degree=2, include_bias=False)

poly.fit(train_input, train_target)

train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input) 

In [125]:
# LinearRegression 모델의 결정계수 확인
lr.fit(train_poly, train_target)

print('Linear 훈련 결정계수 :', round(lr.score(train_poly, train_target),3))
print('Linear 테스트 결정계수 :', round(lr.score(test_poly, test_target),3))

Linear 훈련 결정계수 : 0.642
Linear 테스트 결정계수 : 0.634


In [126]:
# Ridge 모델의 결정계수 확인
ridge.fit(train_poly, train_target)

print('Ridge 훈련 결정계수 :', round(ridge.score(train_poly, train_target),3))
print('Ridge 테스트 결정계수 :', round(ridge.score(test_poly, test_target),3))

Ridge 훈련 결정계수 : 0.639
Ridge 테스트 결정계수 : 0.642


In [128]:
# Lasso 모델의 결정계수 확인
lasso.fit(train_poly, train_target)

print('Lasso 훈련 결정계수', round(lasso.score(train_poly, train_target),3))
print('Lasso 훈련 결정계수', round(lasso.score(test_poly, test_target),3))

Lasso 훈련 결정계수 0.489
Lasso 훈련 결정계수 0.49


In [146]:
# 복잡도 주기(degree 는 왠만하면 홀수)
from sklearn.preprocessing import PolynomialFeatures

for i in range(1,11,2):

    poly = PolynomialFeatures(degree=i, include_bias=False)

    poly.fit(train_input, train_target)

    train_poly = poly.transform(train_input)
    test_poly = poly.transform(test_input)
    
    # LinearRegression 모델의 결정계수 확인
    lr.fit(train_poly, train_target)
    
    if lr.score(train_poly, train_target) >= 0.6:
        print('dgree :', i)
        print('Linear 훈련 결정계수 :', round(lr.score(train_poly, train_target),3))
        print('Linear 테스트 결정계수 :', round(lr.score(test_poly, test_target),3))
        print()
    
    # Ridge 모델의 결정계수 확인
    ridge.fit(train_poly, train_target)
    
    if ridge.score(train_poly, train_target) >= 0.6:
        print('dgree :', i)
        print('Ridge 훈련 결정계수 :', round(ridge.score(train_poly, train_target),3))
        print('Ridge 테스트 결정계수 :', round(ridge.score(test_poly, test_target),3))
        print()
    # Lasso 모델의 결정계수 확인
    lasso.fit(train_poly, train_target)
    
    if lasso.score(train_poly, train_target) >= 0.6:
        print('dgree :', i)
        print('Lasso 훈련 결정계수', round(lasso.score(train_poly, train_target),3))
        print('Lasso 훈련 결정계수', round(lasso.score(test_poly, test_target),3))
        print()

dgree : 3
Linear 훈련 결정계수 : 0.646
Linear 테스트 결정계수 : 0.618

dgree : 3
Ridge 훈련 결정계수 : 0.639
Ridge 테스트 결정계수 : 0.636

dgree : 5
Linear 훈련 결정계수 : 0.669
Linear 테스트 결정계수 : -1.02

dgree : 5
Ridge 훈련 결정계수 : 0.665
Ridge 테스트 결정계수 : 0.2

dgree : 7
Linear 훈련 결정계수 : 0.666
Linear 테스트 결정계수 : -1.3006232657044577e+20

dgree : 7
Ridge 훈련 결정계수 : 0.669
Ridge 테스트 결정계수 : -3.891

dgree : 9
Linear 훈련 결정계수 : 0.665
Linear 테스트 결정계수 : -2.3082122439777124e+21

dgree : 9
Ridge 훈련 결정계수 : 0.669
Ridge 테스트 결정계수 : -109.899

dgree : 9
Lasso 훈련 결정계수 0.6
Lasso 훈련 결정계수 0.539



  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
  model = cd_fast.enet_coordinate_descent(
