In [None]:
## 4.5.2 camera 속성 설정하기


# 선형회귀의 과적합으로 인해 개선을 시켜주는 필요성
# 라쏘(L1), 릿지(L2)구제
# 예측모델 = w1 * x1 + w2 * x2 .... + b
# 라쏘(L1) w1, w1, .... 가중치를 0에 가깝게 만든다.
# 릿지(L2) w1, w1, .... 가중치를 0에 가깝게 만든다.
# 라쏘, 릿지의 차이점은
# 라쏘는 실제로 0을 만든다. - 변수가 선택
# 릿지는 실제로 0을 만들지는 않는다. - 모든 변수가 존재.
# 이를 통해서 과대적합이 어느정도 해소된다.


from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import MinMaxScaler, PolynomialFeatures
from sklearn.linear_model import Lasso, Ridge
import pandas as pd
import numpy as np


# 한글
import matplotlib
from matplotlib import font_manager, rc
font_loc = "C:/Windows/Fonts/malgunbd.ttf"
font_name = font_manager.FontProperties(fname=font_loc).get_name()
matplotlib.rc('font', family=font_name)
matplotlib.rcParams['axes.unicode_minus'] = False

pd.set_option('display.max_columns', None)
# %matplotlib inline

### 데이터 셋 준비
boston = load_boston()  # 데이터 셋 불러오기
print(type(boston.target), type(boston.data))
print(boston.target.shape, boston.data.shape)

df_boston = pd.DataFrame(boston.data,columns=boston.feature_names)
df_boston['target'] = pd.Series(boston.target)
print( df_boston.head() )

# 보스턴 데이터 셋을 불러오는 또 다른 3가지 방법
# data_url = "http://lib.stat.cmu.edu/datasets/boston"
# raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)

# from sklearn.datasets import fetch_california_housing
# housing = fetch_california_housing()

# from sklearn.datasets import fetch_openml
# housing = fetch_openml(name="house_prices", as_frame=True)

# 사전준비
# 입력/출력
# 값의 범위를 0~1사이로 만들기
# 변수 뻥튀기 (학장)

# 01. 입력 / 출력 나누기
X = df_boston.loc[:,'CRIM':'LSTAT']
y = df_boston.target

# 02. 0과 1 사이로 만들기
nor_X = MinMaxScaler().fit_transform(X) # 정규화

# 03. 변수  뻥튀기
ex_X = PolynomialFeatures(degree=2, include_bias=False).fit_transform(nor_X)

print("전의 상태: ", X.shape, np.min(X), np.max(X))
print("적용된 상태: ", ex_X.shape, np.min(ex_X), np.max(ex_X))

##########################################################


# 01. 선형회귀 모델을 만든다.
from sklearn.linear_model import LinearRegression

X_train, X_test, y_train, y_test = train_test_split(ex_X, y, random_state=0)
lr = LinearRegression().fit(X_train, y_train)
print("train Score : {:.2f}".format(lr.score(X_train, y_train)))
print("test Score : {:.2f}".format(lr.score(X_test, y_test)))

# 5:5 ~ 9:1 까지의 평가 결과를 확인해보고 비교해보기
for i in range(1, 6, 1):
    X_train, X_test, y_train, y_test = train_test_split(ex_X, y, test_size=(i / 10), random_state=0)

    lr = LinearRegression().fit(X_train, y_train)
    print('<test size = {}> '.format(i/10))
    print("train Score : {:.2f}".format(lr.score(X_train, y_train)))
    print("test Score : {:.2f}".format(lr.score(X_test, y_test)))
    print('')


# 데이터 나누어서 회귀모델 적용시켜서 이의 결과를 반환하는 함수화 시켜보기.


# 02. 라쏘회귀 모델을 만든다.
from sklearn.linear_model import Lasso, Ridge
model_L = Lasso()
model_L.fit(X_train, y_train)
print('(Lasso) | R^2 (train): ', model_L.score(X_train,y_train))
print('(Lasso) | R^2 (test): ', model_L.score(X_test, y_test))
print('(Lasso) | 최종 남겨진 변수의 개수 : {:.2f}'.format(np.sum(model_L.coef_ !=0)))
## 라쏘의 결정계수 값이 너무 낮게 나온다.
model_L = Lasso(alpha=0.0001, max_iter=100000).fit(X_train, y_train)
print('(Lasso & alpha=0.0001')



# 03. 릿지회귀 모델을 만든다.
model_Ridge = Ridge()
model_Ridge.fit(X_train, y_train)
print('(Ridge) | R^2 (train): ', model_Ridge.score(X_train, y_train))
print('(Ridge) | R^2 (test): ', model_Ridge.score(X_test, y_test))
print('-'*40)

# 라쏘회귀 alpha의 값을 1, 0.1, 0.01, 0.001에 따른 결과값을 출력해 보기
alpha_list = [1, 0.1, 0.01, 0.001]

for alpha in alpha_list:
    X_train, X_test, y_train, y_test = train_test_split(ex_X, y, random_state=0)
    model_L = Lasso(alpha=alpha).fit(X_train, y_train)
    print('(Lasso) | R^2 (train): ', model_L.score(X_train, y_train))
    print('(Lasso) | R^2 (test): ', model_L.score(X_test, y_test))
    print('*'* 100)


# 04. 모델을 비교해본다.