In [1]:
import os
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib as mpl
import matplotlib.pyplot as plt

from sklearn.model_selection import train_test_split
from sklearn.ensemble import GradientBoostingRegressor 

from sklearn.metrics import mean_squared_error, r2_score

import xgboost as xgb

In [2]:
#데이터를 sklearn에서 가져와보자
from sklearn.datasets import fetch_california_housing

In [3]:
#데이터는 california housing 데이터를 사용한다.
california=fetch_california_housing()

In [4]:
california.keys()

dict_keys(['data', 'target', 'frame', 'target_names', 'feature_names', 'DESCR'])

In [5]:
california['DESCR']

'.. _california_housing_dataset:\n\nCalifornia Housing dataset\n--------------------------\n\n**Data Set Characteristics:**\n\n    :Number of Instances: 20640\n\n    :Number of Attributes: 8 numeric, predictive attributes and the target\n\n    :Attribute Information:\n        - MedInc        median income in block\n        - HouseAge      median house age in block\n        - AveRooms      average number of rooms\n        - AveBedrms     average number of bedrooms\n        - Population    block population\n        - AveOccup      average house occupancy\n        - Latitude      house block latitude\n        - Longitude     house block longitude\n\n    :Missing Attribute Values: None\n\nThis dataset was obtained from the StatLib repository.\nhttp://lib.stat.cmu.edu/datasets/\n\nThe target variable is the median house value for California districts.\n\nThis dataset was derived from the 1990 U.S. census, using one row per census\nblock group. A block group is the smallest geographical unit

In [6]:
#X와 y로 나눈다
X=california['data']

In [7]:
y=california['target']

In [8]:
#내가 보기 편안한 dataframe으로 변경해줌.
X=pd.DataFrame(X,columns=california['feature_names'])

In [9]:
y=pd.DataFrame(y,columns=['target'])

In [10]:
#train 데이터와 test 데이터를 split 한다.
train_X, test_X, train_y, test_y=train_test_split(X,y,test_size=0.2,random_state=0)

In [45]:
#learning rate
lr=0.1
n_est=250
max_depth=10
reg_lambda=0.3

In [46]:
xgbr=xgb.XGBRegressor(learning_rate=lr,n_estimators=n_est,max_depth=max_depth, reg_lambda=reg_lambda)

In [47]:
#n_estimators 디폴트는 100인데 비교해보려고 설정한다.
gb=GradientBoostingRegressor(learning_rate=lr,n_estimators=n_est,max_depth=max_depth)


In [48]:
#fit를 한다
trained_xgb=xgbr.fit(train_X,train_y)

In [49]:
trained_gb=gb.fit(train_X,train_y)
#train를 했으면 predict를 한다. predict를 왜하려고 할까?
#train 데이터도 확인해 봐야한다. overfitting, underfitting 할 때 train 데이터도
#예측이 안되면 학습이 안 됐으니까 파라미터를 다시 해줘야 한다 그지?
#그래서 train data도 performance score를 확인해 보고 test data도 performance score를 확인해
#봐야 한다

  return f(**kwargs)


In [50]:
#그래서 predict를 해본다.
trained_pred_xgb=trained_xgb.predict(train_X)
trained_pred_gb=trained_gb.predict(train_X)
test_pred_xgb=trained_xgb.predict(test_X)
test_pred_gb=trained_gb.predict(test_X)
#이제 performance 측정을 해보자

In [51]:
#mean_squared_error, r2_score를 측정해본다.

trained_mse_xgb=mean_squared_error(trained_pred_xgb,train_y)
trained_mse_gb=mean_squared_error(trained_pred_gb,train_y)
trained_r2_xgb=r2_score(trained_pred_xgb,train_y)
trained_r2_gb=r2_score(trained_pred_gb,train_y)

test_mse_xgb=mean_squared_error(test_pred_xgb,test_y)
test_mse_gb=mean_squared_error(test_pred_gb,test_y)
test_r2_xgb=r2_score(test_pred_xgb,test_y)
test_r2_gb=r2_score(test_pred_gb, test_y)

In [52]:
#이제 확인을 해보자

print('Train MSE: {:.3f}-->{:.3f}'.format(trained_mse_gb,trained_mse_xgb))
print('Train rw: {:.3f}-->{:.3f}'.format(trained_r2_gb,trained_r2_xgb))

print('Test MSE: {:.3f}-->{:.3f}'.format(test_mse_gb,test_mse_xgb))
print('Test rw: {:.3f}-->{:.3f}'.format(test_r2_gb,test_r2_xgb))

#Train MSE: 0.309-->0.311
#Train rw: 0.643-->0.641
#Test MSE: 0.333-->0.335
#Test rw: 0.598-->0.597
#결과를 보니 train도 마찬가지고 test도 마찬가지고 거의 비슷하거나 조금더 xgb 성능이 조금 더
#안 좋게 보인다.
#여기서 질문!
#결과가 나왔는데 xgboosting이 안좋아서 이렇게 나올까?
#xgb가 gb에 비해 특징이 뭘까?
#다른 점이 뭘까 
#오버피팅을 막을 수 있을 것 같다. 그럼 거기에 포인트가 있다고 하면
#오버피팅은 언제 생기나? 부스팅 계열에서 오버피팅은 언제 생길까?
#계속해서 학습하게 되면 생긴다. 그러니까 모델이 복잡해지면 생긴다. 
#그럼 그것을 막기 위한 방법으로 xgb 에서는 regularization 테크닉이 있었다.
#지금 보니까 R2가 0.59이다. 어느 정도 데이터가 어려운 데이터는 아니다 그래서
#큰 차이가 없을 수도 있는데 지금보다는 예측을 더 잘할 수 있을 것 같다.
#근데 너무 학습 시키면 오버피팅이 될 수 있는데 한번 그렇게 만들어보자. 위에서
#n_est=50로 설정해줬었는데 한 번 늘려보자. 250개로 늘려보자.
#그랬더니 이렇게 나온다
#Train MSE: 0.211-->0.212
#Train rw: 0.803-->0.802
#Test MSE: 0.248-->0.247
#Test rw: 0.757-->0.759
#큰차이가 안 났다 한번 max_depth를 늘려봐야 겠다.
#3->10으로 늘려본다.
#max_depth를 좀 올려가지고 비교했는데 
#Train MSE: 0.005-->0.005
#Train rw: 0.996-->0.996
#train에 대해서는 같게 나오고
#Test MSE: 0.223-->0.215
#Test rw: 0.797-->0.803
#test에서 역전됐다.
#xgboosting이 조금 더 좋게 나오는 것 같다.
#(MSE는 작으면 작을 수록 좋다.)
#일단 보니까 오버피팅이 발생했는데 gb가 더 크게 발생한거 같고 xgb는 조금 더 완화시켜 준 것 같다.
#조금 더 다르게 해보자 reg_lambday를 0.1->0.3으로 늘려보자.
#이렇게 결과를 내고 이런 결과를 가지고 결론을 내면 될까?
#추가적으로 뭘할 수 있을까?
#교수님이라면 지금 데이터가 쉬워서 큰 차이가 없을 거 같은데
#교수님이라면 
#1번: Train & Test 데이터를 좀 더 다양하게 확인해 본다.
#좀 더 다양하게 하기 위한 방법은
#Train과 Test를 여러 번 해보겠다.(평균 에러를 쓴다)
#어떻게 해보냐면 random state를 바꿔서 여러 번 해보거나 또는 
#우리가 지금 파라미터가 많은데 이 파라미터가 많으니까 이 파라미터의 최적을 설정해서
#비교해 보는 것이다. 즉 cross-validation를 해보는 것이다. 그리고 이 cross-validation에서
#나오는 test 에러를 쓴다. 
#5 CV를 보면 데이터를 5개로 쪼개고 각각 그 5개를 train도 하고 test도 하는데
#그 5개의 test error의 평균 에러를 쓰겠다(교수님이)
#3번 Train/Test 비율를 여러 가지고 나눠서 해본다.
#4번 Performance measure도 여러 개를 써서 비교해 본다. 
#이정도는 해봐야 하는 것이다. 

Train MSE: 0.005-->0.006
Train rw: 0.996-->0.995
Test MSE: 0.222-->0.213
Test rw: 0.798-->0.805
