## Bagging(Bootstrap aggregating)
- 공을 확인하고 다시 빼는 방식(복원 추출 방식. 중복값이 다음 값에 들어갈 수 있음)
![ex2.jpg](attachment:ex2.jpg)
- 이 말은 즉슨, **추출되지 않은 데이터가 포함되어있을 수 있다**
  - 전체적으로 복원추출을 할 경우 63%의 데이터만 추출된다고 함

- 각각에 대한 Test data를 추출한 후, 각각에 의사결정나무를 적용시킨다.
![ex2.jpg](attachment:ex2.jpg)

- 각각에 대한 에러율을 구하는 이유 : 이 데이터들을 한데 모아 테스트 데이터로 만들어보자

### Tree vs Bagging
- **깊이 성장한 트리** : 분산의 증가 -> 편향의 감소 -> **overfitting 가능성 높아짐**
- **Bagging** : 트리들의 편향 유지, 분산의 감소. 학습데이터의 noise에 강건해짐. **모형해석의 어려움**

## Bagging 실습

In [1]:
import os
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [2]:
#현재 경로 확인
os.getcwd()

'C:\\Users\\mitha\\OneDrive\\바탕 화면\\dev\\My_First_ML\\Ensemble_Learning'

In [4]:
#데이터 불러오기
data=pd.read_csv('C:/Users/mitha/OneDrive/바탕 화면/kc_house_data.csv')
data.head()

Unnamed: 0,id,date,price,bedrooms,bathrooms,floors,waterfront,condition,grade,yr_built,yr_renovated,zipcode,lat,long
0,7129300520,20141013T000000,221900.0,3,1.0,1.0,0,3,7,1955,0,98178,47.5112,-122.257
1,6414100192,20141209T000000,538000.0,3,2.25,2.0,0,3,7,1951,1991,98125,47.721,-122.319
2,5631500400,20150225T000000,180000.0,2,1.0,1.0,0,3,6,1933,0,98028,47.7379,-122.233
3,2487200875,20141209T000000,604000.0,4,3.0,1.0,0,5,7,1965,0,98136,47.5208,-122.393
4,1954400510,20150218T000000,510000.0,3,2.0,1.0,0,3,8,1987,0,98074,47.6168,-122.045


In [5]:
ncar=data.shape[0]
nvar=data.shape[1]
print(ncar)
print(nvar)

21613
14


In [6]:
data.shape

(21613, 14)

## 의미가 없다고 판단되는 변수 제거

In [8]:
data=data.drop(['id','date','zipcode','lat','long'],axis=1)

## 범주형 변수를 이진형 변수로 변환
- 범주형 변수는 waterfront 컬럼뿐이며, 이진 분류이기 때문에 0과 1로 표현한다.
- 데이터에서 0,1로 표현되어 있으므로 과정은 생략

## 설명변수와 타겟변수를 분리, 학습데이터와 평가데이터 분리

In [11]:
feature_columns=list(data.columns.difference(['price']))
X=data[feature_columns]
y=data['price']
train_x,test_x,train_y,test_y=train_test_split(X,y,test_size=0.3,random_state=42)
print(train_x.shape,test_x.shape,train_y.shape,test_y.shape)

(15129, 8) (6484, 8) (15129,) (6484,)


## 학습 데이터를 선형 회귀 모형에 적합 후 평가데이터로 검증

In [13]:
import statsmodels.api as sm
from sklearn.metrics import mean_squared_error, r2_score
from math import sqrt
sm_train_x=sm.add_constant(train_x,has_constant='add')
sm_model=sm.OLS(train_y,sm_train_x)
fitted_sm_model=sm_model.fit()
fitted_sm_model.summary()

0,1,2,3
Dep. Variable:,price,R-squared:,0.595
Model:,OLS,Adj. R-squared:,0.595
Method:,Least Squares,F-statistic:,2776.0
Date:,"Mon, 28 Jun 2021",Prob (F-statistic):,0.0
Time:,13:32:45,Log-Likelihood:,-208260.0
No. Observations:,15129,AIC:,416500.0
Df Residuals:,15120,BIC:,416600.0
Df Model:,8,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,7.186e+06,1.73e+05,41.548,0.000,6.85e+06,7.52e+06
bathrooms,1.303e+05,3960.833,32.889,0.000,1.23e+05,1.38e+05
bedrooms,-2224.7910,2382.356,-0.934,0.350,-6894.497,2444.915
condition,1.641e+04,3169.013,5.178,0.000,1.02e+04,2.26e+04
floors,1946.3052,4336.838,0.449,0.654,-6554.422,1.04e+04
grade,1.956e+05,2199.540,88.924,0.000,1.91e+05,2e+05
waterfront,7.555e+05,2.26e+04,33.479,0.000,7.11e+05,8e+05
yr_built,-4300.7865,88.073,-48.832,0.000,-4473.420,-4128.153
yr_renovated,12.7325,5.043,2.525,0.012,2.847,22.618

0,1,2,3
Omnibus:,13447.374,Durbin-Watson:,1.994
Prob(Omnibus):,0.0,Jarque-Bera (JB):,1684794.827
Skew:,3.763,Prob(JB):,0.0
Kurtosis:,54.147,Cond. No.,182000.0


In [15]:
sm_test_x=sm.add_constant(test_x,has_constant='add')
sm_model_predict=fitted_sm_model.predict(sm_test_x)

In [16]:
mean_squared_error(sm_model_predict,test_y)
#값이 굉장히 크기 때문에 루트를 씌워주도록 한다.

57506100719.89744

In [17]:
sqrt(mean_squared_error(sm_model_predict,test_y))#RMSE

239804.2967085816

## Bagging 결과가 일반적인 결과보다 좋은지 확인(for문 기반/연구용)

In [21]:
bagging_predict_result=[]
for _ in range(10):
    data_index=[data_index for data_index in range(train_x.shape[0])]
    random_data_index=np.random.choice(data_index,train_x.shape[0]) #복원 추출을 의미
    print(len(set(random_data_index))) #전체의 약 63퍼센트가 유니크한 것을 확인
    sm_train_x=train_x.iloc[random_data_index]
    sm_train_y=train_y.iloc[random_data_index]
    sm_train_x=sm.add_constant(sm_train_x,has_constant='add')
    sm_model=sm.OLS(sm_train_y,sm_train_x)
    fitted_sm_model=sm_model.fit()
    pred=fitted_sm_model.predict(sm_test_x)
    bagging_predict_result.append(pred)
    print(sqrt(mean_squared_error(pred,test_y)))

9592
240167.88686021577
9564
240077.26033011483
9550
240465.06725699402
9587
239795.7669191982
9493
240115.7434713588
9555
239591.83423925322
9563
239960.08937776685
9577
240085.79941522036
9666
239868.18134447606
9589
240313.6849174732


- 전체적으로 높게 나오는 경향이 없지않아 있음

In [22]:
bagging_predict_result[2]#각각에 대한 예측값이 들어가있는 상태임
#모든 수에 대한 평균이 최종적인 앙상블 모델이 될 것임

735      5.624030e+05
2830     7.142143e+05
4106     1.113113e+06
16218    1.475305e+06
19964    6.950402e+05
             ...     
12606    6.030712e+05
14393    6.883962e+05
6899     3.234300e+05
85       9.125006e+05
21363    4.283386e+05
Length: 6484, dtype: float64

In [23]:
bagging_predict=[]
for lst2_index in range(test_x.shape[0]):
    temp_predict=[]
    for lst_index in range(len(bagging_predict_result)):
        temp_predict.append(bagging_predict_result[lst_index].values[lst2_index])
    bagging_predict.append(np.mean(temp_predict))

In [24]:
temp_predict

[439314.9671629205,
 439973.50024690124,
 428338.56973032816,
 442054.5337685802,
 430101.64907836955,
 420017.44169768394,
 437827.0518116269,
 440948.4374460426,
 433618.3319126227,
 442980.0237179444]

In [27]:
sqrt(mean_squared_error(bagging_predict,test_y))

239826.05047452572

- 앙상블은 할때마다 결과물이 약간씩 달라짐

In [29]:
#이번엔 앙상블 모델을 30개 만들어서 진행해보도록 함
bagging_predict_result=[]
for _ in range(30):
    data_index=[data_index for data_index in range(train_x.shape[0])]
    random_data_index=np.random.choice(data_index,train_x.shape[0]) #복원 추출을 의미
    sm_train_x=train_x.iloc[random_data_index]
    sm_train_y=train_y.iloc[random_data_index]
    sm_train_x=sm.add_constant(sm_train_x,has_constant='add')
    sm_model=sm.OLS(sm_train_y,sm_train_x)
    fitted_sm_model=sm_model.fit()
    pred=fitted_sm_model.predict(sm_test_x)
    bagging_predict_result.append(pred)
bagging_predict=[]
for lst2_index in range(test_x.shape[0]):
    temp_predict=[]
    for lst_index in range(len(bagging_predict_result)):
        temp_predict.append(bagging_predict_result[lst_index].values[lst2_index])
    bagging_predict.append(np.mean(temp_predict))
sqrt(mean_squared_error(bagging_predict,test_y))

239836.89563872007

- 그렇게 큰 차이가 나지 않는 것을 확인할 수 있다.
- overfitting이 잘 일어나는 데이터에 대해서 앙상블을 하는 것이 좋음
- **Tree 기반에서 사용하는 것이 좋은 효율을 보일 가능성이 높음**

## 학습 데이터를 선형 회귀 모형에 적합 후 평가 데이터로 검증(Scikit-Learn)

In [30]:
from sklearn.linear_model import LinearRegression
regression_model=LinearRegression()
linear_model1=regression_model.fit(train_x,train_y)

## Bagging을 이용하여 선형 회귀 모형에 적합 후 평가(Sampling 5번)

In [37]:
from sklearn.ensemble import BaggingRegressor
bagging_model=BaggingRegressor(base_estimator=regression_model, n_estimators=5)
linear_model2=bagging_model.fit(train_x,train_y)
pred2=linear_model2.predict(test_x)
print(sqrt(mean_squared_error(pred2,test_y)))

239599.38084552964


- 딱히 별다른 효율을 보이지 않은 것 같음

## Sampling을 많이 해본다면?

In [38]:
from sklearn.ensemble import BaggingRegressor
bagging_model=BaggingRegressor(base_estimator=regression_model, n_estimators=10)
linear_model2=bagging_model.fit(train_x,train_y)
pred2=linear_model2.predict(test_x)
print(sqrt(mean_squared_error(pred2,test_y)))

239868.756251594


## 학습 데이터를 의사결정모형에 적합 후 평가 데이터로 검증 

In [42]:
from sklearn.tree import DecisionTreeRegressor
decision_tree_model=DecisionTreeRegressor()
tree_model=decision_tree_model.fit(train_x,train_y)
predict_tree=tree_model.predict(test_x)
print(sqrt(mean_squared_error(predict_tree,test_y)))

285770.48931423796


- 성능 개안좋아짐

## for문을 활용하여 의사결정모형에 Bagging 적용

In [44]:
bagging_predict_result=[]
for _ in range(10):
    data_index=[data_index for data_index in range(train_x.shape[0])]
    random_data_index=np.random.choice(data_index,train_x.shape[0]) #복원 추출을 의미
    print(len(set(random_data_index))) #전체의 약 63퍼센트가 유니크한 것을 확인
    sm_train_x=train_x.iloc[random_data_index]
    sm_train_y=train_y.iloc[random_data_index]
    decision_tree_model=DecisionTreeRegressor()
    tree_model=decision_tree_model.fit(sm_train_x,sm_train_y)
    pred=tree_model.predict(test_x)
    bagging_predict_result.append(pred)
    print(sqrt(mean_squared_error(pred,test_y)))

9604
281775.232287976
9599
275834.9643364884
9601
290747.40472303313
9468
276752.78558188776
9596
310393.5496073792
9561
287534.7219018844
9593
272432.3131254849
9517
278146.0558094344
9662
280985.5187667925
9540
291781.99555543746


In [45]:
bagging_predict=[]
for lst2_index in range(test_x.shape[0]):
    temp_predict=[]
    for lst_index in range(len(bagging_predict_result)):
        temp_predict.append(bagging_predict_result[lst_index][lst2_index])#뒤의 value값이 지워진 것을 확인할 수 있음
    bagging_predict.append(np.mean(temp_predict))

In [46]:
bagging_predict

[381240.0,
 692400.0,
 935400.0,
 1707000.0,
 588878.067063492,
 300150.0,
 864847.5,
 390483.3333333333,
 460048.56394458364,
 459121.19963369967,
 593000.0,
 397417.2380952381,
 304606.6666666666,
 384811.8084415585,
 427150.0,
 1212720.8333333333,
 513291.2754385966,
 974600.0,
 317700.0,
 643095.3333333334,
 322038.3333333334,
 2678000.0,
 615200.0,
 405412.5,
 557916.6666666667,
 536208.3333333334,
 282867.64718614717,
 267120.0,
 525406.2333333333,
 603450.0,
 494375.0,
 514061.4285714285,
 558948.8333333333,
 662000.0,
 385041.6666666667,
 941400.0,
 855445.0,
 625000.0,
 432500.0,
 1409000.0,
 454210.0,
 279413.76,
 550786.8163095238,
 321016.8,
 259352.35,
 212540.0,
 252320.0,
 289362.5092199467,
 306014.85353535356,
 545173.3333333334,
 373661.7198912199,
 324454.975,
 754788.8,
 367400.0,
 452504.2446612567,
 2011333.3333333333,
 480925.0,
 711083.3333333333,
 291100.0,
 653655.1577997167,
 586529.0,
 393558.0,
 205020.00000000003,
 390250.4,
 412270.8253968254,
 265167.958

In [47]:
sqrt(mean_squared_error(bagging_predict,test_y))

232549.91796240426

- Regression은 성능이 고만고만해서 오차 분포가 일정한 편임
- 반면에, Tree는 데이터에 따라 성능 차이가 심하게 남
  - **성능차이(overfitting)가 많이 일어나는 모델에 Bagging을 적용하는 것이 효율이 좋음**

## Bagging을 이용하여 의사결정나무모형에 적합 후 평가(패키지 활용)

In [63]:
from sklearn.ensemble import BaggingRegressor
bagging_model=BaggingRegressor(base_estimator=decision_tree_model, n_estimators=20)
linear_model2=bagging_model.fit(train_x,train_y)
pred2=linear_model2.predict(test_x)
print(sqrt(mean_squared_error(pred2,test_y)))

233844.494433482


- 확실히 LinearRegression보다 좋은 효율을 보여줌

In [64]:
from sklearn.ensemble import BaggingRegressor
bagging_model=BaggingRegressor(base_estimator=decision_tree_model, n_estimators=300)
linear_model2=bagging_model.fit(train_x,train_y)
pred2=linear_model2.predict(test_x)
print(sqrt(mean_squared_error(pred2,test_y)))

232013.74315673023


- 많다고 좋아지는 건 아님(10번에서 30번 정도 한다고 하더라)