# Bagging (1)
## 1. 패키지 참조

In [3]:
import warnings
warnings.filterwarnings('ignore')

import seaborn as sb
from pandas import read_excel
from matplotlib import pyplot as plt
from sklearn.ensemble import BaggingClassifier, BaggingRegressor
from sklearn.linear_model import LogisticRegression, LinearRegression

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, r2_score

## 2. 분류 문제
### 1) 데이터 가져오기 및 전처리

In [9]:
# 데이터 가져오기
origin = read_excel('https://data.hossam.kr/G02/breast_cancer.xlsx')

# 독립/종속 변수 분리
x = origin.drop('target', axis = 1)
y = origin['target']
print('독립변수 x의 shape:', x.shape, '종속변수 y의 shape:', y.shape)

# 데이터 표준화
std_x = StandardScaler().fit_transform(x)
digit = 1
print('표준화 된 x 의 %d번째 컬럼 값들:' % digit, std_x[:digit])

# 훈련/검증 데이터 분할
x_train, x_test, y_train, y_test = train_test_split(
    std_x, y, test_size = 0.3, random_state=777)
print('훈련용 독립변수 x_train의 shape:', x_train.shape, '훈련용 종속변수 y_traint의 shape:', y_train.shape)
print('검증용 독립변수 x_test의 shape:', x_test.shape, '검증용 종속변수 y_test의 shape:', y_test.shape)


독립변수 x의 shape: (569, 30) 종속변수 y의 shape: (569,)
표준화 된 x 의 1번째 컬럼 값들: [[ 1.09706398 -2.07333501  1.26993369  0.9843749   1.56846633  3.28351467
   2.65287398  2.53247522  2.21751501  2.25574689  2.48973393 -0.56526506
   2.83303087  2.48757756 -0.21400165  1.31686157  0.72402616  0.66081994
   1.14875667  0.90708308  1.88668963 -1.35929347  2.30360062  2.00123749
   1.30768627  2.61666502  2.10952635  2.29607613  2.75062224  1.93701461]]
훈련용 독립변수 x_train의 shape: (398, 30) 훈련용 종속변수 y_traint의 shape: (398,)
검증용 독립변수 x_test의 shape: (171, 30) 검증용 종속변수 y_test의 shape: (171,)


### 2) 분류 모델 구현
#### 1_ 분류 알고리즘 객체 정의

In [7]:
lr = LogisticRegression()  # KNN, DTREE 등 모든 분류 알고리즘 적용 가능

#### 2_ Bagging 모델 구현

In [8]:
clf = BaggingClassifier(
    base_estimator = lr,
    n_estimators = 50,  # 부트스트랩 샘플 새구
    max_samples = 1,    # 부트스트랩 샘플 비율 => 1이면 학습데이터를 모두 샘플링한다
    bootstrap = True,   # 복원 추출, False이면 비복원 추출
    random_state = 777,

    # 하나의 예측기에 들어가는 샘플에 대하여 컬럼의 중복 사용여부를 결정
    bootstrap_features = False,
    n_jobs = -1)

clf.fit(x_train, y_train)
print('BaggingClassifier 훈련 정확도: {:.3f}'.format(clf.score(x_train, y_train)))

y_pred = clf.predict(x_test)
print('BaggingClassifier 검증 정확도: {:.3f}'.format(accuracy_score(y_test, y_pred)))

BaggingClassifier 훈련 정확도: 0.611
BaggingClassifier 검증 정확도: 0.667


## 3. 회귀 문제
### 1) 데이터 가져오기 및 전처리

In [11]:
# 데이터 가져오기
origin = read_excel('https://data.hossam.kr/E04/boston.xlsx')
print(origin.head())

# 독립/종속 변수 분리
x = origin.drop('MEDV', axis = 1)
y = origin['MEDV']
print('독립변수 x의 shape:', x.shape, '종속변수 y의 shape:', y.shape)

# 훈련/검증 데이터 분할
x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size = 0.3, random_state=777)
print('훈련용 독립변수 x_train의 shape:', x_train.shape, '훈련용 종속변수 y_traint의 shape:', y_train.shape)
print('검증용 독립변수 x_test의 shape:', x_test.shape, '검증용 종속변수 y_test의 shape:', y_test.shape)


      CRIM    ZN  INDUS  CHAS    NOX     RM   AGE     DIS  RAD  TAX  PTRATIO  \
0  0.00632  18.0   2.31     0  0.538  6.575  65.2  4.0900    1  296     15.3   
1  0.02731   0.0   7.07     0  0.469  6.421  78.9  4.9671    2  242     17.8   
2  0.02729   0.0   7.07     0  0.469  7.185  61.1  4.9671    2  242     17.8   
3  0.03237   0.0   2.18     0  0.458  6.998  45.8  6.0622    3  222     18.7   
4  0.06905   0.0   2.18     0  0.458  7.147  54.2  6.0622    3  222     18.7   

        B  LSTAT  MEDV  CAT. MEDV  
0  396.90   4.98  24.0          0  
1  396.90   9.14  21.6          0  
2  392.83   4.03  34.7          1  
3  394.63   2.94  33.4          1  
4  396.90   5.33  36.2          1  
독립변수 x의 shape: (506, 14) 종속변수 y의 shape: (506,)
훈련용 독립변수 x_train의 shape: (354, 14) 훈련용 종속변수 y_traint의 shape: (354,)
검증용 독립변수 x_test의 shape: (152, 14) 검증용 종속변수 y_test의 shape: (152,)


### 3) 회귀 모델 구현
#### 1_ 회귀 알고리즘 객체 정의

In [12]:
rg = LinearRegression()

#### 2_ Bagging 모델 구현

In [13]:
reg = BaggingRegressor(
    base_estimator = rg,
    n_estimators = 50,  # 부트스트랩 샘플 개수
    max_samples = 1,    # 부트스트랩 샘플 비율 -> 1이면 학습데이터를 모두 샘플링한다
    bootstrap = True,   # 복원 추출, False이면 비복원 추출
    random_state = 777,

    # 하나의 예측기에 들어가는 샘플에 대하여 컬럼의 중복 사용여부를 결정
    bootstrap_features = False,
    n_jobs = -1)

reg.fit(x_train, y_train)
print('BaggingClassifier 훈련 R2: {:f}'.format(reg.score(x_train, y_train)))

y_pred = reg.predict(x_test)
print('BaggingClassifier 테스트 R2: {:f}'.format(r2_score(y_test, y_pred)))

BaggingClassifier 훈련 R2: -0.016774
BaggingClassifier 테스트 R2: -0.010032
