### CH2. 앙상블 기법에 대해 알아보기

#### 대표적인 알고리즘 RandomForest

- 앙상블이 무엇인지?
- 랜덤 포레스트 알고리즘을 이용해 본다.
- 기타 모델로 다시 만들어 여러 모델을 비교해 본다.

### 01. 앙상블(ensemble)이란 무엇일까?
- 여러 머신러닝 **모델을 연결**하여 더 강력한 모델을 만드는 기법이다.

### 02. 랜덤 포레스트(RandomForest)는 무엇인가?
- 원리
    - 01. 트리를 많이 만든다.
    - 02. 각각의 모델이 예측한다.
    - 03. 예측한 값들의 평균값을 구한다. 이를 최종 예측값으로 이용

In [31]:
import seaborn as sns

tips = sns.load_dataset('tips')
print(tips.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB
None


### 라벨 인코딩 및 자료형 변환

In [32]:
# sex 라벨인코딩
print( tips['sex'].unique())
sex_dict = {'Female':0, 'Male':1}
tips['sex'] = tips['sex'].map(sex_dict).astype('int')

# day 라벨인코딩
day_dict = {'Thur':0, 'Fri':1, 'Sat':2,'Sun':3}
tips['day'] = tips['day'].map(day_dict).astype('int')

# time 라벨 인코딩
print( tips['time'].unique() )
time_dict = {"Lunch":0, "Dinner":1 }
tips['time'] = tips['time'].map(time_dict).astype('int')

# smoker
print( tips['smoker'].unique())
smoker_dict = {"No":0,'Yes':1}
tips['smoker'] = tips['smoker'].map(smoker_dict).astype('int')

['Female', 'Male']
Categories (2, object): ['Male', 'Female']
['Dinner', 'Lunch']
Categories (2, object): ['Lunch', 'Dinner']
['No', 'Yes']
Categories (2, object): ['Yes', 'No']


In [33]:
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   total_bill  244 non-null    float64
 1   tip         244 non-null    float64
 2   sex         244 non-null    int32  
 3   smoker      244 non-null    int32  
 4   day         244 non-null    int32  
 5   time        244 non-null    int32  
 6   size        244 non-null    int64  
dtypes: float64(2), int32(4), int64(1)
memory usage: 9.7 KB


In [34]:
tips.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,0,0,3,1,2
1,10.34,1.66,1,0,3,1,3
2,21.01,3.5,1,0,3,1,3
3,23.68,3.31,1,0,3,1,2
4,24.59,3.61,0,0,3,1,4


### 현재고객과 미래고객으로 데이터셋 나누기

In [35]:
tips_have = tips.iloc[0:220, :] # 현재 가진 고객 데이터
tips_new = tips.iloc[220:,:] # 미래의 고객 데이터

In [36]:
tips_new.drop(['size'], axis=1, inplace=True)

tips_have.shape, tips_new.shape

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().drop(


((220, 7), (24, 6))

In [37]:
tips_have.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

In [67]:
sel = ['total_bill','tip']

X = tips_have[sel]
y = tips_have['size']

test_X = tips_new[sel]

In [68]:
from sklearn.ensemble import RandomForestClassifier

In [69]:
model = RandomForestClassifier() 
model.fit(X, y) 
pred = model.predict(test_X)
pred

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 4, 2, 2, 2, 2, 2, 1, 2, 4, 4, 4, 4,
       2, 4], dtype=int64)

### 자체평가를 위한 모델

In [70]:
from sklearn.model_selection import train_test_split

In [71]:
# 220개 중에 데이터를 나눠서 자체평가용 데이터 셋을 만든다.
X_train, X_test, Y_train, Y_test = train_test_split(X, y,
                                                   random_state=0)

X_train.shape, X_test.shape, Y_train.shape, Y_test.shape

((165, 2), (55, 2), (165,), (55,))

In [72]:
### 기본 모델
import numpy as np

model = RandomForestClassifier()
model.fit(X_train, Y_train)
pred = model.predict(X_test)

print( "자체 평가 예측 정확도: {}% ".format(np.mean((pred==Y_test))))

자체 평가 예측 정확도: 0.5818181818181818% 


In [76]:
n_est_num = [10, 100, 500]

for nums in n_est_num:
    model = RandomForestClassifier(n_estimators=nums, n_jobs=-1)
    model.fit(X_train, Y_train)
    pred = model.predict(X_test)
    
    print('트리의 개수:', nums)
    print('자체평가 학습용 정확도 (score): ', model.score(X_train, Y_train))
    print('자체평가 예측 정확도 (score):', model.score(X_test, Y_test))
    print( "자체평가 예측 정확도: {}% ".format(np.mean((pred==Y_test))*100))
    print('*'*80)

트리의 개수: 10
자체평가 학습용 정확도 (score):  0.9757575757575757
자체평가 예측 정확도 (score): 0.5636363636363636
자체평가 예측 정확도: 56.36363636363636% 
********************************************************************************
트리의 개수: 100
자체평가 학습용 정확도 (score):  1.0
자체평가 예측 정확도 (score): 0.5818181818181818
자체평가 예측 정확도: 58.18181818181818% 
********************************************************************************
트리의 개수: 500
자체평가 학습용 정확도 (score):  1.0
자체평가 예측 정확도 (score): 0.5636363636363636
자체평가 예측 정확도: 56.36363636363636% 
********************************************************************************


### `sex` 변수 추가

In [63]:
sel = ['total_bill','tip','sex']

X = tips_have[sel]
y = tips_have['size']

test_X = tips_new[sel]

In [64]:
# 220개 중에 데이터를 나눠서 자체평가용 데이터 셋을 만든다.
X_train, X_test, Y_train, Y_test = train_test_split(X, y,
                                                   random_state=0)

X_train.shape, X_test.shape, Y_train.shape, Y_test.shape

((165, 3), (55, 3), (165,), (55,))

In [66]:
n_est_num = [10, 100, 500]

for nums in n_est_num:
    model = RandomForestClassifier(n_estimators=nums, n_jobs=-1)
    model.fit(X_train, Y_train)
    pred = model.predict(X_test)
    
    print('트리의 개수:', nums)
    print('자체평가 학습용 정확도 (score): ', model.score(X_train, Y_train))
    print('자체평가 예측 정확도 (score):', model.score(X_test, Y_test))
    print( "자체평가 예측 정확도: {}% ".format(np.mean((pred==Y_test))*100))
    print(" ")

트리의 개수: 10
자체평가 학습용 정확도 (score):  0.9515151515151515
자체평가 예측 정확도 (score): 0.4727272727272727
자체평가 예측 정확도: 47.27272727272727% 
 
트리의 개수: 100
자체평가 학습용 정확도 (score):  1.0
자체평가 예측 정확도 (score): 0.5272727272727272
자체평가 예측 정확도: 52.72727272727272% 
 
트리의 개수: 500
자체평가 학습용 정확도 (score):  1.0
자체평가 예측 정확도 (score): 0.509090909090909
자체평가 예측 정확도: 50.90909090909091% 
 


### `day` 변수 추가

In [56]:
sel = ['total_bill','tip','sex','day']

X = tips_have[sel]
y = tips_have['size']

test_X = tips_new[sel]

In [57]:
# 220개 중에 데이터를 나눠서 자체평가용 데이터 셋을 만든다.
X_train, X_test, Y_train, Y_test = train_test_split(X, y,
                                                   random_state=0)

X_train.shape, X_test.shape, Y_train.shape, Y_test.shape

((165, 4), (55, 4), (165,), (55,))

In [58]:
n_est_num = [10, 100, 500]

for nums in n_est_num:
    model = RandomForestClassifier(n_estimators=nums, n_jobs=-1)
    model.fit(X_train, Y_train)
    pred = model.predict(X_test)
    
    print('트리의 개수:', nums)
    print('자체평가 학습용 정확도 (score): ', model.score(X_train, Y_train))
    print('자체평가 예측 정확도 (score):', model.score(X_test, Y_test))
    print( "자체평가 예측 정확도: {}% ".format(np.mean((pred==Y_test))))
    print('*'*100)

트리의 개수: 10
자체평가 학습용 정확도 (score):  0.9636363636363636
자체평가 예측 정확도 (score): 0.5818181818181818
자체평가 예측 정확도: 0.5818181818181818% 
****************************************************************************************************
트리의 개수: 100
자체평가 학습용 정확도 (score):  1.0
자체평가 예측 정확도 (score): 0.5454545454545454
자체평가 예측 정확도: 0.5454545454545454% 
****************************************************************************************************
트리의 개수: 500
자체평가 학습용 정확도 (score):  1.0
자체평가 예측 정확도 (score): 0.5454545454545454
자체평가 예측 정확도: 0.5454545454545454% 
****************************************************************************************************


### 전체 변수 추가

In [77]:
sel = ['total_bill','tip','sex','day','time','smoker']

X = tips_have[sel]
y = tips_have['size']

test_X = tips_new[sel]

In [78]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

In [79]:
# 220개 중에 데이터를 나눠서 자체평가용 데이터 셋을 만든다.
X_train, X_test, Y_train, Y_test = train_test_split(X, y,
                                                   random_state=0)

X_train.shape, X_test.shape, Y_train.shape, Y_test.shape

((165, 6), (55, 6), (165,), (55,))

In [80]:
n_est_num = [10, 100, 500]

for nums in n_est_num:
    model = RandomForestClassifier(n_estimators=nums, n_jobs=-1)
    model.fit(X_train, Y_train)
    pred = model.predict(X_test)
    
    print('트리의 개수:', nums)
    print('자체평가 학습용 정확도 (score): ', model.score(X_train, Y_train))
    print('자체평가 예측 정확도 (score):', model.score(X_test, Y_test))
    print( "자체평가 예측 정확도: {}% ".format(np.mean((pred==Y_test))*100))
    print('*'*100)

트리의 개수: 10
자체평가 학습용 정확도 (score):  0.9636363636363636
자체평가 예측 정확도 (score): 0.6181818181818182
자체평가 예측 정확도: 61.81818181818181% 
****************************************************************************************************
트리의 개수: 100
자체평가 학습용 정확도 (score):  1.0
자체평가 예측 정확도 (score): 0.6
자체평가 예측 정확도: 60.0% 
****************************************************************************************************
트리의 개수: 500
자체평가 학습용 정확도 (score):  1.0
자체평가 예측 정확도 (score): 0.5636363636363636
자체평가 예측 정확도: 56.36363636363636% 
****************************************************************************************************
