In [None]:
# !pip install IPython
from IPython.display import Image

In [None]:
!git clone https://github.com/Seung-hwanSong/Tree.git #코랩 사용

# [의사결정나무 및 앙상블 Part 1]
## Random Forest

##### jupyter notebook 단축키

- ctrl+enter: 셀 실행   
- shift+enter: 셀 실행 및 다음 셀 이동   
- alt+enter: 셀 실행, 다음 셀 이동, 새로운 셀 생성
- a: 상단에 새로운 셀 만들기
- b: 하단에 새로운 셀 만들기
- dd: 셀 삭제(x: 셀 삭제)
- 함수 ( ) 안에서 shift+tab: arguments description. shift+tab+tab은 길게 볼 수 있도록

## 배깅(Bagging) 이란?
### 배깅(Bagging)은 Bootstrap Aggregating의 약자로, 보팅(Voting)과는 달리 동일한 알고리즘으로 여러 분류기를 만들어 보팅으로 최종 결정하는 알고리즘

### ** 배깅은 다음과 같은 방식으로 진행이 됩니다.

(1) 동일한 알고리즘을 사용하는 일정 수의 분류기 생성

(2)각각의 분류기는 부트스트래핑(Bootstrapping)방식으로 생성된 샘플데이터를 학습

(3)최종적으로 모든 분류기가 보팅을 통헤 예측 결정

※ 부트스트래핑 샘플링은 전체 데이터에서 일부 데이터의 중첩을 허용하는 방식

In [None]:
Image('/content/Tree/image/intro1.png')

## 랜덤포레스트(RandomForest)
### 랜덤 포레스트는 여러 개의 결정트리(Decision Tree)를 활용한 배깅 방식의 대표적인 알고리즘

In [None]:
Image('/content/Tree/image/intro2.png')

## 1) 모듈 불러오기

In [None]:
""" 데이터 전처리 """
import pandas as pd
import numpy as np

""" 모델 생성, 학습, 평가 """
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score # 정확도 함수

## 분석 데이터 : Otto Group Product Classification Challenge Dataset (kaggle data)
https://www.kaggle.com/c/otto-group-product-classification-challenge/data?select=train.csv

### 설명변수 (X)
#### - id
#### - feat_1 ~ feat_93

### 반응변수 (Y)
#### - Class_1 ~ Class_9

In [None]:
# 데이터 불러오기 (kaggle data)
data = pd.read_csv('/content/Tree/data/otto_train.csv')
# data = pd.read_csv("./data/otto_train.csv") #로컬

data.head()

In [None]:
# shape확인

nCar = data.shape[0] # 데이터 개수
nVar = data.shape[1] # 변수 개수
print('nCar: %d' % nCar, 'nVar: %d' % nVar )

In [None]:
# 무의미한 변수 제거

data= data.drop(['id'],axis=1)

In [None]:
# 타겟 변수의 형변환

mapping_dict = {'Class_1' : 1,
                'Class_2' : 2,
                'Class_3' : 3,
                'Class_4' : 4,
                'Class_5' : 5,
                'Class_6' : 6,
                'Class_7' : 7,
                'Class_8' : 8,
                'Class_9' : 9,}
after_mapping_target = data['target'].apply(lambda x : mapping_dict[x])
after_mapping_target

In [None]:
# features/target, train/test dataset 분리

feature_columns = list(data.columns.difference(['target']))
X = data[feature_columns]
y = after_mapping_target

train_x, test_x, train_y, test_y = train_test_split(X, y, test_size = 0.2, random_state = 2024) # 학습데이터와 평가데이터의 비율을 8:2 로 분할| 
print(train_x.shape, test_x.shape, train_y.shape, test_y.shape) # 데이터 개수 확인

## 2) Random Forest 적합

In [None]:
Image('/content/Tree/image/intro3.png')

### 2-1) Gini Index 사용

In [None]:
#기본적인 randomforest모형

clf1 = RandomForestClassifier(n_estimators=20, max_depth=5, criterion='gini',random_state=2024)
clf1.fit(train_x,train_y)

predict1 = clf1.predict(test_x)
acc1 = accuracy_score(test_y,predict1)
print(acc1)

In [None]:
# Random Forest Sample개수 증가
# sample 100개, tree depth - 20

clf2 = RandomForestClassifier(n_estimators=100, max_depth=20, criterion='gini', random_state=2024)
clf2.fit(train_x,train_y)

predict2 = clf2.predict(test_x)
acc2 = accuracy_score(test_y,predict2)
print(acc2)

In [None]:
# sample 300개, tree depth - 20

clf3 = RandomForestClassifier(n_estimators=300, max_depth=20, criterion='gini', random_state=2024)
clf3.fit(train_x,train_y)

predict3 = clf3.predict(test_x)
acc3 = accuracy_score(test_y,predict3)
print(acc3)

In [None]:
# Random Forest Tree 깊이 증가
# sample 100개, tree depth - 100(max)

clf4 = RandomForestClassifier(n_estimators=100, max_depth=100, criterion='gini', random_state=2024)
clf4.fit(train_x,train_y)

predict4 = clf4.predict(test_x)
acc4 = accuracy_score(test_y,predict4)
print(acc4)

### 2-2) Entropy 사용

In [None]:
#기본적인 randomforest모형

clf5 = RandomForestClassifier(n_estimators=20, max_depth=5, criterion='entropy',random_state=2024)
clf5.fit(train_x,train_y)

predict5 = clf5.predict(test_x)
acc5 = accuracy_score(test_y,predict5)
print(acc5)

In [None]:
# Random Forest Sample개수 증가
# sample 100개, tree depth - 20

clf6 = RandomForestClassifier(n_estimators=100, max_depth=20, criterion='entropy', random_state=2024)
clf6.fit(train_x,train_y)

predict6 = clf6.predict(test_x)
acc6 = accuracy_score(test_y,predict6)
print(acc6)

In [None]:
# sample 300개, tree depth - 20

clf7 = RandomForestClassifier(n_estimators=300, max_depth=20, criterion='entropy', random_state=2024)
clf7.fit(train_x,train_y)

predict7 = clf7.predict(test_x)
acc7 = accuracy_score(test_y,predict7)
print(acc7)

In [None]:
# Random Forest Tree 깊이 증가
# sample 100개, tree depth - 100(max)

clf8 = RandomForestClassifier(n_estimators=100, max_depth=100, criterion='entropy', random_state=2024)
clf8.fit(train_x,train_y)

predict8 = clf8.predict(test_x)
acc8 = accuracy_score(test_y,predict8)
print(acc8)

In [None]:
# Summary

acc_summary = {'Gini Index':[acc1, acc2, acc3, acc4],
               'Entropy':[acc5, acc6, acc7, acc8]}

acc_summary = pd.DataFrame(acc_summary)
acc_summary.index=['Sample: 20, Depth:  5', 'Sample:100, Depth: 20', 'Sample:300, Depth: 20', 'Sample:100, Depth:100']
print(acc_summary)

### 2-3) Grid Serach

In [None]:
from sklearn.model_selection import GridSearchCV

params = { 'n_estimators' : [10, 20, 100, 300],
           'max_depth' : [5, 10, 20, 100],
           'criterion' : ['entropy', 'gini']
            }

# RandomForestClassifier 객체 생성 후 GridSearchCV 수행
clf9 = RandomForestClassifier(random_state = 2024, n_jobs = -1)
grid_cv = GridSearchCV(clf9, param_grid = params, cv = 3, n_jobs = -1)
grid_cv.fit(train_x, train_y)

print('최적 하이퍼 파라미터: ', grid_cv.best_params_)
print('최고 예측 정확도: {:.4f}'.format(grid_cv.best_score_))

## 위의 결과로 나온 최적 하이퍼 파라미터로 다시 모델을 학습하여 테스트 세트 데이터에서 예측 성능을 측정

In [None]:
clf10 = RandomForestClassifier(n_estimators = ?, 
                                max_depth = ?,
                                criterion = '?',
                                random_state = 2024,
                                n_jobs = -1)

# clf10 = RandomForestClassifier(n_estimators = 100, 
#                                 max_depth = 12,
#                                 min_samples_leaf = 8,
#                                 min_samples_split = 8,
#                                 random_state = 1,
#                                 n_jobs = -1)
clf10.fit(train_x, train_y)
predict10 = clf10.predict(test_x)
print('예측 정확도: {:.4f}'.format(accuracy_score(test_y,predict10)))

---