<a href="https://colab.research.google.com/github/yhy0519/Machine_learning_of_Python/blob/main/python_m06_2_03_03.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **■ 랜덤 포레스트(Random Forest)**

랜덤포레스트는 의사결정나무의 특징인 분산이 크다는 점을 고려하여 
배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후  
이를 선형결합하여 최종 학습기를 만드는 방법입니다.


**예제1. iris 데이터를 의사결정트리로 분류하는 실습**

In [20]:
## 1. 필요한 패키지를 로드합니다.
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split 
import pandas as pd  # 데이터 전처리를 위해서 

In [21]:
## 2. iris2.csv 불러와서 독립변수들과 종숙변수를 생성합니다.
col_names = ['sepal-length', 'sepal-width','petal-length', 'petal-width','Class']

df =  pd.read_csv('/content/drive/MyDrive/data/iris2.csv', encoding='UTF-8', header=None, names=col_names)

X = df.iloc[:,:-1].to_numpy() 
y = df.iloc[:,-1].to_numpy()   

In [22]:
## 3. 훈련 데이터와 테스트 데이터를 8:2 로 분리합니다.
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2, random_state=121)
print(X_train.shape) 
print(X_test.shape)  
print('\n')

(120, 4)
(30, 4)




In [23]:
## 4. 의사결정트리 모델을 생성합니다.
dtree = DecisionTreeClassifier()

In [24]:
## 5. 의사결정트리의 gridsearch 모델을 생성합니다.
### parameter 들을 dictionary 형태로 설정
parameters = {'max_depth':[1,2,3,4], 'min_samples_split':[2,3,4]}

# param_grid의 하이퍼 파라미터들을 3개의 train, test set fold 로 나누어서 테스트 수행 설정.  
### refit=True 가 default 임. True이면 가장 좋은 파라미터 설정으로 재 학습 시킴.  
grid_dtree = GridSearchCV(dtree, param_grid=parameters, cv=3, refit=True)

# 붓꽃 Train 데이터로 param_grid의 하이퍼 파라미터들을 순차적으로 학습/평가 .
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과 추출하여 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', \
           'split0_test_score', 'split1_test_score', 'split2_test_score']]
 
scores_df

Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_max_depth,param_min_samples_split,params,split0_test_score,split1_test_score,split2_test_score,mean_test_score,std_test_score,rank_test_score
0,0.000889,0.000202,0.000589,0.000102,1,2,"{'max_depth': 1, 'min_samples_split': 2}",0.7,0.7,0.7,0.7,1.110223e-16,10
1,0.000894,0.000309,0.00056,8.2e-05,1,3,"{'max_depth': 1, 'min_samples_split': 3}",0.7,0.7,0.7,0.7,1.110223e-16,10
2,0.000823,0.00022,0.000495,2.4e-05,1,4,"{'max_depth': 1, 'min_samples_split': 4}",0.7,0.7,0.7,0.7,1.110223e-16,10
3,0.000836,0.000212,0.000524,4.4e-05,2,2,"{'max_depth': 2, 'min_samples_split': 2}",0.925,1.0,0.95,0.958333,0.03118048,6
4,0.000835,3.8e-05,0.000596,1.8e-05,2,3,"{'max_depth': 2, 'min_samples_split': 3}",0.925,1.0,0.95,0.958333,0.03118048,6
5,0.000794,5e-05,0.000512,5.1e-05,2,4,"{'max_depth': 2, 'min_samples_split': 4}",0.925,1.0,0.95,0.958333,0.03118048,6
6,0.000417,2.2e-05,0.000277,4e-06,3,2,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1.0,0.95,0.975,0.02041241,1
7,0.000421,5e-06,0.000258,1e-06,3,3,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1.0,0.95,0.975,0.02041241,1
8,0.000416,1.8e-05,0.000284,7e-06,3,4,"{'max_depth': 3, 'min_samples_split': 4}",0.975,1.0,0.95,0.975,0.02041241,1
9,0.000426,6e-06,0.000266,2e-06,4,2,"{'max_depth': 4, 'min_samples_split': 2}",0.975,1.0,0.925,0.966667,0.03118048,4


In [25]:
# rank_test_score 가 1인 것들이 가장 좋은 하이퍼 파라미터 조합

from sklearn.metrics import accuracy_score

print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'max_depth': 3, 'min_samples_split': 2}
GridSearchCV 최고 정확도: 0.9750


In [26]:
# GridSearchCV의 refit으로 이미 학습이 된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 하이퍼 파라미터로 학습이 됨
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

테스트 데이터 세트 정확도: 0.9667


**예제2. iris 데이터를 랜덤포레스트로 분류하는 실습**

In [27]:
## 1. 필요한 패키지를 로드합니다.
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split 
import pandas as pd  # 데이터 전처리를 위해서 
from  sklearn.ensemble   import  RandomForestClassifier 

In [28]:
## 2. 독립변수들과 종속변수를 생성합니다.
col_names = ['sepal-length', 'sepal-width','petal-length', 'petal-width','Class']

df =  pd.read_csv('/content/drive/MyDrive/data/iris2.csv', encoding='UTF-8', header=None, names=col_names)

X = df.iloc[:,:-1].to_numpy() 
y = df.iloc[:,-1].to_numpy()   

In [29]:
## 3. 훈련 데이터와 테스트 데이터를 8:2로 나눕니다.
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.2, random_state=121)

In [30]:
## 4. 랜덤포레스트 모델을 생성합니다.
rftree = RandomForestClassifier()

### parameter 들을 dictionary 형태로 설정

parameters = {
    'bootstrap': [True],   # 데이터를 샘플링해서 가져올지 전체를 다 가져올지를 결정
			                     # 이상치가 있을때는 bootstrop 설정해야 좋음
    'max_depth': [80, 90, 100],  # 나무의 깊이
    'max_features': [2, 3],     # 가장 성능이 좋은 트리의 최종 개수
    'min_samples_leaf': [3, 4, 5],   # 가지의 리프의 최소 개수
    'min_samples_split': [8, 10, 12],  # 가지를 split 하는 최소 개수
    'n_estimators': [100, 200, 300, 1000]  # 나무의 개수
}

# param_grid의 하이퍼 파라미터들을 3개의 train, test set fold 로 나누어서 테스트 수행 설정.  
### refit=True 가 default 임. True이면 가장 좋은 파라미터 설정으로 재 학습 시킴.  
grid_dtree = GridSearchCV(rftree, param_grid=parameters, cv=3, refit=True,  n_jobs = -1, verbose = 2 )

# 붓꽃 Train 데이터로 param_grid의 하이퍼 파라미터들을 순차적으로 학습/평가 .
grid_dtree.fit(X_train, y_train)

# GridSearchCV 결과 추출하여 DataFrame으로 변환
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score', \
           'split0_test_score', 'split1_test_score', 'split2_test_score']]

Fitting 3 folds for each of 216 candidates, totalling 648 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=-1)]: Done  37 tasks      | elapsed:   17.5s
[Parallel(n_jobs=-1)]: Done 158 tasks      | elapsed:  1.2min
[Parallel(n_jobs=-1)]: Done 361 tasks      | elapsed:  2.9min
[Parallel(n_jobs=-1)]: Done 644 tasks      | elapsed:  5.1min
[Parallel(n_jobs=-1)]: Done 648 out of 648 | elapsed:  5.1min finished


Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'bootstrap': True, 'max_depth': 80, 'max_feat...",0.950000,149,0.900,1.0,0.95
1,"{'bootstrap': True, 'max_depth': 80, 'max_feat...",0.958333,9,0.925,1.0,0.95
2,"{'bootstrap': True, 'max_depth': 80, 'max_feat...",0.950000,149,0.900,1.0,0.95
3,"{'bootstrap': True, 'max_depth': 80, 'max_feat...",0.950000,149,0.900,1.0,0.95
4,"{'bootstrap': True, 'max_depth': 80, 'max_feat...",0.950000,149,0.900,1.0,0.95
...,...,...,...,...,...,...
211,"{'bootstrap': True, 'max_depth': 100, 'max_fea...",0.958333,9,0.925,1.0,0.95
212,"{'bootstrap': True, 'max_depth': 100, 'max_fea...",0.958333,9,0.925,1.0,0.95
213,"{'bootstrap': True, 'max_depth': 100, 'max_fea...",0.958333,9,0.925,1.0,0.95
214,"{'bootstrap': True, 'max_depth': 100, 'max_fea...",0.958333,9,0.925,1.0,0.95


In [31]:
from sklearn.metrics import accuracy_score

print('GridSearchCV 최적 파라미터:', grid_dtree.best_params_)
print('GridSearchCV 최고 정확도: {0:.4f}'.format(grid_dtree.best_score_))

GridSearchCV 최적 파라미터: {'bootstrap': True, 'max_depth': 80, 'max_features': 2, 'min_samples_leaf': 4, 'min_samples_split': 12, 'n_estimators': 200}
GridSearchCV 최고 정확도: 0.9667


In [32]:
# GridSearchCV의 refit으로 이미 학습이 된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estimator_는 이미 최적 하이퍼 파라미터로 학습이 됨
pred = estimator.predict(X_test)
print('테스트 데이터 세트 정확도: {0:.4f}'.format(accuracy_score(y_test,pred)))

테스트 데이터 세트 정확도: 0.9667


**예제3. 시본의 타이타닉 데이터로 랜덤포레스트 모델 생성하기**

In [33]:
from sklearn import metrics
import numpy as np

# 1단계 csv ---> 데이터 프레임으로 변환

import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic')

# 컬럼이 모두다 출력될 수 있도록 출력할 열의 개수 한도를 늘리기
pd.set_option('display.max_columns',15)

# 파생변수를 생성한다.
mask4 = (df.age<10) | (df.sex=='female') 
df['child_women']=mask4.astype(int)

In [34]:
# 2단계 결측치 확인하고 제거하거나 치환한다.
# 2.1 타이타닉 데이터 프레임의 자료형을 확인한다.
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
 15  child_women  891 non-null    int64   
dtypes: bool(2), category(2), float64(2), int64(5), object(5)
memory usage: 87.6+ KB


In [35]:
# 2.2 결측치(NaN) 을 확인한다.
# 2.3 deck 컬럼과 embark_town 컬럼을 삭제한다.
# 설명 : deck 결측치가 많아서 컬럼을 삭제해야함.
#        embark 와 embark_town 이 같은 데이터여서 embark 컬럼을 삭제해야함

rdf = df.drop(['deck','embark_town'], axis =1)

In [36]:
# 2.4 age(나이) 열에 나이가 없는 모든행을 삭제한다.
# 데이터가 한개라도 없으면 drop 해라 (how = 'any')
# 모든 데이터가 없으면 drop 해라 (how = 'all')

rdf = rdf.dropna( subset=['age'], how='any', axis=0)

In [37]:
# 2.5 embark 열의 NaN 값을 승선도시중 가장 많이 출현한 값으로 치환하기

most_freq = rdf['embarked'].value_counts().idxmax()
rdf['embarked'].fillna(most_freq, inplace = True)

In [38]:
# 3단계 범주형 데이터를 숫자형으로 변환하기
# 3.1 feature selection (분석에 필요한 속성을 선택)

ndf = rdf[['survived','pclass','sex','age','sibsp','parch','embarked','child_women']]
ndf

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,embarked,child_women
0,0,3,male,22.0,1,0,S,0
1,1,1,female,38.0,1,0,C,1
2,1,3,female,26.0,0,0,S,1
3,1,1,female,35.0,1,0,S,1
4,0,3,male,35.0,0,0,S,0
...,...,...,...,...,...,...,...,...
885,0,3,female,39.0,0,5,Q,1
886,0,2,male,27.0,0,0,S,0
887,1,1,female,19.0,0,0,S,1
889,1,1,male,26.0,0,0,C,0


In [39]:
# 선택된 컬럼중 2개(sex, embarked) 가 범주형이다.
#3.2 범주형 데이터를 숫자로 변환하기(원핫 인코딩)

gender = pd.get_dummies(ndf['sex'])
ndf = pd.concat([ndf,gender], axis= 1)
onehot_embarked = pd.get_dummies(ndf['embarked'])
ndf = pd.concat([ndf,onehot_embarked],axis=1)
ndf.drop(['sex','embarked'], axis=1, inplace = True)

In [40]:
# 4단계 표준화
# 4.1 독립변수와 종속변수(라벨) 을 지정한다.
# survived  pclass   age  sibsp  parch  female  male  C  Q  S
#   라벨                       데이터
# 종속변수                     독립변수

x = ndf[ ['pclass', 'age' ,'sibsp', 'parch' ,'female' ,'male', 'C' ,'Q' ,'S', 'child_women'] ]
y = ndf['survived'] # 종속변수

# 4.2 독립변수들을 표준화 한다.

from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(x).transform(x)

In [41]:
# 5단계 훈련 데이터를 훈련 데이터 / 테스트 데이터로 나눈다 (7:3)
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(x,y,test_size = 0.3,
                                                 random_state = 33)

# sklearn 라이브러리에서 나이브베이즈 분류 모형 가져오기

from  sklearn.ensemble   import  RandomForestClassifier 

tree_model = RandomForestClassifier( n_estimators=100,
                                     oob_score=True,
                                    random_state= 9 )  

In [42]:
tree_model.fit( X_train, y_train )

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=True, random_state=9, verbose=0,
                       warm_start=False)

In [43]:
print ( tree_model.oob_score_)    # 랜덤포레스트 모델 평가 지표

0.7454909819639278


In [50]:
# 7단계 테스트 데이터로 예측을 한다.

y_hat = tree_model.predict( X_test )

In [51]:
# 8단계 모형의 예측능력을 평가한다.

from sklearn import metrics

randomforest_matrix = metrics.confusion_matrix( y_test, y_hat )

print( randomforest_matrix )

[[102  24]
 [ 18  71]]


In [52]:
tn, fp, fn, tp = metrics.confusion_matrix( y_test, y_hat ).ravel()

f1_report = metrics.classification_report( y_test, y_hat )

print( f1_report )

#print(np.array([[tp,fp],[fn,tn]]))

              precision    recall  f1-score   support

           0       0.85      0.81      0.83       126
           1       0.75      0.80      0.77        89

    accuracy                           0.80       215
   macro avg       0.80      0.80      0.80       215
weighted avg       0.81      0.80      0.81       215



In [53]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score( y_test, y_hat)
print(accuracy) 

0.8046511627906977


문제53. 예제3. 시본 타이타닉 랜덤포레스트 모델의 oob 점수는 0.74 였고 정확도는 0.80 이었습니다.  
그래서 예제2번에서 사용한 gridsearch 코드를 가져다가 추가하고 이 모델의 성능을 더 올리시오

In [57]:
from sklearn import metrics
import numpy as np

# 1단계 csv ---> 데이터 프레임으로 변환

import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic')

# 컬럼이 모두다 출력될 수 있도록 출력할 열의 개수 한도를 늘리기
pd.set_option('display.max_columns',15)

# 파생변수를 생성한다.
mask4 = (df.age<10) | (df.sex=='female') 
df['child_women']=mask4.astype(int)


# 2단계 결측치 확인하고 제거하거나 치환한다.
# 2.1 타이타닉 데이터 프레임의 자료형을 확인한다.
#df.info()

# 2.2 결측치(NaN) 을 확인한다.
# 2.3 deck 컬럼과 embark_town 컬럼을 삭제한다.
# 설명 : deck 결측치가 많아서 컬럼을 삭제해야함.
#        embark 와 embark_town 이 같은 데이터여서 embark 컬럼을 삭제해야함

rdf = df.drop(['deck','embark_town'], axis =1)


# 2.4 age(나이) 열에 나이가 없는 모든행을 삭제한다.
# 데이터가 한개라도 없으면 drop 해라 (how = 'any')
# 모든 데이터가 없으면 drop 해라 (how = 'all')

rdf = rdf.dropna( subset=['age'], how='any', axis=0)


# 2.5 embark 열의 NaN 값을 승선도시중 가장 많이 출현한 값으로 치환하기

most_freq = rdf['embarked'].value_counts().idxmax()
rdf['embarked'].fillna(most_freq, inplace = True)


# 3단계 범주형 데이터를 숫자형으로 변환하기
# 3.1 feature selection (분석에 필요한 속성을 선택)

ndf = rdf[['survived','pclass','sex','age','sibsp','parch','embarked','child_women']]

# 선택된 컬럼중 2개(sex, embarked) 가 범주형이다.
#3.2 범주형 데이터를 숫자로 변환하기(원핫 인코딩)

gender = pd.get_dummies(ndf['sex'])
ndf = pd.concat([ndf,gender], axis= 1)
onehot_embarked = pd.get_dummies(ndf['embarked'])
ndf = pd.concat([ndf,onehot_embarked],axis=1)
ndf.drop(['sex','embarked'], axis=1, inplace = True)


# 4단계 표준화
# 4.1 독립변수와 종속변수(라벨) 을 지정한다.
# survived  pclass   age  sibsp  parch  female  male  C  Q  S
#   라벨                       데이터
# 종속변수                     독립변수

x = ndf[ ['pclass', 'age' ,'sibsp', 'parch' ,'female' ,'male', 'C' ,'Q' ,'S', 'child_women'] ]
y = ndf['survived'] # 종속변수

# 4.2 독립변수들을 표준화 한다.
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(x).transform(x)


# 5단계 훈련 데이터를 훈련 데이터 / 테스트 데이터로 나눈다 (7:3)
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(x,y,test_size = 0.3,
                                                 random_state = 33)

In [58]:
# sklearn 라이브러리 gridsearch, 랜덤포레스트 가져오기

from sklearn.model_selection import GridSearchCV
from  sklearn.ensemble   import  RandomForestClassifier 

rftree = RandomForestClassifier()  

parameters = {
    'bootstrap': [True],   # 데이터를 샘플링해서 가져올지 전체를 다 가져올지를 결정
					# 이상치가 있을때는 bootstrop 설정해야 좋음
    'max_depth': [80, 90, 100],  # 나무의 깊이
    'max_features': [2, 3],   # 가장 성능이 좋은 트리의 최종 개수
    'min_samples_leaf': [3, 4, 5],   # 가지의 리프의 최소 개수
    'min_samples_split': [8, 10, 12],  # 가지를 split 하는 최소 개수
    'n_estimators': [100, 200, 300, 1000]  # 나무의 개수
}

grid_dtree = GridSearchCV(rftree, param_grid=parameters, cv=3, refit=True,  n_jobs = -1, verbose = 2 )

grid_dtree.fit( X_train, y_train )

Fitting 3 folds for each of 216 candidates, totalling 648 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 2 concurrent workers.
[Parallel(n_jobs=-1)]: Done  37 tasks      | elapsed:   18.9s
[Parallel(n_jobs=-1)]: Done 158 tasks      | elapsed:  1.3min
[Parallel(n_jobs=-1)]: Done 361 tasks      | elapsed:  3.1min
[Parallel(n_jobs=-1)]: Done 644 tasks      | elapsed:  5.4min
[Parallel(n_jobs=-1)]: Done 648 out of 648 | elapsed:  5.5min finished


GridSearchCV(cv=3, error_score=nan,
             estimator=RandomForestClassifier(bootstrap=True, ccp_alpha=0.0,
                                              class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features='auto',
                                              max_leaf_nodes=None,
                                              max_samples=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              n_estimators=100, n_jobs=None,
                                              oob_score=False,
                                              rando

In [59]:
# 7단계 테스트 데이터로 예측을 한다.

y_hat = tree_model.predict( X_test )


# 8단계 모형의 예측능력을 평가한다.

from sklearn import metrics

randomforest_matrix = metrics.confusion_matrix( y_test, y_hat )

print( randomforest_matrix )


[[102  24]
 [ 18  71]]


In [60]:
tn, fp, fn, tp = metrics.confusion_matrix( y_test, y_hat ).ravel()
f1_report = metrics.classification_report( y_test, y_hat )
print( f1_report )
#print(np.array([[tp,fp],[fn,tn]]))

              precision    recall  f1-score   support

           0       0.85      0.81      0.83       126
           1       0.75      0.80      0.77        89

    accuracy                           0.80       215
   macro avg       0.80      0.80      0.80       215
weighted avg       0.81      0.80      0.81       215



In [61]:
from sklearn.metrics import accuracy_score
accuracy = accuracy_score( y_test, y_hat)
print(accuracy)

0.8046511627906977
