### 앙상블 기법 : Ensemble Learning 

여러 개의 분류기를 생성하고 그 예측을 결합하여 최종 예측을 기대하는 방법 

<img src = 'https://assets-global.website-files.com/5d7b77b063a9066d83e1209c/61f7bbd4e90cce440b88ea32_ensemble-learning.png' width =700>

_Image by <a href= 'https://www.v7labs.com/blog/ensemble-learning'>The Complete Guide to Ensemble Learning</a>_


#### Voting VS Bagging

<b>Voting은 여러 개의 다른 기본 모델들이 투표를 통해 최종 예측 결과를 결정하는 방식입니다.</b> <p>
주어진 입력에 대해 각 개별 모델은 예측을 수행하고, 이 예측들을 종합하여 다수결이나 평균을 통해 최종 예측을 만듭니다.<p> 
Voting은 주로 분류 문제에서 사용되며, 다양한 유형의 기본 모델 (예: 로지스틱 회귀, 결정 트리, K-NN 등)을 조합하여 다수결 투표 또는 가중 평균을 통해 예측 결과를 결정합니다.

<br>

<b>Bagging은 Bootstrap Aggregating의 약자로, 임의의 부분집합 데이터를 생성하여 각 부분집합에 대해 독립적으로 모델을 학습시키는 방식입니다.</b><p> 
다수의 모델을 병렬로 학습시키고, 각 모델의 예측 결과를 평균화하여 최종 예측을 만듭니다.<p> 
Bagging은 주로 앙상블된 모델들이 각각 독립적으로 예측을 수행하므로, 분산을 줄이고 모델의 안정성을 향상시키는 데에 사용됩니다. 대표적인 Bagging 알고리즘으로는 Random Forest가 있습니다.

<br>

<img src = 'https://miro.medium.com/v2/resize:fit:828/format:webp/1*E_O_FSHK6SHL6LTNeYaDXw.png'>

_Image by <a href= 'https://medium.com/@chyun55555/ensemble-learning-voting-and-bagging-with-python-40de683b8ff0'>Ensemble Learning — Voting and Bagging with Python</a>_


#### Hard voting VS soft voting

**Hard Voting**은 다수결 원칙을 기반으로 예측 결과를 결정하는 방식입니다. <p>
여러 개의 개별 모델이 예측을 수행한 후, 각 모델의 예측 결과를 투표로 종합하여 가장 많은 투표를 받은 클래스를 최종 예측 결과로 선택합니다. <p>
이때, 각 모델의 예측 결과는 동등한 가중치를 갖습니다.<p>
<p>

**Soft Voting**은 다수의 개별 모델들이 예측한 확률값을 종합하여 최종 예측 결과를 결정하는 방식입니다. <p>
개별 모델들은 예측 결과뿐만 아니라 예측한 클래스에 대한 확률값도 제공합니다. <p>
Soft Voting에서는 각 모델의 예측 확률값을 평균하여 가장 높은 평균 확률을 가진 클래스를 최종 예측 결과로 선택합니다.<p>

<img src = 'https://www.researchgate.net/publication/362311832/figure/fig3/AS:11431281078760466@1660240577836/The-figure-shows-with-an-example-how-both-hard-and-soft-voting-work-The-ensemble.ppm'>

_Image by <a href= 'https://www.researchgate.net/figure/The-figure-shows-with-an-example-how-both-hard-and-soft-voting-work-The-ensemble_fig3_362311832'>A Soft-Voting Ensemble Classifier for Detecting Patients Affected by COVID-19 - Scientific Figure on ResearchGate.</a>_


#### Random Forest

Random Forest(랜덤 포레스트)는 앙상블 학습 방법 중 하나로, 의사 결정 트리(Decision Tree)를 기반으로한 모델입니다.<p> 
랜덤 포레스트는 여러 개의 의사 결정 트리를 생성하고, 이들의 예측 결과를 종합하여 보다 정확하고 안정적인 예측을 수행하는 데에 사용됩니다.

<br>

<img src ='https://www.researchgate.net/publication/357828695/figure/fig2/AS:1114676138127392@1642770909745/Random-forest-prediction-scheme.png'>

_Image by <a href= 'https://www.researchgate.net/figure/Random-forest-prediction-scheme_fig2_357828695/actions#reference'>Dynamic Packet Duplication for Industrial URLLC</a>_


### HAR 데이터 , Human Activity Recognition

Human Activity Recognition 데이터셋은 일상적인 활동을 수행하는 사람들의 동작 데이터를 포함하고 있습니다. <p>
이 데이터셋은 가속도계(accelerometer)와 자이로스코프(gyroscope)와 같은 센서에서 수집된 센서 신호 데이터로 구성됩니다. <p>
센서는 사람의 움직임을 측정하고 이를 숫자로 표현한 시계열 데이터로 제공됩니다.<p>
<br>
각각의 데이터 포인트는 시간에 따른 다양한 동작 및 활동에 대한 정보를 제공합니다. <p>
예를 들어, 걷기, 달리기, 앉기, 일어서기, 올라타기, 내려가기 등과 같은 다양한 동작이 포함될 수 있습니다. <p>
데이터셋은 훈련 세트와 테스트 세트로 구성되며, 일반적으로 각 동작에 대한 레이블(정답)이 포함되어 있습니다.<p>

<br>

<img src = 'https://www.mdpi.com/sensors/sensors-21-02141/article_deploy/html/images/sensors-21-02141-g001.png' width = 700>

###### _Image by <a href = 'https://www.mdpi.com/1424-8220/21/6/2141'> Sensor-Based Human Activity Recognition with Spatio-Temporal Deep Learning</a>_

In [39]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [40]:
url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/HAR_dataset/features.txt'
feature_name_df = pd.read_csv(
    url, sep='\s+', header=None, names=['column_index', 'column_name'])

feature_name_df.head()

Unnamed: 0,column_index,column_name
0,1,tBodyAcc-mean()-X
1,2,tBodyAcc-mean()-Y
2,3,tBodyAcc-mean()-Z
3,4,tBodyAcc-std()-X
4,5,tBodyAcc-std()-Y


In [41]:
feature_name=feature_name_df.iloc[:,1].values.tolist()
feature_name[:10]

['tBodyAcc-mean()-X',
 'tBodyAcc-mean()-Y',
 'tBodyAcc-mean()-Z',
 'tBodyAcc-std()-X',
 'tBodyAcc-std()-Y',
 'tBodyAcc-std()-Z',
 'tBodyAcc-mad()-X',
 'tBodyAcc-mad()-Y',
 'tBodyAcc-mad()-Z',
 'tBodyAcc-max()-X']

#### Train, Test 데이터셋 가져오기 

In [42]:
X_train_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/HAR_dataset/train/X_train.txt'
X_test_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/HAR_dataset/test/X_test.txt'

X_train = pd.read_csv(X_train_url, sep='\s+', header=None)
X_test = pd.read_csv(X_test_url, sep='\s+', header=None)


In [43]:
X_train.columns = feature_name
X_test.columns = feature_name

X_train.head()

Unnamed: 0,tBodyAcc-mean()-X,tBodyAcc-mean()-Y,tBodyAcc-mean()-Z,tBodyAcc-std()-X,tBodyAcc-std()-Y,tBodyAcc-std()-Z,tBodyAcc-mad()-X,tBodyAcc-mad()-Y,tBodyAcc-mad()-Z,tBodyAcc-max()-X,...,fBodyBodyGyroJerkMag-meanFreq(),fBodyBodyGyroJerkMag-skewness(),fBodyBodyGyroJerkMag-kurtosis(),"angle(tBodyAccMean,gravity)","angle(tBodyAccJerkMean),gravityMean)","angle(tBodyGyroMean,gravityMean)","angle(tBodyGyroJerkMean,gravityMean)","angle(X,gravityMean)","angle(Y,gravityMean)","angle(Z,gravityMean)"
0,0.288585,-0.020294,-0.132905,-0.995279,-0.983111,-0.913526,-0.995112,-0.983185,-0.923527,-0.934724,...,-0.074323,-0.298676,-0.710304,-0.112754,0.0304,-0.464761,-0.018446,-0.841247,0.179941,-0.058627
1,0.278419,-0.016411,-0.12352,-0.998245,-0.9753,-0.960322,-0.998807,-0.974914,-0.957686,-0.943068,...,0.158075,-0.595051,-0.861499,0.053477,-0.007435,-0.732626,0.703511,-0.844788,0.180289,-0.054317
2,0.279653,-0.019467,-0.113462,-0.99538,-0.967187,-0.978944,-0.99652,-0.963668,-0.977469,-0.938692,...,0.414503,-0.390748,-0.760104,-0.118559,0.177899,0.100699,0.808529,-0.848933,0.180637,-0.049118
3,0.279174,-0.026201,-0.123283,-0.996091,-0.983403,-0.990675,-0.997099,-0.98275,-0.989302,-0.938692,...,0.404573,-0.11729,-0.482845,-0.036788,-0.012892,0.640011,-0.485366,-0.848649,0.181935,-0.047663
4,0.276629,-0.01657,-0.115362,-0.998139,-0.980817,-0.990482,-0.998321,-0.979672,-0.990441,-0.942469,...,0.087753,-0.351471,-0.699205,0.12332,0.122542,0.693578,-0.615971,-0.847865,0.185151,-0.043892


In [44]:

y_train_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/HAR_dataset/train/y_train.txt'
y_test_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/master/dataset/HAR_dataset/test/y_test.txt'


y_train = pd.read_csv(y_train_url, sep='\s+', header=None, names=['action'])
y_test = pd.read_csv(y_test_url, sep='\s+', header=None, names=['action'])




In [45]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((7352, 561), (2947, 561), (7352, 1), (2947, 1))

In [46]:
# 각 액션 별 데이터 수 
y_train['action'].value_counts()

6    1407
5    1374
4    1286
1    1226
2    1073
3     986
Name: action, dtype: int64

### Decision Tree

In [47]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

dt_clf = DecisionTreeClassifier(max_depth=4, random_state=13)
dt_clf.fit(X_train, y_train)

In [48]:
pred = dt_clf.predict(X_test)

print('Test ACC : ',accuracy_score(y_test,pred))

Test ACC :  0.8096369189005769


### GridSearchCV

In [49]:
from sklearn.model_selection import GridSearchCV

params = {
    'max_depth' : [6,8,10,12,16,20,24]
}

In [50]:
grid_cv = GridSearchCV(dt_clf, param_grid=params, 
                       scoring='accuracy', 
                       cv=5, # 교차 검증(Cross Validation), 5-fold 교차 검증을 사용
                       return_train_score=True) 


grid_cv.fit(X_train, y_train)

In [51]:
grid_cv.best_score_, grid_cv.best_params_

(0.8543335321892183, {'max_depth': 8})

#### math_Depth 별 표로 정리
- test와 train score 가 차이가 있다 : 과적합인지 검사

In [52]:
cv_results_df = pd.DataFrame(grid_cv.cv_results_)
cv_results_df.columns

Index(['mean_fit_time', 'std_fit_time', 'mean_score_time', 'std_score_time',
       'param_max_depth', 'params', 'split0_test_score', 'split1_test_score',
       'split2_test_score', 'split3_test_score', 'split4_test_score',
       'mean_test_score', 'std_test_score', 'rank_test_score',
       'split0_train_score', 'split1_train_score', 'split2_train_score',
       'split3_train_score', 'split4_train_score', 'mean_train_score',
       'std_train_score'],
      dtype='object')

In [53]:
cv_results_df[['param_max_depth','mean_test_score','mean_train_score']]

Unnamed: 0,param_max_depth,mean_test_score,mean_train_score
0,6,0.843444,0.944879
1,8,0.854334,0.982692
2,10,0.847125,0.993369
3,12,0.841958,0.997212
4,16,0.841958,0.99966
5,20,0.842365,0.999966
6,24,0.841821,1.0


#### 실제 test 결과 

In [54]:
max_depth = [6,8,10,12,16,20,24]

for depth in max_depth:
    dt_clf = DecisionTreeClassifier(max_depth=depth, random_state=13)
    dt_clf.fit(X_train,y_train)
    print(f'Max_depth : {depth}, Accuracy : {accuracy_score(y_test, dt_clf.predict(X_test))}')

Max_depth : 6, Accuracy : 0.8554462164913471
Max_depth : 8, Accuracy : 0.8734306073973532
Max_depth : 10, Accuracy : 0.8615541228367831
Max_depth : 12, Accuracy : 0.8595181540549711
Max_depth : 16, Accuracy : 0.8669833729216152
Max_depth : 20, Accuracy : 0.8652867322701052
Max_depth : 24, Accuracy : 0.8652867322701052


#### best score

In [58]:
best_dt_clf = grid_cv.best_estimator_
pred1 = best_dt_clf.predict(X_test)

accuracy_score(y_test, pred1)

0.8734306073973532

### 랜덤포레스트 

In [59]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier

params={
    'max_depth' : [6, 8, 10],
    'n_estimators' : [50, 100, 200], # decision tree 를 몇개를 쓸지 
    'min_samples_leaf' : [8, 12], # 최소 잎의 개수 
    'min_samples_split' : [8,12] 
}


In [61]:
rf_clf = RandomForestClassifier(random_state=13, n_jobs= -1)
grid_cv = GridSearchCV(rf_clf, param_grid=params, cv = 2, n_jobs=-1)
grid_cv.fit(X_train, y_train)

  self.best_estimator_.fit(X, y, **fit_params)


In [62]:
cv_results_df = pd.DataFrame(grid_cv.cv_results_)
cv_results_df.columns

Index(['mean_fit_time', 'std_fit_time', 'mean_score_time', 'std_score_time',
       'param_max_depth', 'param_min_samples_leaf', 'param_min_samples_split',
       'param_n_estimators', 'params', 'split0_test_score',
       'split1_test_score', 'mean_test_score', 'std_test_score',
       'rank_test_score'],
      dtype='object')

In [63]:
target_col = ['rank_test_score','mean_test_score','param_n_estimators','param_max_depth']
cv_results_df[target_col].sort_values('rank_test_score').head()

Unnamed: 0,rank_test_score,mean_test_score,param_n_estimators,param_max_depth
28,1,0.915125,100,10
25,1,0.915125,100,10
23,3,0.912813,200,8
20,3,0.912813,200,8
35,5,0.912541,200,10


In [64]:
grid_cv.best_estimator_

In [65]:
grid_cv.best_score_

0.9151251360174102

In [68]:
rf_clf_best = grid_cv.best_estimator_
rf_clf_best.fit(X_train, y_train)

  rf_clf_best.fit(X_train, y_train)


In [69]:
accuracy_score(y_test, rf_clf_best.predict(X_test))

0.9205972175093315