# 지도학습(Supervised) 알고리즘 : 회귀 및 분류분석

<img src='img/Advanced_Algorithms_SupervisedEnsemble.png'>

### 0) 실제 데이터분석 접근 방법 : 편향과 분산 모두 최소화하기 위해 반복적으로 업데이트

<img src='img/Bias_Variance4.png' width=400>

"Train 데이터의 Bias가 적절(낮게)한지 확인 후, Test 데이터에 적용하여 Variance가 적절(낮게)하도록 반복적 업데이트"

- Train의 Bias가 높다면,  빅데이터(Row & Column) 또는 알고리즘 복잡하게 또는 최적화를 통해 해결

- Test의 Variance가 높다면, 빅데이터(Row) & 스몰데이터(Column) 또는 알고리즘 덜 복잡하게 또는 최적화를 통해 해결

<img src='./img/Bias_Variance_Reduce.png' width=600>

- 딥러닝(인공지능 알고리즘): 딥러닝은 엄청나게 복잡한 모델이며 Bias-variance Trade-off를 피할 수 없음

- 스몰데이터의 딥러닝은 과대적합되어 High Variance가 우려되기에, 딥러닝으로 성능을 내기 위해선 빅데이터가 반드시 필요!

- 빅데이터를 통해 Train과 Test의 패턴 차이 감소되어 Bias & Variance를 모두 감소시키기 유리

### 1) 최적 방향: Bias & Variance 모두 감소시키는건 어려움

- (1) 성능 시각화를 통해 Train 데이터 패턴이 과하게 학습되어 다른 데이터나 환경의 적은 변동에도 Test 성능이 급하게/안정적으로 변하는지 측정 (Train <<< Test)

- (2) Bias & Variance 모두 낮게 교차하는 알고리즘 복잡도가 적용된 모델링 결과 선택

- (3) 추가적으로 Train/Test의 차이를 줄이는 것도 방법 => $K$-fold Cross Validation 배경

- **K-fold**

<img src='./img/DataSplit_ver1.png'>

- **Random-subsamples**

<img src='./img/DataSplit_ver2.png'>

- **Leave-one-out**

<img src='./img/DataSplit_ver3.png'>

- **Leave-$p$-out**

<img src='./img/DataSplit_ver4.png'>

### 2) 앙상블(Ensemble, Ensemble Learning, Ensemble Method) 알고리즘

<img src='./img/Ensemble_Orchestra.png'>

**"여러개 알고리즘을 학습시킨 후, 각각의 예측결과를 결합함으로써 보다 정확한 예측성능을 도출하는 알고리즘"**

<img src='./img/Ensemble_Example.png'>

- 프랑스어로 통알, 조화를 의미하며 음악에서 악기들의 협주에서 주료 사용

- 집단지성의 힘을 발휘하는 것처럼, 단일 강한 알고리즘 보다 복수 약한 알고리즘이 더 뛰어날 수 있음

- 여러 알고리즘을 사용하기에 한 알고리즘의 성능이 낮아도 영향 덜받고 일반화 된 모델링 완성

- 단일/세부 알고리즘으로 머신러닝 또는 딥러닝 등 모든 종류 사용 가능

- **이미지, 영상, 음성 등 비정형 데이터에선 딥러닝이 뛰어나지만, 대부분 정형 데이터에선 앙상블이 뛰어난 성능**

- Kaggle Competition 상위 알고리즘들에서 1위를 제외한 2~5위 알고리즘이 Decision Tree기반 알고리즘류로 Bagging, Boosting 기반

# Ensemble 알고리즘 종류

**"데이터 분리/결합 및 알고리즘 분리/결합에 따라 다양하게 존재"**

- **보팅(Voting)**: 여러개의 알고리즘의 결과들 중 투표를 통해 최종 예측

- **배깅(Bagging)**: 같은 알고리즘으로 여러개로 나눈 데이터 샘플로 학습한 후 보팅 방식으로 예측

- **부스팅(Boosting)**: 여러개의 알고리즘이 순차적으로 학습하되, 앞선 알고리즘의 오차/에러에 가중치를 부여하여 학습튜닝 및 예측 향상

- **스태킹(Stacking)**: 여러개의 알고리즘 결과를 새로운 학습 데이터로 만들어 다른 알고리즘에 재학습 및 예측

<img src='./img/Ensemble_Type.jpg'>


| 유형 | 알고리즘 | 
|:---: |:---: | 
| Voting | 다양 | 
| Bagging | Decision Tree, Random Forest | 
| Boosting | AdaBoost, Gradient Boost, XGBoost, LightGBM | 
| Stacking | 다양 | 
| ... | ... |

### 1) 보팅(Voting): 여러개의 알고리즘의 결과들 중 투표를 통해 최종 예측

- Hard Voting: 다수 알고리즘 예측 결과값들을 다수결을 통해 최종 레이블 선정

- Soft Voting: 다수 알고리즘 예측 결과값들의 확률을 평균하여 최종 레이블 선정

- 일반적으로 Soft Voting의 성능이 우수한 편

<img src='./img/Ensemble_HardSoft.png'>

### 2) 배깅(Bootstrap Aggregating, Bagging): 같은 알고리즘으로 여러개로 나눈 데이터 샘플로 학습한 후 보팅 방식으로 예측

- Voting: 같은 데이터셋 기반으로 여러개의 알고리즘의 결과들 중 투표를 통해 최종 예측

- Bagging: 여러개로 나눈 데이터 샘플 기반으로 같은 알고리즘의 결과들 중 보팅을 통해 최종 예측

    - 전체 데이터에서 샘플 분류시 중첩을 허용하는 방식을 BootStraping 분할 방식
    
    - 과적합을 줄이고 데이터 손실에도 정확성 높음

<img src='./img/Ensemble_VotingBagging.png'>


### 3) 부스팅(Boosting): 여러개의 알고리즘이 순차적으로 학습하되, 앞선 알고리즘의 오차/에러에 가중치를 부여하여 반복적으로 모델 업데이트를 위한 학습튜닝 및 예측 향상

- 복잡한 문제에도 예측 성능 높으나 과적합 우려

- 순차적 학습 때문에 상대적으로 실행 시간이 긴 단점

<img src='./img/Ensemble_BaggingBoosting.png'>

### 4) 스태킹(Stacking): 여러개의 알고리즘 결과를 새로운 학습 데이터로 만들어 다른 알고리즘에 재학습 및 예측

- 개인적으로는 보팅의 방향과 부스팅의 특성이 결합된 듯 보임

<img src='./img/Ensemble_Comparison.png'>


| | Bagging | Boosting | Stacking | 
|:---: |:---: |:---: |:---: | 
| 샘플링 | 랜덤하게 추출 | 에러에 가중치를높여 랜덤하게 추출 | 없음 | 
| 장점 | Variance 감소 | Bias 감소 | 성능 향상 가능 (딥러닝 배경) | 
| | 여러 알고리즘 평균이라 안정적 결과 | 일반적으로 Bagging보다 우수 (Kaggle) | 경진대회 등에서 마지막 수단으로 활용 | | 
| | 불균형 레이블에서 적합 | | 
| | | 목적함수 변경 및 튜닝 가능 | | 
| 단점 | Bias 증가 | Variance 증가 | 학습데이터와 도메인 다르거나 다른 데이터에 급격한 성능 하락 | | | 실행시간 증가(Parallel) | 이전 알고리즘 결과에 의존적 | 높은 실행시간 및 비용 | | | 불균형 레이블에 부적합 | 실행시간 훨씬 증가(Sequential) → 내부 병렬처리 필수! | 유지보수 어려움 | | | 학습하지 못한 에러는 학습 어려움 | 잡음/에러에 민감하고 과적합 경향 | | 
| 결과해석 | 낮아짐 | 낮아짐 | 훨씬 낮아짐 | 
| 적합한 상황 | Low Bias + High Variance | High Bias + Low Variance | 결과해석 필요없음 | | | 비용과 시간 대비 높은 성능 | 비용과 시간 대비 높은 성능 | 비용과 시간이 많음 | | | 높은 성능 대비 일부 해석 가능 | 높은 성능 대비 일부 해석 가능 | 유지보수 자신있음 | | | | | 성능에 올인 |

### 5) 알고리즘 발전과정

<img src='./img/Ensemble_Evolution.png'>

# Decision Tree: Ensemble의 기초

**"분류 성능을 순서대로 확인하는 스무고개"**

| Outlook | Temperature | Humidity | Windy | Play |
|:---: |:---: |:---: |:---: |:---: | 
| sunny | hot | high | FALSE | No | 
| sunny | hot | high | TRUE | No | 
| overcast | hot | high | FALSE | Yes | 
| rain | mild | high | FALSE | Yes |
| rain | cool | normal | FALSE | Yes | 
| rain | cool | normal | TRUE | No | 
| overcast | cool | normal | TRUE | Yes | 
| sunny | mild | high | FALSE | No | 
| sunny | cool | normal | FALSE | Yes | 
| rain | mild | normal | FALSE | Yes | 
| sunny | mild | normal | TRUE | Yes | 
| overcast | mild | high | TRUE | Yes | 
| overcast | hot | normal | FALSE | Yes | 
| rain | mild | high | TRUE | No |

<img src='./img/Ensemble_DecisionTreeWordsExample.png'>

### 0) 의사결정나무 구조 및 장단점

<img src='./img/Ensemble_DecisionTreeWords.png'>

| 구성 | 설명 | 
|:--- |:--- | 
| Root Node | 상위 노드가 없는 최상위 노드로 분류/예측을 위한 모든 데이터를 포함한 노드 | 
| Leaf/Terminal Node | 하위 노드가 없는 최하위 노드로 분류/예측이 종료된 레이블/값에 해당하는 노드 | 
| Parent/Child Node | 분기되기 전 마디를 부모노드, 분기된 후 마디를 자식 노드 | 
| Internal Node | 중간노드들로 가지를 분기하기 위한 의사결정 노드 | 
| Branch | 분기된 노드로 가는 길로 엣지(Edge)라고도 함 | 
| Depth | 최상위 노드부터 최하위 노드까지 도달하기 위해 거쳐야 하는 Branch 수 |

- **장담점**

    - Kaggle Competition 상위에서 1위를 제외한 2~5위 알고리즘이 Decision Tree 기반

    - 데이터 특성에서 추론된 결정 규칙을 학습하여 변수들의 값을 예측/분류
    
    - Baggig, Boosting 을 포함하여 많은 알고리즘이 의사결정나무 기반이기 때문에 개념과 알고리즘 이해 중요

    - 의사결정 규칙을 나무 구조 도표화하여 분류/예측하는 머신러닝 알고리즘

| 장단점 | 설명 | 
|:--- |:--- | 
| 장점 | 내부 의사결정 논리를 공유하기 때문에 직관적으로 이해하기 쉽고 설명이 필요한 경우 많이 사용 | | | 분류 기준이 명확하여 부모와 자식노드가 생성되는 기준 파악이 쉬움 | | | ex) 의료분야에서 환자가 병에 걸린 이유를 이러이러한 조건에 부합하기 때문 | | | ex) 은행에서 대출이 제한된 고객에게 대출 제한 이유 설명 | 
| 단점 | 모든 데이터 만족하도록 정확도 상승을 위해 트리 깊이를 과하게 늘려 과적합 가능성이 높아 실제 상황 데이터가 많이 다를 경우 예측 성능이 떨어짐 |

### 1) 알고리즘 세팅을 위한 비용함수: 어떤 불순도를 사용하냐 여부에 따라 알고리즘 다양

- 불순도(Impurity): 여러가지 레이블이 섞여있는 정도를 기준으로 성능 판단하며, 불순도가 낮을수록 분류를 잘하는 레이블

<img src='./img/Ensemble_Impurity.png'>

<img src='./img/Ensemble_CaseStudy.png'>


- 불순도 측정 지표: 엔트로피(Entropy) & 지니(Gini Index)

    - (1) 엔트로피(Entropy): 분포의 순수도(Purity) 나타내는 척도로 순도가 낮으면 엔트로피 높고 순도가 높으면 엔트로피 낮음, 무질서도라고도 함

        - 확률 → 정보량 → 엔트로피 → 정보획득

        - 확률(Probability): 예상하지 못한 사건 발생 확률

        - 정보량(Information): 잘 일어나지 않는 사건은 자주 발생하는 사건보다 정보량 많음 가정

        <img src='./img/Ensemble_EntropyExample.png'>


        - 예상못한 사건 발생 확률 (Probability) $=p(x)$

        - 예상못한 사건으로 알게될 정보 (Information) $=I(x)=\log_2\frac{1}{p(x)}$

            <img src='./img/Ensemble_Information.png'>

            - 예상못한 사건으로 알게될 정보 (Information) $=I(x)=\log_2\frac{1}{p(x)}$

            - 예상하지 못한 평균 정보 (Entropy) $=H(S)=\sum_{i=1}^N p_i\log_2\frac{1}{p_i}=-\sum_{i=1}^N p_i\log_2p_i$

        - 정보획득(Information Gain): 분류전후의 변화된정보량을 통해 분류성능을 확인하여, 분류가 잘되지 않아 별 차이가 없으면 낮은 수치, 잘분류되어 변화가 많으면 높은 수치

            - $\text{Information Gain}=\text{Base Entropy} - \text{New Entropy}\\=H(S)-H(S|\text{Each Case})$
    
    - (2) 지니(Gini Index): 불확실성(묶여있는정도)을 수치화 한 것으로, 여러 레이블들이 묶이면 수치가 높고 유사 레이블들끼리 묶이면 수치가 낮음

        - 경제 불평등 지수로 처음 등장을 하였으며, 소수에게 집중되면 수치가 높고 개개인에게 모두 분배되면 수치가 낮음

### 2) 알고리즘 함수세팅 종류

| 불순도 측정 지표 | 알고리즘 | 개발 분야 | 
|:---: |:---: |:---: | 
| 엔트로피(Entropy) | ID3(Iterative Dichotomiser 3) | 기계학습 및 인공지능 | | | C4.5 / C4.8 / C5.0 | 기계학습 및 인공지능 | | 지니(Gini Index) | CART(Classification And Regression Tree) | 통계학 | 
| 카이제곱통계량(Chi-square Statistics) | CHAID(CHi-square Automatic Interaction Detection) | 통계학 |

#### ID3 알고리즘

- 반복적으로 2개로 분할하는 알고리즘

- 비용함수로 Entropy를 사용하고, 성능 비교를 위해 Information Gain 사용

In [1]:
# 전체 데이터
import pandas as pd
df = pd.DataFrame([['sunny', 'hot', 'high', 'FALSE', 'No'],
                   ['sunny', 'hot', 'high', 'TRUE', 'No'],
                   ['overcast', 'hot', 'high', 'FALSE', 'Yes'],
                   ['rain', 'mild', 'high', 'FALSE', 'Yes'],
                   ['rain', 'cool', 'normal', 'FALSE', 'Yes'],
                   ['rain', 'cool', 'normal', 'TRUE', 'No'],
                   ['overcast', 'cool', 'normal', 'TRUE', 'Yes'],
                   ['sunny', 'mild', 'high', 'FALSE', 'No'],
                   ['sunny', 'cool', 'normal', 'FALSE', 'Yes'],
                   ['rain', 'mild', 'normal', 'FALSE', 'Yes'],
                   ['sunny', 'mild', 'normal', 'TRUE', 'Yes'],
                   ['overcast', 'mild', 'high', 'TRUE', 'Yes'],
                   ['overcast', 'hot', 'normal', 'FALSE', 'Yes'],
                   ['rain', 'mild', 'high', 'TRUE', 'No']], columns=['Outlook', 'Temperature', 'Humidity', 'Windy', 'Play'])

df['Count'] = 1
print('전체 데이터')
display(df)

# 변수 별 Y에 대응되는 Frequency Table 추정
## Base Entropy
print('Base Entropy')
table = pd.pivot_table(data=df, index='Outlook', columns='Play', values='Count',
                       aggfunc='count', margins=True, fill_value=0).reset_index().iloc[[-1], [1,2,3]]

table.index = ['All']
display(table)

전체 데이터


Unnamed: 0,Outlook,Temperature,Humidity,Windy,Play,Count
0,sunny,hot,high,False,No,1
1,sunny,hot,high,True,No,1
2,overcast,hot,high,False,Yes,1
3,rain,mild,high,False,Yes,1
4,rain,cool,normal,False,Yes,1
5,rain,cool,normal,True,No,1
6,overcast,cool,normal,True,Yes,1
7,sunny,mild,high,False,No,1
8,sunny,cool,normal,False,Yes,1
9,rain,mild,normal,False,Yes,1


Base Entropy


Play,No,Yes,All
All,5,9,14


**(1) Base Entropy**

$$H(\text{Play})=-\sum_{i=1}^N p_i\log_2 p_i\\
=-(\frac{5}{14}\log_2\frac{5}{14}+\frac{9}{14}\log_2\frac{9}{14})\\
=0.94$$


In [3]:
print('변수 별 Y에 대응되는 Frequency Table 추정')
print('New Entropy')
for col in ['Outlook', 'Temperature', 'Humidity', 'Windy']:
    table = pd.pivot_table(data=df, index=col, columns='Play', values='Count',
                           aggfunc='count', margins=True, fill_value=0)
    display(table)

변수 별 Y에 대응되는 Frequency Table 추정
New Entropy


Play,No,Yes,All
Outlook,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
overcast,0,4,4
rain,2,3,5
sunny,3,2,5
All,5,9,14


Play,No,Yes,All
Temperature,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cool,1,3,4
hot,2,2,4
mild,2,4,6
All,5,9,14


Play,No,Yes,All
Humidity,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
high,4,3,7
normal,1,6,7
All,5,9,14


Play,No,Yes,All
Windy,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
FALSE,2,6,8
TRUE,3,3,6
All,5,9,14
