# Ensemble 

1. 보팅 (Voting) : 여러가지 다른 모델의 예측을 결합하여 최종 예측을 만드는 기법 / 주로 분류 문제에서 사용되며 각 개별 모델의 가중치를 부여하거나 단순한 투표로써 최종 예측을 수행
2. 배깅 (Bagging, Bootstrap Aggregating) :  Bootstrap Sampling을 통해, 여러 개별 모델을 생성하고, 이 모델들 예측의 평균이나 다수결 투표등을 결합하여 최종 예측
3. 부스팅 (Boosting) : 약한 학습모델 (Weak Leanear)를 순차적으로 학습시켜 강력한 하나의 모델을 구성. 이전 모델이 잘 못 예측한 Sample에 가중치를 두며 다음 모델이 더 잘 예측되도록 학습

**Boosting Model**

1. Ada Boosting (Adptive Boosting): 이전에 학습의 결과에서 잘 반영되지 않은 데이터에 대해 가중치를 부여하여 복원 추출을 수행
   - 앞서 분류를 적절히 수행하지 못한 데이터에 대해 계속 가중을 주어 학습 성능을 향상
   - 데이터에 이상치가 존재하는 경우, 이상치에 대해 계속 가중치가 부여되며 학습
   - 사전에 구성한 데이터가 깔끔하지 않다면(이상치가 많은 데이터), 지속적인 학습에 대해 성능개선이 이뤄지지 않음
   - 앞서 분류된 결과에 대해 가중치가 학습이 진행 되며 소실되는 현상이 발생

2. Gradient Boosting : 이상치가 있거나 너무 높게 부여된 Weight에 대해 주변 데이터가 오분류 될 가능성을 극복하고자, 분류 결과에 가중치를 부여할 때 마다 Weight에 의한 모델의 오차가 최소가되는 방향으로(최소제곱법) 오분류 값을 학습하는 방식
   - Ada Boosting 모델 보다 더 오차에 민감한 모델을 구성
   - 복원추출된 데이터에 대해 만들어진 모델을 오차를 계산하는 수식을 넣어 모델의 성능을 높이는 형태
   - 시간이 매우 오래 소요가 됨 (최소제곱법에 의한 최적화 기법을 사용) 
   - 순차적 학습이 진행되기 때문에, 나중에 학습된 모델에 대해 **과적합 현상**이 발생
   - **하이퍼파라미터 튜닝**이 필수적 

3. XGboosting : GB 모델에서 과적합 되는 현상을 방지하기 위해, 최소제곱법 최적화 수식에 규제항을 추가하여, 과적합을 방지하는 형태로 학습
   - 복원 추출한 데이터의 오차가 줄어들게 끔 학습을 하다보면 분류 구조가 매우 복잡해 질 수 있음
   - 이를 방지하기 위해 **규제항**을 추가하여 과적합을 방지
   - 속도가 느리다 / 하이퍼파라미터 튜닝이 필수적

4. Light Boosting : **Boosting** 계열 알고리즘의 자원 소요에 대한 부하를 줄이고자, 복원 추출되는 데이터의 양을 조절하는 알고리즘을 활용해, 계산의 량을 줄여 빠른 속도로 학습이 수행 되게끔 학습
    - 대용량 데이터 (특성이 복잡한 데이터 -> Column 수가 많은)에 대해 절약된 자원(시간 + 메모리)으로 학습 을 수행
    - 다소 정확도가 떨어질 수 있음 

**Ada Boosting**

In [1]:
import pandas as pd 
import numpy as np 
import plotly.express as px 
import scipy.stats as stats 

In [None]:
df1 = pd.read_csv('18_Customer_data.csv', encoding='cp949')
print(df1.shape)
df1.head(2)

In [5]:
df1['Target'] = df1['고객이탈여부'].replace({'No':0, 'Yes':1})
df1['Target'].value_counts()

Target
0    5161
1    1702
Name: count, dtype: int64

In [7]:
Y = df1['Target']
X = df1[['성별', '연령', '결혼여부', '부양자수', '보안서비스', '백업서비스',
         '데이터무제한','과금방식','데이터사용료', '로밍사용료']]

In [9]:
from sklearn.model_selection import train_test_split # 학습 데이터와 검증 데이터 분할
from sklearn.pipeline import make_pipeline # 특성공학 처리 프로세스 구축
from sklearn.compose  import make_column_transformer # 병렬로 파이프라인 구축 
from sklearn.impute   import SimpleImputer # 결측값을 대치 
from sklearn.preprocessing import MinMaxScaler # 스케일링 
from sklearn.preprocessing import OneHotEncoder # 인코딩 
from sklearn.ensemble import AdaBoostClassifier # Ada Boosting 모델로 학습 
from sklearn.model_selection import GridSearchCV # 교차 검증 및 하이퍼파라미터 튜닝
from sklearn.metrics import classification_report # 분류모델 성능 평가 
import pickle # 생성된 모델을 저장 

In [10]:
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, random_state=1234) 

In [12]:
data_list1 = ['성별','결혼여부', '보안서비스', '백업서비스', '데이터무제한', '과금방식']
data_list2 = ['연령']
data_list3 = ['데이터사용료', '로밍사용료']

In [13]:
pipe1 = make_pipeline(SimpleImputer(strategy='most_frequent'), OneHotEncoder()) # 문자 파이프
pipe2 = make_pipeline(SimpleImputer(strategy='mean')) # 숫자 1 (연령만 처리)
pipe3 = make_pipeline(SimpleImputer(strategy='median'), MinMaxScaler()) # 숫자 2 (금액 관련) 

In [15]:
prepro_pipe = make_column_transformer((pipe1, data_list1), 
                                      (pipe2, data_list2), 
                                      (pipe3, data_list3))
model_pipe  = make_pipeline(prepro_pipe, AdaBoostClassifier()) #  데이터 전처리 + 학습 

In [19]:
# model_pipe.fit(X_train, Y_train)

**Ada Boosting Hyperparameter** 
- Tree 알고리즘을 이용해 학습 / Max Depth = 1  모델을 반복해서 학습
- n_estimators : 부스팅이 종료되는 학습 모델(DT)의 최대 숫자 지정 / 완벽한 분류가 발생 할 시, 조기에 학습이 종료 / n_estimators = 200
- learning_rate : 각 부스팅의 반복에서 각 DT에 적용되는 가중치 /  learning_rate가 높으면, 각 모델의 기여도가 증대 / (learning_rate <-> n_estimators / Trade Off )
    - learning_rate를 늘리면, 완벽하게 분류될 estimators 학습 기의 개수가 많지 않아도 완벽하게 조기에 분류가 됨
    - n_estimators를 늘리면, learning_rate가 높지 않더라도 충분하게 분류될 수 있는 모델을 구성
- algorithm : Ada 부팅 알고리즘 내 최적화 함수
  - SAMME (Stagewise Additive Modeling using a Multicalss Expoential loss Function) : 약한 학습 기들을 반복적으로 학습 시키며, 학습기의 성능에 따라 Sample의 가중치를 조절
  - SAMME.R : SAMME에서 신뢰도 지표를 기반으로 가중치를 부여 / 더 세밀한 성능 향상/조절 / 속도 저하
  - SAMME.R : 약한 학습긱가 클래스의 확률를 추정할 때 사용 / SAMME  확률 추정을 따로 수행하지 않음

In [18]:
# 교차검증 + 하이퍼 파라미터 튜닝 
hyperparameter = {'adaboostclassifier__n_estimators':[100, 500],
                 'adaboostclassifier__learning_rate':[0.01, 0.1, 1, 1.5],
                 'adaboostclassifier__algorithm':['SAMME','SAMME.R']} 
grid_model = GridSearchCV(model_pipe, param_grid=hyperparameter, 
                          cv=3, scoring='f1',n_jobs=-1)
grid_model.fit(X_train, Y_train)
best_model = grid_model.best_estimator_

In [20]:
# 평가 함수 생성 
def eval_func(model):
    Y_train_pred = model.predict(X_train)
    Y_test_pred  = model.predict(X_test)
    print('학습 성능')
    print(classification_report(Y_train, Y_train_pred))
    print('일반화 성능')
    print(classification_report(Y_test, Y_test_pred))

In [None]:
eval_func(best_model)

**Gradient Boosting**

- Gradient Boosting Parameter 

- subsample : 학습에 수행되는 Sub Sample의 비율 (전체 Train Set 대비 비율) 
- n_iter_no_change : 검증 성능이 개선되지 않을 때, 훈련을 조기에 종료할지 말지 결정 
(횟수, 지정된 횟수만큼 성능이 개선되지 않는다면, 학습을 중단)
- validation_fraction : 조기종료를 위해 훈련 데이터(Train Set) 내에서 Validation Set의 비율
- max_depth : 각 개별 DT 학습기의 Depth 를 설정 / min_sample_split / min_sample_leaf ...
- min_impurity_decrease : 불순도의 특정 임계값을 지정하여, 이 값보다 큰 경우에만 트리를 분할  

In [22]:
from sklearn.ensemble import GradientBoostingClassifier

In [24]:
model_pipe2 = make_pipeline(prepro_pipe, GradientBoostingClassifier())

In [25]:
hyperparameter = {'gradientboostingclassifier__n_estimators':[100,500],
                 'gradientboostingclassifier__max_depth':[5, 15],
                 'gradientboostingclassifier__n_iter_no_change':[5],
                 'gradientboostingclassifier__validation_fraction':[0.2],
                 'gradientboostingclassifier__learning_rate':[0.01, 0.1, 1, 1.5]}

In [26]:
grid_model2= GridSearchCV(model_pipe2, param_grid=hyperparameter, 
                          cv=3, n_jobs=-1, scoring='f1')
grid_model2.fit(X_train, Y_train)
best_model2 = grid_model2.best_estimator_

In [28]:
#eval_func(best_model2)

**XGBoost**

In [30]:
# !pip install xgboost

In [31]:
from xgboost import XGBClassifier

In [32]:
model_pipe3 = make_pipeline(prepro_pipe, XGBClassifier())

**XGB Parameter**

- reg_alpha  : L1 규제를 위한 가중치 
- reg_lambda : L2 규제를 위한 가중치
- scale_pos_weight : 클래스 불균형 (Imbalanced Data) 조절하기 위한 가중치 

In [35]:
hyperparameter = {'xgbclassifier__n_estimators':[100, 1000],
                 'xgbclassifier__leanring_rate':[0.01, 0.1, 1, 1.5],
                 'xgbclassifier__max_depth':[5,15],
                 'xgbclassifier__reg_alpha':[0.01, 0.1, 1, 1.5],
                 'xgbclassifier__reg_lambda':[0.01, 0.1, 1, 1.5]}
grid_model3 = GridSearchCV(model_pipe3, param_grid=hyperparameter, 
                           cv=3, n_jobs=-1, scoring='f1')
grid_model3.fit(X_train, Y_train)
best_model3 = grid_model3.best_estimator_

Parameters: { "leanring_rate" } are not used.



In [37]:
# eval_func(best_model3)

# Stacking Model 

- 여러 가지 모델을 이용해, 데이터의 예측값을 계산하여, 해당 예측값을 X로 , 실제값을 Y로 구성해, 최종 Meta 모델의 학습데이터로 사용하는 앙상블 기법
    - Model1 학습 -> 예측값1
    - Model2 학습 -> 예측값2
    - Model3 학습 -> 예측값3
    - 예측값1, 예측값2, 예측값3 -> X로 / Y  => Meta Model 예측 실시 

In [46]:
# 앞서 만들었던 Model (Ada Boosting / GB / XGB ) 이용하여 Stacking Ensemble 구성 
df_meta_train = pd.DataFrame()
# Ada Boosting 모델의 X_train 데이터에 대한 이탈 확률 값 
df_meta_train['Ada'] = pd.DataFrame(best_model.predict_proba(X_train))[1]
# Gradient Boosting 모델의 X_train 데이터에 대한 이탈 확률 값
df_meta_train['GB']  = pd.DataFrame(best_model2.predict_proba(X_train))[1]
# XGB 모델의 X_train 데이터에 대한 이탈 확률 값
df_meta_train['XGB'] = pd.DataFrame(best_model3.predict_proba(X_train))[1]

In [48]:
df_meta_test = pd.DataFrame()
df_meta_test['Ada'] = pd.DataFrame(best_model.predict_proba(X_test))[1]
df_meta_test['GB']  = pd.DataFrame(best_model2.predict_proba(X_test))[1]
df_meta_test['XGB'] = pd.DataFrame(best_model3.predict_proba(X_test))[1]

In [49]:
from sklearn.ensemble import RandomForestClassifier 

In [51]:
meta_model = RandomForestClassifier() 
grid_meta = GridSearchCV(meta_model, 
                         param_grid={'n_estimators':[100,1000], 'max_depth':[5, 15]},
                         cv=3, n_jobs=-1, scoring='f1')
grid_meta.fit(df_meta_train, Y_train)
best_model = grid_meta.best_estimator_

In [53]:
Y_train_meta_pred = best_model.predict(df_meta_train)
Y_test_meta_pred  = best_model.predict(df_meta_test)

In [57]:
# print(classification_report(Y_train, Y_train_meta_pred))

In [58]:
# print(classification_report(Y_test, Y_test_meta_pred))

# 비지도 학습 

- X들 간의 관계(유사성, 거리, ...)을 이용해, 비슷한 데이터를 묶거나, 연관 있는 데이터를 찾거나, 차원을 줄이거나 하는등의 학습 기법
    - 1. 군집 분석 (Clustering)
    - 2. 연관 규칙 (Association Analysis)
    - 3. 차원 축소 (Dimensionality Reduction)
    - 4. 이상 탐지 (Anomaly Detection) 

**군집 분석**

- 데이터 간 거리를 계산하여, 인접한 데이터를 묶어주는 기법
    - 군집 분석 이후에, 나눠진 군집들에 대한 특성을 시각화나 가설검정 등으로 파악 -> Insight 도출
    - 군집 분석을 통해, 데이터의 라벨을 생성 -> 생성된 라벨을 Y로 , 나머지 X를 이용해 분류 모델
- 종류
    - 계층형 군집분석 : 병합 또는 분할 기법을 이용하여, 가깝거나 멀리 떨어진 데이터들을 묶어나가거나 분할 해 나가며 군집을 형성하는 분석기법 
    - 비계층형 군집분석 : 데이터 간의 기하 거리, 밀도, 분포 등을 이용하여 군집을 형성하는 기법  
    - 잠재공간 군집분석 : 분포 추정을 통해 잠재 공간 (Latent Space)계산된 추정치를 이용하여 군집을 형성 (범주형)

- **계층형 군집 분석**
  - 1. 병합형 군집 분석 : 각 데이터 포인트를 하나의 클러스터로 간주한 뒤, 유사한 클러스터 끼리 묶어 나가며 병합하는 방식
  - 2. 분할형 군집 분석 : 모든 데이터를 하나의 군집으로 간주한 뒤, 서로 다른 특징을 가진 데이터를 나눠 가며 군집을 분할하는 방식  

In [None]:
df1 = pd.read_csv('19_Data.csv')
print(df1.shape)
df1.head()

- **Parameter**

- n_cluster : 군집의 개수를 지정 / 기본값 2
- metric : 클러스터 간의 거리를 측정하는 방법 / 기본값 euclidean
  - "euclidean" : 저차원 데이터에서 잘 작동 (X의 개수가 적은)
  - "manhattan" : 저차원 데이터에서 잘 작동
  - "cosine" : 고차원 데이터에서 잘 작동
- linkage : 클러스터를 병합하는 기법을 선택
  - ward
    - 같은 군집 내의 데이터들 간의 분산을 최소화 하는 방식으로 클러스터를 병합
    - 군집 내 응집도(Cohesion)를 최대화 하면서, 군집간의 분리도(Separation)를 최대화하는것을 목표   
  - complete
    - 두 군집 간의 가장 먼 거리를 이용하여 클러스터를 병합
    - 두 개의 클러스터 간의 모든 데이터 포인트들 중에서 가장 먼 거리를 갖는 데이터를 이용해 병합
    - 군집 간의 거리가 점점 멀어지게 끔 군집이 형성 -> 군집간의 명확한 차이를 강조할 때 
  - average
    - 두 군집 간의 평균 거리를 이용하여 군집을 병합
    - 데이터들 간의 평균 거리가 가장 작아지는 포인트를 찾아서 병합을 수행
    - 데이터 간의 평균 거리를 이용해 병합 -> 군집 간 균형잡힌 거리적인 특성이 도출        

In [61]:
# 계층형 병합 군집분석 
from sklearn.cluster import AgglomerativeClustering

In [64]:
df2 = df1.drop(columns=['LOT', 'WAFER']).dropna()

In [72]:
cluster = AgglomerativeClustering(n_clusters=3)
df2['Target'] = cluster.fit_predict(df2).astype(str)

In [82]:
# df2['Target'].value_counts()

In [80]:
# px.scatter_matrix : AttributeError: 'DataFrame' object has no attribute 'iteritems' Error 
pd.DataFrame.iteritems = pd.DataFrame.items

In [None]:
px.scatter_matrix(df2.iloc[0:100], dimensions=['Y1','Y2','Y3'], color='Target')

# 비계층형 군집 분석 

- 클러스터 간의 계층 구조를 형성하지 않고 군집을 만들어내는 모든 종류의 군집분석 기법
- 군집을 묶는 속도가 비교적 빠르다 / 직관적 
- K-mean / DBSCAN / Mean Shift... 

- **K-Means Clustering**

- 주어진 K개 (사용자가 지정하는 K개수)만큼 군집을 형성, 군집 중심점을 기준으로 특정 범위 내 가까운 데이터들을 묶어나가며 군집을 형성
- 알고리즘 절차
  - 1. 중심점 초기화 : K개의 군집 중심점을 임의로 선택(알고리즘에 의해 선택) / 초기 지점 선택
    2. 할당 : 초기 중심점을 기준으로 일정 거리 이내 (유클리드 거리) 가까운 데이터들을 같은 군집으로 병합
    3. 할당 된 군집들 내 데이터로 새로운 군집 중심점을 계산
    4. 새로 계산 된 군집 중심점을 기준으로 다시 특정 거리 이내 데이터를 병합
    5. 앞선 과정을 지속적으로 반복하여, 군집 중심점이 더 이상 움직이지 않을 때 까지 반복

- 주의사항 :
  - 초기 중심점의 선택에 따라 알고리즘 수렴에 영향을 줌

- **Parameter**
  - n_cluster : 클러스터의 개수를 사용자가 지정
  - init : 초기 중심점 선택 방법을 지정
    - "k-means++" (기본값) / "random" : 이상치가 많거나, 범주형 데이터가 존재하는 경우  
  - max_iter : 최대 반복 횟수 / 군집 중심점을 최대 몇번 까지 옮겨서 군집을 구성할 것인가에 대한 지표 / 기본 값 300
  - algorithm : K-Means 알고리즘 내 최적화 작동 방식
    - 'full' : 클러스터링을 수행하면서, 군집 중심점을 업데이트 할 때 마다 모든 데이터 포인트와 군집 중심점 간의 거리를 계산 / 데이터 셋이 큰 경우 -> 시간 소요가 큼
    - 'elkan' : 각 클러스터와 모든 데이터 포인트 사이의 거리를 미리 계산하여, 군집 중심점을 업데이트 할 때마다 발생하는 계산을 줄이는 방식
    - 'auto' : 데이터 크기에 따라 알고리즘이 적절한 방식을 선택 / 1000개 

In [83]:
from sklearn.cluster import KMeans

In [None]:
cluster2  = KMeans(n_clusters=3, max_iter=500 )
df2['Target2'] = cluster2.fit_predict(df2).astype(str)

In [87]:
# px.scatter_matrix(df2.iloc[0:100], dimensions=['Y1', 'Y2', 'Y3'], color='Target2')

- 군집분석 -> 비지도 학습 / 사용자가 몇 개의 군집을 구성 할 것 인가 직접 선택
- 그럼에도 군집화가 잘 수행되었는가 평가를 할 때

- **Silhouette Score (실루엣 분석)**
  - 군집 내 같은 데이터들 끼리 얼마나 모였는지에 대한 응집력과 서로 다른 군집끼리 얼마나 떨어져 있는가에 대한 분리력을 수식으로 계산
  - Silhouette Score : -1 ~ +1 사이의 값이 도출
    - 1 에 가까울수록 높은 응집력/ 높은 분리력 군집
    - 0 에 가까울수록 군집 간 경계가 모호, 중첩 / 낮은 응집력, 낮은 분리력
    - 음수 값은 일반적으로 잘못된 클러스터링 상태 (모든 군집의 데이터가 섞여 있는 상태)
  - 참고 지표로 사용 (비지도 학습) -> "평가" 지표이나, 지표가 낮다고 해서 사용을 못하지는 않는다.
    

In [88]:
from sklearn.metrics import silhouette_score

In [91]:
silhouette_score(df2.drop(columns=['Target', 'Target2']) ,
                 df2['Target']) # 계층형 군집분석으로 3집단 군집화 

0.3277953087827936

In [92]:
silhouette_score(df2.drop(columns=['Target', 'Target2']) ,
                 df2['Target2']) # K-means군집분석으로 3집단 군집화 

0.3764454986934112