# Imbalanced Data Sampling

- 분류모델이 있어, 불균형한 데이터 (Imbalanced Data)의 비용을 맞춰 학습하는 기법 (이진분류)
- Under Sapmling : 비율이 많은 쪽의 데이터를 줄여, 적은 쪽 데이터 맞춰 학습
  - 정상 900 / 해약 100 -> 정상 100 / 해약 100
  - 데이터의 수가 적은 쪽에 맞춰 줄어듦
  - 데이터의 왜곡은 발생하지 않음 / 데이터의 전체 개수가 줄어들기 때문에, 학습이 잘 수행되지 않을 수 있음

- Over Sampling : 비율이 적은쪽의 데이터를 생성하여, 많은 족 데이터 맞춰 학습
  - 정상 900 / 해약 100 -> 정상 900 / 해약 900
  - 데이터의 수가 많은 쪽에 늘어남
  - 학습 성능은 매우 개선 / 가짜데이터가 생성이 되는 것이므로, 일반화 성능에 개선이 어렵다. (Overfitting)

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import scipy.stats as stats

In [2]:
df1 = pd.read_csv(r'C:\Users\UserK\Desktop\Ranee\data\ML\12_Data.csv')
print(df1.shape)
df1.info()

(569, 32)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 32 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   Image ID             569 non-null    int64  
 1   Diagnosis            569 non-null    object 
 2   Mean Radius          569 non-null    float64
 3   Mean Perimeter       569 non-null    float64
 4   Mean Area            569 non-null    float64
 5   Mean Texture         569 non-null    float64
 6   Mean Smoothness      569 non-null    float64
 7   Mean Compactness     569 non-null    float64
 8   Mean Concavity       569 non-null    float64
 9   Mean Concave Points  569 non-null    float64
 10  Mean Symmetry        569 non-null    float64
 11  Mean Fractal Dim     569 non-null    float64
 12  Max Radius           569 non-null    float64
 13  Max Perimeter        569 non-null    float64
 14  Max Area             569 non-null    float64
 15  Max Texture          569 non-n

In [None]:
df1['Diagnosis'].value_counts() # B : 정상 / M : 불량

In [None]:
color_map = {'M':'red' , 'B' : 'blue'}
fig1 = px.scatter(df1, x='Mean Radius' , y='Mean Concavity', color = 'Diagnosis', color_discrete_map=color_map)
fig1

In [None]:
# 1. Random Under Sapmling : 무작위로 클래스가 많은 쪽의 데이터를 삭제
# !pip install imblearn
from imblearn.under_sampling import RandomUnderSampler

In [None]:
X = df1[['Mean Radius', 'Mean Concavity']]
Y = df1['Diagnosis']

In [None]:
sampling_model = RandomUnderSampler()
X_resample , Y_resample = sampling_model.fit_resample(X,Y)

In [None]:
Y_resample.value_counts()

In [None]:
X_resample['Dig_resample'] = Y_resample

In [None]:
fig2 = px.scatter(X_resample, x='Mean Radius', y='Mean Concavity', color='Dig_resample', color_discrete_map=color_map)

In [None]:
# Sub Plot : 하나의 창에 두개의 그래프를 출력
from plotly.subplots import make_subplots

In [None]:
# 각 그래프를 subplot 객체에 선언
fig = make_subplots(rows=1, cols=2, subplot_titles=('Source Data', 'UnderSample Data'))
for trace in fig1.data :
    fig.add_trace(trace, row=1, col=1)
for trace in fig2.data :
    fig.add_trace(trace, row=1, col=2)
fig.show()

In [None]:
# Tomek Link Samplig : 서로 다른 클래스가 인접한 데이터를 찾아 묶은 뒤, 비율이 많은 쪽의 데이터를 줄여서 조정
from imblearn.under_sampling import TomekLinks

In [None]:
sampling_model2 = TomekLinks()
X_resample , Y_resample = sampling_model2.fit_resample(X,Y)

In [None]:
Y_resample.value_counts()

In [None]:
X_resample['Dig_resample'] = Y_resample

In [None]:
fig2 = px.scatter(X_resample, x='Mean Radius', y='Mean Concavity', color='Dig_resample', color_discrete_map=color_map)

In [None]:
# 각 그래프를 subplot 객체에 선언
fig = make_subplots(rows=1, cols=2, subplot_titles=('Source Data', 'UnderSample Data'))
for trace in fig1.data :
    fig.add_trace(trace, row=1, col=1)
for trace in fig2.data :
    fig.add_trace(trace, row=1, col=2)
fig.show()

In [None]:
# Edited Nearest Neighbors (ENN) : 많은 쪽의 클래스를 특정 K개 씩 묶어서 데이터를 삭제

from imblearn.under_sampling import EditedNearestNeighbours

In [None]:
sampling_model3 = EditedNearestNeighbours()
X_resample , Y_resample = sampling_model3.fit_resample(X,Y)
X_resample['Dig_resample'] = Y_resample

In [None]:
Y_resample.value_counts()

In [None]:
fig2 = px.scatter(X_resample, x='Mean Radius', y='Mean Concavity', color='Dig_resample', color_discrete_map=color_map)

In [None]:
# 각 그래프를 subplot 객체에 선언
fig = make_subplots(rows=1, cols=2, subplot_titles=('Source Data', 'UnderSample Data'))
for trace in fig1.data :
    fig.add_trace(trace, row=1, col=1)
for trace in fig2.data :
    fig.add_trace(trace, row=1, col=2)
fig.show()

- OverSampling
- Random Over Sampling : 적은 쪽 클래스의 데이터를 무작위로 생성하여 학습 (무작위 반복 학습)
- SMOTE (Synthetic Minority Over-sampling TechniquE) : 적은 쪽의 클래스 데이터를 특정 개수만큼 묶어서 데이터 사이의 가상선을 생성한 뒤, 가상 선위에 데이터를 생성
- ADASYN (Adaptive Synthetic Samplig) : SMOTE기법을 기반으로 더욱 사실적인 데이터를 생성하기 위해, Nosie 추가하여 데이터를 생성
- Combining Sampling : Under Sampling + Over Sampling 조합
  - SMOTE + Tomek : SMOTETomek
  - SMOTE + ENN : SMOTEENN

In [3]:
from imblearn.combine import SMOTEENN

In [None]:
sampling_model4 = SMOTEENN()
X_resample , Y_resample = sampling_model4.fit_resample(X,Y)
X_resample['Dig_resample'] = Y_resample
Y_resample.value_counts()

In [None]:
fig2 = px.scatter(X_resample, x='Mean Radius', y='Mean Concavity', color='Dig_resample', color_discrete_map=color_map)

fig = make_subplots(rows=1, cols=2, subplot_titles=('Source Data', 'UnderSample Data'))
for trace in fig1.data :
    fig.add_trace(trace, row=1, col=1)
for trace in fig2.data :
    fig.add_trace(trace, row=1, col=2)
fig.show()

In [10]:
# 정형외과 디스크 수술 후 환자 데이터 (수술 후 데이터)

df2 = pd.read_csv(r'C:\Users\UserK\Desktop\Ranee\data\ML\15_Data.csv')
print(df2.shape)
df2.head(2)

(1894, 16)


Unnamed: 0,Column 1,환자ID,수술기법,수술시간,수술실패여부,신장,연령,재발여부,체중,헤모글로빈수치,환자통증정도,통증기간(월),혈액형,수술일,입원일,퇴원일
0,989,990PT,TELD,50.0,0,171,37,0,68.0,15.1,7,16.0,RH+AB,2011-01-20,2011-01-20,2011-01-24
1,1019,1020PT,TELD,55.0,0,162,27,0,57.0,13.1,8,4.0,RH+O,2011-02-01,2011-02-01,2014-03-03


In [11]:
print(df2['재발여부'].isnull().sum())
df2['재발여부'].value_counts() # Y 데이터에 결측치는 반드시 제거

0


재발여부
0    1667
1     227
Name: count, dtype: int64

In [12]:
Y = df2['재발여부']
X = df2[['연령','체중','신장','수술기법','통증기간(월)','헤모글로빈수치']]

In [8]:
#!pip install --upgrade imblearn

In [13]:
from sklearn.model_selection import train_test_split
from imblearn.pipeline import make_pipeline # 파이프라인구성
from sklearn.impute import SimpleImputer # 결측값처리

from sklearn.compose import make_column_transformer # 숫자는 숫자끼리 문자는 문자끼리 분할 처리
from sklearn.preprocessing import MinMaxScaler # 최소값 0 / 최대값 1
from sklearn.preprocessing import OneHotEncoder # 문자는 숫자로 변환
from imblearn.combine import SMOTEENN # 불균형 데이터 처리
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV # 교차검증 및 매개변수 튜닝
from sklearn.metrics import classification_report

In [14]:
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, random_state = 1234)

In [15]:
# 숫자 항목과 문자 항목을 구분
numeric_list = X.describe().columns # 숫자 항목을 리스트로 변환
category_list = X.describe(include='object').columns # 문자 항목을 리스트로 변환

In [16]:
# 파이프라인 설계
numeric_pipe = make_pipeline(SimpleImputer(strategy='median'), MinMaxScaler())
category_pipe = make_pipeline(SimpleImputer(strategy='most_frequent'), OneHotEncoder())
prepro_pipe = make_column_transformer((numeric_pipe,numeric_list),
                                      (category_pipe, category_list))

In [18]:
model_pipe = make_pipeline(prepro_pipe, SMOTEENN(), DecisionTreeClassifier())
model_pipe.fit(X_train,Y_train)

In [19]:
# 교차 검증
grid_model = GridSearchCV(model_pipe, param_grid={}, cv=3 , scoring='f1', n_jobs=-1)
grid_model.fit(X_train,Y_train)

In [21]:
best_model = grid_model.best_estimator_

In [22]:
def eval_func1(best_model) :
  Y_train_pred = best_model.predict(X_train)
  Y_test_pred = best_model.predict(X_test)
  print('학습 성능')
  print(classification_report(Y_train,Y_train_pred))
  print('일반화 성능')
  print(classification_report(Y_test,Y_test_pred))


In [51]:
eval_func1(best_model)

학습 성능
              precision    recall  f1-score   support

           0       0.98      0.83      0.90      1247
           1       0.42      0.91      0.58       173

    accuracy                           0.84      1420
   macro avg       0.70      0.87      0.74      1420
weighted avg       0.92      0.84      0.86      1420

일반화 성능
              precision    recall  f1-score   support

           0       0.91      0.73      0.81       420
           1       0.17      0.43      0.24        54

    accuracy                           0.69       474
   macro avg       0.54      0.58      0.52       474
weighted avg       0.82      0.69      0.74       474



# 특성 추출 (Feature Selection)
- 변수(X)들의 부분집합을 선택하여 모델의 중요하지 않는 변수를 제거/ 모델의 복잡도가 감소하고 성능이 향상
- 차원의 저주 : 항목의 수(X)가 많을 때, 학습이 어려워지고 학습에 사용되는 자원이 많아져 학습의 성능이 저하되는 현상

In [52]:
from sklearn.feature_selection import SelectKBest # 특정 K 개만 X가 선택되어 학습 되도록
from sklearn.feature_selection import f_classif # F통계량을 집단 별로 계산

# ANOVA 분석의 F 통계량을 이용하여, 유의미한 X변수만 추출
# 같은 그룹내 분산이 작고, 다른 그룹 간의 분산이 거리가 큰 경우 해당하는 데이터를 찾아 변수를 선택

In [53]:
model_pipe2 = make_pipeline(prepro_pipe, SMOTEENN(), SelectKBest(f_classif,k=3), DecisionTreeClassifier())
model_pipe2.fit(X_train,Y_train)

In [54]:
# 변수선택법에 의해 선택된 3가지 X 집단을 확인
model_pipe2['selectkbest'].get_support()

array([ True,  True, False, False, False,  True, False])

In [55]:
model_pipe2['selectkbest'].get_support(indices=True) # 선택된 column의 번호가 출력

array([0, 1, 5])

In [56]:
col_list = model_pipe2['columntransformer'].get_feature_names_out() # 파이프라인에 의해 처리된 X변수 명이 순서대로 출력

In [57]:
# 파이프라인에서 구성된 X변수 이름에 번호를 부여하여, 선택된 Column 확인
col_dict = dict(zip( range(0, len(col_list)), col_list))

In [58]:
select_num = model_pipe2['selectkbest'].get_support(indices=True)
list(map(col_dict.get,select_num)) # 특성추출 함수에 의해 선택된 Column숫자 번호와, 파이프라인 내 Column이름을 맵핑

['pipeline-1__연령', 'pipeline-1__체중', 'pipeline-2__수술기법_IELD']

In [59]:
# 연속형 X 자료가 매우 많아 차원의 저주 현상 발생이 우려되는 경우 / 통계적으로 유의미한 X 값을 찾아 모델을 구성하고자 할 때

In [63]:
# X - 범주형 / Y - 범주형 : 두 범주형 항목이 서로 독립인지 아닌지 검정
# 귀무가설 : 두 범주형 항목이 서로 독립니다.
# 대립가설 : 두 번주형 항목은 서로 독립이 아니다. (두 데이터가 서로 연관성이 있다.)

pd.crosstab(df2['수술기법'],df2['수술실패여부'])

수술실패여부,0,1
수술기법,Unnamed: 1_level_1,Unnamed: 2_level_1
IELD,130,10
TELD,1571,102


In [62]:
# 귀무가설 : 수술 기법에 따라 수술실패여부는 서로 독립니다. (서로 연관성이 있다)
# 대립가설 : 수술 기법에 따라 서술실패여부는 서로 연관성이 있다. (수술기법에 따라 수술 실패여부가 달라진다)

c1 = pd.crosstab(df2['수술기법'],df2['수술실패여부'])
stats.chi2_contingency(c1) # pvalue (귀무가설이 참일 확률) > 0.05 / 귀무가설 참
# 수술 기법에 따라 수술실패여부는 서로 독립이다.
# expected_freq : 모집단을 추정한 추정치

Chi2ContingencyResult(statistic=0.09679763772663866, pvalue=0.755706974329543, dof=1, expected_freq=array([[ 131.35135135,    8.64864865],
       [1569.64864865,  103.35135135]]))