In [1]:
from sklearn.datasets import make_classification

X, y = make_classification(n_samples=10000, n_features=2, n_redundant=0, n_clusters_per_class=1, weights=[0.99], flip_y=0, random_state=1)

In [2]:
# 무작위로 소수 클래스의 데이터를 복제하여 늘리는 방식
# 정보가 손실되지 않으나 과적합이 될 수 있음
from imblearn.over_sampling import RandomOverSampler
import pandas as pd

X_sample, y_sample = RandomOverSampler(random_state=0).fit_resample(X, y)
X_samp = pd.DataFrame(data=X_sample,columns=['a','b'] )
y_samp = pd.DataFrame(data=y_sample,columns=['y'])
y_samp.y.value_counts()

0    9900
1    9900
Name: y, dtype: int64

In [3]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report

X_train, X_test, y_train, y_test = train_test_split(X_samp, y_samp, test_size=0.2, stratify=y_samp, random_state=10)
model1 = LogisticRegression(random_state=42)
model1.fit(X_train, y_train)
print("학습용:", model1.score(X_train, y_train))
print("검증용:", model1.score(X_test, y_test))

pred1 = model1.predict(X_test)
print(classification_report(y_test, pred1))

학습용: 0.8955176767676768
검증용: 0.8987373737373737
              precision    recall  f1-score   support

           0       0.89      0.91      0.90      1980
           1       0.91      0.88      0.90      1980

    accuracy                           0.90      3960
   macro avg       0.90      0.90      0.90      3960
weighted avg       0.90      0.90      0.90      3960



  y = column_or_1d(y, warn=True)


In [4]:
# ADASYN(Adaptive Synthetic Sampling)
# 소수 클래스 데이터와 그 데이터에서 가장 가까운 k개의 소수 클래스 데이터 중
# 무작위로 선택된 데이터 사이의 직선상에 가상의 소수 클래스 데이터를 만드는 방법
from imblearn.over_sampling import ADASYN

X_sample, y_sample = ADASYN(random_state=0).fit_resample(X, y)
X_samp = pd.DataFrame(data=X_sample,columns=['a','b'] )
y_samp = pd.DataFrame(data=y_sample,columns=['y'])
y_samp.y.value_counts()

0    9900
1    9899
Name: y, dtype: int64

In [5]:
X_train, X_test, y_train, y_test = train_test_split(X_samp, y_samp, test_size=0.2, stratify=y_samp, random_state=10)
model2 = LogisticRegression(random_state=42)
model2.fit(X_train, y_train)
print("학습용:", model2.score(X_train, y_train))
print("검증용:", model2.score(X_test, y_test))

pred2 = model2.predict(X_test)
print(classification_report(y_test, pred2))

  y = column_or_1d(y, warn=True)


학습용: 0.8391943935854537
검증용: 0.8424242424242424
              precision    recall  f1-score   support

           0       0.83      0.86      0.84      1980
           1       0.85      0.83      0.84      1980

    accuracy                           0.84      3960
   macro avg       0.84      0.84      0.84      3960
weighted avg       0.84      0.84      0.84      3960



In [6]:
# SMOTE(Synthetic Minority Over-sampling Technique) : 가장 많이 사용되고 있는 방식
# 소수 클래스의 샘플의 k 최근접 이웃을 찾는다.
# 현재 샘플과 k개 이웃 간의 거리를 구하고
# 거리에 0 ~ 1 사이의 임의의 값을 곱하여 소수 클래스의 샘플에 추가
# 결과적으로 소수 클래스의 샘플을 주변의 이웃을 고려해 약간씩 이동시킨 포인트들을 추가하는 방식
from imblearn.over_sampling import SMOTE

X_sample, y_sample = SMOTE(random_state=0).fit_resample(X, y)
X_samp = pd.DataFrame(data=X_sample,columns=['a','b'] )
y_samp = pd.DataFrame(data=y_sample,columns=['y'])
y_samp.y.value_counts()

0    9900
1    9900
Name: y, dtype: int64

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X_samp, y_samp, test_size=0.2, stratify=y_samp, random_state=10)
model3 = LogisticRegression(random_state=42)
model3.fit(X_train, y_train)
print("학습용:", model3.score(X_train, y_train))
print("검증용:", model3.score(X_test, y_test))

pred3 = model3.predict(X_test)
print(classification_report(y_test, pred3))

학습용: 0.9096590909090909
검증용: 0.9085858585858586
              precision    recall  f1-score   support

           0       0.90      0.92      0.91      1980
           1       0.92      0.89      0.91      1980

    accuracy                           0.91      3960
   macro avg       0.91      0.91      0.91      3960
weighted avg       0.91      0.91      0.91      3960



  y = column_or_1d(y, warn=True)
