In [1]:
from sklearn.datasets import make_classification

X,y=make_classification(n_samples=10000, n_features=2, n_redundant=0, n_clusters_per_class=1,
weights=[0.99], flip_y=0, random_state=1)

In [11]:
# 1. 무작위로 소수 클래스의 데이터를 복제하여 늘리는 방식
#   정보가 손실되지 않으나 과적합이 될 수 있음
from imblearn.over_sampling import RandomOverSampler
import pandas as pd

X_sample, y_sample=RandomOverSampler(random_state=0).fit_resample(X,y)

X_samp=pd.DataFrame(data=X_sample,columns=['a','b'])
y_samp=pd.DataFrame(data=y_sample,columns=['y'])
y_samp.y.value_counts()

0    9900
1    9900
Name: y, dtype: int64

In [16]:
# ADASYN(Adaptive Synthetic Sampling)
# 2. 소수 클래스 데이터와 그 데이터에서 가장 가까운 n개의 소수 클래스 데이터 중
#   무작위로 선택된 데이터 사이의 직선 상에 가상의 소수 클래스 데이터를 만드는 방법
from imblearn.over_sampling import ADASYN
import pandas as pd

X_sample, y_sample=ADASYN(random_state=0).fit_resample(X,y)

X_samp=pd.DataFrame(data=X_sample,columns=['a','b'])
y_samp=pd.DataFrame(data=y_sample,columns=['y'])
y_samp.y.value_counts()

0    9900
1    9899
Name: y, dtype: int64

In [21]:
# 3. SMOTE(Synthetic Minority Over-sampling Technique) : 가장 많이 사용되는 방식
# 소수 클래스의 샘플의 k 최근접 이웃을 찾는다.
# 현재 샘플과 k개 이웃 간의 거리를 구하고 거리가 0~1 사이의 임의의 값을 곱하여
# 소수 클래스의 샘플에 추가, 결과적으로 소수 클래스의 샘플을 주변의 이웃을 고려해 약간씩
# 이동시킨 포인트들을 추가하는 방식
from imblearn.over_sampling import SMOTE
import pandas as pd

X_sample, y_sample=SMOTE(random_state=0).fit_resample(X,y)

X_samp=pd.DataFrame(data=X_sample,columns=['a','b'])
y_samp=pd.DataFrame(data=y_sample,columns=['y'])
y_samp.y.value_counts()

0    9900
1    9900
Name: y, dtype: int64

In [22]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test=train_test_split(X_samp, y_samp, test_size=0.2, stratify=y_samp, random_state=10)

model1=LogisticRegression(random_state=42)
model1.fit(X_train, y_train)

  return f(*args, **kwargs)


LogisticRegression(random_state=42)

In [23]:
print("학습용 :",model1.score(X_train, y_train))
print("검증용 :",model1.score(X_test, y_test))

학습용 : 0.9096590909090909
검증용 : 0.9085858585858586


In [24]:
from sklearn.metrics import confusion_matrix

pred1=model1.predict(X_test)
cm=confusion_matrix(y_test, pred1)
cm

array([[1830,  150],
       [ 212, 1768]], dtype=int64)

In [25]:
from sklearn.metrics import classification_report
print(classification_report(y_test,pred1))

              precision    recall  f1-score   support

           0       0.90      0.92      0.91      1980
           1       0.92      0.89      0.91      1980

    accuracy                           0.91      3960
   macro avg       0.91      0.91      0.91      3960
weighted avg       0.91      0.91      0.91      3960

