In [1]:
# 사용할 데이터 import

import numpy as np
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.linear_model import LogisticRegression
from sklearn.pipeline import make_pipeline
from sklearn.model_selection import train_test_split

df = pd.read_csv('https://archive.ics.uci.edu/ml/'
                 'machine-learning-databases'
                 '/breast-cancer-wisconsin/wdbc.data', header=None)
X = df.loc[:, 2:].values
y = df.loc[:, 1].values
le = LabelEncoder()
y = le.fit_transform(y) # 문자열을 정수로 인코딩

X_imb = np.vstack((X[y == 0], X[y == 1][:40]))
y_imb = np.hstack((y[y == 0], y[y == 1][:40]))
y_pred = np.zeros(y_imb.shape[0])
np.mean(y_pred == y_imb) * 100

89.92443324937027

In [2]:
# 불균형 데이터에 대해서는 정확도 외 정밀도, 재현율, ROC curve 등을 사용하는 것이 더 좋음
## 정밀도(PRE) = 옳게분류된 양성샘플 / 양성으로분류한 샘플
## 재현율(REC) = TPR
## F1-score = PRE와 REC를 조합한 점수 = 2*PRE*REC/(PRE+REC)

# 모델 훈련시 불균형 클래스를 다루는 방법 (1)
## 소수 클래스에서 발생한 예측 오류에 큰 가중치(벌칙) 부여
## sklearn 분류기의 매개변수 class_weight = 'balanced'로 설정

# 모델 훈련시 불균형 클래스를 다루는 방법 (2)
## 데이터셋에서 중복을 허용한 샘플 추출하여 불균형 클래스의 비율을 맞춤
## 소수 클래스의 샘플을 늘리거나(umsampling) 다수 클래스 샘플을 삭제(downsampling)

In [4]:
# upsampling

from sklearn.utils import resample

print('샘플링하기 전의 클래스 1의 샘플 개수:', X_imb[y_imb == 1].shape[0])

X_upsampled, y_upsampled = resample(X_imb[y_imb == 1],
                                    y_imb[y_imb == 1],
                                    replace=True,
                                    n_samples=X_imb[y_imb == 0].shape[0],
                                    random_state=123)

print('샘플링한 후의 클래스 1의 샘플 개수:', X_upsampled.shape[0])

샘플링하기 전의 클래스 1의 샘플 개수: 40
샘플링한 후의 클래스 1의 샘플 개수: 357


In [5]:
# downsampling

from sklearn.utils import resample

print('샘플링하기 전의 클래스 0의 샘플 개수:', X_imb[y_imb == 0].shape[0])

X_downsampled, y_downsampled = resample(X_imb[y_imb == 0],
                                    y_imb[y_imb == 0],
                                    replace=True,
                                    n_samples=X_imb[y_imb == 1].shape[0],
                                    random_state=123)

print('샘플링한 후의 클래스 0의 샘플 개수:', X_downsampled.shape[0])

샘플링하기 전의 클래스 0의 샘플 개수: 357
샘플링한 후의 클래스 0의 샘플 개수: 40
