In [4]:
import pandas as pd

In [5]:
df = pd.read_csv('data.csv')
df.head()

Unnamed: 0,age,surgery_year,positive_nodes,target
0,30,1964,1,0
1,30,1962,3,0
2,30,1965,0,0
3,31,1959,2,0
4,31,1965,4,0


In [6]:
df.target.value_counts()

target
0    225
1     81
Name: count, dtype: int64

In [7]:
81/225 # степень дисбаланса

0.36

In [8]:
# отрицательный класс - мажорный, положительный - минорный

In [9]:
# train_test_split может создать неверные выборки( с разными дисбалансами)

In [10]:
# нужно контролировать, чтобы степень дисбаланса в тестовой и обучающей выборках совпадали

In [11]:
from sklearn.model_selection import train_test_split

df_train, df_test = train_test_split(df, stratify=df['target'], test_size=0.2, random_state=1)

In [12]:
# upsamepling - метод балансировки данных, в котором количество точек данных
# минорного класса повышаются до кол-ва точек мажорного класса путем дублирования
# точек минорного класса

In [13]:
from sklearn.utils import resample # случайные записи из датасэта

df_min = df_train[df_train.target == 1]
df_maj = df_train[df_train.target == 0]

df_min_upsample = resample(df_min, replace=True, n_samples = len(df_maj), random_state=1) # replace = True - параметр,
# говорит о том, что каждую запись датасэжта можно выбирать для апсемплинга больше 1 раза

print(df_min_upsample.shape)
print(df_maj.shape)

(179, 4)
(179, 4)


In [14]:
df_1 = pd.concat([df_min_upsample, df_maj], ignore_index=True).sample(frac=1.)
df_1

Unnamed: 0,age,surgery_year,positive_nodes,target
270,38,1966,0,0
208,41,1958,0,0
255,59,1967,3,0
39,57,1961,5,1
89,45,1967,1,1
...,...,...,...,...
323,64,1958,0,0
234,39,1959,2,0
254,43,1966,4,0
87,60,1965,0,1


In [15]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score

features = ['age', 'surgery_year', 'positive_nodes']
target = 'target'

X_train, y_train = df_1[features], df_1[target]
model = RandomForestClassifier(n_estimators=10, max_depth=3, random_state=1)
model.fit(X_train, y_train)

X_test, y_test = df_test[features], df_test[target]
print(roc_auc_score(y_test, model.predict_proba(X_test)[:,1]))

0.5747282608695652


In [16]:
# downsampling - уменьше кол-ва точек мажорного класса до минорного

In [17]:
df_maj_downsample = resample(df_maj, replace=False, n_samples = len(df_min), random_state=1) # replace = False - параметр,
# говорит о том, что каждую запись датасэжта нельзя выбирать для апсемплинга больше 1 раза

print(df_maj_downsample.shape)
print(df_min.shape)

(65, 4)
(65, 4)


In [18]:
df_2 = pd.concat([df_maj_downsample, df_min], ignore_index=True).sample(frac=1.)
df_2

Unnamed: 0,age,surgery_year,positive_nodes,target
34,73,1962,0,0
121,48,1958,11,1
51,60,1967,2,0
120,57,1964,1,1
97,63,1960,1,1
...,...,...,...,...
69,70,1958,4,1
44,42,1959,2,0
57,54,1959,7,0
126,56,1965,9,1


In [19]:
X_train, y_train = df_2[features], df_2[target]
model = RandomForestClassifier(n_estimators=10, max_depth=3, random_state=1)
model.fit(X_train, y_train)

X_test, y_test = df_test[features], df_test[target]
print(roc_auc_score(y_test, model.predict_proba(X_test)[:,1]))

0.5536684782608695


In [20]:
# upsampling - мы не добавляем новых данных, а прост копируем существующие
# поэтому, этим способом пользуется, когда дисбаланс не большой.

# при downsampling - мы выбрасываем часть данных, и распределение мажорного класса
# меняется. иногда становится лучше, иногда хуже ( на тестовых мб норм, а на реальных -
# -- намного хуже) из-за того, что в рез-те downsampling изменилось распределение
# обучающих и тестовых данных.

#  В итоге: этими способами пользуются на большом кол-ве данных и с низкой степенью
# дисбаланса. Тогда эти методы не сильно изменят распределение данных.

In [21]:
!pip install imbalanced-learn



In [22]:
df_train.shape

(244, 4)

In [23]:
df_test.shape

(62, 4)

In [24]:
from imblearn.over_sampling import SMOTE

In [25]:
os = SMOTE(random_state=1, k_neighbors=2)

features = ['age', 'surgery_year', 'positive_nodes']
target = 'target'

X_train, y_train = os.fit_resample(df_train[features], df_train[target])

In [26]:
y_train.value_counts()

target
0    179
1    179
Name: count, dtype: int64

In [27]:
model = RandomForestClassifier(n_estimators=10, max_depth=3, random_state=1)
model.fit(X_train, y_train)

X_test, y_test = df_test[features], df_test[target]
print(roc_auc_score(y_test, model.predict_proba(X_test)[:,1]))

0.6222826086956521


In [28]:
df_train[df_train['target'] == 0].shape

(179, 4)

In [29]:
df_train[df_train['target'] == 1].shape

(65, 4)

In [36]:
class_weights = {
    0:1,
    1:(df_train[df_train['target'] == 0].shape[0] / df_train[df_train['target'] == 1].shape[0])**3
}

In [37]:
features = ['age', 'surgery_year', 'positive_nodes']
target = 'target'

X_train, y_train = df_train[features], df_train[target]

model = RandomForestClassifier(n_estimators=10, max_depth=3, random_state=1, class_weight=class_weights)

model.fit(X_train, y_train)

X_test, y_test = df_test[features], df_test[target]
print(roc_auc_score(y_test, model.predict_proba(X_test)[:,1]))

0.6535326086956522


In [34]:
# получилось хуэе, надо пересчитать class_weight через sklearn

In [53]:
from sklearn.model_selection import StratifiedKFold

kf = StratifiedKFold(n_splits=3, shuffle=True, random_state=1)

models = []
metrics = []

features = ['age', 'surgery_year', 'positive_nodes']
target = 'target'
X, y = df[features], df[target]

for train_index, test_index in kf.split(X, y):
  X_train, y_train = X.values[train_index], y.values[train_index]
  X_test, y_test = X.values[test_index], y.values[test_index]

  model = RandomForestClassifier(n_estimators=10, max_depth=3, random_state=1, class_weight='balanced')

  model.fit(X_train, y_train)
  score = roc_auc_score(y_test, model.predict_proba(X_test)[:, 1])
  print(score)

  models.append(model)
  metrics.append(score)

0.5390123456790124
0.6222222222222221
0.7066666666666667


In [54]:
sum(metrics) / len(metrics)

0.622633744855967

In [55]:
models

[RandomForestClassifier(class_weight='balanced', max_depth=3, n_estimators=10,
                        random_state=1),
 RandomForestClassifier(class_weight='balanced', max_depth=3, n_estimators=10,
                        random_state=1),
 RandomForestClassifier(class_weight='balanced', max_depth=3, n_estimators=10,
                        random_state=1)]