Рассмотрим задачу бинарной классификации. В этой задаче мы работаем с данными о мошенниках в банковской сфере.

В качестве признаков f1 и f2 даны нормализованные рейтинги каждого клиента, полученные от двух независимых скоринговых компаний.

Целевая переменная target — ответ, является клиент мошенником или нет. Если 0 — не мошенник, 1 — мошенник.

In [5]:
import pandas as pd

df = pd.read_csv("Example unbalanced.csv")
print(df.head())

X = df[['f1','f2']]
y = df['target']

         f1        f2  target
0  1.147058  1.047703       0
1  0.733064  0.497771       0
2  1.184146  1.630681       0
3  1.409791  1.738476       0
4  0.929529  0.581425       0


Посмотрим на количество объектов в каждом классе.

In [6]:
y.value_counts()

0    4724
1     276
Name: target, dtype: int64

Видим, что выборка сильно несбалансированная.

Разобъём выборку на тренировочную и тестовую части.

In [7]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25)

Обучим на тренировочных данных метод опорных векторов с параметрами по умолчанию, затем оценим качество на тестовой выборке.

In [8]:
from sklearn.svm import SVC

model = SVC()
model.fit(X_train, y_train)

pred_unb = model.predict(X_test)

In [9]:
from sklearn.metrics import classification_report

print(classification_report(y_test, pred_unb))

              precision    recall  f1-score   support

           0       0.98      1.00      0.99      1177
           1       1.00      0.67      0.80        73

    accuracy                           0.98      1250
   macro avg       0.99      0.84      0.90      1250
weighted avg       0.98      0.98      0.98      1250



Модель хорошо справилась с нахождением объектов большего класса, при этом она не очень хорошо находит мошенников (только 70% среди всех мошенников найдены).

Поставим параметр class_weight='balanced', тем самым заставляя модель обращать больше внимания на меньший класс.

In [10]:
model = SVC(class_weight='balanced')
model.fit(X_train, y_train)

pred_b = model.predict(X_test)

print(classification_report(y_test, pred_b))

              precision    recall  f1-score   support

           0       0.99      0.94      0.97      1177
           1       0.49      0.86      0.63        73

    accuracy                           0.94      1250
   macro avg       0.74      0.90      0.80      1250
weighted avg       0.96      0.94      0.95      1250



Видим, что модель гораздо лучше находит мошенников, если задать веса (найдено 86% мошенников). При этом качество модели остаётся почти таким же хорошим.