# Задание
Напишите, какие вы знаете способы борьбы с несбалансированными классами и почему с ними нужно бороться, какие метрики вы будете использовать при оценке результатов. На примере датасета https://www.kaggle.com/mlg-ulb/creditcardfraud продемонстрируйте, как применять описанные вами методы и как они сказываются на результатах работы алгоритмов классификации.

In [108]:
# Загрузим данные в DataFrame
import pandas as pd
df = pd.read_csv('creditcard.csv')
df

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,...,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.166480,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,...,-0.225775,-0.638672,0.101288,-0.339846,0.167170,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.379780,-0.503198,1.800499,0.791461,0.247676,-1.514654,...,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,...,-0.108300,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.50,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,...,-0.009431,0.798278,-0.137458,0.141267,-0.206010,0.502292,0.219422,0.215153,69.99,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
284802,172786.0,-11.881118,10.071785,-9.834783,-2.066656,-5.364473,-2.606837,-4.918215,7.305334,1.914428,...,0.213454,0.111864,1.014480,-0.509348,1.436807,0.250034,0.943651,0.823731,0.77,0
284803,172787.0,-0.732789,-0.055080,2.035030,-0.738589,0.868229,1.058415,0.024330,0.294869,0.584800,...,0.214205,0.924384,0.012463,-1.016226,-0.606624,-0.395255,0.068472,-0.053527,24.79,0
284804,172788.0,1.919565,-0.301254,-3.249640,-0.557828,2.630515,3.031260,-0.296827,0.708417,0.432454,...,0.232045,0.578229,-0.037501,0.640134,0.265745,-0.087371,0.004455,-0.026561,67.88,0
284805,172788.0,-0.240440,0.530483,0.702510,0.689799,-0.377961,0.623708,-0.686180,0.679145,0.392087,...,0.265245,0.800049,-0.163298,0.123205,-0.569159,0.546668,0.108821,0.104533,10.00,0


# Проблема
Из 284,807 транзакций только 492 транзакции являются мошенническими (примерно 0.172%  из всех транзакций). Таким образом, мы имеем дело с очень сильно несбалансированными классами. 

# Дисбаланс классов
Явление, возникающее в задачах классификации, когда классы представлены неравно (объектов одного класса существенно меньше, чем объектов другого класса). Для того, чтобы классы считались сбалансированными, одного из классов должно быть не меньше 10%. 

Неспособность это учесть пораждает неточности в предсказаниях и снижает эффективность множества алгоритмов классификации. А также создаёт сложности при проведении кросс-валидации модели, поскольку необходимо  проводить стратификацию (следить за сохранением пропорций классов при создании подмножеств). 

В нашем случае, при такой балансировке классов, алгоритм будет стремиться определить каждую транзакцию как "честную".

# Способы решения проблемы
1. Ресемплинг - ручная балансировка, путем сокращения преобладающего класса или расширения меньшего класса.
2. Взвешивание классов (при составлении функции потерь элементы меньшего класса будут включаться с определенным весом).
3. Применение устойчивых к дисбалансу алгоритмов (градиентный бустинг, вероятностные алгоритмы, случайный лес).

Источники:
- https://habr.com/ru/post/349078/
- https://towardsdatascience.com/practical-tips-for-class-imbalance-in-binary-classification-6ee29bcdb8a7

# Метрики для оценки классификаторов
Введем некоторые обозначения:
- TP = True Positive. Мошенническая транзакция предсказана как мошенническая.
- TN = True Negative. Честная транзакция предсказана как честная.
- FP = False Positive. Честная транзакция предсказана как мошенническая.
- FN = False Negative. Мошенническая транзакция предсказана как честная.

## Аккуратность (Accuracy)
Соотношение верных предсказаний ко всем предсказаниям.
 
$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$

На сбалансированных классах метрика даёт хорошие результаты,но в нашем случае результаты будут необъективными. Если положить, что все рассматриваемые транзакции честные ("наивный" классификатор), то точность будет следующей:

$Accuracy = \frac{0 + TN}{0 + TN + 0 + FN} = \frac{284,807 - 492}{284,807 - 492 + 492} = 99.8$% 

## Полнота (Recall)
Показывает соотношение, которое определяет долю правильно распознанных мошеннических транзакций.

$Recall = \frac{TP}{TP + FN}$

## Точность (Precision)
Отвечает на вопрос, какая доля из предсказанных мошеннических транзакций действительно является мошенническими.

$Recall = \frac{TP}{TP + FP}$

## F1-мера (F1 Score)
Собирает в единую метрику полноту и точность как гармоническое среднее этих величин. 

$F1 Score = 2\frac{Recall*Precision}{Recall + Precision}$

Источники:
- https://medium.com/thalus-ai/performance-metrics-for-classification-problems-in-machine-learning-part-i-b085d432082b


In [109]:
# Разработаем функцию для тестирования моделей
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, recall_score, f1_score, precision_score
def test_model(learner, X_train, X_test, Y_train, Y_test):
    # Проводить разбиение на тестовое и обучающее подмножество будем с учетом баланса классов
    learner = learner.fit(X_train, Y_train)
    predictions_test = learner.predict(X_test)

    results = {}
    results["accuracy"] = accuracy_score(Y_test, predictions_test)
    results["precision"] = precision_score(Y_test, predictions_test)
    results["recall"] = recall_score(Y_test, predictions_test)
    results["f1"] = f1_score(Y_test, predictions_test)

    return results

In [110]:
class_raw = df["Class"]
features_raw = df.drop("Class", axis=1)

In [111]:
X_train, X_test, Y_train, Y_test = train_test_split(features_raw, class_raw, test_size=0.2, stratify=class_raw)

## Протестируем несколько моделей без изменения исходных данных

In [112]:
# Логистическая регрессия
from sklearn.linear_model import LogisticRegression
clf_A = LogisticRegression()
test_model(clf_A, X_train, X_test, Y_train, Y_test)

{'accuracy': 0.9990871107053826,
 'precision': 0.7555555555555555,
 'recall': 0.6938775510204082,
 'f1': 0.723404255319149}

Пропускается около 30% моошеннических транзакций, но точность их выявления достаточно высока (мало ложных срабатываний на честных транзакциях).

## Используем алгоритмы, устойчивые к дисбалансу классов

In [113]:
from sklearn.ensemble import RandomForestClassifier
clf_D = RandomForestClassifier()
test_model(clf_D, X_train, X_test, Y_train, Y_test)

{'accuracy': 0.9995962220427653,
 'precision': 0.9629629629629629,
 'recall': 0.7959183673469388,
 'f1': 0.871508379888268}

Случайный лес показывает очень хорошие результаты. Большинство мошеннических транзакций выявлено правильно, а также честные транзакции определяются мошенническими очень редко.

In [114]:
from sklearn.ensemble import GradientBoostingClassifier
clf_B = GradientBoostingClassifier()
test_model(clf_B, X_train, X_test, Y_train, Y_test)

{'accuracy': 0.9989817773252344,
 'precision': 0.8448275862068966,
 'recall': 0.5,
 'f1': 0.6282051282051282}

Модель определяет около половины мошеннических транзакций правильно, а также редко помечает честные транзакции мошенническими.

In [115]:
from sklearn.naive_bayes import GaussianNB
clf_C = GaussianNB()
test_model(clf_C, X_train, X_test, Y_train, Y_test)

{'accuracy': 0.9929777746567887,
 'precision': 0.16294642857142858,
 'recall': 0.7448979591836735,
 'f1': 0.2673992673992674}

Мошеннические транзакции выявляются очень часто, но при этом очень много честных транзакций помечается мошенническими.

## Проведем взвешивание классов (в тех моделях, где это возможно)

In [116]:
# Логистическая регрессия
from sklearn.linear_model import LogisticRegression
clf_A = LogisticRegression(class_weight = 'balanced')
test_model(clf_A, X_train, X_test, Y_train, Y_test)

{'accuracy': 0.9775288789017239,
 'precision': 0.06671554252199413,
 'recall': 0.9285714285714286,
 'f1': 0.12448700410396717}

При взвешивании значительно улучшилась полнота модели (около 23%), но сильно ухудшилась точность модели (примерно на 70%).

In [117]:
from sklearn.ensemble import RandomForestClassifier
clf_D = RandomForestClassifier(class_weight = 'balanced')
test_model(clf_D, X_train, X_test, Y_train, Y_test)

{'accuracy': 0.9995611109160493,
 'precision': 0.9506172839506173,
 'recall': 0.7857142857142857,
 'f1': 0.8603351955307262}

Взвешивание класса существенно не повлияло на эффективность модели.

# OverSampling и UnderSampling

## Проведем oversampling
С помощью дублирования сравняем количество мошеннических и честных транзакций. 

In [128]:
from sklearn.utils import resample
# Соберем в тренировочные данные в одну таблицу
X = pd.concat([X_train, Y_train], axis=1)
# Разделим честные и мошеннические транзакции
not_fraud = X[X["Class"]==0]
fraud = X[X["Class"]==1]
# Увеличим число мошеннических транзакций до числа честных 
fraud_upsampled = resample(fraud, replace=True,
n_samples=len(not_fraud))
# Объединим результат в единую таблицу
upsampled = pd.concat([not_fraud, fraud_upsampled])
upsampled.Class.value_counts()

1    227451
0    227451
Name: Class, dtype: int64

In [132]:
# Получим множества для обучения моделей
Y_train_upsampled = upsampled["Class"]
X_train_upsampled = upsampled.drop("Class", axis=1)

In [133]:
# Логистическая регрессия
from sklearn.linear_model import LogisticRegression
clf_A_upsampled = LogisticRegression()
test_model(clf_A_upsampled, X_train_upsampled, X_test, Y_train_upsampled, Y_test)

{'accuracy': 0.9747902110178716,
 'precision': 0.05812417437252312,
 'recall': 0.8979591836734694,
 'f1': 0.10918114143920594}

Получили практически такой же результат, как и при взвешивании классов. Мошеннических транзакций выявляется очень много, но алгоритм слишком часто классифицирует честные транзакции как мошеннические.

In [135]:
from sklearn.ensemble import RandomForestClassifier
clf_D_upsampled = RandomForestClassifier()
test_model(clf_D_upsampled, X_train_upsampled, X_test, Y_train_upsampled, Y_test)

{'accuracy': 0.9996313331694814,
 'precision': 0.9529411764705882,
 'recall': 0.826530612244898,
 'f1': 0.8852459016393441}

Эффективность модели была немного улучшена при сравнении с результатами, полученными при простом применении модели и взвешивании классов. Возросла полнота модели (около 4%) при сохранении уровня точности (мошеннических транзакций выявилось больше).

In [136]:
from sklearn.ensemble import GradientBoostingClassifier
clf_B_upsampled = GradientBoostingClassifier()
test_model(clf_B_upsampled, X_train_upsampled, X_test, Y_train_upsampled, Y_test)

{'accuracy': 0.9943646641620729,
 'precision': 0.21914357682619648,
 'recall': 0.8877551020408163,
 'f1': 0.3515151515151515}

Получили значительное улучшение полноты модели (почти на 40%) при серьезном снижении точности.

## Проведем undersampling

In [137]:
not_fraud_downsampled = resample(not_fraud, replace=False, n_samples = len(fraud))
downsampled = pd.concat([not_fraud_downsampled, fraud])
downsampled.Class.value_counts()

1    394
0    394
Name: Class, dtype: int64

In [138]:
Y_train_downsampled = downsampled["Class"]
X_train_downsampled = downsampled.drop("Class", axis=1)

In [139]:
# Логистическая регрессия
from sklearn.linear_model import LogisticRegression
clf_A_downsampled = LogisticRegression()
test_model(clf_A_downsampled, X_train_downsampled, X_test, Y_train_downsampled, Y_test)

{'accuracy': 0.9777219900986622,
 'precision': 0.06533036377134373,
 'recall': 0.8979591836734694,
 'f1': 0.12179930795847752}

Эффективность модели практически такая же, как при взвешивании класса и oversampling'е.

In [140]:
from sklearn.ensemble import RandomForestClassifier
clf_D_downsampled = RandomForestClassifier()
test_model(clf_D_downsampled, X_train_downsampled, X_test, Y_train_downsampled, Y_test)

{'accuracy': 0.9755802113689829,
 'precision': 0.059904697072838665,
 'recall': 0.8979591836734694,
 'f1': 0.11231652839821316}

По сравнению с oversempling'ом примерно на 7% выросла полнота, но точность уменьшилась на 90%.

In [141]:
from sklearn.ensemble import GradientBoostingClassifier
clf_B_downsampled = GradientBoostingClassifier()
test_model(clf_B_downsampled, X_train_downsampled, X_test, Y_train_downsampled, Y_test)

{'accuracy': 0.9558126470278431,
 'precision': 0.03462870334744132,
 'recall': 0.9183673469387755,
 'f1': 0.06674082313681869}

По сравнению с oversempling'ом примерно на 3% выросла полнота, но точность уменьшилась на 18%.

# Выводы
- В результате проведенного исследования можно сказать, что наилучшим образом подходит модель Random Forest с применением к обучающим данным oversampling'a. Полнота модели 83%, точность 95%. 
- Также были обнаружены модели, полнота которых около 90%, но точность при этом катастрофически низкая (в лучшем случае 20%).

In [142]:
!!jupyter nbconvert *.ipynb

['[NbConvertApp] Converting notebook Task.ipynb to html',
 '[NbConvertApp] Writing 323956 bytes to Task.html']