# Dados Desbalanceados
Usar o dataset de fraud (creditcard.csv)

Dataset disponivel na aula 8.

Criar um modelo preditivo que preveja fraude.

A fraude é bastante rara.

Use regressão logistica.

Treine o modelo e calcule as métricas:
f1, precisão, recall, auc.

Agora pegue os casos de fraude e repita-os varias vezes (aumente a quantidade de treinamento para casos de fraude) e retreine o modelo.

Por exemplo. Temos 1000 contratos normais e 10 fraudes, repita os contratos de fraude 30 vezes e teremos os mesmos 1000

As métricas mudaram? Pq?

Isso é o inicio da intuição de trabalhar com datasets desbalanceados e repetir a amostra varias vezes é uma tecnica (estupida) de oversampling.

Outra possibilidade é diminuirmos a quantidade de amostras de não fraude para um número mais próximo do número de fraudes, essa técnica chamamos de undersampling.

O que acontece com as métricas?


Vamos usar uma técnica mais avançada agora. Primeiro vamos fazer um oversampling com uma técnica chamada SMOTE do pacote [imbalanced-learn](https://github.com/scikit-learn-contrib/imbalanced-learn), que é uma extenção do nosso scikit-learn para datasets desbalanceados. Depois de fazer o tal oversampling vamos fazer um undersampling (OVERSAMPLING -> UNDERSAMPLING) e analisar as métricas.

In [2]:
import pandas as pd

In [3]:
from sklearn.linear_model import LogisticRegression

In [4]:
from sklearn.model_selection import cross_val_score

In [5]:
df = pd.read_csv('creditcard.csv')

In [6]:
df.Class.value_counts(normalize=True)

0    0.998273
1    0.001727
Name: Class, dtype: float64

In [7]:
df.Class.value_counts(normalize=False)

0    284315
1       492
Name: Class, dtype: int64

In [8]:
lr = LogisticRegression()

In [17]:
metrics = ['roc_auc', 'precision', 'recall', 'f1']

metricas = []
for metric in metrics:
    metrica = cross_val_score(lr,
                              df.drop('Class', axis=1),
                              df['Class'],
                              scoring = metric,
                              cv=3)
    
    metricas.append([metric, metrica.mean()])
    
pd.DataFrame(metricas)

Unnamed: 0,0,1
0,roc_auc,0.952286
1,precision,0.674979
2,recall,0.538618
3,f1,0.428367


In [9]:
df_copy = df.copy(deep=True)

In [10]:
frauds = df[df['Class']==1]

In [11]:
frauds.shape

(492, 31)

In [20]:
for i in range(2):
    frauds = pd.concat([frauds,
                        frauds])

In [21]:
frauds.shape

(503808, 31)

In [22]:
frauds2 = frauds.sample(df.shape[0])

In [23]:
frauds2.shape

(284807, 31)

In [25]:
df_nao_fraude = df[df.Class!=1]

In [27]:
newdf = pd.concat([frauds2,df_nao_fraude])

In [31]:
metrica = cross_val_score(lr,
                          newdf.drop('Class', axis=1),
                          newdf['Class'],
                          scoring = 'roc_auc',
                          cv=3)

metrica.mean()

0.9609284214982988

In [38]:
df_fraud = df_copy[df_copy['Class']==1]
df_nao_fraud = df_copy[df_copy['Class']==0].sample(df_fraud.shape[0]*10)

print(df_fraud.shape)
print(df_nao_fraud.shape)

(492, 31)
(4920, 31)


In [39]:
newdf = pd.concat([df_fraud, df_nao_fraud])

In [55]:
metrica = cross_val_score(lr,
                          newdf.drop('Class', axis=1),
                          newdf['Class'],
                          scoring = 'roc_auc',
                          cv=3)
metrica.mean()

0.8424499305968669

In [43]:
!pip install imblearn



In [47]:
import numpy as np

In [49]:
np.array([1,2,3,4,5])

array([1, 2, 3, 4, 5])

In [51]:
x = df_copy.drop('Class', axis=1)
y = df_copy['Class']

print(x.shape, y.shape)

(284807, 30) (284807,)


In [52]:
from imblearn.over_sampling import SMOTE
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, precision_recall_curve, auc, roc_auc_score, roc_curve, recall_score, classification_report

print("Before OverSampling, counts of label '1': {}".format(sum(y==1)))
print("Before OverSampling, counts of label '0': {} \n".format(sum(y==0)))

sm = SMOTE(random_state=2)

X_train_res, y_train_res = sm.fit_sample(x, y)

print('After OverSampling, the shape of train_X: {}'.format(X_train_res.shape))
print('After OverSampling, the shape of train_y: {} \n'.format(y_train_res.shape))

print("After OverSampling, counts of label '1': {}".format(sum(y_train_res==1)))
print("After OverSampling, counts of label '0': {}".format(sum(y_train_res==0)))

Before OverSampling, counts of label '1': 492
Before OverSampling, counts of label '0': 284315 

After OverSampling, the shape of train_X: (568630, 30)
After OverSampling, the shape of train_y: (568630,) 

After OverSampling, counts of label '1': 284315
After OverSampling, counts of label '0': 284315


In [56]:
metrica = cross_val_score(lr,
                          X_train_res,
                          y_train_res,
                          scoring = 'roc_auc',
                          cv=10)
metrica.mean()

0.9876616098992184