# Credit Card Fraud Detection

[Anonymized credit card transactions labeled as fraudulent or genuine](https://www.kaggle.com/mlg-ulb/creditcardfraud).

## Config

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from plotting import multiple_histograms_plot

from sklearn.model_selection import train_test_split

In [2]:
%matplotlib inline

In [3]:
# exibe todas as colunas do DataFrame
pd.options.display.max_columns = 35

# deixa de utilizar a notação científica
pd.options.display.float_format = lambda x: '%.2f' % x

## Preparação do dataset

In [4]:
df = pd.read_csv('../data/creditcard.csv')

In [None]:
# imprima as colunas do dataframe
<code>

É importante já separarmos o dataset de teste, assim garantimos que não iremos tocar nele. Até para a análise dos dados isso pode ser importante, já que nos impede de tomar decisões de feature engineering baseadas nesses dados.

Aqui vale frisar também que a função `train_test_split` já tem os parâmetros `shuffle` e `stratify` com valores `True` por padrão, caso contrário teríamos que setá-los explicitamente.

In [None]:
<code>

In [None]:
# qual é o tamanho dos datasets de treino e teste?
<code>

Vamos juntar as features com o target para analisá-los em um dataframe de treino unificado.

In [None]:
<code>

## Análise Exploratória

In [None]:
# imprima alguns exemplos do dataset
<code>

In [None]:
# imprima os tipos de cada coluna com o método 'info'

In [None]:
<code>

Já que a maioria das features foram geradas com PCA, a correlação entre elas será baixa.
Vamos então analisar a correlação das features com o target `Class`.

Enquanto as features são contínuas, o target é binário. Para correlação entre uma variável contínua e uma binária, utilizaremos o coeficiente de correlação [Ponto Biserial](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.pointbiserialr.html), que é equivalente à correlação de Pearson.

In [None]:
<code>


### Class

In [None]:
# o target é balanceado ou desbalanceado?
<code>

### Time

In [None]:
# será que a coluna 'Time' poderia ser convertida para 'int'?
<code>

In [None]:
# conseguimos quebrar a coluna 'Time' em 24 bins
# assim, cada bin representaria 2 horas cada
<code>

In [None]:
# vamos usar a função 'multiple_histograms_plot' na coluna 'Time'
# com os bins criados acima e com hue na coluna 'Class'
# assim poderemos tentar encontrar algum padrão de horário nos dados
<code>

In [None]:
# conseguimos bolar algo de feature engineering com base nos insights acima?

### Amount

In [None]:
# como é a coluna 'Amount'?
<code>

In [None]:
# temos outliers? vale a pena filtrá-los para melhor visualizar os dados?
<code>

In [None]:
# como é a distribuição de 'Amount'? 
# sugere alguma transformação de feature engineering?
<code>

In [None]:
# existem alguns valores de 'Amount' muito mais recorrentes do que outros?
# se tivesse, teria algo a ver com as fraudes?
<code>

### Features anonimizadas

In [None]:
# poupa-tempo :)

bins_list = [
    np.arange(-35, 10, 2.5), #v1
    np.arange(-10, 25, 2.5), #v2
    np.arange(-35, 10, 2.5), #v3
    np.arange(-6, 14, 1), #v4
    np.arange(-25, 12, 2), #v5
    np.arange(-7.5, 8.5, 1), #v6
    np.arange(-35, 11, 2), #v7
    np.arange(-45, 25, 2), #v8
    np.arange(-15, 8, 1), #v9
    np.arange(-25, 15, 2), #v10
    np.arange(-4, 14, 1), #v11
    np.arange(-20, 6, 2), #v12
    np.arange(-4, 5, 1), #v13
    np.arange(-20, 7.5, 1.25), #v14
    np.arange(-5, 5, 1), #v15
    np.arange(-15, 7.5, 1.25), #v16
    np.arange(-26, 7, 0.5), #v17
    np.arange(-10, 4, 1), #v18
    np.arange(-4, 6, 1), #v19
    np.arange(-4, 8.5, 0.5), #v20
    np.arange(-25, 30, 1), #v21
    np.arange(-10, 10, 0.5), #v22
    np.arange(-5, 7, 0.25), #v23
    np.arange(-2.5, 2, 0.25), #v24
    np.arange(-5, 2.5, 0.5), #v25
    np.arange(-1.5, 3, 0.25), #v26
    np.arange(-8, 4, 0.25), #v27
    np.arange(-1.8, 2.5, 0.1), #v28
]

for var, bins in zip(range(1, len(bins_list)+1), bins_list):
    multiple_histograms_plot(df_train, x=f'V{var}', hue='Class',
                             bins=bins, density=True,
                             title=f"Distribuições de 'V{var}', "
                                    "segmentadas por 'Class' e normalizadas")

Podemos ver acima que algumas variáveis parecem ter mais poder preditivo do que outras.

Vamos seguir para a modelagem.

## Pipeline de pré-processamento

Antes de treinar o modelo e fazer predições, se tivermos criado alguma transformação de feature engineering na seção anterior, precisamos aplicar nos dados que serão usados no notebook de treinamento.

Obs.: como nós fizemos os testes em `df_train`, `X_train` não foi modificado e também precisará passar pelo pré-processador.

In [None]:
<code>

Agora vamos re-criar `df_train` e `df_test` e salvá-los.

In [None]:
df_train = pd.concat([X_train, y_train], axis='columns')
df_test = pd.concat([X_test, y_test], axis='columns')

In [None]:
df_train.head()

In [None]:
df_train.to_csv('../data/train.csv', index=False)
df_test.to_csv('../data/test.csv', index=False)