step - mapeia uma unidade de tempo no mundo real. Neste caso, 1 passo equivale a 1 hora. Total de passos 744 (simulação de 30 dias).

tipo - CASH-IN, CASH-OUT, DÉBITO, PAGAMENTO e TRANSFERÊNCIA.

montante - valor da transação em moeda local.

nameOrig – cliente que iniciou a transação

oldbalanceOrg - saldo inicial antes da transação

newbalanceOrig - novo saldo após a transação

nameDest - cliente que é o destinatário da transação

oldbalanceDest - destinatário do saldo inicial antes da transação. Observe que não há informações para clientes que iniciam com M (Comerciantes).

newbalanceDest - novo destinatário do saldo após a transação. Observe que não há informações para clientes que iniciam com M (Comerciantes).

isFraud - São as transações realizadas pelos agentes fraudulentos dentro da simulação. Neste conjunto de dados específico, o comportamento fraudulento dos agentes visa lucrar assumindo o controle das contas dos clientes e tentando esvaziar os fundos transferindo para outra conta e depois sacando do sistema.

isFlaggedFraud – O modelo de negócios visa controlar transferências massivas de uma conta para outra e sinalizar tentativas ilegais. Uma tentativa ilegal neste conjunto de dados é uma tentativa de transferir mais de 200.000 em uma única transação.

In [17]:
# Basic Tools
import numpy as np
import pandas as pd
from datetime import datetime as dt


# File/ OS Tools
import os
import sys
from watermark import watermark

In [18]:
data_raw = pd.read_csv('../data/raw/data_raw.csv',low_memory=False)
data = data_raw.copy()

# Missing Data

In [33]:
data.isna().sum()

step              0
type              0
amount            0
nameOrig          0
oldbalanceOrg     0
newbalanceOrig    0
nameDest          0
oldbalanceDest    0
newbalanceDest    0
isFraud           0
isFlaggedFraud    0
dtype: int64

# TIPO DE DADOS 

In [28]:
data.dtypes

step                int64
type               object
amount            float64
nameOrig           object
oldbalanceOrg     float64
newbalanceOrig    float64
nameDest           object
oldbalanceDest    float64
newbalanceDest    float64
isFraud             int64
isFlaggedFraud      int64
dtype: object

In [34]:
data['type'].unique()

map_type = {'PAYMENT': 0,'TRANSFER':1,'CASH_OUT': 2,'DEBIT': 3,'CASH_IN': 4}

In [35]:
data['type'].value_counts(normalize=True)

type
CASH_OUT    0.351663
PAYMENT     0.338146
CASH_IN     0.219923
TRANSFER    0.083756
DEBIT       0.006512
Name: proportion, dtype: float64

In [36]:
data['isFraud'].value_counts(normalize=True)

isFraud
0    0.998709
1    0.001291
Name: proportion, dtype: float64

In [37]:
data['isFraud'].value_counts(normalize=True,ascending=True)

isFraud
1    0.001291
0    0.998709
Name: proportion, dtype: float64

In [53]:
data.loc[data['isFraud'] == 1].sample(5,ignore_index=True)

Unnamed: 0,step,type,amount,nameOrig,oldbalanceOrg,newbalanceOrig,nameDest,oldbalanceDest,newbalanceDest,isFraud,isFlaggedFraud
0,242,CASH_OUT,428174.7,C992121519,428174.7,0.0,C1759643830,63746.81,491921.52,1,0
1,43,TRANSFER,29988.0,C158964639,29988.0,0.0,C1661087818,0.0,0.0,1,0
2,178,CASH_OUT,85017.99,C1219414151,85017.99,0.0,C1622163185,0.0,85017.99,1,0
3,698,CASH_OUT,9097679.75,C622303175,9097679.75,0.0,C1544056522,2958471.27,12056151.02,1,0
4,671,TRANSFER,10000000.0,C916267146,33441041.46,23441041.46,C1505960727,0.0,0.0,1,0


In [49]:
(data['isFraud'] == 1).sum()

8213

In [50]:
num_attributes = data.select_dtypes( include=['int64', 'float64'] )
cat_attributes = data.select_dtypes( exclude=['int64', 'float64', 'datetime64[ns]'] )

In [51]:
# Central Tendency - mean, meadina 
ct1 = pd.DataFrame( num_attributes.apply( np.mean ) ).T
ct2 = pd.DataFrame( num_attributes.apply( np.median ) ).T

# dispersion - std, min, max, range, skew, kurtosis
d1 = pd.DataFrame( num_attributes.apply( np.std ) ).T 
d2 = pd.DataFrame( num_attributes.apply( min ) ).T 
d3 = pd.DataFrame( num_attributes.apply( max ) ).T 
d4 = pd.DataFrame( num_attributes.apply( lambda x: x.max() - x.min() ) ).T 
d5 = pd.DataFrame( num_attributes.apply( lambda x: x.skew() ) ).T 
d6 = pd.DataFrame( num_attributes.apply( lambda x: x.kurtosis() ) ).T 

# concatenar
m = pd.concat( [d2, d3, d4, ct1, ct2, d1, d5, d6] ).T.reset_index()
m.columns = ['attributes', 'min', 'max', 'range', 'mean', 'median', 'std', 'skew', 'kurtosis']
m

Unnamed: 0,attributes,min,max,range,mean,median,std,skew,kurtosis
0,step,1.0,743.0,742.0,243.3972,239.0,142.332,0.375177,0.329071
1,amount,0.0,92445520.0,92445520.0,179861.9,74871.94,603858.2,30.993949,1797.956705
2,oldbalanceOrg,0.0,59585040.0,59585040.0,833883.1,14208.0,2888242.0,5.249136,32.964879
3,newbalanceOrig,0.0,49585040.0,49585040.0,855113.7,0.0,2924048.0,5.176884,32.066985
4,oldbalanceDest,0.0,356015900.0,356015900.0,1100702.0,132705.665,3399180.0,19.921758,948.674125
5,newbalanceDest,0.0,356179300.0,356179300.0,1224996.0,214661.44,3674129.0,19.352302,862.156508
6,isFraud,0.0,1.0,1.0,0.00129082,0.0,0.03590479,27.779538,769.702982
7,isFlaggedFraud,0.0,1.0,1.0,2.514687e-06,0.0,0.001585775,630.603629,397659.0625


In [52]:
data.to_csv("../data/processed/data_processed.csv", index=False)