# **Variáveis do dataset**

**step** - mapeia uma unidade de tempo no mundo real. Neste caso, 1 passo é 1 hora de tempo. Total de etapas 744 (simulação de 30 dias).

**type** - CASH-IN, CASH-OUT, DEBIT, PAYMENT and TRANSFER. 
(caixa-de-entrada, caixa-de-saida, débito, pagamento e transferência)

**amount** - valor da transação em moeda local.

**nameOrig** - cliente que iniciou a transação

**oldbalanceOrg** - saldo inicial antes da transação

**newbalanceOrig** - novo saldo após a transação

**nameDest** - cliente que é o destinatário da transação

**oldbalanceDest** - destinatário do saldo inicial antes da transação. 
Observe que não há informações para clientes que começam com M (Comerciantes).

**newbalanceDest** - novo destinatário do saldo após a transação. Observe que não há informações para clientes que começam com M (Comerciantes).

**isFraud** - São as transações feitas pelos agentes fraudulentos dentro da simulação. Neste conjunto de dados específico, o comportamento fraudulento dos agentes visa lucrar ao assumir o controle das contas dos clientes e tentar esvaziar os fundos transferindo para outra conta e depois sacando do sistema.

**isFlaggedFraud** - O modelo de negócios visa controlar transferências massivas de uma conta para outra e sinaliza tentativas ilegais. Uma tentativa ilegal neste conjunto de dados é uma tentativa de transferir mais de 200.000 em uma única transação


# Importando os dados

In [9]:
import pandas as pd 
import numpy as np

In [10]:
# Importando dados com pandas
df = pd.read_csv("fraud_dataset_example.csv")

# Monstrando as primeiras linhas
df.head()

Unnamed: 0,step,type,amount,nameOrig,oldbalanceOrg,newbalanceOrig,nameDest,oldbalanceDest,newbalanceDest,isFraud,isFlaggedFraud
0,1,PAYMENT,9839.64,C1231006815,170136.0,160296.36,M1979787155,0.0,0.0,0,0
1,1,PAYMENT,1864.28,C1666544295,21249.0,19384.72,M2044282225,0.0,0.0,0,0
2,1,TRANSFER,181.0,C1305486145,181.0,0.0,C553264065,0.0,0.0,1,0
3,1,CASH_OUT,181.0,C840083671,181.0,0.0,C38997010,21182.0,0.0,1,0
4,1,PAYMENT,11668.14,C2048537720,41554.0,29885.86,M1230701703,0.0,0.0,0,0


# Tratamento de dados

### Renomeando as colunas

In [11]:
df.columns = ["tempo", 
              "tipo",
              "valor",
              "cliente_1",
              "saldo_inicial_c1",
              "novo_saldo_c1",
              "cliente_2",
              "saldo_inicial_c2",
              "novo_saldo_c2",
              "fraude",
              "possivel_fraude"]

df

Unnamed: 0,tempo,tipo,valor,cliente_1,saldo_inicial_c1,novo_saldo_c1,cliente_2,saldo_inicial_c2,novo_saldo_c2,fraude,possivel_fraude
0,1,PAYMENT,9839.64,C1231006815,170136.00,160296.36,M1979787155,0.00,0.00,0,0
1,1,PAYMENT,1864.28,C1666544295,21249.00,19384.72,M2044282225,0.00,0.00,0,0
2,1,TRANSFER,181.00,C1305486145,181.00,0.00,C553264065,0.00,0.00,1,0
3,1,CASH_OUT,181.00,C840083671,181.00,0.00,C38997010,21182.00,0.00,1,0
4,1,PAYMENT,11668.14,C2048537720,41554.00,29885.86,M1230701703,0.00,0.00,0,0
...,...,...,...,...,...,...,...,...,...,...,...
101608,10,PAYMENT,7477.02,C513257306,785.00,0.00,M524833426,0.00,0.00,0,0
101609,10,CASH_OUT,282252.35,C210473293,220339.29,0.00,C1172042998,95156.01,91286.97,0,0
101610,10,PAYMENT,17289.01,C807582280,0.00,0.00,M334249577,0.00,0.00,0,0
101611,10,TRANSFER,1347146.45,C1315779140,1605.00,0.00,C1631408038,541639.43,2186953.43,0,0


### Nulos

In [12]:
df.isnull().sum()

tempo               0
tipo                0
valor               0
cliente_1           0
saldo_inicial_c1    0
novo_saldo_c1       0
cliente_2           0
saldo_inicial_c2    0
novo_saldo_c2       0
fraude              0
possivel_fraude     0
dtype: int64

### Na

In [13]:
df.isna().sum()

tempo               0
tipo                0
valor               0
cliente_1           0
saldo_inicial_c1    0
novo_saldo_c1       0
cliente_2           0
saldo_inicial_c2    0
novo_saldo_c2       0
fraude              0
possivel_fraude     0
dtype: int64

### Duplicados

In [14]:
df.duplicated().sum()

0

# Analisando algumas informações

In [16]:
from ydata_profiling import ProfileReport

# Gerar o relatório em português
profile = ProfileReport(df, explorative=True)

profile.to_file("relatorio.html")

profile

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]

