<a href="https://colab.research.google.com/github/casjunior93/Tera---Desafio-de-classificacao/blob/main/Refeito_Tera_Desafio_de_Classifica%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Desafio de Detecção e Redução de Fraudes no Setor Financeiro

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


O desafio é propor uma solução para detecção e análise de fraudes que possam reduzir os riscos da empresa de crédito em que trabalho e garantir margens saudáveis.

Link do dataset: https://drive.google.com/file/d/1zjK8zQK5zvhR_r2chWI5dCjeOwASlPfb/view

Vou começar importando as bibliotecas iniciais:

In [26]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

Agora importo os dados:

In [3]:
df = pd.read_csv('/content/drive/MyDrive/Tera/DESAFIO CLASSIFICAÇÃO/fraud_detection_dataset.csv')

In [4]:
df.sample(10)

Unnamed: 0,step,type,amount,nameOrig,oldbalanceOrg,newbalanceOrig,nameDest,oldbalanceDest,newbalanceDest,isFraud,isFlaggedFraud
1281066,135,PAYMENT,22770.72,C2023393770,82564.0,59793.28,M1152619044,0.0,0.0,0,0
461103,19,TRANSFER,685429.6,C1492248963,0.0,0.0,C1734649556,5337201.53,6022631.13,0,0
5060894,354,CASH_OUT,72858.33,C1889408849,194145.68,121287.35,C1374705406,2008357.93,2081216.26,0,0
241130,14,PAYMENT,8925.14,C1836976195,0.0,0.0,M891184211,0.0,0.0,0,0
6057516,500,PAYMENT,7653.76,C1532242437,0.0,0.0,M915812644,0.0,0.0,0,0
6295130,670,PAYMENT,3972.03,C1728174376,37211.0,33238.97,M2056448717,0.0,0.0,0,0
3607335,264,CASH_IN,58212.34,C649216031,1803333.92,1861546.25,C1808226540,135271.3,77058.96,0,0
910348,43,CASH_IN,69884.98,C91975976,6634267.46,6704152.44,C1311565766,1411675.89,1341790.91,0,0
2489185,204,CASH_OUT,68277.85,C61249607,0.0,0.0,C1386086421,86056.58,154334.43,0,0
1745297,161,CASH_OUT,7425.52,C830518750,0.0,0.0,C989803368,6579183.69,6586609.21,0,0


## Conhecendo as features deste dataset

* `step` - Passo: representa o total de horas transcorrido desde o início da simulação. Esta feature vai variar entre 1 e 744 (30 dias);

* `type` - Tipo: tipo de transação (depósito, saque, débito, pagamento e transferência);

* `amount` - Quantia: total que foi transacionado;

* `nameOrig` - ClienteOrigem: cliente que iniciou a transação

* `oldbalanceOrg` - SaldoInicialOrigem: saldo da conta de origem antes da transação;

* `newbalanceOrig` - SaldoFinalOrigem: saldo da conta de origem após a transação;

* `nameDest` - ClienteDestino: cliente de destino da transação;

* `oldbalanceDest` - SaldoInicialDestino: saldo da conta de destino antes da transação;

* `newbalanceDest` - SaldoFinalDestino: saldo da conta de destino após a transação;

* `isFraud` - ÉFraude: flag que define se a transação é fraudulenta ou não. Nesta simulação o objetivo da fraude é assumir a conta do usuário, esvaziá-la transferindo para outra conta e então sacando o dinheiro.

* `isFlaggedFraud` - SinalizadaComoFraude: automaticamente marcadas pelo banco como fraude por tentarem transferir mais de 200.000 em uma única transação.

## Análise exploratória

Primeiro vou renomear as tabelas para facilitar a análise.

In [7]:
df = df.rename(
    columns={"step":"totalHoras", "type": "tipoTransacao", "amount": "quantia",
             "nameOrig": "clienteOrigem", "oldbalanceOrg": "saldoInicialOrigem",
             "newbalanceOrig": "saldoFinalOrigem", "nameDest": "clienteDestino",
             "oldbalanceDest": "saldoInicialDestino", "newbalanceDest": "saldoFinalDestino",
             "isFraud": "ehFraude", "isFlaggedFraud": "sinalizadaComoFraude"

             })
df.head(3)

Unnamed: 0,totalHoras,tipoTransacao,quantia,clienteOrigem,saldoInicialOrigem,saldoFinalOrigem,clienteDestino,saldoInicialDestino,saldoFinalDestino,ehFraude,sinalizadaComoFraude
0,1,PAYMENT,9839.64,C1231006815,170136.0,160296.36,M1979787155,0.0,0.0,0,0
1,1,PAYMENT,1864.28,C1666544295,21249.0,19384.72,M2044282225,0.0,0.0,0,0
2,1,TRANSFER,181.0,C1305486145,181.0,0.0,C553264065,0.0,0.0,1,0


Análise descritiva:

In [10]:
df.describe(include='all')

Unnamed: 0,totalHoras,tipoTransacao,quantia,clienteOrigem,saldoInicialOrigem,saldoFinalOrigem,clienteDestino,saldoInicialDestino,saldoFinalDestino,ehFraude,sinalizadaComoFraude
count,6362620.0,6362620,6362620.0,6362620,6362620.0,6362620.0,6362620,6362620.0,6362620.0,6362620.0,6362620.0
unique,,5,,6353307,,,2722362,,,,
top,,CASH_OUT,,C1902386530,,,C1286084959,,,,
freq,,2237500,,3,,,113,,,,
mean,243.3972,,179861.9,,833883.1,855113.7,,1100702.0,1224996.0,0.00129082,2.514687e-06
std,142.332,,603858.2,,2888243.0,2924049.0,,3399180.0,3674129.0,0.0359048,0.001585775
min,1.0,,0.0,,0.0,0.0,,0.0,0.0,0.0,0.0
25%,156.0,,13389.57,,0.0,0.0,,0.0,0.0,0.0,0.0
50%,239.0,,74871.94,,14208.0,0.0,,132705.7,214661.4,0.0,0.0
75%,335.0,,208721.5,,107315.2,144258.4,,943036.7,1111909.0,0.0,0.0


Informações:
* Tenho 5 tipos de transação e o tipoTransacao mais frequente é CASH_OUT, com 2237500 transações.
* O cliente destino C1286084959 recebeu 113 transações no período.

Verificando a distribuição dos dados para analisar se são simétricos:

In [14]:
df.skew()

totalHoras                0.375177
quantia                  30.993949
saldoInicialOrigem        5.249136
saldoFinalOrigem          5.176884
saldoInicialDestino      19.921758
saldoFinalDestino        19.352302
ehFraude                 27.779538
sinalizadaComoFraude    630.603629
dtype: float64

A análise de assimetria indica que as variáveis apresentam uma assimetria positiva, ou seja, elas contém mais valores acima da média. 