<a href="https://colab.research.google.com/github/casjunior93/Tera---Desafio-de-classificacao/blob/main/Refeito_Tera_Desafio_de_Classifica%C3%A7%C3%A3o.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Desafio de Detecção e Redução de Fraudes no Setor Financeiro

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


O desafio é propor uma solução para detecção e análise de fraudes que possam reduzir os riscos da empresa de crédito em que trabalho e garantir margens saudáveis.

Link do dataset: https://drive.google.com/file/d/1zjK8zQK5zvhR_r2chWI5dCjeOwASlPfb/view

Vou começar importando as bibliotecas iniciais:

In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

Agora importo os dados:

In [3]:
df = pd.read_csv('/content/drive/MyDrive/Tera/DESAFIO CLASSIFICAÇÃO/fraud_detection_dataset.csv')

In [4]:
df.sample(5)

Unnamed: 0,step,type,amount,nameOrig,oldbalanceOrg,newbalanceOrig,nameDest,oldbalanceDest,newbalanceDest,isFraud,isFlaggedFraud
1902166,165,PAYMENT,17649.06,C1921200701,0.0,0.0,M1972582653,0.0,0.0,0,0
6144044,545,CASH_OUT,9520.33,C384140017,50848.0,41327.67,C371353825,0.0,9520.33,0,0
2417986,202,PAYMENT,1521.71,C591845986,0.0,0.0,M2057114669,0.0,0.0,0,0
3155597,237,PAYMENT,8677.92,C1470742938,0.0,0.0,M378676627,0.0,0.0,0,0
3052800,234,CASH_IN,360012.8,C211679972,1305681.63,1665694.43,C1371069421,717308.82,357296.01,0,0


## Conhecendo as features deste dataset

* `step` - Passo: representa o total de horas transcorrido desde o início da simulação. Esta feature vai variar entre 1 e 744 (30 dias);

* `type` - Tipo: tipo de transação (depósito, saque, débito, pagamento e transferência);

* `amount` - Quantia: total que foi transacionado;

* `nameOrig` - ClienteOrigem: cliente que iniciou a transação

* `oldbalanceOrg` - SaldoInicialOrigem: saldo da conta de origem antes da transação;

* `newbalanceOrig` - SaldoFinalOrigem: saldo da conta de origem após a transação;

* `nameDest` - ClienteDestino: cliente de destino da transação;

* `oldbalanceDest` - SaldoInicialDestino: saldo da conta de destino antes da transação;

* `newbalanceDest` - SaldoFinalDestino: saldo da conta de destino após a transação;

* `isFraud` - ÉFraude: flag que define se a transação é fraudulenta ou não. Nesta simulação o objetivo da fraude é assumir a conta do usuário, esvaziá-la transferindo para outra conta e então sacando o dinheiro.

* `isFlaggedFraud` - SinalizadaComoFraude: automaticamente marcadas pelo banco como fraude por tentarem transferir mais de 200.000 em uma única transação.

## Análise exploratória

Primeiro vou renomear as tabelas para facilitar a análise.

In [6]:
df = df.rename(
    columns={"step":"totalHoras", "type": "tipoTransacao", "amount": "quantia",
             "nameOrig": "clienteOrigem", "oldbalanceOrg": "saldoInicialOrigem",
             "newbalanceOrig": "saldoFinalOrigem", "nameDest": "clienteDestino",
             "oldbalanceDest": "saldoInicialDestino", "newbalanceDest": "saldoFinalDestino",
             "isFraud": "ehFraude", "isFlaggedFraud": "sinalizadaComoFraude"
             })
df.head(3)

Unnamed: 0,totalHoras,tipoTransacao,quantia,clienteOrigem,saldoInicialOrigem,saldoFinalOrigem,clienteDestino,saldoInicialDestino,saldoFinalDestino,ehFraude,sinalizadaComoFraude
0,1,PAYMENT,9839.64,C1231006815,170136.0,160296.36,M1979787155,0.0,0.0,0,0
1,1,PAYMENT,1864.28,C1666544295,21249.0,19384.72,M2044282225,0.0,0.0,0,0
2,1,TRANSFER,181.0,C1305486145,181.0,0.0,C553264065,0.0,0.0,1,0


Análise descritiva:

In [7]:
df.describe(include='all')

Unnamed: 0,totalHoras,tipoTransacao,quantia,clienteOrigem,saldoInicialOrigem,saldoFinalOrigem,clienteDestino,saldoInicialDestino,saldoFinalDestino,ehFraude,sinalizadaComoFraude
count,6362620.0,6362620,6362620.0,6362620,6362620.0,6362620.0,6362620,6362620.0,6362620.0,6362620.0,6362620.0
unique,,5,,6353307,,,2722362,,,,
top,,CASH_OUT,,C1902386530,,,C1286084959,,,,
freq,,2237500,,3,,,113,,,,
mean,243.3972,,179861.9,,833883.1,855113.7,,1100702.0,1224996.0,0.00129082,2.514687e-06
std,142.332,,603858.2,,2888243.0,2924049.0,,3399180.0,3674129.0,0.0359048,0.001585775
min,1.0,,0.0,,0.0,0.0,,0.0,0.0,0.0,0.0
25%,156.0,,13389.57,,0.0,0.0,,0.0,0.0,0.0,0.0
50%,239.0,,74871.94,,14208.0,0.0,,132705.7,214661.4,0.0,0.0
75%,335.0,,208721.5,,107315.2,144258.4,,943036.7,1111909.0,0.0,0.0


Informações:
* Tenho 5 tipos de transação e o tipoTransacao mais frequente é CASH_OUT, com 2237500 transações.
* O cliente destino C1286084959 recebeu 113 transações no período.

Verificando a distribuição dos dados para analisar se são simétricos:

In [None]:
df.skew()

totalHoras                0.375177
quantia                  30.993949
saldoInicialOrigem        5.249136
saldoFinalOrigem          5.176884
saldoInicialDestino      19.921758
saldoFinalDestino        19.352302
ehFraude                 27.779538
sinalizadaComoFraude    630.603629
dtype: float64

A análise de assimetria indica que as variáveis apresentam uma assimetria positiva, ou seja, elas contém mais valores acima da média. 

Mais informações sobre os dados:

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6362620 entries, 0 to 6362619
Data columns (total 11 columns):
 #   Column                Dtype  
---  ------                -----  
 0   totalHoras            int64  
 1   tipoTransacao         object 
 2   quantia               float64
 3   clienteOrigem         object 
 4   saldoInicialOrigem    float64
 5   saldoFinalOrigem      float64
 6   clienteDestino        object 
 7   saldoInicialDestino   float64
 8   saldoFinalDestino     float64
 9   ehFraude              int64  
 10  sinalizadaComoFraude  int64  
dtypes: float64(5), int64(3), object(3)
memory usage: 534.0+ MB


Tem dados faltantes?

In [10]:
df.isnull().sum()

totalHoras              0
tipoTransacao           0
quantia                 0
clienteOrigem           0
saldoInicialOrigem      0
saldoFinalOrigem        0
clienteDestino          0
saldoInicialDestino     0
saldoFinalDestino       0
ehFraude                0
sinalizadaComoFraude    0
dtype: int64

Não existem dados faltantes.