# Fraude Bancária - Cartão de Crédito

In [1]:
# Importando bibliotecas
## Para manipulação de dados
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
## Para fazer a partição do dados 
from sklearn.model_selection import train_test_split

In [2]:
# Dataset diponível em: https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud
df = pd.read_csv("creditcard.csv")

In [3]:
df.head()

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,...,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.16648,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,...,-0.225775,-0.638672,0.101288,-0.339846,0.16717,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.37978,-0.503198,1.800499,0.791461,0.247676,-1.514654,...,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,...,-0.1083,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.5,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,...,-0.009431,0.798278,-0.137458,0.141267,-0.20601,0.502292,0.219422,0.215153,69.99,0


# 1. Entendimento do Negócio

## 1- Qual é o problema de negócios que estamos tentando resolver?

### Fraude com cartão de crédito representa um risco significativo para as empresas, especialmente as menores que podem ter menos recursos para combater fraudes. Os comerciantes geralmente arcam com a responsabilidade por transações fraudulentas, principalmente quando não adotam medidas de segurança como terminais compatíveis com chip EMV. Isso pode resultar em perdas financeiras diretas devido a chargebacks e taxas associadas, além de danos à reputação que podem afetar a confiança e o volume de negócios futuros.

### Para transações online, os riscos são ainda maiores devido à falta de medidas de segurança físicas, colocando mais pressão sobre os comerciantes para implementar medidas de segurança digital como autenticação multifatorial e criptografia de dados. Estratégias eficazes para mitigar o risco incluem o uso de software de detecção de fraudes, verificação robusta de identidade e monitoramento de padrões de transações incomuns para prevenir fraudes. Manter baixas taxas de chargeback é crucial, pois taxas elevadas podem resultar em penalidades dos emissores de cartões.

### Empresas precisam estar cientes dos riscos e adotar estratégias proativas para minimizar os impactos da fraude em suas operações.

### Fraude em cartão de crédito ocorre quando um cartão ou conta realiza uma transação não autorizada pelo seu titular. Esse tipo de fraude envolve o uso não autorizado das informações do cartão para efetuar compras ou transações, comprometendo a segurança financeira do proprietário do cartão.
### Este dataset contém informações sobre clientes e seus cartões de crédito na Europa. É importante observar que o dataset é extremamente desbalanceado, com a classe positiva (fraude) representando menos de 0,2% do total de transações. Devido a questões de confidencialidade, as features originais foram transformadas por meio de Análise de Componentes Principais (PCA), exceto pelo volume e horário das transações.

### Boas fonte para estudo do tema:
[https://www.nerdwallet.com/article/small-business/credit-card-fraud](https://www.nerdwallet.com/article/small-business/credit-card-fraud)

[https://fraud.net/n/how-does-credit-card-fraud-affect-businesses/](https://fraud.net/n/how-does-credit-card-fraud-affect-businesses/)

[https://datadome.co/learning-center/business-credit-card-fraud-protection/](https://datadome.co/learning-center/business-credit-card-fraud-protection/)


## 2- Quais são os objetivos de negócios e os critérios de sucesso?

### O objetivo deste projeto é identificar fraudes bancárias realizadas através do uso de cartões de crédito. Utilizaremos técnicas de ciência de dados para detectar transações fraudulentas em meio a um grande volume de dados e classes desbalanceadas.

### Os critérios de sucesso serão Precison- Recall Curve e ROC-AUC, dado que são dados que possuímos casos de dados desbalanceados, métricas como acurácia por exemplo não seria adequado, também será utilizado um modelo baseline de regressão logística sem tuning (amplamente utilizado em casos de classificação)