<a href="https://colab.research.google.com/github/FerrazThales/Deteccao_de_fraudes_em_cartoes_de_credito/blob/main/Detec%C3%A7%C3%A3o_de_Fraude_em_Cart%C3%B5es_de_Cr%C3%A9dito.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
<img width="32%" src="https://github.com/FerrazThales/FerrazThales/blob/main/logo_gif.gif?raw=true">

[Thales Ferraz üë®‚Äçüíª | Data Scientist](https://thalesferraz.medium.com/)

* ***Visite tamb√©m o meu artigo sobre esta an√°lise no [Medium](https://thalesferraz.medium.com/o-que-os-dados-nos-dizem-sobre-a-covid-19-96a2a7a984f4)***

* ***Visite mais projetos do meu portf√≥lio no [Github do Thales Ferraz](https://bit.ly/3DQyZHu)***

* ***Vamos trocar mais id√©ias sobre Data Science no [LinkedIn](https://www.linkedin.com/in/thalesdefreitasferraz/)?***


---

# Detec√ß√£o de Fraudes em Cart√µes de Cr√©dito

Neste projeto, iremos abordar o problema das fraudes em cart√µes de cr√©dito, uma das principais preocupa√ß√µes das institui√ß√µes financeiras como bancos e *fintechs*. Apenas no Brasil, cerca de 12,1 milh√µes de pessoas j√° foram v√≠timas de algum tipo de fraude financeira no √∫ltimo ano. Traduzindo em valores, os golpes financeiros ultrapassaram a cifra de R$ 1,8 bilh√£o de preju√≠zo por ano para os √∫ltimos 12 meses.

<p align=center>
<img src="https://images.unsplash.com/photo-1592772874383-d08932d29db7?ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&ixlib=rb-1.2.1&auto=format&fit=crop&w=699&q=80" width="60%"></p>

Dentra essas fraudes, aquelas envolvendo cart√µes de cr√©dito s√£o de grande relev√¢ncia uma vez que a sua n√£o-detec√ß√£o acarretar√° em preju√≠zos consider√°veis, tanto para o consumidor quanto para a institui√ß√£o financeira.

Um outro fator a ser considerado √© a quantidade de *falsos positivos*, ou seja, aquelas vezes em que voc√™ tentou fazer uma compra e teve seu cart√£o bloqueado preventivamente - o que provavelmente gerou estresse e constrangimento.

Por todos esses motivos, o investimento na √°rea de detec√ß√£o de fraudes por meio de Intelig√™ncia Artificial vem crescendo a cada ano ??????????? (quanto?), representando uma grande oportunidade em *Data Science*. 

Dispondo de grandes volumes de dados como base hist√≥rica, um algoritmo de machine learning apenas um pouco melhor que os anteriores j√° representa uma economia de milh√µes de Reais. E esse √© o desafio, aprimorar cada vez mais o uso de algoritmos visando inibir ou evitar transa√ß√µes fraudulentas.

## Importando os Dados

Os dados que usaremos neste projeto foram disponibilizados por algumas empresas europ√©ias de cart√£o de cr√©dito. O *dataset* representa as opera√ß√µes financeiras que aconteceram no per√≠odo de dois dias, onde foram classificadas 492 fraudes em meio a quase 290 mil transa√ß√µes.

Como voc√™ pode notar, este √© um conjunto de dados extremamente desbalanceado, onde as fraudes representam apenas 0,17% do total.

Outro detalhe interessante √© que as *features* s√£o todas num√©ricas, e foram descaracterizadas (por problemas ligados √† privacidade e seguran√ßa). Assim, os nomes das colunas s√£o representados por $[V1, V2, V3 \dots, V28]$ 

<p align=center>
<img src="https://images.unsplash.com/photo-1620714223084-8fcacc6dfd8d?ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&ixlib=rb-1.2.1&auto=format&fit=crop&w=1051&q=80" width="50%"></p>

[Na p√°gina original dos dados](https://www.kaggle.com/mlg-ulb/creditcardfraud), tamb√©m √© informado que as vari√°veis passaram por uma transforma√ß√£o conhecida como An√°lise de Componentes Principais (*Principal Component Analysis* - PCA).

* link para PCA

A PCA permite a redu√ß√£o da dimensionalidade enquanto mant√©m o maior n√∫mero poss√≠vel de informa√ß√µes. Para conseguir isso, o algoritmo encontra um conjunto novo de recursos - os chamados **componentes**.

Esses componentes s√£o em n√∫mero menor or igual √†s vari√°veis originais. No caso deste projeto, os componentes achados pela transforma√ß√£o da PCA s√£o as pr√≥prias colunas $[V1, V2, V3 \dots, V28]$.

In [5]:
# importar os pacotes necess√°rios
import pandas as pd

In [6]:
file_path = "https://www.dropbox.com/s/b44o3t3ehmnx2b7/creditcard.csv?dl=1"
endereco = 'https://www.kaggle.com/mlg-ulb/creditcardfraud/download'
df = pd.read_csv(endereco)
df.head()
# importar os dados para um dataframe


ParserError: ignored

Com os dados importados para dentro de uma estrutura *Dataframe* - e n√£o havendo a necessidade de mais nenhum ajuste ou configura√ß√£o nesta etapa, pode-se iniciar uma an√°lise explorat√≥ria dos dados a fim de preparar um modelo de *Machine Learning*.

Lembre-se de realizar o *split* dos conjuntos, para evitar o vazamento de dados.

Feito isso, vamos √† An√°lise Explorat√≥ria.

## An√°lise Explorat√≥ria

Abordar t√≥picos/informa√ß√µes como:

* Ver as 5 primeiras entradas
* Ver o resumo estat√≠stico do dataframe
* Verificar se h√° valores ausentes
* Plotar um gr√°fico de barras (ou countplot) para ver o balanceamento do *dataset*
* Plotar os seguintes histogramas:
    * Vari√°vel `Time`
        * Fraude (`Class == 1`)
        * Normal (`Class == 0`)
    * Vari√°vel `Amount`
        * Fraude (`Class == 1`)
        * Normal (`Class == 0`)
* Plotar um `boxplot` para a vari√°vel `Amount` quando houve fraude (`Class == 1`)
* Plotar uma matriz de correla√ß√£o

## Prepara√ß√£o dos Dados

* Normalizar os dados que ainda n√£o haviam sido pr√©-processados (`Time` e `Amount`)
* Dividir o conjunto de dados entre treino e valida√ß√£o
* [*Recomendado*] Balancear o conjunto de dados

## Modelo de Machine Learning

* Construir um modelo para **classifica√ß√£o**.
* [*Opcional*] Construir mais de um modelo para avaliar os desempenhos

## Avaliar o desempenho do modelo

* Identificar a melhor m√©trica para esse tipo de modelo
* [*Opcional*] Comparar o desempenho entre diversos modelos

## Conclus√£o

* Escrever suas conclus√µes a respeito da constru√ß√£o do modelo