## Template

O problema de [Insira o Tipo de Problema, por exemplo, "fraudes em transações com cartões de crédito"] é uma preocupação significativa para [Insira o Setor, por exemplo, "instituições financeiras"]. Essas situações podem causar prejuízos consideráveis tanto para os consumidores quanto para as próprias instituições. A detecção desses padrões é desafiadora, dada a sofisticação dos métodos utilizados pelos fraudadores. Segundo [Insira a Fonte de Dados, por exemplo, "dados da Serasa Experian"], [Insira Estatísticas Relevantes, por exemplo, "cerca de 12,1 milhões de pessoas foram vítimas de fraude financeira no último ano no Brasil, representando um prejuízo de 1,8 bilhão de reais"].


<center>
<img src = "https://raw.githubusercontent.com/danielesantiago/FraudClassifier/master/reports/figures/fraud.jpg" width = "60%">
<a href="https://www.freepik.com/free-vector/cyber-fraud-with-desktop_60926711.htm#query=fraud&position=40&from_view=search&track=sph">Image by studiogstock</a> on Freepik
</center>


A identificação de [Insira o Tipo de Fraude] pode ser complexa, pois as transações legítimas e as fraudulentas muitas vezes se assemelham. Além disso, [Insira Mais Detalhes do Problema, por exemplo, "as fraudes ocorrem em uma ampla gama de valores e locais, dificultando a identificação de um padrão claro"].

### Business Understanding

[Descreva o contexto e a importância do seu projeto. Por exemplo, "No contexto atual de crescente volume de dados, entender padrões complexos em comportamentos de consumidores é crucial para estratégias de marketing eficazes."]

**Tipos de Análise Realizados:**
- [Insira o tipo de análise, por exemplo, "Análise de Sentimento"]
- [Outro tipo de análise, por exemplo, "Tendências de Mercado"]
- [Mais um tipo, por exemplo, "Padrões de Comportamento do Consumidor"]

**Principais Indicadores Chave de Desempenho:**
- [Primeiro indicador, por exemplo, "Taxa de Conversão"]
- [Segundo indicador, por exemplo, "Retenção de Clientes"]
- [Terceiro indicador, por exemplo, "Satisfação do Cliente"]

### Importando os pacotes necessários

In [1]:
# Bibliotecas padrão
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import mlflow 

In [2]:
df = pd.read_excel("data/raw/dados.xlsx")

## **Análise dos Dados**

Esta seção fornece uma visão detalhada da estrutura e do significado dos dados que estão sendo analisados.

### **Dicionário de Variáveis**

- **`[Insira Nome da Variável, por exemplo, 'score_1']`**: 
  - **Descrição:** [Insira Descrição]
  - **Finalidade:** [Insira Finalidade]

Repita para outras variáveis...



### Análise exploratória dos dados

In [3]:
# Ver as cinco primeiras entradas
df.head()

É possível notar que:

[Insira os insights obtidos]

In [4]:
# Visualizar o tamanho do dataframe
print(f"Entradas: {df.shape[0]}")
print(f"Colunas: {df.shape[1]}")

In [5]:
# Extrair nome das colunas
df.columns

In [6]:
# Extrair o tipo das variáveis
df.dtypes

In [7]:
# Porcentagem de itens nulos
(df.isnull().sum()/df.shape[0] * 100).round(2)

### ANÁLISE EXPLORATÓRIA (EDA) UNIVARIADA


- **Variáveis Categóricas:** [Descreva a análise para variáveis categóricas]
- **Variáveis Numéricas:** [Descreva a análise para variáveis numéricas]

### ANÁLISE EXPLORATÓRIA (EDA) BIVARIADA

- [Insira Hipótese, por exemplo, "Há alguma relação entre entrega dos documentos e a incidência de fraude?"]
- [Repita para outras hipóteses relevantes...]

### Divisão do Conjunto de Dados
Antes de realizar o pré-processamento dos dados, irei separar o conjunto de teste que validará a eficácia do modelo. É importante que o mesmo seja capaz de generalizar para evitar problemas como o underfitting, que ocorre quando o modelo tem baixo desempenho tanto no treinamento quanto na validação, ou o overfitting, que ocorre quando o modelo se adapta demasiadamente ao treinamento e não consegue generalizar para novos dados. A separação antes da padronização ocorre para que os dados de teste não tenham contato com os de treino e validação, simulando uma situação real.

In [8]:
def split_df(df):
    df_train, df_test = train_test_split(df, test_size=0.2, random_state=42)
    return df_train, df_test

df_train, df_test = split_df(df)

X_train = df_train.drop('fraude', axis=1)
y_train = df_train.fraude

X_test = df_test.drop('fraude', axis=1)
y_test = df_test.fraude

### **Pré-processamento dos Dados**

[Descreva as etapas de pré-processamento realizadas no projeto.]

### Modelo Baseline

[Descreva o modelo baseline e apresente os resultados iniciais. Inclua um gráfico, se relevante.]




### **Treinamento de Algoritmos de Machine Learning e Ajuste de Hiperparâmetros**

[Descreva os modelos testados e os hiperparâmetros ajustados.]

### Avaliação do Modelo Utilizando os Dados de Teste
No começo do projeto, realizamos um split nos dados para que tivéssemos 2 conjuntos: Um de treino e um de teste. Agora que já exploramos, preparamos os dados e treinamos o modelo, é hora de descobrirmos o potencial do modelo com os dados de teste.

[Apresente os resultados da avaliação do modelo com os dados de teste.]

### SHAP

SHAP é o pacote Python mais poderoso para compreender e depurar seus modelos. Pode nos dizer como cada feature do modelo contribuiu para uma previsão individual. Ao agregar valores SHAP, também podemos compreender tendências em múltiplas previsões.

[Inclua uma análise SHAP para entender a contribuição de cada variável nas previsões do modelo.]


## Conclusão Geral:

Após uma análise aprofundada das métricas de desempenho e valuation financeiro de ambos os modelos, os seguintes pontos foram observados:

[Apresente uma conclusão geral baseada nas métricas de desempenho e avaliação financeira dos modelos.]
