# Análise Estatística: Modelo de Predição de Fraude Bancária

**Trabalho de Estatística Aplicada**

## Sumário
1. [Delimitação da Questão](#delimitacao)
2. [Identificação da Amostra](#amostra)/
3. [Classificação das Variáveis](#variaveis)
4. [Organização dos Dados](#organizacao)
5. [Análise Descritiva](#descritiva)
6. [Análise Crítica da Relevância](#critica)
7. [Reflexão Crítica](#reflexao)
8. [Referências aos Conceitos Estatísticos](#conceitos)


In [1]:
# Importação das bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings

warnings.filterwarnings('ignore')

# Configuração dos gráficos
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("Bibliotecas carregadas com sucesso!")


ModuleNotFoundError: No module named 'matplotlib'

## 1. Delimitação da Questão {#delimitacao}

### Qual o objeto de estudo?
O objeto de estudo são **transações bancárias e características de contas** com o objetivo de identificar padrões que possam indicar atividades fraudulentas. O dataset contém informações sobre clientes, suas transações, comportamentos e características demográficas.

### Qual a população-alvo?
A população-alvo consiste em **clientes de instituições bancárias** que realizaram solicitações de crédito ou abertura de contas. Esta população inclui indivíduos de diferentes faixas etárias, situações de emprego, e perfis de risco de crédito.

### Qual o objetivo da análise exploratória?
O objetivo principal desta análise é:
- **Identificar padrões** nas características de transações fraudulentas vs. legítimas
- **Compreender a distribuição** das variáveis que podem ser preditoras de fraude
- **Avaliar a qualidade dos dados** para modelagem preditiva
- **Descobrir insights** sobre comportamentos suspeitos que possam auxiliar na prevenção de fraudes
- **Determinar quais variáveis** são mais relevantes para a detecção de fraude bancária


In [None]:
# Carregamento e primeira exploração dos dados
# Devido ao tamanho do dataset (1M registros), vamos trabalhar com uma amostra representativa

print("Carregando amostra dos dados...")
# Carregamos apenas as primeiras 10.000 linhas para análise
df_sample = pd.read_csv('data/Bank Account Fraud Dataset Suite/Base.csv', nrows=10000)

print(f"Dimensões da amostra: {df_sample.shape}")
print(f"Variáveis disponíveis: {len(df_sample.columns)}")

# Visualizar as primeiras linhas
df_sample.head()


In [None]:
# Informações gerais sobre o dataset
print("=== INFORMAÇÕES GERAIS DO DATASET ===")
print(f"Número de registros: {len(df_sample):,}")
print(f"Número de variáveis: {len(df_sample.columns)}")
print(f"\nTaxa de fraude na amostra: {df_sample['fraud_bool'].mean():.2%}")
print(f"Casos de fraude: {df_sample['fraud_bool'].sum():,}")
print(f"Casos legítimos: {(df_sample['fraud_bool'] == 0).sum():,}")

# Verificar valores faltantes
print("\n=== VALORES FALTANTES ===")
missing_data = df_sample.isnull().sum()
missing_percent = (missing_data / len(df_sample)) * 100
missing_df = pd.DataFrame({
    'Valores Faltantes': missing_data,
    'Percentual': missing_percent
}).sort_values('Valores Faltantes', ascending=False)

print(missing_df[missing_df['Valores Faltantes'] > 0])
