
# **Glossário Técnico – FraudSense**

--- 

Este glossário reúne os principais conceitos utilizados no desenvolvimento do sistema de detecção de fraude FraudSense, com foco em rigor metodológico, consistência conceitual e terminologia usada no setor financeiro.

--- 

### 1. Classes Desbalanceadas

Situação em que uma classe ocorre com frequência muito menor que a outra (por exemplo, fraude ≈ 0,17%).
Nesses casos, métricas tradicionais como acurácia tornam-se pouco informativas.

---

### 2. AUC-PR (Average Precision / Área sob a Curva Precision–Recall)

Métrica mais adequada para problemas com forte desbalanceamento.
Avalia a qualidade da ordenação das probabilidades, priorizando a classe rara.

---

### 3. Threshold (Limiar de Decisão)

Valor usado para converter probabilidades em previsões binárias (0 ou 1).
Em detecção de fraude, limiares elevados são comuns, dado o objetivo de manter alta precisão.

---

### 4. Tuning de Threshold via Nested Cross-Validation

Procedimento em duas camadas:

    1. Conjunto interno define o threshold ótimo.

    2. Conjunto externo avalia o desempenho resultante.
       Evita vazamento e produz limiares mais robustos.
---

### 5. Precision

Proporção das transações classificadas como fraude que realmente são fraude.
Criticamente importante para reduzir falsos positivos.

---

### 6. Recall

Proporção das fraudes reais que são detectadas pelo modelo.

---

### 7. F1-Score

Média harmônica entre precision e recall.
Indicado quando se busca equilíbrio entre cobertura de fraude e qualidade dos alertas.

---

### 8. Pipeline de Pré-processamento

Estrutura que encapsula transformações como imputação, normalização, encoding e balanceamento.
Garante consistência, reprodutibilidade e ausência de vazamento de dados.

---

### 9. SMOTE dentro da Validação Cruzada

Técnica de oversampling aplicada exclusivamente dentro de cada fold da cross-validation.
Evita que exemplos sintéticos contaminem dados de validação ou teste.

---

### 10. Modelos Gradient Boosting (XGBoost, LightGBM, CatBoost)

Algoritmos amplamente utilizados em modelos de risco e detecção de fraude.
Características relevantes:

   - XGBoost: excelente precisão, sensível ao tuning.

   - LightGBM: muito rápido e eficiente.

   - CatBoost: robusto e estável para variáveis numéricas.
---

### 11. scale_pos_weight

Parâmetro dos modelos boosting (como XGBoost) que ajusta o peso relativo da classe minoritária.
Importante em datasets extremamente desbalanceados.

---

### 12. ColumnTransformer

Componente do scikit-learn que permite aplicar diferentes transformações a grupos distintos de variáveis (numéricas, categóricas etc.).

---

### 13. Holdout

Conjunto de dados reservado e não utilizado durante o treinamento ou tuning.
Proporciona uma avaliação final mais realista.

---

### 14. SHAP (SHapley Additive exPlanations)

Método de interpretabilidade que estima a contribuição individual de cada feature para a previsão.
Inclui:

   - Summary plots (importância global)

   - Waterfall plots (explicação local)
---

### 15. Permutation Importance

Técnica que mede a importância das variáveis ao embaralhar seus valores e observar a queda no desempenho do modelo.

---

### 16. Deploy

Processo de disponibilizar o modelo em um ambiente de produção.
No projeto, representado pela função predict_transactions().

--- 

### 17. Data Leakage (Vazamento de Informação)

Quando o modelo acessa informações do futuro ou do conjunto de validação/teste.
Prevenção envolve:

   - SMOTE apenas dentro do CV

   - Holdout isolado

   - Pré-processamento embutido no pipeline
---

### 18. joblib

Biblioteca utilizada para salvar artefatos como preprocessor, pipeline final e threshold calibrado.
Fundamental para reprodutibilidade.

---

### 19. Matriz de Confusão

Resumo dos resultados de classificação:

   - TN: legítimas corretamente classificadas

   - FP: falsos alertas

   - FN: fraudes não detectadas

   - TP: fraudes detectadas
---

### 20. Curva Precision–Recall

Gráfico que relaciona precision e recall ao longo de diferentes thresholds.
Mais informativo que ROC em cenários com forte desbalanceamento.

---

### 21. Risco Operacional de Falsos Positivos

Custo operacional e reputacional gerado quando transações legítimas são bloqueadas.
Elemento crítico no ajuste de thresholds.

---

### 22. Desbalanceamento Extremo

Situação em que a classe minoritária apresenta frequência extremamente baixa (<0,5%).
Pequenas variações em FP ou FN podem afetar severamente as métricas.

---

### 23. RobustScaler

Método de escalonamento resistente a outliers, apropriado para variáveis financeiras como Amount e Time.

---

### 24. CRISP-DM

Metodologia amplamente usada para estruturar projetos de ciência de dados:

   - Entendimento do negócio

   - Entendimento dos dados

   - Preparação

   - Modelagem

   - Avaliação

   - Deploy
---

### 25. PCA (Principal Component Analysis)

Técnica usada neste dataset para anonimizar variáveis originais, produzindo componentes ortogonais (V1–V28).

---

### 26. Oversampling

Processo de aumentar a quantidade de exemplos da classe minoritária.

---

### 27. Undersampling

Processo de reduzir a quantidade de exemplos da classe majoritária.

---

### 28. Ajuste de Peso (Class Weighting)

Estratégia que ajusta pesos das classes na função de perda, incentivando o modelo a prestar mais atenção à classe minoritária.

---

### 29. Feature

Variável preditora usada pelo modelo de machine learning.

---

### 30. Modelo de Machine Learning

Algoritmo treinado para prever resultados com base em dados históricos.

---