## Gloss√°rio

| Termo | Defini√ß√£o |
| :--- | :--- |
| Fraude | Transa√ß√£o financeira ileg√≠tima, n√£o autorizada pelo portador do cart√£o. |
| Transa√ß√£o Leg√≠tima | Transa√ß√£o financeira autorizada e realizada pelo portador do cart√£o. | 
| Desbalanceamento de Classes | Situa√ß√£o em que uma classe (fraude) tem muito menos exemplos que a outra (leg√≠tima). |
| Recall | M√©trica que mede a propor√ß√£o de fraudes reais que foram detectadas. |
| Precision | M√©trica que mede a propor√ß√£o das previs√µes de fraude que eram realmente fraudes. |
| Falso Positivo (FP) | Transa√ß√£o leg√≠tima erroneamente classificada como fraude. |
| Falso Negativo (FN) | Transa√ß√£o fraudulenta erroneamente classificada como leg√≠tima. |
| PCA (An√°lise de Componentes Principais) | T√©cnica de redu√ß√£o de dimensionalidade usada para anonimizar os dados. |
| SMOTE | T√©cnica de over-sampling que gera exemplos sint√©ticos da classe minorit√°ria. |
| Over-sampling | T√©cnica que aumenta o n√∫mero de exemplos da classe minorit√°ria. |
| Under-sampling | T√©cnica que diminui o n√∫mero de exemplos da classe majorit√°ria. |
| Ajuste de Peso | T√©cnica que atribui pesos diferentes √†s classes durante o treinamento do modelo. |
| EDA (An√°lise Explorat√≥ria de Dados) | Processo de investiga√ß√£o inicial dos dados para descobrir padr√µes, anomalias e testar hip√≥teses. |
| Feature | Vari√°vel preditora usada pelo modelo de machine learning. |
| Modelo de Machine Learning | Algoritmo treinado para fazer previs√µes com base em dados hist√≥ricos. |
| Trade-off | Situa√ß√£o em que se deve abrir m√£o de um aspecto para obter outro (ex: recall vs precision). |


---

# üìò **GLOSS√ÅRIO PROFISSIONAL ‚Äî COMPLETO E ATUALIZADO**

A seguir, um gloss√°rio totalmente novo, cobrindo todas as pr√°ticas reais aplicadas no seu projeto:

---

```markdown
# üìò Gloss√°rio T√©cnico ‚Äì FraudSense

Este gloss√°rio re√∫ne os principais conceitos utilizados no desenvolvimento do sistema de detec√ß√£o de fraude FraudSense, seguindo pr√°ticas reais de Machine Learning aplicado ao setor financeiro.

---

## üî¢ 1. Classes Desbalanceadas
Situa√ß√£o onde uma classe ocorre muito menos que a outra (ex.: fraude = apenas 0,17%).  
M√©tricas tradicionais como acur√°cia tornam-se in√∫teis.

---

## üéØ 2. AUC-PR (Average Precision / Precision‚ÄìRecall AUC)
M√©trica mais adequada para problemas desbalanceados.  
Avalia qualidade da ordena√ß√£o das probabilidades.

---

## üè∑ 3. Threshold
Valor de corte para converter probabilidades em 0/1.  
Em fraude, costuma ser muito alto (ex.: 0.995) devido √† necessidade de alt√≠ssima precis√£o.

---

## üß™ 4. Tuning de Threshold via Nested CV
Processo em duas fases:

1. Treina modelo em folds internos  
2. Avalia diferentes thresholds em folds externos  

Evita leakage e gera thresholds mais confi√°veis.

---

## ‚öñÔ∏è 5. Precision
Entre as transa√ß√µes sinalizadas como fraude, quantas realmente s√£o fraude.  
A m√©trica mais importante para fintechs.

---

## üìà 6. Recall
Entre todas as fraudes existentes, quantas o modelo detecta.

---

## ‚≠ê 7. F1-Score
Harm√¥nico de precision e recall.  
Bom para trade-off geral.

---

## üß± 8. Pipeline de Pr√©-processamento
Estrutura que combina:

- imputa√ß√£o  
- normaliza√ß√£o  
- encoding  
- balanceamento dentro do CV  

Garantindo reprodutibilidade e aus√™ncia de leakage.

---

## ‚öñÔ∏è 9. SMOTE dentro do Cross-Validation
Aplica oversampling **somente dentro de cada fold**, evitando vazamento de informa√ß√£o.

---

## üî• 10. XGBoost / LightGBM / CatBoost
Modelos gradient boosting usados amplamente em risco e fraude.

- **XGBoost** ‚Üí muito preciso, por√©m sens√≠vel a tuning  
- **LightGBM** ‚Üí extremamente r√°pido  
- **CatBoost** ‚Üí est√°vel e excelente para vari√°veis num√©ricas

---

## üßÆ 11. scale_pos_weight
Par√¢metro do XGBoost que ajusta peso da classe minorit√°ria.  
Importante em datasets de fraude.

---

## üìö 12. ColumnTransformer
Permite pr√©-processar diferentes tipos de features de maneira estruturada.

---

## üß© 13. Holdout  
Parte dos dados reservada e nunca usada durante o treinamento.  
Avalia√ß√£o final mais honesta.

---

## üß¨ 14. SHAP (SHapley Values)
M√©todo de explicabilidade que mostra quanto cada vari√°vel contribuiu para aumentar ou reduzir o risco previsto.

- Summary Plot ‚Üí vis√£o global  
- Waterfall Plot ‚Üí explica√ß√£o local  

---

## üåÄ 15. Permutation Importance
Avalia impacto de cada vari√°vel embaralhando seus valores.  
Mostra import√¢ncia real e n√£o enviesada.

---

## üöÄ 16. Deploy
Ato de colocar o modelo em produ√ß√£o.  
Simulado aqui por meio da fun√ß√£o `predict_transactions()`.

---

## üß≠ 17. Leakage
Quando o modelo tem acesso a informa√ß√µes que n√£o deveria.  
Em fraude, leakage √© extremamente perigoso e deve ser evitado com:
- SMOTE only inside CV  
- holdout final totalmente isolado  
- pr√©-processamento dentro do pipeline

---

## üì¶ 18. joblib
Biblioteca usada para salvar:
- preprocessor  
- pipeline final  
- threshold calibrado  

Essencial para reprodutibilidade.

---

## üëÅ 19. Matriz de Confus√£o
Mostra:
- TN = leg√≠tima corretamente classificada  
- FP = falso alerta  
- FN = fraude n√£o detectada  
- TP = fraude detectada  

---

## üîç 20. Curva Precision-Recall
Mostra como o modelo se comporta para diferentes thresholds.  
Mais informativa que ROC em cen√°rios de desequil√≠brio.

---

## üß† 21. Risco Operacional de Falsos Positivos
Custo comercial e reputacional associado a bloquear clientes leg√≠timos.  
Muitas vezes √© maior que o custo de fraudes que passam.

---

## üìâ 22. Desbalanceamento Extremo
Quando a taxa de fraude √© t√£o baixa (<0.5%) que pequenas mudan√ßas em FP/FN t√™m impacto enorme em m√©tricas.

---

## üßÆ 23. RobustScaler
Normalizador resistente a outliers.  
Prefer√≠vel a StandardScaler em vari√°veis financeiras.

---

## üë®‚Äçüíª 24. CRISP-DM
Metodologia que organiza todo o fluxo do projeto:

1. Entendimento do neg√≥cio  
2. Entendimento dos dados  
3. Prepara√ß√£o  
4. Modelagem  
5. Avalia√ß√£o  
6. Deploy  

---

Fim do Gloss√°rio.
