# An√°lise de Ajuste de Threshold para Dados Desbalanceados

Este notebook demonstra como ajustar o threshold de classifica√ß√£o para melhorar o desempenho de modelos com dados desbalanceados, especialmente em termos de recall.

Os modelos de classifica√ß√£o padr√£o geralmente usam um threshold de 0.5 para decidir se um exemplo pertence √† classe positiva ou negativa. No entanto, quando os dados est√£o desbalanceados (ou seja, uma classe √© muito mais frequente que a outra), esse threshold padr√£o pode n√£o ser ideal.

Neste notebook, vamos:
1. Carregar dados de candidatos com classes desbalanceadas
2. Treinar um modelo de classifica√ß√£o 
3. Avaliar o desempenho com threshold padr√£o (0.5)
4. Encontrar um threshold √≥timo usando curvas ROC e Precision-Recall
5. Avaliar o desempenho com threshold ajustado
6. Visualizar o impacto de diferentes thresholds nas m√©tricas

In [None]:
# Importar bibliotecas necess√°rias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import pickle
from sklearn.metrics import (confusion_matrix, classification_report, 
                            precision_recall_curve, roc_curve, auc,
                            f1_score, precision_score, recall_score, 
                            accuracy_score, average_precision_score, roc_auc_score)

# Configura√ß√µes para visualiza√ß√£o
plt.style.use('ggplot')
sns.set(style='whitegrid')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

## Carregamento e Prepara√ß√£o dos Dados

Primeiro, vamos carregar os dados processados e verificar a distribui√ß√£o das classes.
O nosso modelo est√° tentando prever a vari√°vel `target_sucesso` que indica se um candidato foi contratado com sucesso (1) ou n√£o (0).

In [None]:
# Carregar dados processados
try:
    df = pd.read_csv('../data/processed/complete_processed_data.csv')
    print(f"‚úÖ Dados carregados: {df.shape[0]} registros, {df.shape[1]} colunas")
except FileNotFoundError:
    print("‚ùå Arquivo de dados n√£o encontrado. Verifique o caminho.")
    
# Verificar a presen√ßa da vari√°vel target
target = 'target_sucesso'
if target in df.columns:
    # Distribui√ß√£o da vari√°vel target
    target_dist = df[target].value_counts(normalize=True) * 100
    print("\nüìä Distribui√ß√£o do Target:")
    for value, pct in target_dist.items():
        print(f"  - Classe {value}: {pct:.1f}%")
    
    # Visualizar distribui√ß√£o
    plt.figure(figsize=(10, 6))
    ax = sns.countplot(x=target, data=df)
    plt.title('Distribui√ß√£o da Vari√°vel Target (Sucesso na Contrata√ß√£o)')
    plt.xlabel('Sucesso na Contrata√ß√£o (0=N√£o, 1=Sim)')
    plt.ylabel('N√∫mero de Candidatos')
    
    # Adicionar valores nas barras
    for p in ax.patches:
        ax.annotate(f'{p.get_height()}', 
                    (p.get_x() + p.get_width()/2., p.get_height()), 
                    ha='center', va='bottom')
    
    plt.show()
else:
    print(f"‚ùå Vari√°vel target '{target}' n√£o encontrada nos dados.")
    
# Separar features e target
if target in df.columns:
    X = df.drop(columns=[target])
    y = df[target]
    print(f"\n‚úÖ Features e target separados: {X.shape[1]} features, {len(y)} exemplos")

## Carregamento do Modelo Treinado

Vamos carregar o modelo pr√©-treinado para avaliar seu desempenho com diferentes thresholds.
Primeiro, precisamos verificar se o modelo j√° existe.

In [None]:
# Carregar o modelo treinado
model_path = '../models/scoring_model.pkl'

try:
    with open(model_path, 'rb') as file:
        model = pickle.load(file)
    print(f"‚úÖ Modelo carregado com sucesso: {type(model).__name__}")
    
    # Extrair informa√ß√µes sobre o modelo
    if hasattr(model, 'steps'):
        for name, step in model.named_steps.items():
            print(f"  - {name}: {type(step).__name__}")
    elif hasattr(model, 'estimators_'):
        print(f"  - N√∫mero de estimadores: {len(model.estimators_)}")
    else:
        print("  - Informa√ß√µes detalhadas n√£o dispon√≠veis para este tipo de modelo")
except FileNotFoundError:
    print(f"‚ùå Modelo n√£o encontrado em {model_path}")
    print("üîÑ Treinando um modelo simples para demonstra√ß√£o...")
    
    # Se n√£o encontrarmos o modelo, treinaremos um modelo simples para demonstra√ß√£o
    from sklearn.ensemble import RandomForestClassifier
    from sklearn.model_selection import train_test_split
    
    # Dividir os dados em treino e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Treinar um modelo RandomForest
    model = RandomForestClassifier(n_estimators=100, random_state=42)
    model.fit(X_train, y_train)
    print("‚úÖ Modelo de demonstra√ß√£o treinado com sucesso!")

## Avalia√ß√£o com Threshold Padr√£o (0.5)

Vamos avaliar o desempenho do modelo usando o threshold padr√£o de 0.5 para classifica√ß√£o e calcular diversas m√©tricas para entender como o modelo se comporta com dados desbalanceados.

In [None]:
# Dividir dados em treino e teste se n√£o foi feito anteriormente
try:
    X_test
except NameError:
    from sklearn.model_selection import train_test_split
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    print(f"‚úÖ Dados divididos em treino e teste: {len(X_train)} exemplos de treino, {len(X_test)} exemplos de teste")

# Obter probabilidades de predi√ß√£o
if hasattr(model, 'predict_proba'):
    y_proba = model.predict_proba(X_test)[:, 1]  # Probabilidade da classe positiva
    print("‚úÖ Probabilidades de predi√ß√£o obtidas")
else:
    # Se o modelo n√£o tiver predict_proba, usar decis√£o como probabilidade
    y_proba = model.predict(X_test)
    print("‚ö†Ô∏è Modelo n√£o possui m√©todo predict_proba, usando decis√µes como probabilidades")

# Predi√ß√µes com threshold padr√£o de 0.5
threshold_default = 0.5
y_pred_default = (y_proba >= threshold_default).astype(int)

# Calcular m√©tricas de classifica√ß√£o com threshold padr√£o
accuracy_default = accuracy_score(y_test, y_pred_default)
precision_default = precision_score(y_test, y_pred_default)
recall_default = recall_score(y_test, y_pred_default)
f1_default = f1_score(y_test, y_pred_default)
auc_default = roc_auc_score(y_test, y_proba)

# Exibir resultados
print("\nüìä Performance com Threshold Padr√£o (0.5):")
print(f"  - Acur√°cia: {accuracy_default:.4f}")
print(f"  - Precis√£o: {precision_default:.4f}")
print(f"  - Recall: {recall_default:.4f}")
print(f"  - F1-Score: {f1_default:.4f}")
print(f"  - AUC-ROC: {auc_default:.4f}")

# Exibir relat√≥rio de classifica√ß√£o detalhado
print("\nüìã Relat√≥rio de Classifica√ß√£o Detalhado:")
print(classification_report(y_test, y_pred_default))

# Visualizar matriz de confus√£o
plt.figure(figsize=(8, 6))
cm = confusion_matrix(y_test, y_pred_default)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['N√£o Contratado', 'Contratado'],
            yticklabels=['N√£o Contratado', 'Contratado'])
plt.xlabel('Predito')
plt.ylabel('Real')
plt.title(f'Matriz de Confus√£o (Threshold = {threshold_default})')
plt.show()

## Encontrando o Threshold √ìtimo

Para dados desbalanceados, o threshold padr√£o de 0.5 geralmente n√£o √© ideal. Vamos usar diferentes m√©todos para encontrar um threshold mais adequado:

1. **Curva Precision-Recall**: Para datasets desbalanceados, esta curva √© geralmente mais informativa que a curva ROC.
2. **Curva ROC**: Permite visualizar trade-off entre taxa de verdadeiros positivos e falsos positivos.
3. **F1-Score para diferentes thresholds**: Encontrar o threshold que maximiza o F1-Score.

Vamos implementar essas abordagens:

In [None]:
# 1. Curva Precision-Recall
precision, recall, thresholds_pr = precision_recall_curve(y_test, y_proba)

# Calcular F1 score para cada threshold
f1_scores = []
for p, r in zip(precision, recall):
    if p + r == 0:  # Evitar divis√£o por zero
        f1 = 0
    else:
        f1 = 2 * (p * r) / (p + r)
    f1_scores.append(f1)

# Encontrar o threshold que maximiza o F1-score
optimal_idx_f1 = np.argmax(f1_scores)
optimal_threshold_f1 = thresholds_pr[optimal_idx_f1] if optimal_idx_f1 < len(thresholds_pr) else 0.5

# 2. Curva ROC
fpr, tpr, thresholds_roc = roc_curve(y_test, y_proba)

# Encontrar o threshold que maximiza a dist√¢ncia √† linha aleat√≥ria (ponto mais distante da linha diagonal)
# Tamb√©m conhecido como ponto J de Youden
distances = tpr - fpr
optimal_idx_roc = np.argmax(distances)
optimal_threshold_roc = thresholds_roc[optimal_idx_roc]

# 3. Calcular m√©tricas para v√°rios thresholds
thresholds_range = np.linspace(0.05, 0.95, 19)  # De 0.05 a 0.95 em 19 steps
metrics = []

for threshold in thresholds_range:
    y_pred = (y_proba >= threshold).astype(int)
    
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    
    metrics.append({
        'threshold': threshold,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1
    })

metrics_df = pd.DataFrame(metrics)

# Encontrar o threshold que maximiza o F1-score na nossa grade
optimal_threshold_grid = metrics_df.loc[metrics_df['f1'].idxmax(), 'threshold']

print(f"Threshold √≥timo (maximizando F1 na curva PR): {optimal_threshold_f1:.4f}")
print(f"Threshold √≥timo (maximizando J de Youden na curva ROC): {optimal_threshold_roc:.4f}")
print(f"Threshold √≥timo (maximizando F1 em nossa grade): {optimal_threshold_grid:.4f}")

# Escolher o threshold final (m√©dia dos m√©todos)
final_threshold = np.mean([optimal_threshold_f1, optimal_threshold_roc, optimal_threshold_grid])
print(f"\nüéØ Threshold recomendado final: {final_threshold:.4f}")

# Visualizar as curvas
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Curva Precision-Recall
ax1.plot(recall, precision, label='Curva Precision-Recall')
ax1.scatter(recall[optimal_idx_f1], precision[optimal_idx_f1], 
           color='red', label=f'Threshold √ìtimo: {optimal_threshold_f1:.4f}')
ax1.set_xlabel('Recall')
ax1.set_ylabel('Precision')
ax1.set_title('Curva Precision-Recall')
ax1.legend()
ax1.grid(True)

# Curva ROC
ax2.plot(fpr, tpr, label=f'Curva ROC (AUC = {auc_default:.4f})')
ax2.plot([0, 1], [0, 1], 'k--', label='Aleat√≥rio')
ax2.scatter(fpr[optimal_idx_roc], tpr[optimal_idx_roc], 
           color='red', label=f'Threshold √ìtimo: {optimal_threshold_roc:.4f}')
ax2.set_xlabel('Taxa de Falsos Positivos')
ax2.set_ylabel('Taxa de Verdadeiros Positivos')
ax2.set_title('Curva ROC')
ax2.legend()
ax2.grid(True)

plt.tight_layout()
plt.show()

## Visualiza√ß√£o do Impacto de Diferentes Thresholds

Agora vamos visualizar como as m√©tricas de desempenho (precis√£o, recall, F1 e acur√°cia) variam conforme mudamos o threshold de classifica√ß√£o.

In [None]:
# Plotar as m√©tricas para diferentes thresholds
plt.figure(figsize=(12, 8))

# Plotar cada m√©trica
plt.plot(metrics_df['threshold'], metrics_df['accuracy'], 'b-', label='Acur√°cia')
plt.plot(metrics_df['threshold'], metrics_df['precision'], 'g-', label='Precis√£o')
plt.plot(metrics_df['threshold'], metrics_df['recall'], 'r-', label='Recall')
plt.plot(metrics_df['threshold'], metrics_df['f1'], 'purple', label='F1-Score')

# Adicionar linhas para os thresholds √≥timos
plt.axvline(x=optimal_threshold_f1, color='red', linestyle='--', alpha=0.5, label=f'Threshold PR: {optimal_threshold_f1:.4f}')
plt.axvline(x=optimal_threshold_roc, color='green', linestyle='--', alpha=0.5, label=f'Threshold ROC: {optimal_threshold_roc:.4f}')
plt.axvline(x=final_threshold, color='black', linestyle='-', alpha=0.7, label=f'Threshold Final: {final_threshold:.4f}')
plt.axvline(x=0.5, color='gray', linestyle=':', alpha=0.7, label='Threshold Padr√£o: 0.5')

# Configurar o gr√°fico
plt.title('Impacto do Threshold nas M√©tricas de Classifica√ß√£o')
plt.xlabel('Threshold')
plt.ylabel('Valor da M√©trica')
plt.legend(loc='best')
plt.grid(True)
plt.xticks(np.arange(0, 1.05, 0.05))
plt.xlim([0, 1])
plt.ylim([0, 1])

plt.show()

# Visualiza√ß√£o em formato de tabela para thresholds selecionados
selected_thresholds = [0.1, 0.2, 0.25, 0.3, 0.4, 0.5]
selected_metrics = []

for threshold in selected_thresholds:
    y_pred = (y_proba >= threshold).astype(int)
    
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred)
    recall = recall_score(y_test, y_pred)
    f1 = f1_score(y_test, y_pred)
    
    # Contar positivos preditos
    positivos_preditos = np.sum(y_pred == 1)
    pct_positivos = (positivos_preditos / len(y_pred)) * 100
    
    selected_metrics.append({
        'threshold': threshold,
        'accuracy': accuracy,
        'precision': precision,
        'recall': recall,
        'f1': f1,
        'positivos_preditos': positivos_preditos,
        'pct_positivos': pct_positivos
    })

# Converter para DataFrame e exibir
selected_df = pd.DataFrame(selected_metrics)
selected_df = selected_df.round(4)
selected_df

## Avalia√ß√£o com Threshold Ajustado

Agora vamos avaliar o desempenho do modelo usando o threshold otimizado que encontramos. Vamos comparar as m√©tricas e a matriz de confus√£o com o threshold padr√£o de 0.5.

In [None]:
# Usar o threshold otimizado
threshold_optimized = final_threshold
y_pred_optimized = (y_proba >= threshold_optimized).astype(int)

# Calcular m√©tricas de classifica√ß√£o com threshold otimizado
accuracy_optimized = accuracy_score(y_test, y_pred_optimized)
precision_optimized = precision_score(y_test, y_pred_optimized)
recall_optimized = recall_score(y_test, y_pred_optimized)
f1_optimized = f1_score(y_test, y_pred_optimized)
auc_optimized = auc_default  # AUC √© invariante ao threshold

# Comparar resultados
results = {
    'M√©trica': ['Acur√°cia', 'Precis√£o', 'Recall', 'F1-Score', 'AUC-ROC'],
    'Threshold Padr√£o (0.5)': [accuracy_default, precision_default, recall_default, f1_default, auc_default],
    f'Threshold Otimizado ({threshold_optimized:.3f})': [accuracy_optimized, precision_optimized, recall_optimized, f1_optimized, auc_optimized],
    'Diferen√ßa': [
        accuracy_optimized - accuracy_default,
        precision_optimized - precision_default,
        recall_optimized - recall_default,
        f1_optimized - f1_default,
        0  # AUC √© invariante ao threshold
    ]
}

# Criar DataFrame para visualiza√ß√£o
results_df = pd.DataFrame(results)
results_df = results_df.round(4)
results_df

# Calcular varia√ß√£o percentual nas m√©tricas
percent_change = {
    'M√©trica': ['Acur√°cia', 'Precis√£o', 'Recall', 'F1-Score'],
    'Varia√ß√£o %': [
        (accuracy_optimized - accuracy_default) / accuracy_default * 100,
        (precision_optimized - precision_default) / precision_default * 100,
        (recall_optimized - recall_default) / recall_default * 100 if recall_default > 0 else float('inf'),
        (f1_optimized - f1_default) / f1_default * 100 if f1_default > 0 else float('inf')
    ]
}
percent_df = pd.DataFrame(percent_change)
percent_df['Varia√ß√£o %'] = percent_df['Varia√ß√£o %'].round(2)

# Visualizar matrizes de confus√£o lado a lado
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Matriz de confus√£o com threshold padr√£o
cm_default = confusion_matrix(y_test, y_pred_default)
sns.heatmap(cm_default, annot=True, fmt='d', cmap='Blues', ax=ax1,
            xticklabels=['N√£o Contratado', 'Contratado'],
            yticklabels=['N√£o Contratado', 'Contratado'])
ax1.set_xlabel('Predito')
ax1.set_ylabel('Real')
ax1.set_title(f'Matriz de Confus√£o (Threshold = 0.5)')

# Matriz de confus√£o com threshold otimizado
cm_optimized = confusion_matrix(y_test, y_pred_optimized)
sns.heatmap(cm_optimized, annot=True, fmt='d', cmap='Blues', ax=ax2,
            xticklabels=['N√£o Contratado', 'Contratado'],
            yticklabels=['N√£o Contratado', 'Contratado'])
ax2.set_xlabel('Predito')
ax2.set_ylabel('Real')
ax2.set_title(f'Matriz de Confus√£o (Threshold = {threshold_optimized:.3f})')

plt.tight_layout()
plt.show()

# Exibir tamb√©m a varia√ß√£o percentual
percent_df

## Conclus√µes e Recomenda√ß√µes

Com base nas an√°lises realizadas, podemos tirar algumas conclus√µes importantes sobre o ajuste de threshold para o nosso modelo de scoring:

In [None]:
# Criar fun√ß√£o para salvar o threshold otimizado
def save_optimal_threshold(threshold, output_file='../config/optimal_threshold.txt'):
    os.makedirs(os.path.dirname(output_file), exist_ok=True)
    with open(output_file, 'w') as f:
        f.write(f"{threshold}")
    print(f"‚úÖ Threshold otimizado salvo em {output_file}")

# Salvar o threshold otimizado em um arquivo de configura√ß√£o
try:
    save_optimal_threshold(threshold_optimized)
except Exception as e:
    print(f"‚ö†Ô∏è Erro ao salvar o threshold: {str(e)}")

# Resumo das conclus√µes em formato de texto
print("üìù CONCLUS√ïES DA AN√ÅLISE DE THRESHOLD:")
print("-" * 50)
print(f"1. O threshold padr√£o (0.5) resultou em:")
print(f"   - Alta precis√£o: {precision_default:.4f}")
print(f"   - Baixo recall: {recall_default:.4f}")
print(f"   - F1-score: {f1_default:.4f}")
print(f"   Este comportamento √© t√≠pico em problemas com dados desbalanceados.")
print()
print(f"2. O threshold otimizado ({threshold_optimized:.4f}) resultou em:")
print(f"   - Precis√£o: {precision_optimized:.4f} ({(precision_optimized - precision_default) / precision_default * 100:.1f}%)")
print(f"   - Recall: {recall_optimized:.4f} ({(recall_optimized - recall_default) / recall_default * 100:.1f}%)" if recall_default > 0 else f"   - Recall: {recall_optimized:.4f} (‚àû%)")
print(f"   - F1-score: {f1_optimized:.4f} ({(f1_optimized - f1_default) / f1_default * 100:.1f}%)" if f1_default > 0 else f"   - F1-score: {f1_optimized:.4f} (‚àû%)")
print()
print("3. Recomenda√ß√µes:")
print(f"   - Usar threshold de {threshold_optimized:.4f} para melhorar o equil√≠brio entre precis√£o e recall")
print("   - Configurar via vari√°vel de ambiente CLASSIFICATION_THRESHOLD")
print("   - Monitorar o impacto no ambiente de produ√ß√£o")
print("   - Reavaliar periodicamente conforme novos dados s√£o coletados")
print("-" * 50)

## Como Implementar o Threshold Ajustado na API

O threshold otimizado pode ser implementado na API de scoring atrav√©s das seguintes etapas:

1. **Configurar via vari√°vel de ambiente**: Definir `CLASSIFICATION_THRESHOLD=0.25` (ou o valor otimizado encontrado)

2. **Modificar o c√≥digo de predi√ß√£o**: Atualizar a fun√ß√£o de predi√ß√£o para usar o threshold configur√°vel:

```python
def get_classification_threshold():
    """Obt√©m o threshold configurado ou usa o valor padr√£o otimizado"""
    try:
        threshold = float(os.environ.get("CLASSIFICATION_THRESHOLD", "0.25"))
        threshold = max(0.01, min(threshold, 0.99))  # Limitar entre 0.01 e 0.99
        return threshold
    except (ValueError, TypeError):
        return 0.25  # Valor otimizado padr√£o
        
def predict(data):
    # Obter probabilidade
    probability = model.predict_proba(data)[:, 1]
    
    # Usar threshold ajustado
    threshold = get_classification_threshold()
    prediction = (probability >= threshold).astype(int)
    
    return {"prediction": prediction, "probability": probability, "threshold": threshold}
```

3. **Documentar a mudan√ßa**: Explicar o motivo e o impacto da altera√ß√£o para futuras refer√™ncias

4. **Monitorar o desempenho**: Verificar o impacto do novo threshold no ambiente de produ√ß√£o