# Modelos de classificação

## Modelos utilizados

Neste notebook, vamos treinar e avaliar três algoritmos clássicos de classificação:

- **Regressão Logística**: Modelo simples e interpretável
- **SVM (Support Vector Machine)**: Algoritmo baseado em margens de separação
- **Árvore de Decisão**: Modelo baseado em regras hierárquicas

Utilizaremos o dataset de câncer de mama preparado anteriormente.

## Importar bibliotecas

In [None]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, roc_curve, auc

# Configurar warnings
import warnings
warnings.filterwarnings('ignore')

## Carregar dados

In [None]:
# Caminho para o arquivo de dados (na raiz do projeto)
data_file = "../data/breast_cancer/breast_cancer.parquet"

# Carregar os dados
data = pd.read_parquet(data_file)

print(f"Dataset carregado com sucesso!")
print(f"Dimensões: {data.shape}")
data.head()

## Preparar dados para treinamento

In [None]:
# Selecionar features (X) e variável alvo (y)
feature_columns = ['radius', 'texture', 'perimeter', 'area', 'smoothness',
                   'compactness', 'concavity', 'concave points', 'symmetry', 'fractal dimension']

X = data[feature_columns]
y = data['diagnosis_y']

print(f"Features (X): {X.shape}")
print(f"Alvo (y): {y.shape}")
print(f"\nDistribuição das classes:")
print(y.value_counts())

## Dividir dados em treino e teste

In [None]:
# Dividir em 80% treino e 20% teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"Conjunto de treino: {X_train.shape}")
print(f"Conjunto de teste: {X_test.shape}")
print(f"\nDistribuição no treino:")
print(y_train.value_counts())
print(f"\nDistribuição no teste:")
print(y_test.value_counts())

## Normalizar dados

In [None]:
# Normalizar features (importante para SVM e Regressão Logística)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

print("Dados normalizados com sucesso!")
print(f"\nMédia após normalização (deve ser ~0): {X_train_scaled.mean():.6f}")
print(f"Desvio padrão após normalização (deve ser ~1): {X_train_scaled.std():.6f}")

# Modelo 1: Regressão Logística

## Treinar modelo

In [None]:
# Criar e treinar o modelo
lr_model = LogisticRegression(random_state=42, max_iter=1000)
lr_model.fit(X_train_scaled, y_train)

print("Modelo de Regressão Logística treinado com sucesso!")

## Avaliar modelo

In [None]:
# Fazer previsões
y_pred_lr = lr_model.predict(X_test_scaled)

# Calcular acurácia
accuracy_lr = accuracy_score(y_test, y_pred_lr)
print(f"Acurácia: {accuracy_lr:.4f}")

# Relatório de classificação
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred_lr, target_names=['Benigno', 'Maligno']))

## Matriz de confusão

In [None]:
# Plotar matriz de confusão
cm_lr = confusion_matrix(y_test, y_pred_lr)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_lr, annot=True, fmt='d', cmap='Blues', cbar=False,
            xticklabels=['Benigno', 'Maligno'],
            yticklabels=['Benigno', 'Maligno'])
plt.title('Matriz de Confusão - Regressão Logística')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')
plt.show()

# Modelo 2: SVM (Support Vector Machine)

## Treinar modelo

In [None]:
# Criar e treinar o modelo SVM com kernel RBF
svm_model = SVC(kernel='rbf', random_state=42, probability=True)
svm_model.fit(X_train_scaled, y_train)

print("Modelo SVM treinado com sucesso!")

## Avaliar modelo

In [None]:
# Fazer previsões
y_pred_svm = svm_model.predict(X_test_scaled)

# Calcular acurácia
accuracy_svm = accuracy_score(y_test, y_pred_svm)
print(f"Acurácia: {accuracy_svm:.4f}")

# Relatório de classificação
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred_svm, target_names=['Benigno', 'Maligno']))

## Matriz de confusão

In [None]:
# Plotar matriz de confusão
cm_svm = confusion_matrix(y_test, y_pred_svm)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_svm, annot=True, fmt='d', cmap='Greens', cbar=False,
            xticklabels=['Benigno', 'Maligno'],
            yticklabels=['Benigno', 'Maligno'])
plt.title('Matriz de Confusão - SVM')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')
plt.show()

# Modelo 3: Árvore de Decisão

## Treinar modelo

In [None]:
# Criar e treinar o modelo (usamos dados não normalizados para melhor interpretabilidade)
dt_model = DecisionTreeClassifier(max_depth=5, random_state=42)
dt_model.fit(X_train, y_train)

print("Modelo de Árvore de Decisão treinado com sucesso!")

## Avaliar modelo

In [None]:
# Fazer previsões
y_pred_dt = dt_model.predict(X_test)

# Calcular acurácia
accuracy_dt = accuracy_score(y_test, y_pred_dt)
print(f"Acurácia: {accuracy_dt:.4f}")

# Relatório de classificação
print("\nRelatório de Classificação:")
print(classification_report(y_test, y_pred_dt, target_names=['Benigno', 'Maligno']))

## Matriz de confusão

In [None]:
# Plotar matriz de confusão
cm_dt = confusion_matrix(y_test, y_pred_dt)

plt.figure(figsize=(8, 6))
sns.heatmap(cm_dt, annot=True, fmt='d', cmap='Oranges', cbar=False,
            xticklabels=['Benigno', 'Maligno'],
            yticklabels=['Benigno', 'Maligno'])
plt.title('Matriz de Confusão - Árvore de Decisão')
plt.ylabel('Valor Real')
plt.xlabel('Valor Previsto')
plt.show()

## Visualizar árvore de decisão

In [None]:
# Plotar a árvore de decisão
plt.figure(figsize=(20, 10))
plot_tree(dt_model, 
          feature_names=feature_columns,
          class_names=['Benigno', 'Maligno'],
          filled=True,
          rounded=True,
          fontsize=10)
plt.title('Visualização da Árvore de Decisão')
plt.show()

## Importância das features

In [None]:
# Obter importância das features
feature_importance = pd.DataFrame({
    'feature': feature_columns,
    'importance': dt_model.feature_importances_
}).sort_values('importance', ascending=False)

# Plotar importância
plt.figure(figsize=(10, 6))
sns.barplot(data=feature_importance, x='importance', y='feature', palette='viridis')
plt.title('Importância das Features - Árvore de Decisão')
plt.xlabel('Importância')
plt.ylabel('Feature')
plt.show()

print("\nImportância das Features:")
print(feature_importance)

# Comparação dos Modelos

## Comparar acurácias

In [None]:
# Criar DataFrame com resultados
results = pd.DataFrame({
    'Modelo': ['Regressão Logística', 'SVM', 'Árvore de Decisão'],
    'Acurácia': [accuracy_lr, accuracy_svm, accuracy_dt]
}).sort_values('Acurácia', ascending=False)

print("Comparação de Acurácias:")
print(results)
print(f"\nMelhor modelo: {results.iloc[0]['Modelo']} com {results.iloc[0]['Acurácia']:.4f}")

## Visualizar comparação

In [None]:
# Plotar comparação de acurácias
plt.figure(figsize=(10, 6))
sns.barplot(data=results, x='Modelo', y='Acurácia', palette='Set2')
plt.title('Comparação de Acurácia dos Modelos')
plt.ylabel('Acurácia')
plt.ylim(0.9, 1.0)
for i, row in results.iterrows():
    plt.text(i, row['Acurácia'] + 0.005, f"{row['Acurácia']:.4f}", ha='center')
plt.show()

## Curvas ROC

In [None]:
# Calcular probabilidades para curvas ROC
y_proba_lr = lr_model.predict_proba(X_test_scaled)[:, 1]
y_proba_svm = svm_model.predict_proba(X_test_scaled)[:, 1]
y_proba_dt = dt_model.predict_proba(X_test)[:, 1]

# Calcular curvas ROC
fpr_lr, tpr_lr, _ = roc_curve(y_test, y_proba_lr)
fpr_svm, tpr_svm, _ = roc_curve(y_test, y_proba_svm)
fpr_dt, tpr_dt, _ = roc_curve(y_test, y_proba_dt)

# Calcular AUC
auc_lr = auc(fpr_lr, tpr_lr)
auc_svm = auc(fpr_svm, tpr_svm)
auc_dt = auc(fpr_dt, tpr_dt)

# Plotar curvas ROC
plt.figure(figsize=(10, 8))
plt.plot(fpr_lr, tpr_lr, label=f'Regressão Logística (AUC = {auc_lr:.3f})', linewidth=2)
plt.plot(fpr_svm, tpr_svm, label=f'SVM (AUC = {auc_svm:.3f})', linewidth=2)
plt.plot(fpr_dt, tpr_dt, label=f'Árvore de Decisão (AUC = {auc_dt:.3f})', linewidth=2)
plt.plot([0, 1], [0, 1], 'k--', label='Aleatório', linewidth=1)
plt.xlabel('Taxa de Falsos Positivos')
plt.ylabel('Taxa de Verdadeiros Positivos')
plt.title('Curvas ROC - Comparação dos Modelos')
plt.legend(loc='lower right')
plt.grid(alpha=0.3)
plt.show()

# Exemplo de Uso do Modelo

Vamos usar o melhor modelo para fazer previsões em novos casos.

## Selecionar melhor modelo

In [None]:
# Identificar o melhor modelo baseado na acurácia
best_model_name = results.iloc[0]['Modelo']
best_accuracy = results.iloc[0]['Acurácia']

# Mapear o nome para o modelo correspondente
models_map = {
    'Regressão Logística': (lr_model, True),  # True = precisa normalizar
    'SVM': (svm_model, True),
    'Árvore de Decisão': (dt_model, False)
}

best_model, needs_scaling = models_map[best_model_name]

print(f"Melhor modelo selecionado: {best_model_name}")
print(f"Acurácia: {best_accuracy:.4f}")

## Criar novos casos para predição

In [None]:
# Criar alguns casos hipotéticos para predição

# Caso 1: Características típicas de tumor benigno (valores menores)
caso1 = {
    'radius': 11.0,
    'texture': 16.0,
    'perimeter': 70.0,
    'area': 380.0,
    'smoothness': 0.08,
    'compactness': 0.05,
    'concavity': 0.02,
    'concave points': 0.01,
    'symmetry': 0.17,
    'fractal dimension': 0.06
}

# Caso 2: Características típicas de tumor maligno (valores maiores)
caso2 = {
    'radius': 20.0,
    'texture': 25.0,
    'perimeter': 130.0,
    'area': 1200.0,
    'smoothness': 0.12,
    'compactness': 0.25,
    'concavity': 0.30,
    'concave points': 0.15,
    'symmetry': 0.25,
    'fractal dimension': 0.08
}

# Caso 3: Características intermediárias
caso3 = {
    'radius': 15.0,
    'texture': 20.0,
    'perimeter': 95.0,
    'area': 700.0,
    'smoothness': 0.10,
    'compactness': 0.15,
    'concavity': 0.18,
    'concave points': 0.08,
    'symmetry': 0.20,
    'fractal dimension': 0.07
}

# Criar DataFrame com os novos casos
novos_casos = pd.DataFrame([caso1, caso2, caso3])
novos_casos.index = ['Caso 1 (Provável Benigno)', 'Caso 2 (Provável Maligno)', 'Caso 3 (Intermediário)']

## Novos casos para predição

In [None]:
novos_casos

## Fazer predições

In [None]:
# Preparar dados para predição
if needs_scaling:
    # Normalizar se necessário (LR e SVM)
    novos_casos_preparados = scaler.transform(novos_casos)
else:
    # Usar dados originais (Árvore de Decisão)
    novos_casos_preparados = novos_casos

# Fazer predições
predicoes = best_model.predict(novos_casos_preparados)
probabilidades = best_model.predict_proba(novos_casos_preparados)

# Criar DataFrame com resultados
resultados_predicao = pd.DataFrame({
    'Diagnóstico Previsto': ['Benigno' if p == 0 else 'Maligno' for p in predicoes],
    'Probabilidade Benigno': probabilidades[:, 0].round(4),
    'Probabilidade Maligno': probabilidades[:, 1].round(4),
    'Confiança': [round(max(prob), 4) for prob in probabilidades]
}, index=novos_casos.index)

## Resultados da predição

In [None]:
resultados_predicao

## Visualizar resultados

In [None]:
# Visualizar probabilidades
fig, ax = plt.subplots(figsize=(12, 6))

x = np.arange(len(novos_casos))
width = 0.35

bars1 = ax.bar(x - width/2, resultados_predicao['Probabilidade Benigno'], width, 
               label='Benigno', color='skyblue', alpha=0.8)
bars2 = ax.bar(x + width/2, resultados_predicao['Probabilidade Maligno'], width,
               label='Maligno', color='salmon', alpha=0.8)

ax.set_xlabel('Casos')
ax.set_ylabel('Probabilidade')
ax.set_title(f'Probabilidades de Diagnóstico - {best_model_name}')
ax.set_xticks(x)
ax.set_xticklabels(novos_casos.index, rotation=15, ha='right')
ax.legend()
ax.grid(axis='y', alpha=0.3)

# Adicionar valores nas barras
for bars in [bars1, bars2]:
    for bar in bars:
        height = bar.get_height()
        ax.text(bar.get_x() + bar.get_width()/2., height,
                f'{height:.2%}',
                ha='center', va='bottom', fontsize=9)

plt.tight_layout()
plt.show()

## Interpretação dos resultados

In [None]:
for idx, row in resultados_predicao.iterrows():
    print(f"\n{idx}:")
    print(f"  Diagnóstico: {row['Diagnóstico Previsto']}")
    print(f"  Confiança: {row['Confiança']:.2%}")
    if row['Confiança'] > 0.9:
        print(f"  ✓ Alta confiança na predição")
    elif row['Confiança'] > 0.7:
        print(f"  ⚠ Confiança moderada - recomenda-se análise adicional")
    else:
        print(f"  ⚠ Baixa confiança - resultado inconclusivo")