In [1]:
# ===========================================
# Classificação de Câncer de Mama
# Comparando Regressão Logística e Random Forest
# ===========================================

#  1. Importar bibliotecas
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

#  2. Carregar dataset
data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)

print("Dimensões do dataset:", X.shape)
print("Classes:", np.unique(y))
print("Descrição das classes:", data.target_names)

#  3. Separar treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

# Escalonar dados (necessário para Regressão Logística)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

#  4. Treinar modelos
# Regressão Logística
log_reg = LogisticRegression(max_iter=500, random_state=42)
log_reg.fit(X_train_scaled, y_train)

# Random Forest
rf = RandomForestClassifier(n_estimators=100, random_state=42)
rf.fit(X_train, y_train)

#  5. Avaliar modelos
def avaliar(y_true, y_pred, modelo):
    print(f"\n🔹 Modelo: {modelo}")
    print("Acurácia:", round(accuracy_score(y_true, y_pred), 3))
    print("Precisão:", round(precision_score(y_true, y_pred), 3))
    print("Recall:", round(recall_score(y_true, y_pred), 3))
    print("F1-Score:", round(f1_score(y_true, y_pred), 3))
    print("Matriz de Confusão:\n", confusion_matrix(y_true, y_pred))

# Predições
y_pred_log = log_reg.predict(X_test_scaled)
y_pred_rf = rf.predict(X_test)

# Resultados
avaliar(y_test, y_pred_log, "Regressão Logística")
avaliar(y_test, y_pred_rf, "Random Forest")

#  6. Comparação em Tabela
resultados = pd.DataFrame({
    "Modelo": ["Regressão Logística", "Random Forest"],
    "Acurácia": [
        accuracy_score(y_test, y_pred_log),
        accuracy_score(y_test, y_pred_rf)
    ],
    "Precisão": [
        precision_score(y_test, y_pred_log),
        precision_score(y_test, y_pred_rf)
    ],
    "Recall": [
        recall_score(y_test, y_pred_log),
        recall_score(y_test, y_pred_rf)
    ],
    "F1-Score": [
        f1_score(y_test, y_pred_log),
        f1_score(y_test, y_pred_rf)
    ]
})

print("\n📊 Resultados comparativos:")
display(resultados)


Dimensões do dataset: (569, 30)
Classes: [0 1]
Descrição das classes: ['malignant' 'benign']

🔹 Modelo: Regressão Logística
Acurácia: 0.988
Precisão: 0.991
Recall: 0.991
F1-Score: 0.991
Matriz de Confusão:
 [[ 63   1]
 [  1 106]]

🔹 Modelo: Random Forest
Acurácia: 0.936
Precisão: 0.944
Recall: 0.953
F1-Score: 0.949
Matriz de Confusão:
 [[ 58   6]
 [  5 102]]

📊 Resultados comparativos:


Unnamed: 0,Modelo,Acurácia,Precisão,Recall,F1-Score
0,Regressão Logística,0.988304,0.990654,0.990654,0.990654
1,Random Forest,0.935673,0.944444,0.953271,0.948837
