In [None]:
# =============================
# 4.2 – Preparação dos Dados
# =============================
import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# Carregando dataset Breast Cancer
data = load_breast_cancer()
df = pd.DataFrame(data.data, columns=data.feature_names)
df['target'] = data.target

print("Dimensões do dataset:", df.shape)
print("\nPrimeiras linhas:")
display(df.head())

print("\nInformações do dataset:")
print(df.info())

print("\nResumo estatístico:")
display(df.describe())

# Separação em atributos e variável alvo
X = df.drop(columns=['target'])
y = df['target']

# Divisão em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print("\nTamanho treino:", X_train.shape)
print("Tamanho teste:", X_test.shape)

# =============================
# 4.3 – Modelagem
# =============================
from sklearn.tree import DecisionTreeClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report

# Definição dos modelos
models = {
    'Decision Tree': DecisionTreeClassifier(random_state=42),
    'KNN': KNeighborsClassifier(),
    'Logistic Regression': LogisticRegression(max_iter=5000, random_state=42)
}

results = {}

# Treinamento e avaliação
for name, model in models.items():
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)

    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')
    conf_matrix = confusion_matrix(y_test, y_pred)

    results[name] = {
        "Accuracy": accuracy,
        "Precision": precision,
        "Recall": recall,
        "F1-Score": f1,
        "Confusion Matrix": conf_matrix
    }

    print(f"\n{name}")
    print(f"Acurácia: {accuracy:.3f}")
    print(f"Precisão: {precision:.3f}")
    print(f"Recall: {recall:.3f}")
    print(f"F1-Score: {f1:.3f}")
    print("Matriz de Confusão:")
    print(conf_matrix)
    print("\nRelatório de Classificação:")
    print(classification_report(y_test, y_pred))

    # =============================
# Gráfico comparativo
# =============================
import matplotlib.pyplot as plt
import seaborn as sns

model_names = list(results.keys())
accuracies = [results[name]['Accuracy'] for name in model_names]

plt.figure(figsize=(6,5))
sns.barplot(x=model_names, y=accuracies, palette='Set2')
plt.title('Comparação de Acurácia entre Modelos')
plt.xlabel('Modelo')
plt.ylabel('Acurácia')
plt.ylim(0,1)
plt.show()

# =============================
# 4.4 – Conclusão
# =============================
print("Conclusões:")
print("- Qual modelo apresentou melhor desempenho no dataset escolhido?")
best_model = max(results, key=lambda x: results[x]['Accuracy'])
print(f"→ O melhor modelo foi: {best_model} com acurácia {results[best_model]['Accuracy']:.3f}\n")

print("- O resultado faz sentido?")
print("→ Sim. O dataset Breast Cancer é bem conhecido por ser linearmente separável em grande parte,")
print("  o que favorece algoritmos como a Regressão Logística. Árvores de decisão também vão bem,")
print("  enquanto o KNN pode ser afetado pela escala das features.\n")

print("- O que poderia ser feito para melhorar os modelos?")
print("→ Poderíamos aplicar normalização dos dados (especialmente para KNN),")
print("  testar mais hiperparâmetros (grid search), e experimentar outros algoritmos como Random Forest ou SVM.")

