In [5]:
from sklearn.datasets import load_breast_cancer
import pandas as pd
import numpy as np

# Carregar o dataset como DataFrame
data = load_breast_cancer(as_frame=True)
df = data.frame

# Exibir informações básicas do dataset
print("Primeiros dados do dataset:")
print(df.head())
print("\nResumo dos dados:")
print(df.describe())
print("\nInformação sobre as features e o alvo/target:")
print("Features:", data.feature_names)
print("Target:", data.target_names)

# Passo 2: Pré-processamento dos Dados
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Dividir o dataset em variáveis de entrada (X) e variável alvo (y)
X = df.drop(columns="target")
y = df["target"]

# Dividir em conjuntos de treino e teste (70% treino e 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Verificar valores nulos
print("\nVerificação de valores nulos:")
print(df.isnull().sum())

# Passo 3: Treinar Modelos de Classificação
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier

# Treinando um modelo de Árvore de Decisão
dt_model = DecisionTreeClassifier(random_state=42)
dt_model.fit(X_train, y_train)

# Treinando um modelo de Random Forest
rf_model = RandomForestClassifier(random_state=42)
rf_model.fit(X_train, y_train)

# Passo 4: Avaliação dos Modelos
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Avaliação do modelo Árvore de Decisão
y_pred_dt = dt_model.predict(X_test)
print("\nÁrvore de Decisão - Matriz de Confusão:")
print(confusion_matrix(y_test, y_pred_dt))
print("\nRelatório de Classificação - Árvore de Decisão:")
print(classification_report(y_test, y_pred_dt))

# Avaliação do modelo Random Forest
y_pred_rf = rf_model.predict(X_test)
print("\nRandom Forest - Matriz de Confusão:")
print(confusion_matrix(y_test, y_pred_rf))
print("\nRelatório de Classificação - Random Forest:")
print(classification_report(y_test, y_pred_rf))

# Comparar as métricas de precisão, recall e F1-score
print("Precisão Árvore de Decisão:", accuracy_score(y_test, y_pred_dt))
print("Precisão Random Forest:", accuracy_score(y_test, y_pred_rf))


Primeiros dados do dataset:
   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0        17.99         10.38          122.80     1001.0          0.11840   
1        20.57         17.77          132.90     1326.0          0.08474   
2        19.69         21.25          130.00     1203.0          0.10960   
3        11.42         20.38           77.58      386.1          0.14250   
4        20.29         14.34          135.10     1297.0          0.10030   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0           0.27760          0.3001              0.14710         0.2419   
1           0.07864          0.0869              0.07017         0.1812   
2           0.15990          0.1974              0.12790         0.2069   
3           0.28390          0.2414              0.10520         0.2597   
4           0.13280          0.1980              0.10430         0.1809   

   mean fractal dimension  ...  worst texture  worst perimeter  

In [7]:
# Passo 4: Avaliação dos Modelos
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Exibir a matriz de confusão para o modelo de Árvore de Decisão
print("\nÁrvore de Decisão - Matriz de Confusão:")
conf_matrix_dt = confusion_matrix(y_test, y_pred_dt)
print(conf_matrix_dt)

# Análise da Matriz de Confusão para a Árvore de Decisão
# Obtendo os valores da matriz de confusão para facilitar a leitura
tn_dt, fp_dt, fn_dt, tp_dt = conf_matrix_dt.ravel()

print("\nAnálise da Matriz de Confusão - Árvore de Decisão:")
print(f"{tn_dt} tumores benignos (0) foram corretamente classificados como benignos.")
print(f"{fp_dt} tumores benignos (0) foram incorretamente classificados como malignos.")
print(f"{fn_dt} tumor(es) maligno(s) (1) foram incorretamente classificados como benigno(s).")
print(f"{tp_dt} tumores malignos (1) foram corretamente classificados como malignos.")

# Relatório de classificação para Árvore de Decisão (precision, recall, f1-score)
print("\nRelatório de Classificação - Árvore de Decisão:")
print(classification_report(y_test, y_pred_dt))

# Exibir a matriz de confusão para o modelo de Random Forest
print("\nRandom Forest - Matriz de Confusão:")
conf_matrix_rf = confusion_matrix(y_test, y_pred_rf)
print(conf_matrix_rf)

# Análise da Matriz de Confusão para o Random Forest
# Obtendo os valores da matriz de confusão para facilitar a leitura
tn_rf, fp_rf, fn_rf, tp_rf = conf_matrix_rf.ravel()

print("\nAnálise da Matriz de Confusão - Random Forest:")
print(f"{tn_rf} tumores benignos (0) foram corretamente classificados como benignos.")
print(f"{fp_rf} tumores benignos (0) foram incorretamente classificados como malignos.")
print(f"{fn_rf} tumor(es) maligno(s) (1) foram incorretamente classificados como benigno(s).")
print(f"{tp_rf} tumores malignos (1) foram corretamente classificados como malignos.")

# Relatório de classificação para Random Forest (precision, recall, f1-score)
print("\nRelatório de Classificação - Random Forest:")
print(classification_report(y_test, y_pred_rf))

# Comparar as precisões dos dois modelos
print("Precisão Árvore de Decisão:", accuracy_score(y_test, y_pred_dt))
print("Precisão Random Forest:", accuracy_score(y_test, y_pred_rf))



Árvore de Decisão - Matriz de Confusão:
[[ 60   3]
 [  7 101]]

Análise da Matriz de Confusão - Árvore de Decisão:
60 tumores benignos (0) foram corretamente classificados como benignos.
3 tumores benignos (0) foram incorretamente classificados como malignos.
7 tumor(es) maligno(s) (1) foram incorretamente classificados como benigno(s).
101 tumores malignos (1) foram corretamente classificados como malignos.

Relatório de Classificação - Árvore de Decisão:
              precision    recall  f1-score   support

           0       0.90      0.95      0.92        63
           1       0.97      0.94      0.95       108

    accuracy                           0.94       171
   macro avg       0.93      0.94      0.94       171
weighted avg       0.94      0.94      0.94       171


Random Forest - Matriz de Confusão:
[[ 59   4]
 [  1 107]]

Análise da Matriz de Confusão - Random Forest:
59 tumores benignos (0) foram corretamente classificados como benignos.
4 tumores benignos (0) foram in