
# Árbol de Decisión - Diagnóstico de Cáncer de Mama

Este notebook entrena un modelo de árbol de decisión utilizando datos de diagnóstico de cáncer de mama.
Se realiza el preprocesamiento de los datos, entrenamiento, evaluación del modelo y visualización del árbol.


In [None]:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
import matplotlib.pyplot as plt


In [None]:

# Cargar datos
df = pd.read_csv("data.csv")
df.head()


In [None]:

# Eliminar columnas innecesarias
df = df.drop(columns=["id", "Unnamed: 32"])

# Convertir diagnóstico a binario
df["diagnosis"] = df["diagnosis"].map({'M': 1, 'B': 0})

# Separar características y etiquetas
X = df.drop(columns=["diagnosis"])
y = df["diagnosis"]


In [None]:

# Dividir en entrenamiento y prueba (80/20)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:

# Crear y entrenar el modelo
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train, y_train)


In [None]:

# Realizar 3 predicciones de ejemplo
sample_predictions = clf.predict(X_test[:3])
['Maligno' if p == 1 else 'Benigno' for p in sample_predictions]


In [None]:

# Evaluación completa
y_pred = clf.predict(X_test)
print("Matriz de Confusión:\n", confusion_matrix(y_test, y_pred))
print("\nPrecisión:", accuracy_score(y_test, y_pred))
print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred))


In [None]:

# Visualizar árbol de decisión
plt.figure(figsize=(20, 10), dpi=300)
plot_tree(clf, feature_names=X.columns, class_names=["Benigno", "Maligno"], filled=True)
plt.title("Árbol de Decisión - Diagnóstico de Cáncer de Mama")
plt.tight_layout()
plt.show()
