## Diseño del modelo (paso a paso)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.metrics import classification_report, confusion_matrix

# Cargar el dataset
df = pd.read_csv('C:\\Users\\manue\\Documents\\extraccion_conocimientos\\uteq\\Evaluacion\\datasets\\breast-cancer.csv')
df.head()

### Análisis exploratorio de las variables

In [None]:
df.info()
df.describe()

In [None]:
sns.countplot(x=df['diagnosis'])
plt.title('Distribución de clases')
plt.show()

### Selección de variables predictoras y objetivo
Se selecciona la variable objetivo 'diagnosis' y el resto como predictoras.

In [None]:
# Usamos todas las columnas numéricas como X, diagnosis como y
X = df.drop(['id', 'diagnosis'], axis=1)
y = df['diagnosis'].map({'M':1, 'B':0})

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

## Entrenamiento del modelo

In [None]:
modelo = DecisionTreeClassifier(random_state=42)
modelo.fit(X_train, y_train)

## Evaluación y optimización del modelo

In [None]:
y_pred = modelo.predict(X_test)
print(classification_report(y_test, y_pred))
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predicho')
plt.ylabel('Real')
plt.title('Matriz de confusión')
plt.show()

In [None]:
# Búsqueda de hiperparámetros
param_grid = {'max_depth': [2, 4, 6, 8, 10]}
grid = GridSearchCV(DecisionTreeClassifier(random_state=42), param_grid, cv=5)
grid.fit(X_train, y_train)
print('Mejor parámetro max_depth:', grid.best_params_)
print('Mejor score:', grid.best_score_)

## Gráfica del árbol de decisión

In [None]:
plt.figure(figsize=(20,10))
plot_tree(modelo, feature_names=X.columns, class_names=['Benigno','Maligno'], filled=True)
plt.title('Árbol de Decisión')
plt.show()

## Interpretación de resultados
El árbol de decisión permite visualizar las reglas de clasificación y entender el proceso de decisión del modelo.

## Enlace al repositorio
[Repositorio del modelo](https://github.com/usuario/breast-cancer-arbol-decision)