
# Clasificación con Árbol de Decisión  
**Curso de Análisis de Datos con IA — Doribel Rodríguez y Antonio Vantaggiato**

En este cuaderno aprenderás a entrenar un **árbol de decisión** para predecir si un estudiante aprobará un curso. El objetivo es comprender **paso a paso** cómo preparar datos, entrenar el modelo, visualizar el árbol y **explicar** las predicciones.



## Definiciones clave

- **DataFrame**: estructura de datos tabular de `pandas` (similar a una hoja de cálculo) con filas y columnas.
- **Variable predictora** (característica o *feature*): atributo que usamos para predecir (ej. *Asistencia, Horas de estudio, Participa en clase*).
- **Variable objetivo** (etiqueta o *label*): lo que queremos predecir (ej. *Aprobado*: Sí/No).
- **Modelo**: algoritmo que aprende patrones a partir de ejemplos.
- **Entrenamiento**: proceso de ajuste del modelo a los datos.
- **Predicción**: aplicación del modelo a nuevos datos para estimar su resultado.
- **Sobreajuste** (*overfitting*): cuando el modelo aprende demasiado los detalles del conjunto de entrenamiento y pierde capacidad de generalización.


## 1) Importar librerías

In [None]:

# Comentario: importamos las librerías necesarias.
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.tree import DecisionTreeClassifier, plot_tree

# Hacemos que los gráficos aparezcan en la celda
%matplotlib inline


## 2) Construir un DataFrame con datos ficticios

In [None]:

# Comentario: creamos un pequeño conjunto de datos con estudiantes y sus características.
datos = {
    'Estudiante': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
    'Asistencia': [80, 60, 90, 75, 95, 50, 85, 90],
    'Horas de estudio': [4, 2, 8, 3, 9, 1, 7, 8],
    'Participa en clase': ['Sí', 'No', 'Sí', 'No', 'Sí', 'No', 'Sí', 'No'],
    'Aprobado': ['Sí', 'No', 'Sí', 'No', 'Sí', 'No', 'Sí', 'Sí']
}

df = pd.DataFrame(datos)
df  # Mostramos la tabla


## 3) Preparación de datos (codificación y selección)

In [None]:

# Comentario: convertimos la columna categórica 'Participa en clase' a números: Sí=1, No=0.
df['Participa en clase'] = df['Participa en clase'].map({'Sí': 1, 'No': 0})

# Comentario: convertimos la variable objetivo 'Aprobado' a 1/0 para el modelo.
y = df['Aprobado'].map({'Sí': 1, 'No': 0})

# Comentario: definimos la matriz de características (X) con las columnas numéricas relevantes.
X = df[['Asistencia', 'Horas de estudio', 'Participa en clase']]

X.head(), y.head()


## 4) Entrenar el modelo de Árbol de Decisión

In [None]:

# Comentario: instanciamos el clasificador. 'random_state' fija la aleatoriedad para reproducibilidad.
modelo = DecisionTreeClassifier(random_state=42)
modelo.fit(X, y)

print("Entrenado correctamente ✅")


## 5) Visualizar el árbol aprendido

In [None]:

# Comentario: graficamos el árbol con nombres de características y clases.
plt.figure(figsize=(10, 6))
plot_tree(modelo, feature_names=X.columns, class_names=['No', 'Sí'], filled=True, rounded=True)
plt.title("Árbol de Decisión — Predicción de Aprobación")
plt.show()


## 6) Predicción con un nuevo estudiante

In [None]:

# Comentario: definimos un nuevo estudiante con:
# - 90% asistencia
# - 8 horas de estudio
# - No participa en clase (0)

nuevo_estudiante = pd.DataFrame({
    'Asistencia': [90],
    'Horas de estudio': [8],
    'Participa en clase': [0]
})

prediccion = modelo.predict(nuevo_estudiante)[0]
prob = modelo.predict_proba(nuevo_estudiante)[0][prediccion]

resultado = "Aprobará" if prediccion == 1 else "No aprobará"
print(f"Predicción: {resultado} (probabilidad estimada: {prob:.2f})")



## 7) Actividad sugerida
1. Modifica los valores del estudiante nuevo (por ejemplo, cambia *Horas de estudio* a 3) y observa el efecto en la predicción.
2. Cambia la **profundidad máxima** del árbol usando `DecisionTreeClassifier(max_depth=2, random_state=42)` y compara los resultados.
3. Agrega más ejemplos al *DataFrame* para robustecer el entrenamiento (más filas con combinaciones variadas).

---

## Reflexión y práctica adicional
- ¿Qué ventaja tiene un modelo **explicable** como el árbol de decisión frente a otros modelos más complejos?
- ¿Cómo evitarías el **sobreajuste** (poda, profundidad, mínimo de muestras por hoja)?
- ¿Qué **sesgos** podrían existir en este conjunto de datos (p. ej., si no representara a todos los perfiles de estudiantes)?
