# Árboles de decisión

*¿Para qué se utiliza?*
Los árboles de decisión son una técnica de machine learning supervisado que se utiliza tanto para clasificación (cuando la variable dependiente es categórica) como para regresión (cuando es continua). Son especialmente útiles para modelar procesos de toma de decisiones, identificar patrones en los datos y predecir resultados a partir de variables explicativas. Se aplican ampliamente en áreas como análisis de clientes, detección de fraude, segmentación de mercado y evaluación de riesgo crediticio.

*¿Qué variables considera?*
- Variable dependiente: En clasificación: variable categórica (por ejemplo, “compra” sí/no, tipo de cliente, nivel de riesgo). En regresión: variable numérica continua (por ejemplo, ventas, ingreso, puntuación).
- Variables independientes: pueden ser categóricas o numéricas. El algoritmo decide cómo dividir los datos según los valores de estas variables para maximizar la separación entre clases o minimizar el error.

*¿Cómo funciona?*
Un árbol de decisión divide los datos en ramas jerárquicas basadas en condiciones lógicas sobre las variables independientes. Cada nodo interno representa una decisión basada en una variable, y cada hoja representa un resultado o predicción. 

El algoritmo elige las divisiones ("cortes") que mejor separan los datos usando criterios como:
- Gini o Entropía para clasificación.
- Varianza o error cuadrático para regresión.

Este proceso se repite de forma recursiva hasta que se cumplen ciertos criterios de parada, como una profundidad máxima del árbol o un número mínimo de observaciones por hoja.

*Supuestos y recomendaciones*
- No requiere supuestos estadísticos como normalidad o igualdad de varianzas, lo que los hace muy flexibles.
- Son sensibles al sobreajuste, especialmente si el árbol crece sin restricciones.

Se recomienda aplicar técnicas como poda, establecer una profundidad máxima, o usar árboles ensemble (como Random Forest).
- Los árboles pueden ser inestables: pequeñas variaciones en los datos pueden generar árboles muy diferentes. Por eso se suele preferir su uso combinado en algoritmos más robustos.
- Son fáciles de interpretar y visualizar, lo cual los hace valiosos para explicar decisiones a personas no técnicas.


In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier, plot_tree
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, ConfusionMatrixDisplay
import matplotlib.pyplot as plt

# Suponemos que tienes un DataFrame df con varias columnas independientes y una columna objetivo llamada 'y'
# Por ejemplo:
# df = pd.DataFrame({
#     'edad': [25, 40, 35, 22, 50],
#     'ingreso': [30000, 70000, 50000, 28000, 80000],
#     'compra': [0, 1, 1, 0, 1]
# })

# Separar variables predictoras (X) y objetivo (y)
X = df.drop(columns='y')  # Variables independientes
y = df['y']               # Variable dependiente (clasificación binaria o multiclase)

# División en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Crear y entrenar el modelo
modelo = DecisionTreeClassifier(max_depth=3, random_state=42)  # Puedes ajustar la profundidad
modelo.fit(X_train, y_train)

# Predicciones y evaluación
y_pred = modelo.predict(X_test)
print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))

# Visualizar árbol
plt.figure(figsize=(10, 6))
plot_tree(modelo, feature_names=X.columns, class_names=True, filled=True)
plt.title("Árbol de decisión")
plt.show()

# Matriz de confusión
ConfusionMatrixDisplay.from_estimator(modelo, X_test, y_test, cmap='Blues')
plt.title("Matriz de Confusión")
plt.show()


Ejemplo de reporte de conclusiones
>Se aplicó un árbol de decisión para predecir si un cliente realizará una compra (variable objetivo binaria), utilizando como variables predictoras la edad y el ingreso mensual. El modelo se entrenó con el 70% de los datos y se evaluó con el 30% restante. El árbol ajustado tuvo una profundidad máxima de 3, lo que permitió un equilibrio entre interpretabilidad y rendimiento. El modelo alcanzó una precisión general del 87%, con una sensibilidad del 90% para el grupo de compradores, lo que indica una buena capacidad para identificar clientes con alta probabilidad de compra. El árbol identificó como divisores clave el ingreso y la edad, siendo el ingreso el primer nodo de decisión. La visualización del árbol mostró reglas claras que pueden ser utilizadas para segmentar clientes en campañas de marketing dirigidas. La matriz de confusión confirmó un bajo número de falsos positivos y negativos, y se observó una importancia destacada del ingreso mensual como predictor principal.
