Árboles de Decisión

Son modelos predictivos que utilizan un conjunto de reglas basadas en características de los datos para tomar decisiones.

Un árbol de decisión es una estructura jerárquica en la que cada nodo representa una característica (o atributo) de los datos,
cada rama representa un resultado de esa característica, y cada hoja representa una etiqueta de clase o un valor de predicción.

    A[Ingreso > $70,000] -->|Sí| B[Edad]
    B -->|≥ 40| C[Compra: Sí]
    B -->|< 40| D[Compra: No]
    A -->|No| E[Género]
    E -->|M| F[Compra: Sí]
    E -->|F| G[Compra: No]
  


INGRESO se utiliza como el primer criterio de decisión.<br>
Si el ingreso es superior a $70,000, el árbol de decisión se basa en la edad. Si no, se basa en el género.<br><br>
EDAD determina la probabilidad de compra para clientes con ingresos altos.<br>
Clientes con ingresos > $70,000 y edad ≥ 40 tienen una mayor probabilidad de comprar.<br>
Clientes con ingresos > $70,000 y edad < 40 tienen una menor probabilidad de comprar.<br><br>
GENERO determina la probabilidad de compra para clientes con ingresos ≤ $70,000.<br>
Clientes con ingresos ≤ $70,000 y género masculino (M) tienen una mayor probabilidad de comprar.<br>
Clientes con ingresos ≤ $70,000 y género femenino (F) tienen una menor probabilidad de comprar.<br><br>

EJEMPLOS DE USO<br>

Probabilidad de compra:<br>
Variables: Ingreso, Edad, Género<br>
Objetivo: Determinar si una persona va a hacer cierta compra o no.<br>

In [None]:
!pip3 install numpy pandas matplotlib scikit-learn

In [None]:
# Importar las bibliotecas
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import LabelEncoder

print("Todas las bibliotecas se importaron correctamente.")

In [None]:
# Generar datos sintéticos para segmentación de mercado
np.random.seed(0)
n = 200
# Factores a tomar en cuenta para la segmentacion de mercado
# - edad: entre 18 y 70 años
# - ingreso: entre 20000 y 120000)
# - geénero: masculino y femenino
# - compra: sí o no
edad = np.random.randint(18, 70, n)
ingreso = np.random.randint(20000, 120000, n)
genero = np.random.choice(['M', 'F'], n)
compra = np.random.choice(['Sí', 'No'], n)

# Crear DataFrame
data = pd.DataFrame({
    'Edad': edad,
    'Ingreso Anual': ingreso,
    'Género': genero,
    'Compra': compra
})

# Guardar a CSV
data.to_csv('segmentacion_mercado.csv', index=False)

In [None]:
# Cargar datos
data = pd.read_csv('segmentacion_mercado.csv')

# Mostrar las primeras filas
print(data.head())

# Estadísticas descriptivas
# count: valores no nulos
# mean: promedio (suma de los valores de cada columna entre numero de filas)
# std: desviación estandar
# min: valor minimo por columna
# 25%: el 25% de las casa están por debajo de esos valores
# 50%: el 50% de las casa están por debajo de esos valores
# 75%: el 75% de las casa están por debajo de esos valores
# max: valor máximo por columna
print(data.describe())

In [None]:
# Distribución de compra
plt.hist(data['Compra'])
plt.xlabel('Compra')
plt.ylabel('Frecuencia')
plt.title('Distribución de Compra')
plt.show()

# Codificar las variables categóricas
label_encoder = LabelEncoder()
data['Género'] = label_encoder.fit_transform(data['Género'])
data['Compra'] = label_encoder.fit_transform(data['Compra'])

# Aqui podemos ver una gráfica, donde en el eje x estan las opciones ('Sí' y 'No') 
# En el eje y vemos la frecuencia de cada categoría en los datos. 
# La frecuencia indica cuántas veces aparece cada categoría en un conjunto de datos.
# Aqui vemos que la columna No, son 101, porque en los datos, son 101 las personas que no compran, 
# Y vemos 99 que sí compran, que son los que aparece como Sí en los datos

In [None]:
# Características que vamos a tener en cuenta para entrenar el modelo
X = data[['Edad', 'Ingreso Anual', 'Género']]

# Objetivo, saber la probabilidad de si alguien con ciertas características va a comprar
y = data['Compra']

# Dividir en conjuntos de entrenamiento y prueba
# X variables que se usarán para la predicción
# y variable que queremos predecir
# test_size=0.2: indica que usaremos el 20% de los datos para el conjunto de prueba y el 80% para el conjunto de entrenamiento
# Conjunto de entrenamiento se usa para entrenar el modelo, se usa para enseñar al modelo la relacion entre los patrones en los datos (mientras mas, mejor)
# Conjunto de prueba se usa para comparar las predicciones y ver que tan acertadas son
# random_state: se utiliza para controlar cómo se dividen los datos aleatorios. Si dos personas ejecutan la misma función con el mismo valor para random_state, 
#   obtendrán exactamente la misma división de datos (pruebas y entrenamiento).
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [None]:
# Crear el modelo
modelo = DecisionTreeClassifier(random_state=0)

# Entrenar el modelo
modelo.fit(X_train, y_train)

In [None]:
# Predecir en el conjunto de prueba
y_pred = modelo.predict(X_test)

# Evaluar el modelo

# Clase 0 (No compra)
# Precision: 0.57 (de todas las predicciones que el modelo hizo como 'No compra', el 57% fueron correctas)
# Recall: 0.48 (de todas las instancias reales de 'No compra', el 48% fueron correctamente identificadas por el modelo)
# F1-score: 0.52 (la media de la precisión y el recall)
# Support: 25 (el número de instancias reales de 'No compra' en el conjunto de prueba)

# Clase 1 (Compra)
# Precision: 0.32 (de todas las predicciones que el modelo hizo como 'Compra', el 32% fueron correctas)
# Recall: 0.40 (de todas las instancias reales de 'Compra', el 40% fueron correctamente identificadas por el modelo)
# F1-score: 0.35 (la media armónica de la precisión y el recall)
# Support: 15 (el número de instancias reales de 'Compra' en el conjunto de prueba)

# Accuracy: 0.45 (la proporción total de predicciones correctas)
# Macro avg: 0.44 (el promedio no ponderado de precisión, recall y f1-score para todas las clases)
# Weighted avg: 0.48 (el promedio ponderado de precisión, recall y f1-score, teniendo en cuenta el número de instancias en cada clase)

accuracy = accuracy_score(y_test, y_pred)
print("Precisión:", accuracy)

print("Reporte de clasificación:")
print(classification_report(y_test, y_pred))

print("Matriz de confusión:")
print(confusion_matrix(y_test, y_pred))

In [None]:
from sklearn.tree import plot_tree

# Visualizar la importancia de las características
importances = modelo.feature_importances_
features = X.columns
indices = np.argsort(importances)[::-1]

# En la siguiente gráfica podemos ver cuales son las características más importante a considerar

plt.figure(figsize=(8, 6))
plt.title('Importancia de las características')
plt.bar(range(X.shape[1]), importances[indices], align='center')
plt.xticks(range(X.shape[1]), [features[i] for i in indices])
plt.show()