## T09 - Particiones en árboles de clasificación
- Camila Daniela Zapata Castañeda
- 547624
- 23 de Abril del 2025

**GINI:**
- El índice de GINI es una medida que evalúa qué tan mezclados o impuros están los datos en un nodo. Mientras más mezcla de clases haya, más alto será el valor de GINI. Este valor se usa luego en la función de costo, que ayuda al árbol a decidir dónde hacer la mejor partición. La idea es buscar el GINI más bajo, lo que indica que los datos están más homogéneos o "puros" en cada grupo después de la división.

$$ 
\text{Gini} = 1 - \Sigma^k_{i=1} p_i^2
$$

$$
\text{Gini}{split} = \frac{n\text{izq}}{n} \text{Gini}{\text{izq}} + \frac{n\text{der}}{n} \text{Gini}_{\text{der}}
$$

**Entropía:**
- La entropía mide el grado de desorden o incertidumbre en un conjunto de datos. Al igual que con el índice Gini, mientras más mezcladas estén las clases, más alto será el valor de la entropía. Este valor se usa en la función de costos, lo que permite al árbol elegir la división que reduzca más la incertidumbre. Una entropía alta significa que las clases están muy mezcladas, no hay una claramente dominante, y que se necesita más información para tomar una buena decisión.

$$
\text{Entropía} = - \Sigma^k_{i=1} p_i log_2(p_i)
$$

**Log Loss:**
- Mide qué tan buenas son las probabilidades que predice tu modelo. A diferencia de métricas como la precisión, Log Loss no solo considera si acertaste o no, sino también con qué confianza hiciste la predicción. No se usa para decidir dónde dividir (como el Gini o la entropía), sino que evalúa el rendimiento general del modelo de clasificación. En esencia, mide el castigo que recibe el modelo por hacer predicciones incorrectas o poco seguras. El objetivo es obtener un Log Loss lo más bajo posible, lo cual indica que tu modelo está haciendo predicciones precisas y con alta seguridad.

$$
\text{LogLoss} = -(y \text{log}(p) + (1-y)\text{log}(1-p))
$$
$$
\text{LogLoss} = -\Sigma^k_{i=1} y_i \text{log}(p_i)
$$

In [1]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, log_loss

In [2]:
# Datos y split de train y test
iris = load_iris()
x = iris.data
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=42, stratify=y)

##### Arbol con GINI

In [3]:
tree_gini = DecisionTreeClassifier(criterion='gini', random_state=42)
tree_gini.fit(X_train, y_train)
y_pred_gini = tree_gini.predict(X_test)
y_proba_gini = tree_gini.predict_proba(X_test)

##### Arbol con Entropía

In [4]:
tree_entropy = DecisionTreeClassifier(criterion='entropy', random_state=42)
tree_entropy.fit(X_train, y_train)
y_pred_entropy = tree_entropy.predict(X_test)
y_proba_entropy = tree_entropy.predict_proba(X_test)

##### Impresión de resultados

In [5]:
print("== Árbol con GINI ==")
print("Precisión:", accuracy_score(y_test, y_pred_gini))
print("Log Loss:", log_loss(y_test, y_proba_gini))

print("\n== Árbol con ENTROPÍA ==")
print("Precisión:", accuracy_score(y_test, y_pred_entropy))
print("Log Loss:", log_loss(y_test, y_proba_entropy))

== Árbol con GINI ==
Precisión: 0.9333333333333333
Log Loss: 2.402910225941144

== Árbol con ENTROPÍA ==
Precisión: 0.8888888888888888
Log Loss: 4.004850376568572
