Arboles de decisión

Los árboles de decisión son modelos que predicen resultados dividiendo los datos en grupos basados en reglas simples. Se usan para clasificación (ej: decidir si algo es A o B) y regresión (ej: predecir un valor numérico). Tienen forma de árbol, con nodos que toman decisiones y hojas que dan el resultado final.

Componentes Principales

* Nodo Raíz: Donde comienza el árbol, con toda la data.

* Nodos Internos: Preguntas o decisiones sobre los datos.

* Ramas: Resultados de las decisiones.

* Hojas: Respuestas finales (clases o valores).

* Criterio de División: Cómo se decide dividir los datos (ej: Ganancia de Información).

* Criterio de Parada: Cuándo dejar de dividir (ej: profundidad máxima).

* Podado: Eliminar partes innecesarias para evitar sobreajuste.



1. Índice de Gini
Qué mide: La impureza de un conjunto de datos.

Cómo funciona:

Si todos los elementos pertenecen a una sola clase, el Gini es 0 (puro).

Si las clases están mezcladas, el Gini es mayor (impuro).

Fórmula:
Gini
=
1
−
∑
(
p
i
)
2
Gini=1−∑(p 
i
​
 ) 
2
 
Donde 
p
i
p 
i
​
  es la probabilidad de cada clase.

Uso: Se usa en clasificación para decidir la mejor división.

2. Entropía
Qué mide: El desorden o incertidumbre en un conjunto de datos.

Cómo funciona:

Si todos los elementos son de una sola clase, la entropía es 0 (orden perfecto).

Si las clases están mezcladas, la entropía es mayor (desorden).

Fórmula:
Entrop
ı
ˊ
a
=
−
∑
(
p
i
⋅
log
⁡
2
(
p
i
)
)
Entrop 
ı
ˊ
 a=−∑(p 
i
​
 ⋅log 
2
​
 (p 
i
​
 ))
Donde 
p
i
p 
i
​
  es la probabilidad de cada clase.

Uso: También se usa en clasificación, junto con la ganancia de información, para decidir divisiones.

3. Varianza
Qué mide: La dispersión de los valores en un conjunto de datos.

Cómo funciona:

Si todos los valores son iguales, la varianza es 0.

Si los valores están muy dispersos, la varianza es alta.

Fórmula:
Varianza
=
1
n
∑
(
x
i
−
μ
)
2
Varianza= 
n
1
​
 ∑(x 
i
​
 −μ) 
2
 
Donde 
x
i
x 
i
​
  son los valores, 
μ
μ es la media y 
n
n es el número de datos.

Uso: Se usa en regresión para decidir cómo dividir los datos y minimizar la varianza en los subgrupos.

In [3]:
""" Práctica
    Tenemos dos tipos de frutas (manzanas y naranjas) su peso en gr y su tamaño en cm. 
    Nos interesa clasificarlas por tamaño y peso."""
    
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
import matplotlib.pyplot as plt
data = {
    "Peso": [ 150, 130, 180, 170, 80, 60, 90, 85],
    "Tamaño": [10, 8, 12, 11, 6, 5, 9, 7],
    "Fruta": ["manzana","manzana","manzana","manzana","naranja","naranja","naranja","naranja"]
}

In [6]:
df = pd .DataFrame(data)
df.head()

Unnamed: 0,Peso,Tamaño,Fruta
0,150,10,manzana
1,130,8,manzana
2,180,12,manzana
3,170,11,manzana
4,80,6,naranja


Recordemos que despues de tener los datos, lo que realizamos en regresión lineal era especificar quie era X,Y

In [8]:
X = df[["Peso","Tamaño"]]
y = df["Fruta"]#Es la variable objetivo

In [None]:
arbol = DecisionTreeClassifier(criterion="entropy", max_depth=2) #Indicas los criterios de clasificación (parametros)
arbol.fit(X, y)#Entrenas el modelo

Es importante poder elegir los parametros, para que el modelo no se sobreajuste. 

In [11]:
y_pred = arbol.predict(X)#Predecir
print("Predicciones", y_pred)
print("Valores reales", y.values)

Predicciones ['manzana' 'manzana' 'manzana' 'manzana' 'naranja' 'naranja' 'naranja'
 'naranja']
Valores reales ['manzana' 'manzana' 'manzana' 'manzana' 'naranja' 'naranja' 'naranja'
 'naranja']


In [12]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn. model_selection import train_test_split
from sklearn import metrics
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.tree import plot_tree

In [None]:
#Como primer paso necesitamos cargar el dataset iris
iris = load_iris()

In [14]:
x = iris.data
y = iris.target #Es la variable objetivo
#Procedemos a dividir el dataset en entrenamiento y prueba
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

In [15]:
#Entrenamos / Creamos el modelo
arbol = DecisionTreeClassifier(criterion="entropy", max_depth=2) #Indicas los criterios de clasificación (parametros)
arbol.fit(x_train, y_train)#Ajusta el modelo a los datos de entrenamiento



In [16]:
#Aplicar el modelo a los datos de prueba
y_pred = arbol.predict(x_test)

#Para evaluar el modelo, ver que tan bueno es
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9666666666666667


Esto Accuracy: 0.96 significa que el árbol esta muy bien, porque esta cerca de 1.