# Árboles y bosques aleatorios

Supongamos que tenemos estos datos ...

<img src="img/img_999(018).png" width=650/>

¿Cómo podríamos generar el siguiente árbol de decisión?, ¿cómo sabríamos qué variables nos dan más información para ponerlas en los primeros niveles de decisión?

<img src="img/img_999(019).png" width=650/>

Las **reglas de decisión** para obtener una cosecha óptima serían:

<img src="img/img_999(020).png" width=550/>

# Matemáticas detrás de un árbol de decisión

## Homogeneidad

<img src="img/img_999(021).png" width=600/>

De las 4 variables predictoras, buscamos aquella que nos de una distribución lo más homogénea posible de la variable a predecir, en este caso la fertilidad de los terrenos. Es decir, **la que es capaz de agrupar más datos**.

<img src="img/img_999(022).png" width=600/>

Vemos que la que distribuye mejor la fertilidad de los terrenos es la variable **lluvias**. Vemos que la **lluvia = Baja** agrupa a más del 70% de los datos asignando una fertilidad **Pobre**.

# Entropía

<img src="img/img_999(023).png" width=450/>

<img src="img/img_999(024).png" width=450/>

<img src="img/img_999(025).png" width=450/>

<img src="img/img_999(026).png" width=650/>


# Ganancia de información o incremento de entropía.

Entropía del dataset sobre la variable objetivo.

<img src="img/img_999(027).png" width=650/>

Ahora podemos estudiar para cada una de las variables predictoras, cuál es la aporta más incremento a la entropía. En este ejemplo estudiamos la variable **Terreno**.

<img src="img/img_999(028).png" width=650/>

Por tanto, la ganancia de información en caso de escoger **Terreno** como nodo de división en el árbol será ...

<img src="img/img_999(029).png" width=650/>

Será 0.14 puntos. Si lo repetimos para todas las variables predictoras tenemos que:

* 0.14 puntos para el terreno
* 0.42 puntos para las lluvias
* 0.36 puntos para fertilizantes
* 0.16 puntos para aguas subterráneas

Por tanto, la variable que demuestra una máxima ganancia de información es la que se elige como primer nodo de clasificación. En nuestro caso, **lluvias**. **Porque es la que más disminuye la entropía.**

# Índice de Gini

<img src="img/img_999(031).png" width=550/>

<img src="img/img_999(032).png" width=550/>

<img src="img/img_999(033).png" width=550/>

<img src="img/img_999(034).png" width=550/>

<img src="img/img_999(035).png" width=550/>

<img src="img/img_999(037).png" width=550/>

# Algoritmo para crear árboles de decisión

<img src="img/img_999(030).png" width=650/>

# Árbol de decisión para especies de flores

In [1]:
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
data = pd.read_csv("datasets/iris/iris.csv")
data.head()

Unnamed: 0,Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [3]:
data.shape

(150, 5)

In [4]:
# ¿Cuántas especies tenemos en total?
data["Species"].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [5]:
# Obtengamos las variables predictoras
predictors = data.columns.values[:4]
predictors

array(['Sepal.Length', 'Sepal.Width', 'Petal.Length', 'Petal.Width'],
      dtype=object)

In [6]:
# Obtengamos la target
target = data.columns.values[4]
target

'Species'

In [7]:
# Dividimos el dataset en train y test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data[predictors], data[target], test_size=0.2, random_state=42)

In [8]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((120, 4), (30, 4), (120,), (30,))

# Entrenamiento del modelo

In [9]:
from sklearn.tree import DecisionTreeClassifier

In [10]:
tree = DecisionTreeClassifier(criterion="entropy", min_samples_split=20, random_state=42)

In [11]:
tree.fit(X_train, y_train)

DecisionTreeClassifier(criterion='entropy', min_samples_split=20,
                       random_state=42)

# Predicciones

In [12]:
preds = tree.predict(X_test)

In [13]:
pd.crosstab(y_test, preds, rownames=["Actual"], colnames=["Predicciones"])

Predicciones,setosa,versicolor,virginica
Actual,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
setosa,10,0,0
versicolor,0,9,0
virginica,0,0,11
