# Decision Trees y Random Forest con Python y scikit-learn

En el campo del **aprendizaje automático**, los **árboles de decisión (Decision Trees)** y los **bosques aleatorios (Random Forest)** son dos de las herramientas más comunes y poderosas utilizadas para la **clasificación** y la **predicción**. En este artículo, exploraremos **qué son exactamente estos modelos, cómo funcionan** y cómo podemos **implementarlos en nuestro propio proyecto individual** utilizando **Scikit-Learn**, una **biblioteca de aprendizaje automático de código abierto en Python**.

Antes de adentrarnos en los detalles de la construcción y entrenamiento de modelos de árboles de decisión y bosques aleatorios con Scikit-Learn, es necesario tener conocimientos previos:

- [Conocimiento de matemáticas para la inteligencia artificial.](https://deepnote.com/@mazzaroli/Introduccion-a-Funciones-Matematicas-para-Data-Science-e-Inteligencia-Artificial-f9a47b52-0308-4e95-a3d3-c3de3ef7b14f)

- Conocimiento de visualización de datos con [Matplotlib](https://matplotlib.org/stable/users/index.html) y [Seaborn](https://jakevdp.github.io/PythonDataScienceHandbook/04.14-visualization-with-seaborn.html).

- [Conocimiento de análisis exploratorio de datos.](https://deepnote.com/@mazzaroli/Analisis-exploratorio-de-datos-caba7762-e435-481e-9060-523263a820b1)

- Conocimiento de de regresión [lineal](https://deepnote.com/@mazzaroli/Regresion-Lineal-con-Python-y-scikit-learn-86f7bb72-770c-4e28-9e84-0355aed93892) y [logística](https://deepnote.com/@mazzaroli/Regresion-Logistica-con-Python-y-scikit-learn-cd6b9628-59c3-4496-8abc-8beb77d9b4ff).


## ¿Qué son los árboles de decisión?

Los [**árboles de decisión**](https://es.wikipedia.org/wiki/%C3%81rbol_de_decisi%C3%B3n) son un **modelo de aprendizaje automático supervisado** que se utiliza tanto para la **clasificación como para la regresión.** Son ampliamente extendidos debido a su **simplicidad, facilidad de interpretación y versatilidad** en diversas aplicaciones.

Los árboles de decisión aprenden de los datos generando **reglas de tipo if-else y divisiones conocidas como nodos.** Cada nodo representa una **pregunta sobre los datos** y cada rama del árbol representa una **respuesta a esa pregunta**. El proceso continúa hasta que se llega a una **hoja del árbol, que representa la predicción final.**

Existen varios **algoritmos** que pueden utilizarse para construir árboles de decisión, como **ID3, C4.5** y **CART**. Las primeras versiones de los árboles de decisión fueron propuestas por **[Leo Breiman](https://es.wikipedia.org/wiki/Leo_Breiman)** en la década de 1980.

Los árboles de decisión se utilizan comúnmente en **tareas de clasificación**, como la **detección de spam en el correo electrónico** o la **clasificación de clientes en grupos de segmentación de mercado**. También se utilizan en **tareas de regresión**, como la **predicción de precios de bienes raíces**.

#### Ejemplo

Supongamos que queremos decidir si comprar o no un coche usado. El árbol de decisión podría ser el siguiente:

- *¿El coche tiene menos de 5 años?*
    - **Sí:** ¿El coche tiene menos de 50,000 km?
        - **Sí:** Comprar el coche.
        - **No:** No comprar el coche.
    - **No:** ¿El coche tiene menos de 80,000 km?
        - **Sí:** Comprar el coche.
        - **No:** No comprar el coche.
        
Este árbol tiene dos nodos, con **cada nodo representando una pregunta** y **cada rama representando una posible respuesta**. En función de las respuestas a las preguntas, se llega a una hoja que indica si se debe comprar o no el coche usado.

## Tu primer árbol de decisión con scikit-learn


In [2]:
# Importamos las librerias principales
import pandas as pd
import matplotlib.pyplot as plt

Utilizaremos el **dataset Titanic** de Standford: https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html

In [3]:
titanic = pd.read_csv('https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv', sep=',')

## Análisis de datos para tu primer árbol de decisión

### Atributos

El conjunto de datos Titanic de CS109 contiene 887 filas y 8 columnas.

1. **Survived (Sobrevivió):** indica si el pasajero sobrevivió al hundimiento del Titanic (0 = No, 1 = Sí).

1. **Pclass (Clase de pasajero):** indica la clase del pasajero (1 = 1ª clase, 2 = 2ª clase, 3 = 3ª clase).

1. **Name (Nombre):** el nombre completo del pasajero.

1. **Sex (Género):** el género del pasajero (Masculino o Femenino).

1. **Age (Edad):** la edad del pasajero en años.

1. **Siblings/Spouses Aboard (Hermanos/Cónyuges a bordo):** el número de hermanos/cónyuges del pasajero que también estaban a bordo del Titanic.

1. **Parents/Children Aboard (Padres/Hijos a bordo):** el número de padres/hijos del pasajero que también estaban a bordo del Titanic.

1. **Fare (Tarifa):** la tarifa pagada por el pasajero por su viaje en el Titanic.

In [4]:
# Visualizacion del Dataframe
titanic.head(10)

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.05
5,0,3,Mr. James Moran,male,27.0,0,0,8.4583
6,0,1,Mr. Timothy J McCarthy,male,54.0,0,0,51.8625
7,0,3,Master. Gosta Leonard Palsson,male,2.0,3,1,21.075
8,1,3,Mrs. Oscar W (Elisabeth Vilhelmina Berg) Johnson,female,27.0,0,2,11.1333
9,1,2,Mrs. Nicholas (Adele Achem) Nasser,female,14.0,1,0,30.0708


Se eliminará la columna **"Fare"** ya que esta información está altamente correlacionada con la columna **"Pclass"** que nos indica la lase social del pasajero. Además, se eliminará la columna "Name" ya que no es relevante para el análisis que se realizará.

> ⚠\
> **Antes de eliminar cualquier columna** de un conjunto de datos, **es importante tener una comprensión completa de los datos** y el objetivo del análisis. Además, siempre **es recomendable consultar con otros expertos o interesados** en los datos para asegurarse **de que no se está eliminando información importante** o relevante.\
> ⚠
>
> las columnas **"Fare"** y **"Name"** en el dataset Titanic de CS109 **contienen información importante.** La columna "Fare" representa el precio del billete pagado por cada pasajero, lo que puede ser útil para analizar la relación entre la tarifa y la clase de pasajero. Por otro lado, la columna "Name" contiene información sobre el nombre de cada pasajero, que podría ser útil para el análisis de patrones de nombres o la búsqueda de información adicional sobre individuos específicos. Sin embargo, **en el contexto de un análisis específico de la supervivencia de los pasajeros en el Titanic, estas columnas pueden no ser relevantes** y por lo tanto podrían ser eliminadas para simplificar el conjunto de datos.

In [5]:
# Eliminamos las columnas que no nos interesan
titanic.drop(
    ['Name', 'Fare'], 
    axis=1,
    inplace=True)

In [6]:
# Renombramos las columnas Siblings/Spouses Aboard	y Parents/Children Aboard por SibSp y ParCh 
titanic.columns = ['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'ParCh']
titanic.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,ParCh
0,0,3,male,22.0,1,0
1,1,1,female,38.0,1,0
2,1,3,female,26.0,0,0
3,1,1,female,35.0,1,0
4,0,3,male,35.0,0,0


In [7]:
# Analizamos el shape del objeto
titanic.shape

(887, 6)

In [8]:
# Visualizamos los tipos de datos
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 887 entries, 0 to 886
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  887 non-null    int64  
 1   Pclass    887 non-null    int64  
 2   Sex       887 non-null    object 
 3   Age       887 non-null    float64
 4   SibSp     887 non-null    int64  
 5   ParCh     887 non-null    int64  
dtypes: float64(1), int64(4), object(1)
memory usage: 41.7+ KB


In [9]:
# Cambiamos los tipos de datos de Sex
titanic = pd.get_dummies(titanic, columns=['Sex'], drop_first=True)

In [16]:
titanic.dtypes

Survived      int64
Pclass        int64
Age         float64
SibSp         int64
ParCh         int64
Sex_male      uint8
dtype: object

In [19]:
titanic.head()

Unnamed: 0,Survived,Pclass,Age,SibSp,ParCh,Sex_male
0,0,3,22.0,1,0,1
1,1,1,38.0,1,0,0
2,1,3,26.0,0,0,0
3,1,1,35.0,1,0,0
4,0,3,35.0,0,0,1


In [21]:
# Renombramos columna Sex_male a Sex
titanic.rename(columns={'Sex_male':'Sex'},inplace=True)

- Sex = 1 = Male
- Sex = 0 = Female

In [24]:
# Ordenar colummas por nombres
titanic = titanic[['Survived','Pclass','Sex','Age','SibSp','ParCh']]
titanic

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,ParCh
0,0,3,1,22.0,1,0
1,1,1,0,38.0,1,0
2,1,3,0,26.0,0,0
3,1,1,0,35.0,1,0
4,0,3,1,35.0,0,0
...,...,...,...,...,...,...
882,0,2,1,27.0,0,0
883,1,1,0,19.0,0,0
884,0,3,0,7.0,1,2
885,1,1,1,26.0,0,0


## Entrenamiento de árbol de decisión con scikit-learn

In [111]:
# Vemos la proporcion del a variable objetivo
titanic.Survived.value_counts(normalize=True)

0    0.614431
1    0.385569
Name: Survived, dtype: float64

In [112]:
# importamos libreria para balancear los datos
from imblearn.under_sampling import RandomUnderSampler
undersample = RandomUnderSampler(random_state=42)

In [113]:
# Separamos en X e y
X = titanic.drop('Survived', axis=1)
y = titanic.Survived

In [114]:
# Balanceamos los datos
X_over, y_over = undersample.fit_resample(X,y)
y_over.value_counts(normalize=True)


0    0.5
1    0.5
Name: Survived, dtype: float64

In [126]:
# Importamos las librerias para la creacion del modelo
from sklearn.model_selection import train_test_split

# 30% para test y 70% para train
X_train, X_test, y_train, y_test = train_test_split(X_over,y_over, test_size=0.30, random_state=00000)

In [128]:
# Arbol de Decision
from sklearn.tree import DecisionTreeClassifier

# Creacion del modelo
tree = DecisionTreeClassifier(max_depth=2, random_state=00000)

In [None]:
# Entrenamiento
tree.fit(X_train, y_train)

## Evaluacion del modelo

In [None]:
# Calculo de las predicciones en Train y test
y_train_pred = tree.predict(X_train)
y_test_pred = tree.predict(X_test)