# Decision Trees y Random Forest con Python y scikit-learn

https://deepnote.com/app/mazzaroli/Decision-Trees-y-Random-Forest-con-Python-y-scikit-learn-22e03409-93bd-4c7e-9ade-f94470cd6941

En el campo del aprendizaje automático, los árboles de decisión (Decision Trees) y los bosques aleatorios (Random Forest) son dos de las herramientas más comunes y poderosas utilizadas para la clasificación y la predicción. 

En este artículo, exploraremos qué son exactamente estos modelos, cómo funcionan y cómo podemos implementarlos en nuestro propio proyecto individual utilizando Scikit-Learn, una biblioteca de aprendizaje automático de código abierto en Python.

# ¿Qué son los árboles de decisión?

Los **árboles de decisión** son un modelo de aprendizaje automático supervisado que se utiliza tanto para la clasificación como para la regresión. Son ampliamente extendidos debido a su simplicidad, facilidad de interpretación y versatilidad en diversas aplicaciones.

Los árboles de decisión aprenden de los datos generando reglas de tipo if-else y divisiones conocidas como nodos. Cada nodo representa una pregunta sobre los datos y cada rama del árbol representa una respuesta a esa pregunta. El proceso continúa hasta que se llega a una hoja del árbol, que representa la predicción final.

Existen varios algoritmos que pueden utilizarse para construir árboles de decisión, como **ID3, C4.5 y CART**. Las primeras versiones de los árboles de decisión fueron propuestas por Leo Breiman en la década de 1980.

Los árboles de decisión se utilizan comúnmente en tareas de clasificación, como la detección de spam en el correo electrónico o la clasificación de clientes en grupos de segmentación de mercado. También se utilizan en tareas de regresión, como la predicción de precios de bienes raíces.

**Ejemplo**

Supongamos que queremos decidir si comprar o no un coche usado. El árbol de decisión podría ser el siguiente:

* ¿El coche tiene menos de 5 años?
  * Sí: ¿El coche tiene menos de 50,000 km?
    * Sí: Comprar el coche.
    * No: No comprar el coche.
  * No: ¿El coche tiene menos de 80,000 km?
    * Sí: Comprar el coche.
    * No: No comprar el coche.
    
Este árbol tiene dos nodos, con cada nodo representando una pregunta y cada rama representando una posible respuesta. En función de las respuestas a las preguntas, se llega a una hoja que indica si se debe comprar o no el coche usado.



# Tu primer árbol de decisión con scikit-learn

Utilizaremos el dataset Titanic de Standford: https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html

In [2]:
# importamos las librerias principales
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
titanic = pd.read_csv('https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv', sep = ',')

# Análisis de datos para tu primer árbol de decisión

### Atributos

1. El conjunto de datos Titanic de CS109 contiene 887 filas y 8 columnas.

2. Survived (Sobrevivió): indica si el pasajero sobrevivió al hundimiento del Titanic (0 = No, 1 = Sí).

3. Pclass (Clase de pasajero): indica la clase del pasajero (1 = 1ª clase, 2 = 2ª clase, 3 = 3ª clase).

4. Name (Nombre): el nombre completo del pasajero.

5. Sex (Género): el género del pasajero (Masculino o Femenino).

6. Age (Edad): la edad del pasajero en años.

7. Siblings/Spouses Aboard (Hermanos/Cónyuges a bordo): el número de hermanos/cónyuges del pasajero que también estaban a bordo del Titanic.

8. Parents/Children Aboard (Padres/Hijos a bordo): el número de padres/hijos del pasajero que también estaban a bordo del Titanic.

9. Fare (Tarifa): la tarifa pagada por el pasajero por su viaje en el Titanic.

In [8]:
titanic.head()

Unnamed: 0,Survived,Pclass,Name,Sex,Age,Siblings/Spouses Aboard,Parents/Children Aboard,Fare
0,0,3,Mr. Owen Harris Braund,male,22.0,1,0,7.25
1,1,1,Mrs. John Bradley (Florence Briggs Thayer) Cum...,female,38.0,1,0,71.2833
2,1,3,Miss. Laina Heikkinen,female,26.0,0,0,7.925
3,1,1,Mrs. Jacques Heath (Lily May Peel) Futrelle,female,35.0,1,0,53.1
4,0,3,Mr. William Henry Allen,male,35.0,0,0,8.05


* Se eliminará la columna "Fare" ya que esta información está altamente correlacionada con la columna "Pclass" que nos indica la clase social del pasajero. Además, se eliminará la columna "Name" ya que no es relevante para el análisis que se realizará.

* ⚠
Antes de eliminar cualquier columna de un conjunto de datos, es importante tener una comprensión completa de los datos y el objetivo del análisis. Además, siempre es recomendable consultar con otros expertos o interesados en los datos para asegurarse de que no se está eliminando información importante o relevante.

* ⚠
las columnas "Fare" y "Name" en el dataset Titanic de CS109 contienen información importante. La columna "Fare" representa el precio del billete pagado por cada pasajero, lo que puede ser útil para analizar la relación entre la tarifa y la clase de pasajero. Por otro lado, la columna "Name" contiene información sobre el nombre de cada pasajero, que podría ser útil para el análisis de patrones de nombres o la búsqueda de información adicional sobre individuos específicos. Sin embargo, en el contexto de un análisis específico de la supervivencia de los pasajeros en el Titanic, estas columnas pueden no ser relevantes y por lo tanto podrían ser eliminadas para simplificar el conjunto de datos.

In [9]:
# Eliminamos las columnas que no necesitamos
titanic.drop(['Name', 'Fare'], axis = 1, inplace = True)

In [10]:
# Renombramos las columnas Siblings/Spouses Aboard y Parents/Children Aboard por SibSp y ParCh
titanic.columns = ['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'ParCh']
titanic.head()

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,ParCh
0,0,3,male,22.0,1,0
1,1,1,female,38.0,1,0
2,1,3,female,26.0,0,0
3,1,1,female,35.0,1,0
4,0,3,male,35.0,0,0


In [11]:
# Visualizamos los tipos de datos
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 887 entries, 0 to 886
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Survived  887 non-null    int64  
 1   Pclass    887 non-null    int64  
 2   Sex       887 non-null    object 
 3   Age       887 non-null    float64
 4   SibSp     887 non-null    int64  
 5   ParCh     887 non-null    int64  
dtypes: float64(1), int64(4), object(1)
memory usage: 41.7+ KB


In [15]:
# Cambiamos el tipo de dato de "Sex" ya que los algoritmos funcionan mucho mejor con datos numericos
titanic = pd.get_dummies(data = titanic, columns = ['Sex'], drop_first = True)

In [17]:
titanic.dtypes

Survived      int64
Pclass        int64
Age         float64
SibSp         int64
ParCh         int64
Sex_male       bool
dtype: object

In [18]:
titanic.head()

Unnamed: 0,Survived,Pclass,Age,SibSp,ParCh,Sex_male
0,0,3,22.0,1,0,True
1,1,1,38.0,1,0,False
2,1,3,26.0,0,0,False
3,1,1,35.0,1,0,False
4,0,3,35.0,0,0,True


# Entrenamiento de algoritmo

In [20]:
# Analizamos la proporción de la variable objetivo "survived"
print(titanic.Survived.value_counts())
print(titanic.Survived.value_counts(normalize = True))

Survived
0    545
1    342
Name: count, dtype: int64
Survived
0    0.614431
1    0.385569
Name: proportion, dtype: float64


Podemos observar que no está muy balanceada por lo que utilizaremos una libreria para balancear de mejor forma los datos y entrenar el algoritmo con dichos datos

In [21]:
# Importamos libreria para balanecear los datos
from imblearn.under_sampling import RandomUnderSampler
undersample = RandomUnderSampler(random_state = 42)

In [23]:
# Separamos X e y
X = titanic.drop('Survived', axis = 1)
y = titanic.Survived

In [24]:
# Balanceamos los datos
X_over, y_over = undersample.fit_resample(X, y)
y_over.value_counts(normalize = True)

Survived
0    0.5
1    0.5
Name: proportion, dtype: float64