# 🦾🌲 **Árboles de Decisión en Machine Learning** 🌲🦾

Los Árboles de Decisión son un tipo de modelo de aprendizaje automático que se utilizan tanto para resolver problemas de clasificación como de regresión. Estos modelos se basan en la idea de tomar decisiones basadas en características, como se haría en un proceso de toma de decisiones humano.


Un Árbol de Decisión se compone de nodos y hojas.

    a) ¿Que es un nodo?: Cada nodo representa una decisión basada en una característica.
    b) ¿Quue es una hoja?: Cada hoja representa una clase o un valor predictivo. 

El proceso de crear un Árbol de Decisión consiste en elegir las características más relevantes y utilizarlas para dividir el conjunto de datos en subconjuntos más pequeños. Este proceso se repite hasta que se cumpla una condición de detención, como el número máximo de niveles o el tamaño mínimo de un subconjunto.


Los Árboles de Decisión son fáciles de entender y visualizar, lo que los hace muy útiles para el análisis exploratorio de datos. Sin embargo, también pueden ser propensos a sobreajustarse a los datos de entrenamiento si no se limita su crecimiento adecuadamente. Por lo tanto, es importante utilizar técnicas de poda y validación cruzada para evitar este problema.


Tenemos dos tipos de árboles de decisión:

- Árboles de Clasificación.
- Árboles de Regresión.

## 🥇 **Árboles de Clasificación** 🥇

1) ¿Qué es un Árbol de Clasificación?

        Es un modelo de aprendizaje automático que se utiliza para resolver problemas de clasificación. Cada nodo representa una decisión y cada hoja representa una clase.

2) ¿Cómo funciona?

        Se empieza desde la raíz y se toma una decisión en cada nodo basada en una característica. Se sigue el camino hasta llegar a una hoja y la clase en la hoja se asigna como la clase de la instancia.

3) ¿Cómo se crea un Árbol de Clasificación?

        Se eligen las características más relevantes y se utilizan para dividir el conjunto de datos en subconjuntos más pequeños. Se repite este proceso hasta que se cumpla una condición de detención, como el número máximo de niveles o el tamaño mínimo de un subconjunto.

4) ¿Cuáles son las métricas utilizadas para evaluar un Árbol de Clasificación?

        Exactitud: porcentaje de instancias clasificadas correctamente.
        
        Matriz de Confusión: muestra el número de falsos positivos, falsos negativos, verdaderos positivos y verdaderos negativos.

        Curva ROC: muestra la relación entre la tasa de verdaderos positivos y la tasa de falsos positivos.

Vamos a hacer un modelo simple de un árbol de clasificación.

Importamos las bibliotecas necesarias:

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

Cargamos los datos en un DataFrame:

In [None]:
data = pd.read_csv("archivo.csv")

Dividimos los datos en características y etiquetas:

In [None]:
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

Dividimos los datos en conjuntos de train y test:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Creamos un objeto de Árbol de Clasificación (Con max_depth "podamos" el árbol para que tenga una profundidad máxima de 3 [2 o 3 es lo normal]):

In [None]:
clf = DecisionTreeClassifier(max_depth=3)

Entrenamos el modelo con los datos de X_train e y_train:

In [None]:
clf.fit(X_train, y_train)

Hacemos la predicción con X_train:

In [None]:
y_pred = clf.predict(X_test)

Calculamos la exactitud del modelo (utlizaremos el accuracy, pero es la peor, se pueden utilizar otras) y la saco por pantalla:

In [None]:
acc = accuracy_score(y_test, y_pred)
print("Exactitud: ", acc)

Visualizamos el Árbol de Clasificación con un plot:

    Determinamos el tamaño de la figura con el figsize.
    Sacamos el arbol con el plot_tree indicando el modelo: 'clf', 'filled=True' para los colores de los nodos y 'fontsize' para etiquetar los nodos.

In [None]:
plt.figure(figsize=(20,10))
plot_tree(clf, filled=True, fontsize=10);

En resumen, la creación de un modelo de Árbol de Clasificación implica la selección de características relevantes, la división del conjunto de datos en subconjuntos, la asignación de clases a las hojas y la evaluación del modelo. Cada paso es importante para garantizar un rendimiento preciso y efectivo del modelo. Además, es importante tener en cuenta la posibilidad de overfitting y utilizar técnicas de poda y validación cruzada para prevenirlo.

## 📈 **Árboles de Regresión** 📈

1) ¿Qué es un Árbol de Regresión?

        Es un modelo de aprendizaje automático que se utiliza para resolver problemas de regresión. Cada hoja representa un valor predictivo.

2) ¿Cómo funciona?

        Se empieza desde la raíz y se toma una decisión en cada nodo basada en una característica. Se sigue el camino hasta llegar a una hoja y el valor en la hoja se asigna como la predicción para la instancia.

3) ¿Cómo se crea un Árbol de Regresión?

        Se eligen las características más relevantes y se utilizan para dividir el conjunto de datos en subconjuntos más pequeños. Se repite este proceso hasta que se cumpla una condición de detención, como el número máximo de niveles o el tamaño mínimo de un subconjunto. Para cada subconjunto, se calcula el valor predictivo medio y se asigna a la hoja correspondiente.

4) ¿Cuáles son las métricas utilizadas para evaluar un Árbol de Regresión?

        Error cuadrático medio (MSE, por sus siglas en inglés): Es la media de los cuadrados de las diferencias entre los valores reales y los valores predecidos. Un MSE bajo indica un buen ajuste del modelo.

        Raíz del error cuadrático medio (RMSE, por sus siglas en inglés): Es la raíz cuadrada del MSE. Al igual que el MSE, un RMSE bajo indica un buen ajuste del modelo.

        Coeficiente de determinación (R^2): Es una medida de cuán bien se ajusta el modelo a los datos. Un valor de R^2 cercano a 1 indica un ajuste excelente, mientras que un valor cercano a 0 indica un ajuste pobre.

        Error absoluto medio (MAE, por sus siglas en inglés): Es la media de las diferencias absolutas entre los valores reales y los valores predecidos. Al igual que el MSE y el RMSE, un MAE bajo indica un buen ajuste del modelo.

Vamos a hacer un modelo simple de un árbol de regresión (Este le haremos con poda y haremos tambien un GridSearchCV para optimizar):

Importamos las bibliotecas necesarias:

In [None]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error
from sklearn.tree import plot_tree

Cargamos los datos en un DataFrame:

In [None]:
data = pd.read_csv("archivo.csv")

Dividimos los datos en características y etiquetas:

In [None]:
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

Dividir los datos en conjuntos de train y test:

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

Creamos un objeto de Árbol de Regresión:

In [None]:
regr = DecisionTreeRegressor()

Definimos los parámetros que probaremos en la búsqueda en malla para optimizar:

In [None]:
param_grid = {'max_depth': [2, 3, 4, 5, 6],
              'min_samples_split': [2, 3, 4, 5]}

Creamos un objeto de GridSearchCV con el modelo, los parámetros definidos anteriormente y el número de K-folds con cv (serán 5):

In [None]:
grid_search = GridSearchCV(regr, param_grid, cv=5)

Entrenamos el modelo con los datos de X-train e y_train y realizamos la búsqueda en malla:

In [None]:
grid_search.fit(X_train, y_train)

Hacemos la prediccion con los datos de X-test:

In [None]:
y_pred = grid_search.predict(X_test)

Calculamos el error cuadrático medio (MSE) y lo sacamos por pantalla:

In [None]:
mse = mean_squared_error(y_test, y_pred)
print("Error cuadrático medio: ", mse)

Sacamos por pantalla los mejores parámetros encontrados en la búsqueda en malla:

In [None]:
print("Mejores parámetros: ", grid_search.best_params_)

Obtenemos el mejor modelo de la búsqueda en malla:

In [None]:
best_regr = grid_search.best_estimator_

Visualizamos el Árbol de Regresión:

    Sacamos el arbol con el plot_tree indicando el modelo (en este caso el que nos salga como mejor según el CV): 'best_regr', 'filled=True' para los colores de los nodos y 'fontsize' para etiquetar los nodos.

In [None]:
plot_tree(best_regr, filled=True, fontsize=10)

En resumen, la creación de un Árbol de Regresión implica la selección de características relevantes, la división del conjunto de datos en subconjuntos y la asignación de un valor predictivo medio a cada hoja. La condición de detención se utiliza para controlar la complejidad del modelo y evitar el overfitting.