# Random Forest (Bosques aleatorios)
 
En esta Notebook vamos a entrenar un modelo de Random Forest que es un conjunto de Árboles de Decisión. Este tipo de modelo puede ser utilizado para modelos de Aprendizaje Automático Supervisado de [**Clasificación**](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html?highlight=random#sklearn.ensemble.RandomForestClassifier) o de [**Regresión**](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html?highlight=random#sklearn.ensemble.RandomForestRegressor), en este caso realizaremos una Clasificación.

Vamos a realizar cada paso de un Proyecto de Ciencia de Datos:

1. Definición del Problema
2. Búsqueda de datos 
3. Exploración y Limpieza de Datos
4. Dividir los datos en **X** (variables predictoras) e **y** (variable a predecir). Dividir los datos en entrenamiento y testo con el méodo *train_test_split*
5. Entrenamiento del modelo
6. Testeo del Modelo 

### Definición del problema

**¿Cuál será el tipo de vidrio en base a determinadas características?**

### Búsqueda de datos

El dataset que se utilizará es sobre vidrio, consta de distintas características de vidrio y en base a ellas es posible predecir el tipo entre 7 diferentes. 
El Dataset fue extraído de [Kaggle](https://www.kaggle.com/datasets/uciml/glass). 


In [None]:
#importamos las librerías que utilizaremos

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
data = pd.read_csv("glass.csv")

In [None]:
data.head(3)

In [None]:
data.info()

# Como vemos el dataset no tiene datos nulos y todos las variables son numéricas

In [None]:
# Vemos la distribución de la variable target. Si bien en numérica, cada número se refire a una clase por eso es una Clasificación

data["Type"].value_counts()

#### Generación de modelo

Para poder observar lo realizado en primer lugar entrenaremos un Árbol de Decisión y luego entrenaremos Random Forest.

In [None]:
# Generamos X e y 

X = data.drop(columns = ["Type"])   #variables predictora
y = data["Type"]   #variable a predecir

In [None]:
# Dividimos datos en train y test - estudiantes

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y)

#### Primero realizaremos un Árbol de decisión 

##### Instanciar el modelo y definir hiperparámetros

En este momento tenemos que instanciar el modelo que utilizaremos y definir sus hiperparámetros. Se puede observar las opciones en la [documentación](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html?highlight=tree#sklearn.tree.DecisionTreeClassifier).

En este caso utilizaremos los hiperparámetros por default.

In [None]:
# Importamos el modelo que utilizaremos

from sklearn.tree import DecisionTreeClassifier
arbol = DecisionTreeClassifier()

In [None]:
# Entrenamos el modelo
arbol.fit(X_train, y_train)

##### Evaluación de datos de train


In [None]:
y_pred_train_arbol = arbol.predict(X_train)

# Utilizamos la métrica accuracy (exactitud)
from sklearn.metrics import accuracy_score

exactitud_train_arbol = accuracy_score(y_train, y_pred_train_arbol)
exactitud_train_arbol

##### Probamos y evaluamos nuestro modelo

Utilizamos el metodo *predict* para probar nuestro modelo con los datos de test. Luego comparamos la predicciones de nuestro modelo con el resultado real a través de una matriz de confusión y utilizando la métrica accuracy (exactitud)

In [None]:
y_pred_arbol = arbol.predict(X_test)

# Matriz de confusión
from sklearn.metrics import confusion_matrix

matriz_arbol = confusion_matrix(y_test, y_pred_arbol)
sns.heatmap(matriz_arbol, annot=True)
plt.xlabel("Etiquetas predichas")
plt.ylabel("Etiquetas reales")

In [None]:
# Métrica accuracy
exactitud_arbol = accuracy_score(y_test, y_pred_arbol)
exactitud_arbol

In [None]:
print("La exactitud del modelo arbol de decisión con hiperparametros default es", exactitud_arbol)


Podemos observar que el resultado de evaluar los datos de entrenamiento es pefecta y los de teseto no es muy buena, por lo cual podemos pensar que el modelo esta sobreajustado.

#### Random Forest

Ahora entrenaremos distintos modelos de Random Forest modificando los hiperparámetros para intentar lograr mejorar la performance del modelos. Los posibles hiperparámetros que pueden definirse son los de los Árboles de Decisión y los específicos de los modelos de Random Forest. Pueden verse en la [documentación](https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html?highlight=random%20forest#sklearn.ensemble.RandomForestClassifier).

Entre los principales están:

**n_estimators**: Cantidad de árboles a entrenar. El límite de árboles a elegir generalmente viene dado por la capacidad de cómputo en donde se entrena. Sin embargo, también se debe tener en cuenta el riesgo de sobreajuste.

**max_depth**: Máxima profundidad que puede tener cada árbol. La profundidad viene dada por cuantas ramificaciones tiene cada árbol.

**max_features**: Cuantas variables, como máximo, puede tener el conjunto de entrenamiento de cada árbol. Recordar que el conjunto de entrenamiento de cada árbol es un subconjunto del conjunto de entrenamiento completo.

**bootstrap**: Esta es la técnica usada para generar los subconjuntos de datos de entrenamiento para cada árbol. Si se coloca como falso (False) se pasarán todas las filas del data frame al entrenamiento de todos los árboles.

In [None]:
# Importamos el modelo que utilizaremos

from sklearn.ensemble import RandomForestClassifier


##### Modelo con los hiperparámetros por default

En primer lugar instanciamos y entrenamos un modelo con los hiperparámetros por default

In [None]:
# Instanciamos el modelo que utilizaremos

random_forest = RandomForestClassifier()


In [None]:
# Entrenamos el modelo 

random_forest.fit(X_train, y_train)

##### Evaluación de datos de train

Podemos utilizar una métrica de evaluación para ver la performance del modelo con los datos de entrenamiento

In [None]:
y_pred_train_rf = random_forest.predict(X_train)

In [None]:
# Utilizaremos la métrica accuracy (exactitud)

exactitud_train_rf = accuracy_score(y_train, y_pred_train_rf)
exactitud_train_rf

Podemos observar que el resultado de evaluar los datos de entrenamiento es pefecta, por lo cual podemos pensar que el modelo esta sobreajustado.

##### Probamos y evaluamos nuestro modelo

Utilizamos el metodo predict para probar nuestro modelo con los datos de test. Luego comparamos la predicciones de nuestro modelo con el resultado real a través de una matrix de confusión y utilizando la métrica accuracy (exactitud)

In [None]:
# Probamos nuestro modelo con los datos de test

y_pred_rf = random_forest.predict(X_test)


In [None]:
# Matriz de confusión:comparando resultado original (y_test) con predicción del modelo (y_pred_arbol_completo)
matriz_rf = confusion_matrix(y_test, y_pred_rf)
sns.heatmap(matriz_rf, annot=True)
plt.xlabel("Etiquetas predichas")
plt.ylabel("Etiquetas reales")

In [None]:
# Metrica accuracy
exactitud_rf = accuracy_score(y_test, y_pred_rf)
exactitud_rf

In [None]:
print("La exactitud del modelo arbol de decisión es", round(exactitud_arbol,2))
print("La exactitud del modelo random forest es", round(exactitud_rf,2))


#### Hiperparámetro distintos

Ahora instanciamos un modelo definiendo distintos hiperparámetros para intentar mejorar la performance del modelo

In [None]:
# Instanciamos el modelo que utilizaremos

random_forest_2 = RandomForestClassifier(n_estimators = 500, max_depth = 2, max_features = 3, bootstrap = True)


In [None]:
# Entrenamos el modelo

random_forest_2.fit(X_train, y_train)

##### Evaluación de datos de train

Podemos utilizar una métrica de evaluación para ver la performance del modelo con los datos de entrenamiento

In [None]:
y_pred_train_rf2 = random_forest_2.predict(X_train)

In [None]:
# Utilizaremos la métrica accuracy (exactitud)

exactitud_train_rf2 = accuracy_score(y_train, y_pred_train_rf2)
exactitud_train_rf2

##### Probamos y evaluamos nuestro modelo

Utilizamos el metodo predict para probar nuestro modelo con los datos de test. Luego comparamos la predicciones de nuestro modelo con el resultado real a través de una matrix de confusión y utilizando la métrica accuracy (exactitud)

In [None]:
# Probamos nuestro modelo con los datos de test 

y_pred_rf2 = random_forest_2.predict(X_test)

In [None]:
# Matriz de confusión:comparando resultado original (y_test) con predicción del modelo (y_pred_arbol_completo)

matriz_rf2 = confusion_matrix(y_test, y_pred_rf2)
sns.heatmap(matriz_rf2, annot=True)
plt.xlabel("Etiquetas predichas")
plt.ylabel("Etiquetas reales")

In [None]:
# Metrica accuracy

exactitud_rf2 = accuracy_score(y_test, y_pred_rf2)
exactitud_rf2

In [None]:
print("La exactitud del modelo arbol de decisión es", round(exactitud_arbol,2))
print("La exactitud del modelo random forest es", round(exactitud_rf,2))
print("La exactitud del modelo random forest con otros hiperparametros es", round(exactitud_rf2,2))


#### Hiperparámetro distintos

En el modelo entrenado, tanto para los datos de entrenamiento como para los datos de teseto, empeoró la performance así que no son correctos estos hiperparámetros.

Instanciamos otro modelo con otros hiperparámetros para ver si logramos mejorar la performance (hay que tener cuidado con el tiempo de entrenamiento)

In [None]:
# Instanciamos el modelo que utilizaremos - estudiantes

random_forest_3 = RandomForestClassifier(n_estimators = 500 , max_depth = 6, max_features = 4, bootstrap = True)


In [None]:
# Entrenamos el modelo
random_forest_3.fit(X_train, y_train)

# Evaluamos los datos de entrenamiento
y_pred_train_rf3 = random_forest_3.predict(X_train)
exactitud_train_rf3 = accuracy_score(y_train, y_pred_train_rf3)
print("la exactitud de lo datos de entrenamiento del modelo es",round(exactitud_train_rf3,2))

# Evaluamos el modelo con los datos de testeo
y_pred_rf3 = random_forest_3.predict(X_test)
#matriz de confusión
matriz_rf3 = confusion_matrix(y_test, y_pred_rf3)
sns.heatmap(matriz_rf3, annot=True)
plt.xlabel("Etiquetas predichas")
plt.ylabel("Etiquetas reales")
# Métrica accuracy
exactitud_rf3 = accuracy_score(y_test, y_pred_rf3)
print("la exactitud de lo datos de testeo del modelo es",round(exactitud_rf3,2))


In [None]:
print("La exactitud del modelo arbol de decisión es", round(exactitud_arbol,2))
print("La exactitud del modelo random forest es", round(exactitud_rf,2))
print("La exactitud del modelo random forest con otros hiperparametros es", round(exactitud_rf2,2))
print("La exactitud del modelo random forest con cambio de hiperparametros es", round(exactitud_rf3,2))


### Conclusión

El primer modelo entrenado era un Árbol de Decisión con excelente performance en entrenamiento y mala en testo por lo que el modelo estaba sobreajustado.

Luego entrenamos un modelo de Random Forest con los hiperparámetros por default, continúo siendo perfecto para los datos de entrenamiento pero mejoró notoramiente la performance del modelo medida con los datos de testeo. 

Posteriormente entrenamos otro modelo con determinados hiperparámetros donde se empeoró el restultado de entrenamiento pero también de testeo con lo cual el modelo resultante estaba subajustado, por lo que no fue la estrategia correcta.

Finalmente entreamos un cuarto modelo con otros hiperparámetros con un muy buen resultado en entrenamiento pero también un muy buen resultado en los datos de testo.

Vemos como podemos entrenar distintos tipos de modelos y cambiar los hiperparámetros hasta obtener el resultado buscado, mejorando la performance de los modelos y evitando el sobreajuste y subajuste. En este caso el mejor modelo es el último porque el mejor resultado es el segundo y el cuarto pero el cuarto es un modelo más sencillo lo que también es importante en términos de rendimiento.
