# Modelo 1: Random Forest - Juan Sebastian Pardo

## Explicacion del algortimo
Este algoritmo es una mejora al metodo de Arbol de Desicion, el cual se basa en 2 principios fundamentales:
1. Ensamblaje: Se corren B arboles distintos, y la estimacion final es el ensamblaje (promedio) de las estimaciones. 
2. Diversificacion: Para permitirle al algoritmo realizar particiones diversificadas se usan 2 fuentes de diversificacion. 

Fuente 1) Bootstrap: Ser realizan B iteraciones distintas, y en cada una se utiliza una muestra artificial de tamaño n, donde la muestra se construye sacando aleatoriamente n datos (permitiendo repeticiones)

Fuente 2) Random Variables: En cada iteracion se escoge un subconjunto de p variables, y estas son las que se utilizan para predecir.

Este algoritmo tiene las siguientes ventajas:
1. Es resistente a datos faltantes: Dado que al construir un arbol de desicion se evaluan todos los puntos de cada variable, en el caso que no haya un dato para una variable especifica, el algoritmo simplemente tiene 1 opcion de particiones menos que evaluar. 
2. Realiza la seleccion de variables: Ya que los arboles realizan particiones sobre una variable a partir de su aporte en la mejora de la funcion objetivo, si una variable no es util para la regresion nunca la utilizara para realizar particiones. Asi que, el algoritmo por si mismo va determinando cuales variables son importantes para realizar predicciones. A partir de esto se puede calcular la "importancia" de cada variable, la cual indica el valor acumlado de mejoras a la funcion objetivo a lo largo de la constuccion del modelo. Entre mayor sea el valor de la importancia de cada variable, mejor. 

Este algoritmo tiene 2 hiperparametros para calibrar el modelo:
1. B: Numero de arboles a ensamblar
2. p: Numero de variables aleatorias de que se usa en cada iteracion

### Cargamos las librerias

In [1]:
#Carga de librerias
import sklearn
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns; sns.set()  # for plot styling
from sklearn.preprocessing import LabelEncoder

from sklearn.ensemble import RandomForestClassifier
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder

from sklearn.tree import DecisionTreeClassifier
# Para búsqueda de hiperparámetros
from sklearn.model_selection import GridSearchCV
# Para la validación cruzada
from sklearn.model_selection import KFold

from matplotlib import cm
from mpl_toolkits.mplot3d import Axes3D # for 3D plots

# Para realizar la separación del conjunto de aprendizaje en entrenamiento y test.
from sklearn.model_selection import train_test_split
# Para evaluar el modelo
from sklearn.metrics import confusion_matrix, classification_report, precision_score, recall_score, f1_score, accuracy_score

# Versiones anteriores a 1.2 de sklearn: from sklearn.metrics import plot_confusion_matrix
from sklearn.metrics import ConfusionMatrixDisplay

from sklearn import tree

### Cargamos los datos

In [2]:
#Cargamos los datos de Y_train
Y_train = pd.read_csv('./../../DatosProcesados/Entrenamiento/Y_train_V1.csv', sep=',', encoding = "ISO-8859-1")
Y_train.shape

Y_train = Y_train['Class']

In [3]:
#Cargamos los datos de Y_test
Y_test = pd.read_csv('./../../DatosProcesados/ValidationTest/Y_validation_V1.csv', sep=',', encoding = "ISO-8859-1")
Y_test.shape

Y_test = Y_test['Class']

In [4]:
#Cargamos los datos de X_train
X_train = pd.read_csv('X_train_V3.csv', sep=',', encoding = "ISO-8859-1")
X_train.shape

(6254, 10692)

In [5]:
#Cargamos los datos de X_test
X_test = pd.read_csv('./../../DatosProcesados/ValidationTest/X_validation_V1.csv', sep=',', encoding = "ISO-8859-1")
X_test.shape

(1575, 10692)

In [6]:
X_train.shape, X_test.shape

((6254, 10692), (1575, 10692))

### Creacion de los elementos necesarios para encontrar el mejor modelo

In [7]:
#Creamos los elementos necesarios para calibrar el mejor modelo:
particiones = KFold(n_splits=5, shuffle=True, random_state = 1)
profundidades = [i for i in range(30,45)]
caminos = [i for i in range(103,107)]

In [8]:
param_grid = {'max_features':caminos,'max_depth':profundidades}

In [9]:
forest = RandomForestClassifier(random_state=111)

In [10]:
mejor_modelo = GridSearchCV(forest, param_grid, cv=particiones)

### Se busca el mejor modelo

In [11]:
mejor_modelo.fit(X_train, Y_train)

In [12]:
mejor_modelo.best_params_

{'max_depth': 42, 'max_features': 106}

El mejor model es aquel donde la profundidad maxima es de 42 nodos, y en cada iteracion se escoge una submuestra aleatoria de 106 variables

In [13]:
forest_final = mejor_modelo.best_estimator_

### Evaluacion del modelo

In [14]:
# Probemos ahora este modelo sobre train.
y_pred_train = forest_final.predict(X_train)

In [15]:
#Sacamos las importancias
importancia= forest_final.feature_importances_
importancia
importancia_atributo = pd.DataFrame(data={"Atributo": X_train.columns,"Importancia": importancia})
importancia_atributo = importancia_atributo.sort_values(by='Importancia', ascending=False).reset_index(drop=True)
importancia_atributo

Unnamed: 0,Atributo,Importancia
0,excelente,0.015748
1,mal,0.009517
2,hotel,0.006640
3,mala,0.006547
4,habitaciÃ³n,0.006473
...,...,...
10687,compaÃ±era,0.000000
10688,compensan,0.000000
10689,gluten,0.000000
10690,competencia,0.000000


In [16]:
#Analisis cuantitivo
y_pred_test = forest_final.predict(X_test)
print('Exactitud sobre entrenamiento: %.2f' % accuracy_score(Y_train, y_pred_train))
print('Exactitud sobre test: %.2f' % accuracy_score(Y_test, y_pred_test))

Exactitud sobre entrenamiento: 0.84
Exactitud sobre test: 0.40


In [17]:
print(classification_report(Y_test, y_pred_test)) 

              precision    recall  f1-score   support

           1       0.54      0.13      0.21       152
           2       0.36      0.27      0.31       234
           3       0.42      0.22      0.29       315
           4       0.42      0.18      0.25       430
           5       0.39      0.89      0.54       444

    accuracy                           0.40      1575
   macro avg       0.43      0.34      0.32      1575
weighted avg       0.41      0.40      0.35      1575



### Analisis Cuantitativo del modelo

A partir de las distintas metricas de evaluacion del modelo se pueden hacer las siguientes observaciones iniciales:
1. El mejor modelo predice bastante bien en los datos de entrenamiento (exactitud), pero no demasiado bien. Esto significa que el modelo no esta sobreajustado, lo que es bueno.
2. El mejor modelo no predice demasiado bien en los datos de prueba (exactitud). A pesar de que el valor es menor a 50%, toca tener en cuenta que hay 5 clases para predecir, lo que significa que el resultado obtenido no es muy malo.

Sin embargo para entender un poco mejor el desempeño cuantitativo del mejor modelo obtenido hay que analizar la matriz de confusion a partir de las 3 metricas relevantes **recall**, **presicion** y **f1-score**. 
1. **recall**: Para todas las clases, excepto la 5, el modelo tiende a equivocarse a la hora de hacer una prediccion. Sin embargo, para la clase 5 el valor es considerablemente alto en comparacion. Esto podria significar que el modelo, cuando predice que una reseña es excelente, rara vez se equivoca.
2. **presicion**: El modelo tiene un desempeño pobre a la hora de capturar correctamente las observaciones de cada clase. En la clase en la que mejor desempeño tiene es la 1, con un valor de 58%.
3. **f1-score**: De igual manera a las otras dos metricas, el modelo no tiene un valor especialmente alto, lo que es esperado ya que este valor es una funcion de los otros dos. Esto se ve reflejado tanto en el desempeño de cada clase, como en el promedio (0.32). **A partir de este ultimo valor se concluye que este no es el mejor modelo para la tarea especificada**.


### Analisis Cuantitativo
A pesar de que este no resulto ser el mejor modelo, y por lo tanto no vale la pena un analisis cuantitativo detallado, se puede aprovehcar la interpretabilidad inherente al algoritmo escogido para tratar de entern un poco mejor como clasifica las reseñas. Esto se hacer a partir de la importancia de cada palabra en los datos de entrenamiento. Al observar las 5 palabras mas significativas se podrian hacer las siguientes observaciones:

1. **"excelente"**: Cuando una reseña incluye la palabra "excelente" el modelo puede asignarla mas facilmente a una clase (probablemente alta).
2. **"mal"**: Nuevamente, esta palabra probablemente solo aparece en reseñas con calificacion baja y por eso es muy util para clasificar.
3. **"hotel""**: Usando sentido comun y algo intucion, la alta importancia de esta palabra no ofrece mucha informacion sobre como el modelo clasifica. Para este fin seria util tener un poco mas de contexto.
4. **"mala"**: Nuevamente, esta palabra probablemente solo aparece en reseñas con calificacion baja y por eso es muy util para clasificar.
5. **"habitacion"**: A pesar de que la palabra por si sola no aporta mucha informacion sobre a que clase probablemente se clasifica la observacion, es un primer factor especifico para saber que es importante en una reseña. La calidad de la habitacion, ya sea en terminos de espacio, higiene u organizacion puede cambiar por completo la experiencia de un cliente. 