### Librerías a utilizar para etapa de modelamiento

In [1]:
# Para implementar modelos de machine learning.
from sklearn.svm import SVC, LinearSVC
from sklearn.naive_bayes import MultinomialNB
from sklearn.tree import DecisionTreeClassifier, plot_tree, export_graphviz
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier, GradientBoostingClassifier

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler, PowerTransformer
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
from sklearn.metrics import classification_report, roc_curve
from sklearn import set_config
set_config(display = 'diagram')

# Para recodificación de atributos
from category_encoders import TargetEncoder, OrdinalEncoder, OneHotEncoder

from datetime import datetime

# Para visualización
import graphviz

# Para serialización
import pickle

# Para evitar mensajes de deprecación
import warnings 
warnings.filterwarnings("ignore")

#### Definición de la matriz de atributos y vector objetivo

In [None]:
X_train = df.drop(columns = "rating") #Todas las columnas, excepto la de rating, que es el vector objetivo
y_train = df['rating']

#### División de la muestra

Con el fin de revisar el comportamiento de la data, para la primera etapa (sin modificación de hiperparámetros), se entrenarán los modelos con distintas proporciones para el set de entrenamiento y testing: 
1. 60% para entrenamiento y 40% para testeo.
2. 65% para entrenamiento y 35% para testeo.
3. 70% para entrenamiento y 30% para testeo.

In [None]:
# Proporción 60/40
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = 123)

In [2]:
# is_cat = y_train.dtypes == 'category'

In [None]:
# Proporción 65/35
X_train_2, X_test_2, y_train_2, y_test_2 = train_test_split(X, y, test_size = 0.35, random_state = 123)

In [None]:
# Proporción 70/30
X_train_3, X_test_3, y_train_3, y_test_3 = train_test_split(X, y, test_size = 0.3, random_state = 123)

#### Modelos propuestos

In [None]:
# Declaración de modelos
modelo_svc = LinearSVC(random_state = 123)
modelo_mnb = MultinomialNB()
modelo_rf = RandomForestClassifier(random_state = 123)
modelo_dtc = DecisionTreeClassifier(random_state= 123)
modelo_abc = AdaBoostClassifier(random_state = 123)
modelo_gbc = GradientBoostingClassifier(random_state = 123)

#### Entrenamiento de los modelos sin modificación de hiperparámetros - Proporción 60/40

In [None]:
# 1. Linear SVC
modelo_svc.fit(X_train, y_train)

# 2. Multinomial NB
modelo_mnb.fit(X_train, y_train)

# 3. Random Forest
modelo_rf.fit(X_train, y_train)

# 4. DecisionTree Classifier
modelo_dtc.fit(X_train, y_train)

# 5. AdaBoost Classifier
modelo_abc.fit(X_train, y_train)

# 6. GradientBoostingClassifier
modelo_gbc.fit(X_train, y_train)

#### Entrenamiento de los modelos sin modificación de hiperparámetros - Proporción 65/35

In [None]:
# 1. Linear SVC
modelo_svc.fit(X_train_2, y_train_2)

# 2. Multinomial NB
modelo_mnb.fit(X_train_2, y_train_2)

# 3. Random Forest
modelo_rf.fit(X_train_2, y_train_2)

# 4. DecisionTree Classifier
modelo_dtc.fit(X_train_2, y_train_2)

# 5. AdaBoost Classifier
modelo_abc.fit(X_train_2, y_train_2)

# 6. GradientBoostingClassifier
modelo_gbc.fit(X_train_2, y_train_2)

#### Entrenamiento de los modelos sin modificación de hiperparámetros - Proporción 70/30

In [None]:
# 1. Linear SVC
modelo_svc.fit(X_train_3, y_train_3)

# 2. Multinomial NB
modelo_mnb.fit(X_train_3, y_train_3)

# 3. Random Forest
modelo_rf.fit(X_train_3, y_train_3)

# 4. DecisionTree Classifier
modelo_dtc.fit(X_train_3, y_train_3)

# 5. AdaBoost Classifier
modelo_abc.fit(X_train_3, y_train_3)

# 6. GradientBoostingClassifier
modelo_gbc.fit(X_train_3, y_train_3)

#### Predicciones en base a modelos entrenados - Proporción 60/40

In [None]:
# 1. Linear SVC
y_pred_svc = modelo_svc.predict(X_test)

# 2. Multinomial NB
y_pred_mnb = modelo_mnb.predict(X_test)

# 3. Random Forest
y_pred_rf = modelo_rf.predict(X_test)

# 4. DecisionTree Classifier
y_pred_dtc = modelo_dtc.predict(X_test)

# 5. AdaBoost Classifier
y_pred_abc = modelo_abc.predict(X_test)

# 6. GradientBoostingClassifier
y_pred_gbc = modelo_gbc.predict(X_test)

In [None]:
print('Train')
print(classification_report(y_train, y_pred_train_modelo, digits = 3))

print('Test')
print(classification_report(y_test, y_pred_modelo, digits = 3))

#### Predicciones en base a modelos entrenados - Proporción 65/35

In [None]:
# 1. Linear SVC
y_pred_svc_2 = modelo_svc.predict(X_test_2)

# 2. Multinomial NB
y_pred_mnb_2 = modelo_mnb.predict(X_test_2)

# 3. Random Forest
y_pred_rf_2 = modelo_rf.predict(X_test_2)

# 4. DecisionTree Classifier
y_pred_dtc_2 = modelo_dtc.predict(X_test_2)

# 5. AdaBoost Classifier
y_pred_abc_2 = modelo_abc.predict(X_test_2)

# 6. GradientBoostingClassifier
y_pred_gbc_2 = modelo_gbc.predict(X_test_2)

In [None]:
print('Train')
print(classification_report(y_train, y_pred_train_modelo, digits = 3))

print('Test')
print(classification_report(y_test, y_pred_modelo, digits = 3))

#### Predicciones en base a modelos entrenados - Proporción 70/30

In [None]:
# 1. Linear SVC
y_pred_svc_3 = modelo_svc.predict(X_test_3)

# 2. Multinomial NB
y_pred_mnb_3 = modelo_mnb.predict(X_test_3)

# 3. Random Forest
y_pred_rf_3 = modelo_rf.predict(X_test_3)

# 4. DecisionTree Classifier
y_pred_dtc_3 = modelo_dtc.predict(X_test_3)

# 5. AdaBoost Classifier
y_pred_abc_3 = modelo_abc.predict(X_test_3)

# 6. GradientBoostingClassifier
y_pred_gbc_3 = modelo_gbc.predict(X_test_3)

In [None]:
   # FUNCIÓN PARA OBTENER CLASSIFICATION REPORT:
def report(y_train, y_pred_train, y_test, y_pred):
    print("Classification report - TRAIN SET")
    print(classification_report(y_train, y_pred_train))
    print("\nClassification report - TEST SET")
    print(classification_report(y_test, y_pred))

# FUNCIÓN PARA CLASSIFICATION REPORT - SÓLO TEST SET
def test_classification_report(nombre_modelo, y_test, y_hat):
    print("\nTEST SET - Classification report - {}".format(nombre_modelo.upper()) )
    print(classification_report(y_test, y_hat))

#### Propuesta de grilla de hiperparámetros para cada modelo

In [None]:
# 1. LinearSVC
parametros_svc = {'clf4__C':[0.01,0.1,1,10, 100, 1000],
                  'clf4__max_iter': [1000,10000]}

# 2. MultinomialNB
parametros_mbn = {'clf2__alpha':(0.1,0.5,1.0),
                  'clf2__fit_prior':[True]}

# 3. RandomForestClassifier
parametros_rf ={"ccp_alpha" : [0.001, 0.01, 0.1, 0.3, 0.5],
                "max_depth" : [3, 5, 10],
                "n_estimators": [250, 300, 500]}

# 4. DecisionTreeClassifier
parametros_dt = {'clf3__max_depth':(30,45,50,55),
                 'clf3__min_samples_leaf': [1,75,100,125,150,175], 
                 'clf3__max_features':['sqrt','log2',None]}

# 5. AdaBoostClassifier
parametros_abc = {'clf5__base_estimator' : [DecisionTreeClassifier(max_depth=2)],
                  'clf5__n_estimators': [1, 50, 100, 500]}


# 6. GradientBoostingClassifier
parametros_gbc = {"learning_rate": [0.01, 0.1, 0.5],
                  "n_estimators" : [50, 100, 500, 1000],
                  "subsample": [0.1,0.5,0.9]}

In [None]:
# Implementación GridsearchCV
search_abc = GridSearchCV(AdaBoostClassifier(base_estimator = LogisticRegression(),random_state = 123), 
                          parametros_abc, cv = 3, n_jobs = -1)

search_abc.fit(X_train_sc, y_train);

search_abc.best_params_

In [None]:
# Para realizar la predicción en base a modelo serializado y SearchCV + Comparación con Train set
y_pred_modelo = modelo_asignado.best_estimator_.predict(X_test)
y_pred_train_modelo = modelo_asignado.best_estimator_.predict(X_train)

In [None]:
# Revisión de resultados
pd.DataFrame(search_abc.cv_results_).sort_values(by = "rank_test_score")[0:3]

In [None]:
# Para extraer los mejores parámetros de la búsqueda de grilla
nombre_del_modelo_asignado.best_params_

#### Para serialización de modelo y posterior carga

In [None]:
# Para generar la serialización de los modelos entrenados
pickle.dump(nombre_asignado, open('nombre_asignado_2.sav','wb'))

In [None]:
# Para cargar el modelo serializado
nombre_asignado = pickle.load(open('nombre_asignado_2.sav','rb'))