# **0. Importación de librerías y carga de datos**

> ## ***Librerías***

In [1]:
import pandas as pd
import numpy as np

from joblib import load # Carga de datos
from scipy import sparse # Carga de datos

from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score # Métricas

> ## ***Carga de los datos***

In [2]:
# Carga de los datos 'spliteados'
X_train = sparse.load_npz('./X_train.npz')
X_test = sparse.load_npz('./X_test.npz')

y_train = pd.read_csv('./y_train.csv')
y_test = pd.read_csv('./y_test.csv')

# Carga del modelo (regresor logístico)
lr = load('./model.joblib')

print(X_train.shape), print(X_test.shape), print(y_train.shape), print(y_test.shape), print(lr)

(63928, 258)
(15983, 258)
(63928, 1)
(15983, 1)
LogisticRegression(C=1, max_iter=300, solver='newton-cg')


(None, None, None, None, None)

# **1. Métricas**

> ## ***Cálculo de Métricas***

In [3]:
test_predict = lr.predict(X_test)

accuracy = accuracy_score(y_test, test_predict)
recall = recall_score(y_test, test_predict)
precision = precision_score(y_test, test_predict)
f1 = f1_score(y_test, test_predict)

print(f'Accuracy: {accuracy}')
print(f'Recall: {recall}')
print(f'Precision: {precision}')
print(f'F1 Score: {f1}')

Accuracy: 0.7853344178189327
Recall: 0.7627582773213841
Precision: 0.8007317391872468
F1 Score: 0.781283865621215


> ## ***Análisis de Métricas***

Un recuento de los resultados obtenidos del modelo de regresión logística que creé:

* Precisión (Accuracy): Acierta +/- el 78.5% de las veces al predecir si una opinión es positiva o negativa. Se puede concluír que de manera general es un modelo fiable generalmente.

* Ratio de Verdaderos Positivos (Recall): Reconoce +/- el 76.3% cuando son 'verdaderos positivos'. Lo que indica que la gran mayoría de las opiniones son reconocidas por el modelo.

* Precisión (Precision): Acierta +/- el 80% de las veces que etiqueta una predicción como
'verdaderos positivos'. Lo que indica mucha fiabilidad en identificar las opiniones positivas.

* F1 (F1 Score): La combinación de Recall y Precision indica que tiene un porcentaje de aciertos del 78.1% el modelo en indicar correctamente cuándo es un 'verdadero positivo'.

Evidentemente no es el mejor modelo, pero se puede decir en sentidos generales es un modelo confiable.

# **2. Conclusiones finales y comentarios**

En el transcurso de esta práctica, mi pensamiento con el NLP iba cambiando, entendiéndolo mucho más a fondo y agarrándole un gusto que anteriormente no tenía. Afiné bastante mi habilidad con las librerías de pandas y numpy, aprendí demasiadas cosas y algunos trucos de estas dos que no sabía que se podían hacer y fue de increíble ayuda en la práctica. También, pude notar que los modulos anteriores 'machine learning' y 'deep learning' son un pilar importante para hacer más llevadero el aprendizaje de este módulo 'NLP'.

Por otro lado hablando del proyecto como tal, se me hizo muy interesante el haber hecho iteraciones en la etapa de preprocesamiento, viendo cómo cambiaban los resultados finales a más profundizaba en el preprocesamiento, el tratar el desbalanceamiento de las clases fue sencillo, aunque me gustaría saber el resultado que tendría donde no lo hubiera hecho.

La transformación de la cardinalidad del vocabulario, pre y post-preprocesamiento, me mostró el poder de una limpieza de datos bien ejecutada (y eso que con clara mejoría). Las aproximadas 35 horas invertidas en el desarrollo de esta práctica, aunque intensas, fueron profundamente gratificantes porque no hubo momento de quedarme estancado, no hubo momento de frustración.

Por temas de trabajo y otro estudio presencial que estoy haciendo en una universidad de mi país (Colombia), no tuve tiempo de enfrentarme a una red neuronal RNN, cosa que me encantaría hacer en un futuro cercano. Por ahora, ya tengo un "baseline" con los dos modelos (bastante robustos) de ML que desarrollé en esta práctica.