### Modelos

En este notebook se evaluarán los siguientes modelos:
1. Regresión Logística

In [1]:
# Instalación de librerías
%pip install -r '../requirements.txt'

Note: you may need to restart the kernel to use updated packages.


In [2]:
# Importación de librerías
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [3]:
# Carga de datos
dataset_entrenamiento = pd.read_csv('../5-dataset-final/dist/dataset-train.csv')
dataset_pruebas = pd.read_csv('../5-dataset-final/dist/dataset-test.csv')
dataset_validacion = pd.read_csv('../5-dataset-final/dist/dataset-validation.csv')

In [4]:
# Eliminar valores nulos
dataset_entrenamiento = dataset_entrenamiento.dropna()
dataset_pruebas = dataset_pruebas.dropna()
dataset_validacion = dataset_validacion.dropna()

In [5]:
# Ver cantidad de registros
print(f'Dataset de entrenamiento: {len(dataset_entrenamiento)} registros')
print(f'Dataset de pruebas: {len(dataset_pruebas)} registros')
print(f'Dataset de validación: {len(dataset_validacion)} registros')

Dataset de entrenamiento: 40915 registros
Dataset de pruebas: 5122 registros
Dataset de validación: 5104 registros


In [6]:
# División de datos
# Entrenamiento
X_train = dataset_entrenamiento.drop(columns=['sentiment'])
y_train = dataset_entrenamiento['sentiment']
# Pruebas
X_test = dataset_pruebas.drop(columns=['sentiment'])
y_test = dataset_pruebas['sentiment']
# Validación
X_val = dataset_validacion.drop(columns=['sentiment'])
y_val = dataset_validacion['sentiment']

### Modelos de machine learning

In [7]:
# Grid para encontrar el mejor max_iter
modelo = LogisticRegression()
# Definir los parámetros para la búsqueda
param_grid = {'max_iter': [100, 200, 500, 1000, 2000]}

# Realizar la búsqueda de cuadrícula con validación cruzada
grid_search = GridSearchCV(modelo, param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Mejor parámetro encontrado
best_max_iter = grid_search.best_params_['max_iter']
print(f"El mejor valor de max_iter es: {best_max_iter}")

El mejor valor de max_iter es: 100


##### Resultado

Según el GridSearchCV, el mejor valor para el hiperparámetro max_iter es 100.

In [8]:
# Instancia del modelo
modelo = LogisticRegression(max_iter=100)

In [9]:
# Entrenamiento
modelo.fit(X_train, y_train)

In [10]:
y_pred_train = modelo.predict(X_train)

accuracy_train = accuracy_score(y_train, y_pred_train)
print(f'Precisión en el conjunto de entrenamiento: {accuracy_train}')
print(classification_report(y_train, y_pred_train))
print(confusion_matrix(y_train, y_pred_train))


Precisión en el conjunto de entrenamiento: 0.7859953562263229
              precision    recall  f1-score   support

           0       0.78      0.82      0.80     21415
           1       0.79      0.75      0.77     19500

    accuracy                           0.79     40915
   macro avg       0.79      0.78      0.78     40915
weighted avg       0.79      0.79      0.79     40915

[[17534  3881]
 [ 4875 14625]]


In [11]:
# Pruebas
y_pred_test = modelo.predict(X_test)

accuracy_test = accuracy_score(y_test, y_pred_test)
print(f'Precisión en el conjunto de pruebas: {accuracy_test}')
print(classification_report(y_test, y_pred_test))
print(confusion_matrix(y_test, y_pred_test))


Precisión en el conjunto de pruebas: 0.7893401015228426
              precision    recall  f1-score   support

           0       0.78      0.83      0.80      2683
           1       0.80      0.75      0.77      2439

    accuracy                           0.79      5122
   macro avg       0.79      0.79      0.79      5122
weighted avg       0.79      0.79      0.79      5122

[[2219  464]
 [ 615 1824]]


In [12]:
# Validación
y_pred_val = modelo.predict(X_val)

accuracy_val = accuracy_score(y_val, y_pred_val)
print(f'Precisión en el conjunto de validación: {accuracy_val}')
print(classification_report(y_val, y_pred_val))
print(confusion_matrix(y_val, y_pred_val))

Precisión en el conjunto de validación: 0.7864420062695925
              precision    recall  f1-score   support

           0       0.78      0.82      0.80      2678
           1       0.79      0.74      0.77      2426

    accuracy                           0.79      5104
   macro avg       0.79      0.78      0.79      5104
weighted avg       0.79      0.79      0.79      5104

[[2208  470]
 [ 620 1806]]
