# Clasificación de Sentimientos Utilizando Regresión Lógistica

Realizado por:
- Paula Monge
- Emmanuel Zúñiga

Trabajo de Invetigación del Curso:
- Investigación en Ciencias de la Computación

Tema de Investigación:
- Aprendizaje Automático en la clasificación de Sentimientos en Twitter: Comparación de los Algoritmos de LSTM Bidireccional, BERT y Naïve Bayes

## Importación de librerias 📚

In [None]:

!pip install tensorflow

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [None]:
from google.colab import drive
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression 
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score as acc
from sklearn.pipeline import Pipeline
from wordcloud import WordCloud
import seaborn as sns

## Carga del Dataset

In [None]:
# Se carga la libreria drive de google para cargar los archivos almacenados en drive
drive.mount("/content/gdrive")

# El dataset en cuestión contiene datos sobre tweets en diferentes idiomas, pero nos interesa utilizar solo
# los que se encuentran en español.
df = pd.read_csv('/content/gdrive/My Drive/imdb_new_dataset.csv')

Drive already mounted at /content/gdrive; to attempt to forcibly remount, call drive.mount("/content/gdrive", force_remount=True).


Observamos los primeros 10 registros del dataset

In [None]:
df.head(10)

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,review_en,review_es,sentiment,clean_en,clean_es
0,0,0,One of the other reviewers has mentioned that ...,Uno de los otros críticos ha mencionado que de...,positive,one of the other reviewers has mentioned that ...,uno de los otros criticos ha mencionado que de...
1,1,1,A wonderful little production. The filming tec...,Una pequeña pequeña producción.La técnica de f...,positive,a wonderful little production the filming tec...,una pequena pequena produccion la tecnica de f...
2,2,2,I thought this was a wonderful way to spend ti...,Pensé que esta era una manera maravillosa de p...,positive,i thought this was a wonderful way to spend ti...,pense que esta era una manera maravillosa de p...
3,3,3,Basically there's a family where a little boy ...,"Básicamente, hay una familia donde un niño peq...",negative,basically theres a family where a little boy ...,basicamente hay una familia donde un nino peq...
4,4,4,"Petter Mattei's ""Love in the Time of Money"" is...","El ""amor en el tiempo"" de Petter Mattei es una...",positive,petter matteis love in the time of money is ...,el amor en el tiempo de petter mattei es una...
5,5,5,"Probably my all-time favorite movie, a story o...",Probablemente mi película favorita de todos lo...,positive,probably my all time favorite movie a story o...,probablemente mi pelicula favorita de todos lo...
6,6,6,I sure would like to see a resurrection of a u...,Seguro que me gustaría ver una resurrección de...,positive,i sure would like to see a resurrection of a u...,seguro que me gustaria ver una resurreccion de...
7,7,7,"This show was an amazing, fresh & innovative i...","Este espectáculo fue una idea increíble, fresc...",negative,this show was an amazing fresh innovative i...,este espectaculo fue una idea increible fresc...
8,8,8,Encouraged by the positive comments about this...,Alentados por los comentarios positivos sobre ...,negative,encouraged by the positive comments about this...,alentados por los comentarios positivos sobre ...
9,9,9,If you like original gut wrenching laughter yo...,"Si te gusta la risa original desgarradora, te ...",positive,if you like original gut wrenching laughter yo...,si te gusta la risa original desgarradora te ...


In [None]:
df.shape

(49602, 7)

In [None]:
df = df.dropna()
df.shape

(49602, 7)

## Creación del Modelo de Regresión Lógistica 📈


In [None]:
x = df["clean_en"]
y = df["sentiment"]

size = len(x)

Para la distribución de los datos, se escoge una proporción de 80:20, 80% de los datos son para entrenar el modelo, y el restante para probarlo.

In [None]:
max_iters = 4000
c = 0.01
features = 50000

model = Pipeline((("vect", TfidfVectorizer(ngram_range=(1,2), max_features=features)),
                  ("clc", LogisticRegression(max_iter=max_iters, C=c))))
xTrain = x.head(int(size * 0.8))
xTest =  x.tail(int(size * 0.2))
yTrain = y.head(int(size* 0.8))
yTest =  y.tail(int(size * 0.2))
model.fit(xTrain,yTrain)



In [None]:
Pipeline(steps=[(("vect", TfidfVectorizer(ngram_range=(1,2), max_features=features)),
                  ("clc", LogisticRegression(max_iter=max_iters, C=c)))])

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import precision_score, accuracy_score, recall_score, f1_score
from sklearn.metrics import classification_report
#accuracy = (acc(model.predict(xTest), yTest))
# print("Accuracy :- ", accuracy)
# yPrediction = model.predict(xTest)
# Haz predicciones en el conjunto de prueba
y_pred = model.predict(xTest)

# Calculate precision, accuracy, recall, and F1 score
precision = precision_score(yTest, y_pred, pos_label='positive')
accuracy = accuracy_score(yTest, y_pred)
recall = recall_score(yTest, y_pred, pos_label='positive')
f1 = f1_score(yTest, y_pred, pos_label='positive')

# Print classification report
print(classification_report(yTest, y_pred))

# Print the calculated metrics
print(f'Precision: {precision:.2f}')
print(f'Accuracy: {accuracy:.2f}')
print(f'Recall: {recall:.2f}')
print(f'F1 Score: {f1:.2f}')

              precision    recall  f1-score   support

    negative       0.84      0.79      0.81      4929
    positive       0.80      0.85      0.83      4991

    accuracy                           0.82      9920
   macro avg       0.82      0.82      0.82      9920
weighted avg       0.82      0.82      0.82      9920

Precision: 0.80
Accuracy: 0.82
Recall: 0.85
F1 Score: 0.83


Para probar el modelo debe de ingresarse un texto en las comillas simples ubicadas dentro de los corchetes, posteriormente el modelo determinará la clase del texto introducido.

In [None]:
print(model.predict(['Estoy feliz']))

['positive']
