# Clasificación de Sentimientos Utilizando Naïve Bayes
Realizado por:

Paula Monge
Emmanuel Zúñiga
Trabajo de Invetigación del Curso:

Investigación en Ciencias de la Computación
Tema de Investigación:

Aprendizaje Automático en la clasificación de Sentimientos en Twitter: Comparación de los Algoritmos de LSTM Bidireccional, BERT y Naïve Bayes

# Importación de librerias necesarias 📚

In [105]:
import re
import seaborn as sns #for visualization
import matplotlib.pyplot as plt #for visualization
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
from google.colab import drive

## Carga del dataset 📅

In [106]:
tweets = pd.read_csv('https://raw.githubusercontent.com/Emmazch22/Paula_y_Emmanuel_CI0134/main/Datasets/clean_dataset.csv')

Visualización de los primeros 10 registros del dataset

In [107]:
tweets.head(10)

Unnamed: 0.1,Unnamed: 0,Text,Label
0,36205,es lo menos,0
1,105993,jaja me acoste a eso de las 3 de la manana o ...,0
2,77438,manana ire solari no mas,0
3,93306,tomate un acetaminofen amor,0
4,83950,lo siento,0
5,61508,o sea iba a quedar feo como mujer,0
6,59726,ademas de tener insomnio tengo hambre,0
7,39053,a mi me salio una en ese mismo lugar,0
8,49669,que alguien me hablee lt 3 lt 3 me aburro...,0
9,83894,ni me daras nada,0


In [108]:
tweets.shape

(110720, 3)

## Preprocesamiento y limpieza de datos 🧹

In [109]:
tweets = tweets.dropna()

In [110]:
tweets.shape

(110716, 3)

## Creación de datos de entrenamiento y prueba 🏋

Se define una proporción de 80/20 para la creación de los datos de prueba y testeo.

In [111]:
train_pct = 0.8
train_size = round(len(tweets) * train_pct)
tweets_shuffled = tweets.sample(frac= 1, random_state=0)

train_data = tweets_shuffled.iloc[:train_size]
test_data = tweets_shuffled.iloc[train_size:]

test_data = test_data.drop('Label', axis=1)

In [112]:
train_data.head(20)

Unnamed: 0.1,Unnamed: 0,Text,Label
81571,21696,puta mierda ese nino me ha seguido en instagr...,1
39409,94853,lamento decir que las 2 hs se me borraronnn,0
36936,118614,me dieron ganas de tener noviesito,0
17247,76703,la verdad nena,0
17958,58031,desculpa,0
48545,28659,cosita bien hecha,0
80673,9520,gracias por seguirme en breve te devuelvo fo...,1
101688,23166,al kiosco,1
98462,6180,si vendra,1
63750,22590,bien boricuo y tu,1


In [113]:
test_data.head(10)

Unnamed: 0.1,Unnamed: 0,Text
42993,108440,si lo se me imagine ya ni sali ayer hay...
58170,9783,pame para cuando vas al matinal para estar a...
10222,93866,cuanto horror en plena democracia
43349,48210,le dire pues manana por que esta dormida aho...
101243,25001,me hace bien hablarle la verdad
27938,44408,jajaja no hagas una afirmacion apresurada pe...
7772,74646,la extinta malrak
93119,29311,estamos creando una lista de salas donde pagu...
66011,6382,libro y horas de practica al tajo
53254,41116,necesito un cursito online para agradarle a la...


## Tokenización de los datos 🔡

In [114]:
from sklearn.feature_extraction.text import CountVectorizer

In [115]:
sample_data = ["This is my first paper", "This is the second document", "here is the third thi one"]

In [116]:
vectorizer = CountVectorizer()

In [117]:
X = vectorizer.fit_transform(sample_data)

In [118]:
vectorizer.get_feature_names_out()

array(['document', 'first', 'here', 'is', 'my', 'one', 'paper', 'second',
       'the', 'thi', 'third', 'this'], dtype=object)

In [119]:
X.toarray()

array([[0, 1, 0, 1, 1, 0, 1, 0, 0, 0, 0, 1],
       [1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1],
       [0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1, 0]])

In [120]:
data = train_data['Text'].tolist()

In [121]:
tweets_countvectorizer = CountVectorizer().fit_transform(data).toarray()

In [122]:
tweets_countvectorizer.shape

(88573, 55471)

In [123]:
X = tweets_countvectorizer
y = train_data['Label']

## Implementación de Naïve Bayes para clasificación 🤖

In [124]:
from sklearn.model_selection import train_test_split

In [125]:
from sklearn.utils import shuffle
test_size = int(len(X) * 0.2)
# Mezcla los datos
#X, y = shuffle(X, y, random_state=1)
# Divide los datos en conjuntos de entrenamiento y prueba
X_test = X[:test_size]
X_train = X[test_size:]
y_test = y[:test_size]
y_train = y[test_size:]

In [126]:
from sklearn.naive_bayes import MultinomialNB #for discrete values

In [127]:
alpha = 0.5
fit_prior = False

NB_classifier = MultinomialNB(alpha=alpha, fit_prior=fit_prior)

In [128]:
NB_classifier.fit(X_train, y_train)

In [129]:
y_pred = NB_classifier.predict(X_test)

In [130]:
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

In [131]:
cm = confusion_matrix(y_test, y_pred)
cm

array([[7673, 1162],
       [3147, 5732]])

In [132]:
ac = accuracy_score(y_test, y_pred)
ac

0.7567460765496218

In [133]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.71      0.87      0.78      8835
           1       0.83      0.65      0.73      8879

    accuracy                           0.76     17714
   macro avg       0.77      0.76      0.75     17714
weighted avg       0.77      0.76      0.75     17714

