----------------------------------------------------------
Naive Bayes

In [1]:

from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.naive_bayes import MultinomialNB 
from sklearn.model_selection import train_test_split 
from sklearn.metrics import accuracy_score, precision_score 
from sklearn.metrics import recall_score, f1_score, confusion_matrix

In [3]:
reseñas = [
    "Esta película es increíble, muy emocionante.",
    "¡Me encantó! La mejor película que he visto.",
    "Excelente actuación, recomiendo mucho.",
    "Fue una película fantástica, simplemente hermosa.",
    "La disfruté mucho, muy entretenida.",
    "Magnífica, superó mis expectativas.",    
    "Película terrible, muy aburrida.",
    "Horrible, una completa pérdida de tiempo.",
    "Muy mala, no recomiendo verla.",
    "Decepcionante, esperaba mucho más.",
    "Aburrida y confusa, no me gustó.",
    "Muy lenta y sin sentido, mala película.",
]
etiquetas = [1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0]

In [4]:
%pip install pandas

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip is available: 25.2 -> 25.3
[notice] To update, run: python.exe -m pip install --upgrade pip


In [5]:
import pandas as pd

df = pd.DataFrame({
    'texto': reseñas,
    'label': etiquetas,
    'sentimiento': ['Positvo' if x == 1 else "Negativo" for x in etiquetas]
})

In [6]:
len(reseñas)

12

In [7]:
df

Unnamed: 0,texto,label,sentimiento
0,"Esta película es increíble, muy emocionante.",1,Positvo
1,¡Me encantó! La mejor película que he visto.,1,Positvo
2,"Excelente actuación, recomiendo mucho.",1,Positvo
3,"Fue una película fantástica, simplemente hermosa.",1,Positvo
4,"La disfruté mucho, muy entretenida.",1,Positvo
5,"Magnífica, superó mis expectativas.",1,Positvo
6,"Película terrible, muy aburrida.",0,Negativo
7,"Horrible, una completa pérdida de tiempo.",0,Negativo
8,"Muy mala, no recomiendo verla.",0,Negativo
9,"Decepcionante, esperaba mucho más.",0,Negativo


In [8]:
sum(df['label'] == 1)

6

In [9]:
print(f"Hay {sum(df['label'] == 1)} reseñas positivas")
print(f"Hay {sum(df['label'] == 0)} reseñas negativas")

Hay 6 reseñas positivas
Hay 6 reseñas negativas


In [10]:
import re

def limpiar_texto(texto):
    texto = texto.lower()
    texto = re.sub(r"\W+", " ", texto)
    return texto

In [11]:
df["texto_limpio"] = df.texto.apply(limpiar_texto)

In [12]:
df

Unnamed: 0,texto,label,sentimiento,texto_limpio
0,"Esta película es increíble, muy emocionante.",1,Positvo,esta película es increíble muy emocionante
1,¡Me encantó! La mejor película que he visto.,1,Positvo,me encantó la mejor película que he visto
2,"Excelente actuación, recomiendo mucho.",1,Positvo,excelente actuación recomiendo mucho
3,"Fue una película fantástica, simplemente hermosa.",1,Positvo,fue una película fantástica simplemente hermosa
4,"La disfruté mucho, muy entretenida.",1,Positvo,la disfruté mucho muy entretenida
5,"Magnífica, superó mis expectativas.",1,Positvo,magnífica superó mis expectativas
6,"Película terrible, muy aburrida.",0,Negativo,película terrible muy aburrida
7,"Horrible, una completa pérdida de tiempo.",0,Negativo,horrible una completa pérdida de tiempo
8,"Muy mala, no recomiendo verla.",0,Negativo,muy mala no recomiendo verla
9,"Decepcionante, esperaba mucho más.",0,Negativo,decepcionante esperaba mucho más


In [13]:
from nltk.corpus import stopwords

s_w = stopwords.words("spanish")

vectorizer = TfidfVectorizer(stop_words=s_w, max_features=50)

X = vectorizer.fit_transform(df.texto_limpio)

In [14]:
len(vectorizer.get_feature_names_out())

30

In [15]:
X

<Compressed Sparse Row sparse matrix of dtype 'float64'
	with 37 stored elements and shape (12, 30)>

In [16]:
X_train, X_test, y_train, y_test = train_test_split(
    X, df.label,
    test_size=.3,
    random_state=96
)

In [17]:
X_train.shape

(8, 30)

In [18]:
modelo = MultinomialNB()

modelo.fit(X_train, y_train)

0,1,2
,alpha,1.0
,force_alpha,True
,fit_prior,True
,class_prior,


In [19]:
y_pred = modelo.predict(X_test)

In [20]:
modelo.predict_proba(X_test)

array([[0.50560486, 0.49439514],
       [0.50944338, 0.49055662],
       [0.49948914, 0.50051086],
       [0.49937432, 0.50062568]])

In [21]:
accuracy_score(y_test, y_pred)

0.5

In [22]:
precision_score(y_test, y_pred)

0.5

In [23]:
recall_score(y_test, y_pred)

0.5

In [24]:
f1_score(y_test, y_pred)

0.5

In [25]:
confusion_matrix(y_test, y_pred)

array([[1, 1],
       [1, 1]])

In [26]:
nuevo_texto = "Muy mal hecha, no me gustó para nada!"
nuevo_texto = limpiar_texto(nuevo_texto)
X_nuevo = vectorizer.transform([nuevo_texto])
prediccion = modelo.predict(X_nuevo)[0].item()

In [27]:
prediccion

0

In [28]:
nuevo_texto = "Fantástico, me enamoré de los personajes."
nuevo_texto = limpiar_texto(nuevo_texto)
X_nuevo = vectorizer.transform([nuevo_texto])
prediccion = modelo.predict(X_nuevo)[0].item()
prediccion

0

In [29]:
nuevo_texto = "Aburrida, tiré mi dinero a la basura."
nuevo_texto = limpiar_texto(nuevo_texto)
X_nuevo = vectorizer.transform([nuevo_texto])
prediccion = modelo.predict(X_nuevo)[0].item()
prediccion

0