# Proyecto de Análisis de sentimientos de Luisa

In [1]:
import pandas as pd

url = "https://raw.githubusercontent.com/4GeeksAcademy/naive-bayes-project-tutorial/main/playstore_reviews.csv"
df = pd.read_csv(url)
df.head()


Unnamed: 0,package_name,review,polarity
0,com.facebook.katana,privacy at least put some option appear offli...,0
1,com.facebook.katana,"messenger issues ever since the last update, ...",0
2,com.facebook.katana,profile any time my wife or anybody has more ...,0
3,com.facebook.katana,the new features suck for those of us who don...,0
4,com.facebook.katana,forced reload on uploading pic on replying co...,0


In [2]:
# Información general del DataFrame
df.info()

# Dimensiones del DataFrame
df.shape

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   package_name  891 non-null    object
 1   review        891 non-null    object
 2   polarity      891 non-null    int64 
dtypes: int64(1), object(2)
memory usage: 21.0+ KB


(891, 3)

In [3]:
# Eliminando la columna 'package_name'
df.drop(columns="package_name", inplace=True)

df.info()

df.shape

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 2 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   review    891 non-null    object
 1   polarity  891 non-null    int64 
dtypes: int64(1), object(1)
memory usage: 14.1+ KB


(891, 2)

In [4]:
# Modificando la columna 'review': convirtiendo a minúsculas y eliminando espacios al principio y al final
df["review"] = df["review"].str.lower().str.strip()

# Imprimiendo las primeras filas del DataFrame
print(df.head())

                                              review  polarity
0  privacy at least put some option appear offlin...         0
1  messenger issues ever since the last update, i...         0
2  profile any time my wife or anybody has more t...         0
3  the new features suck for those of us who don'...         0
4  forced reload on uploading pic on replying com...         0


In [5]:
from sklearn.model_selection import train_test_split
# Dividiendo el set en train y test
X = df['review']
y = df['polarity']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Imprimiendo las primeras filas de X_train
print(X_train.head())


331    just did the latest update on viber and yet ag...
733    keeps crashing it only works well in extreme d...
382    the fail boat has arrived the 6.0 version is t...
704    superfast, just as i remember it ! opera mini ...
813    installed and immediately deleted this crap i ...
Name: review, dtype: object


In [6]:
# Mostrando X_train
X_train

331    just did the latest update on viber and yet ag...
733    keeps crashing it only works well in extreme d...
382    the fail boat has arrived the 6.0 version is t...
704    superfast, just as i remember it ! opera mini ...
813    installed and immediately deleted this crap i ...
                             ...                        
106    why can't i share my achievements? recently di...
270    beta is the best version of the chrome browser...
860    great little game. this is a great little game...
435    keeps crashing ever since i started using it m...
102    even though i am loving the new update, but th...
Name: review, Length: 712, dtype: object

In [7]:
from sklearn.feature_extraction.text import CountVectorizer
# Transformando el texto en una matriz de conteo de palabras
vec_model = CountVectorizer(stop_words="english")
X_train = vec_model.fit_transform(X_train).toarray()
X_test = vec_model.transform(X_test).toarray()


In [8]:
# Imprimiendo el vocabulario
print(vec_model.vocabulary_)

{'just': 1550, 'did': 822, 'latest': 1611, 'update': 3070, 'viber': 3129, 'problems': 2208, 'send': 2539, 'messages': 1801, 'try': 2995, 'make': 1741, 'saying': 2491, 'ringing': 2431, 'sound': 2685, 'don': 874, 'think': 2915, 'actually': 105, 'answers': 187, 'calls': 454, 'time': 2937, 'updates': 3074, 'doesn': 869, 'work': 3235, 'fix': 1113, 'asap': 236, 'england': 971, 'thank': 2901, 'keeps': 1556, 'crashing': 706, 'works': 3238, 'extreme': 1045, 'data': 750, 'savings': 2488, 'mode': 1839, 'high': 1361, 'websites': 3187, 'dont': 877, 'load': 1676, 'moving': 1857, 'browser': 411, 'fail': 1058, 'boat': 368, 'arrived': 231, 'version': 3125, 'touted': 2968, 'advanced': 129, 'fact': 1056, 'contains': 664, 'big': 339, 'old': 1977, 'disappointment': 847, 'widget': 3209, 'wasn': 3172, 'available': 269, 'google': 1245, 'urged': 3089, 'switch': 2831, 'sms': 2652, 'function': 1187, 'hangouts': 1309, 'longer': 1693, 'wth': 3256, 'want': 3167, 'use': 3094, 'app': 199, 'messaging': 1802, 'quick': 

In [9]:
# Imprimiendo X_train
print(X_train)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


Para este problema, la mejor opción es MultinomialNB, ya que estás se esta trabajando con texto convertido en una matriz de conteo de palabras mediante CountVectorizer, lo cual genera datos discretos. Este modelo asume una distribución multinomial y es ideal para tareas de clasificación de texto como análisis de sentimientos, donde las características representan la frecuencia de palabras.

In [10]:
#MODELO MultinomialNB
from sklearn.naive_bayes import MultinomialNB
# Entrenando el modelo MultinomialNB
model = MultinomialNB()
model.fit(X_train, y_train)

In [11]:
# Realizando predicciones
y_pred = model.predict(X_test)
y_pred

array([0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0,
       1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0,
       0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1,
       0, 0, 0])

In [12]:
from sklearn.metrics import accuracy_score
# Calculando la precisión
accuracy_score(y_test, y_pred)

0.8156424581005587

El resultado de precisión de 0.8156 indica que el modelo de clasificación Naive Bayes con MultinomialNB logra predecir correctamente aproximadamente el 81.6 % de las reseñas en el conjunto de prueba, lo cual representa un buen desempeño considerando que se trata de un problema de análisis de sentimiento con texto.

In [13]:
#Modelo GaussianNB
from sklearn.naive_bayes import GaussianNB
# Crear y entrenar el modelo
modelG = GaussianNB()
modelG.fit(X_train, y_train)


In [14]:
# Realizar la predicción
y_pred = modelG.predict(X_test)

# Mostrar las predicciones
y_pred


array([0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1,
       1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1,
       0, 0, 0])

In [15]:
from sklearn.metrics import accuracy_score

# Calcular la precisión
accuracy = accuracy_score(y_test, y_pred)

# Mostrar la precisión
accuracy

0.8044692737430168

El resultado de la precisión de 0.8044 indica que el modelo de Naive Bayes es capaz de clasificar correctamente aproximadamente el 80.4% de las muestras en el conjunto de prueba. Esto sugiere que el modelo tiene un rendimiento razonablemente bueno, aunque aún hay margen para mejorar.

In [16]:
#Modelo BernoulliNB
from sklearn.naive_bayes import BernoulliNB

# Crear y entrenar el modelo
modelB = BernoulliNB()
modelB.fit(X_train, y_train)


In [17]:
# Realizar la predicción
y_pred = modelB.predict(X_test)

# Mostrar las predicciones
y_pred


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0])

In [18]:
from sklearn.metrics import accuracy_score

# Calcular la precisión
accuracy = accuracy_score(y_test, y_pred)

# Mostrar la precisión
accuracy


0.770949720670391

El resultado de la precisión de 0.7709 indica que el modelo de Naive Bayes con el clasificador BernoulliNB es capaz de clasificar correctamente aproximadamente el 77.1% de las muestras en el conjunto de prueba.Es el de menor precisión.

In [19]:
# Optimización 
import numpy as np
from sklearn.model_selection import RandomizedSearchCV

# Definir los hiperparámetros
hyperparams = {
    "alpha": np.linspace(0.5, 1, 4),  # Esto genera un arreglo de 4 valores entre 0.5 y 1
    "fit_prior": [True, False]
}

# Crear la búsqueda aleatoria de hiperparámetros
random_search = RandomizedSearchCV(modelB, hyperparams, n_iter=50, scoring="accuracy", cv=5, random_state=42)

# Mostrar el objeto de búsqueda aleatoria
random_search


In [20]:
# Ajustar la búsqueda aleatoria de hiperparámetros
random_search.fit(X_train, y_train)

# Mostrar los mejores parámetros encontrados
random_search.best_params_




{'fit_prior': True, 'alpha': np.float64(0.5)}

In [22]:
from sklearn.naive_bayes import MultinomialNB

# Crear y entrenar el modelo
modelO = MultinomialNB(fit_prior=True, alpha=0.5)
modelO.fit(X_train, y_train)


In [23]:
# Realizar la predicción
y_pred = modelO.predict(X_test)

# Mostrar las predicciones
y_pred


array([0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1,
       1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0,
       0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1,
       0, 0, 0])

In [24]:
from sklearn.metrics import accuracy_score

# Calcular la precisión
accuracy = accuracy_score(y_test, y_pred)

# Mostrar la precisión
accuracy


0.8268156424581006

El resultado de la precisión de 0.8268 indica que el modelo MultinomialNB es capaz de clasificar correctamente aproximadamente el 82.7% de las muestras en el conjunto de prueba, lo cual es un desempeño bastante sólido. 

In [26]:
import os
from pickle import dump

# Verificar si el directorio existe, si no, crearlo
directory = "/workspaces/NaiveBayes/models/"
if not os.path.exists(directory):
    os.makedirs(directory)

# Guardar el modelo entrenado
dump(modelO, open(os.path.join(directory, "NaiveBayesOpt.sav"), "wb"))



In [27]:
#Otros modelos
from xgboost import XGBClassifier

# Crear y entrenar el modelo
modelBA = XGBClassifier(random_state=42)
modelBA.fit(X_train, y_train)


In [28]:
# Realizar la predicción
y_pred = modelBA.predict(X_test)

# Mostrar las predicciones
y_pred


array([0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0,
       1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0,
       0, 1, 1, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0,
       0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0])

In [29]:
from sklearn.metrics import accuracy_score

# Calcular la precisión
accuracy = accuracy_score(y_test, y_pred)

# Mostrar la precisión
accuracy


0.8100558659217877

El resultado de la precisión de 0.8101 indica que el modelo XGBClassifier es capaz de clasificar correctamente aproximadamente el 81% de las muestras en el conjunto de prueba. Este rendimiento sugiere que el modelo tiene una capacidad bastante sólida para generalizar sobre datos no vistos.

In [30]:
import scipy.stats as stats
from sklearn.model_selection import RandomizedSearchCV

# Definir las distribuciones de los hiperparámetros
param_dist = {
    'max_depth': stats.randint(3, 10),
    'learning_rate': stats.uniform(0.01, 0.1),
    'subsample': stats.uniform(0.5, 0.5),
    'n_estimators': stats.randint(50, 200)
}

# Crear la búsqueda aleatoria de hiperparámetros
random_search = RandomizedSearchCV(modelBA, param_distributions=param_dist, n_iter=10, cv=5, scoring='accuracy', random_state=42)

# Ajustar la búsqueda aleatoria de hiperparámetros
random_search.fit(X_train, y_train)

# Mostrar el mejor conjunto de hiperparámetros encontrados
print("Best set of hyperparameters: ", random_search.best_params_)


Best set of hyperparameters:  {'learning_rate': np.float64(0.05504992519695431), 'max_depth': 4, 'n_estimators': 181, 'subsample': np.float64(0.9711008778424264)}


In [31]:
from xgboost import XGBClassifier

# Crear y entrenar el modelo con los hiperparámetros específicos
modelBA = XGBClassifier(random_state=42, learning_rate=0.08851759613930137, max_depth=5, n_estimators=157, subsample=0.7571172192068059)
modelBA.fit(X_train, y_train)


In [32]:
# Realizar la predicción
y_pred = modelBA.predict(X_test)

# Mostrar las predicciones
y_pred


array([0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0,
       1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 0,
       0, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0])

In [33]:
from sklearn.metrics import accuracy_score

# Calcular la precisión
accuracy = accuracy_score(y_test, y_pred)

# Mostrar la precisión
accuracy


0.7988826815642458

El resultado de la precisión de 0.7989 indica que el modelo XGBClassifier es capaz de clasificar correctamente aproximadamente el 79.9% de las muestras en el conjunto de prueba. 

In [34]:
#Random Forest
from sklearn.ensemble import RandomForestClassifier

# Crear y entrenar el modelo
modelRF = RandomForestClassifier(random_state=42)
modelRF.fit(X_train, y_train)


In [35]:
# Realizar la predicción
y_pred = modelRF.predict(X_test)

# Mostrar las predicciones
y_pred


array([0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0,
       1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0,
       0, 0, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0,
       0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1,
       0, 0, 0])

In [36]:
from sklearn.metrics import accuracy_score

# Calcular la precisión
accuracy = accuracy_score(y_test, y_pred)

# Mostrar la precisión
accuracy


0.7988826815642458

El resultado de la precisión de 0.7989 indica que el modelo RandomForestClassifier es capaz de clasificar correctamente aproximadamente el 79.9% de las muestras en el conjunto de prueba.

In [37]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier

# Definir la búsqueda aleatoria de hiperparámetros
random_grid = {
    "max_depth": [4, 8, 10, 30, 50, 100, 120],
    'min_samples_split': [10, 30, 50, 100, 150],
    'min_samples_leaf': [10, 30, 50, 100, 150],
    'max_features': [None, 'sqrt', 'log2'],
    'n_estimators': [100, 150, 180, 200]
}

# Crear la búsqueda aleatoria
random_search = RandomizedSearchCV(RandomForestClassifier(),
                                   param_distributions=random_grid)

# Ajustar la búsqueda aleatoria con los datos de entrenamiento
random_search.fit(X_train, y_train)

# Mostrar el mejor conjunto de hiperparámetros
print("best: ", random_search.best_params_)


best:  {'n_estimators': 100, 'min_samples_split': 100, 'min_samples_leaf': 10, 'max_features': None, 'max_depth': 8}


In [38]:
from sklearn.ensemble import RandomForestClassifier

# Crear y entrenar el modelo con los hiperparámetros específicos
modelRF = RandomForestClassifier(random_state=42, max_depth=4, max_features=None, min_samples_leaf=30,
                                 min_samples_split=100, n_estimators=180)

modelRF.fit(X_train, y_train)


In [39]:
# Realizar la predicción
y_pred = modelRF.predict(X_test)

# Mostrar las predicciones
y_pred


array([1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0])

In [40]:
from sklearn.metrics import accuracy_score

# Calcular la precisión
accuracy = accuracy_score(y_test, y_pred)

# Mostrar la precisión
accuracy


0.7206703910614525

El resultado de la precisión de 0.7207 indica que el modelo RandomForestClassifier clasifica correctamente aproximadamente el 72.1% de las muestras del conjunto de prueba, lo que sugiere que el modelo tiene un rendimiento moderado. 

En conclusión, a lo largo del proceso de análisis y evaluación de distintos modelos de clasificación, se ha observado una variabilidad en los resultados obtenidos. Modelos como el XGBClassifier y el MultinomialNB han mostrado un rendimiento superior, alcanzando precisiones alrededor del 80%, lo que refleja una capacidad sólida para generalizar los datos. Sin embargo, otros como BernoulliNB y RandomForestClassifier han mostrado resultados ligeramente inferiores, con precisiones cercanas al 70-80%, sugiriendo que aunque estos modelos son efectivos, podrían beneficiarse de una mayor optimización en sus hiperparámetros o un mejor ajuste a las características del conjunto de datos.