In [6]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score

# Leer el archivo CSV y crear el DataFrame
url = 'https://raw.githubusercontent.com/4GeeksAcademy/naive-bayes-project-tutorial/main/playstore_reviews.csv'
df = pd.read_csv(url)

# Eliminar la columna "package_name"
df.drop("package_name", axis=1, inplace=True)

# Convertir la columna "review" a minúsculas directamente
df["review"] = df["review"].str.lower()

# Dividir los datos en características (X) y variable objetivo (y)
X = df["review"]
y = df['polarity']

# Dividir el conjunto de datos en train y test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear el Pipeline que incluye el vectorizador de texto TF-IDF y el clasificador MultinomialNB
pipeline = Pipeline([
    ('vectorizer', TfidfVectorizer(stop_words="english")),
    ('classifier', MultinomialNB())
])

# Entrenar el modelo
pipeline.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = pipeline.predict(X_test)

# Calcular la precisión del modelo
accuracy = accuracy_score(y_test, y_pred)

# Mostrar el resultado de la precisión con formato
print(f"Precisión del modelo MultinomialNB con TF-IDF Vectorizer: {accuracy:.2f}")



Precisión del modelo MultinomialNB con TF-IDF Vectorizer: 0.80
