# Explore here

In [18]:
# Your code here
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report
import pandas as pd
from sklearn.ensemble import RandomForestClassifier

In [19]:
df = pd.read_csv("https://raw.githubusercontent.com/4GeeksAcademy/naive-bayes-project-tutorial/main/playstore_reviews.csv")
df

Unnamed: 0,package_name,review,polarity
0,com.facebook.katana,privacy at least put some option appear offli...,0
1,com.facebook.katana,"messenger issues ever since the last update, ...",0
2,com.facebook.katana,profile any time my wife or anybody has more ...,0
3,com.facebook.katana,the new features suck for those of us who don...,0
4,com.facebook.katana,forced reload on uploading pic on replying co...,0
...,...,...,...
886,com.rovio.angrybirds,loved it i loooooooooooooovvved it because it...,1
887,com.rovio.angrybirds,all time legendary game the birthday party le...,1
888,com.rovio.angrybirds,ads are way to heavy listen to the bad review...,0
889,com.rovio.angrybirds,fun works perfectly well. ads aren't as annoy...,1


In [20]:
#Eliminamos la columna opackage_name porque no es relevante

df = df.drop(columns=['package_name'])

In [21]:
rows, cols = df.shape
print(f"Rows: {rows}, Columns: {cols}")


Rows: 891, Columns: 2


In [22]:
df["review"] = df["review"].str.strip().str.lower()


In [23]:
# Seleccionar las columnas necesarias
X = df["review"]
y = df["polarity"]  

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [24]:
y_test

709    0
439    1
840    1
720    0
39     0
      ..
433    0
773    0
25     0
84     0
10     0
Name: polarity, Length: 179, dtype: int64

In [25]:
#Transformo el texto en matriz númerica

vec_model = CountVectorizer(stop_words="english")
X_train_vec = vec_model.fit_transform(X_train).toarray()
X_test_vec = vec_model.transform(X_test).toarray()

In [26]:
# Utilizamos MultinomialNB porque los predictores son números categóricos.

In [27]:
# Inicializar y entrenar el clasificador Naive Bayes Multinomial
clf = MultinomialNB().fit(X_train_vec, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = clf.predict(X_test_vec)

# Evaluar el rendimiento del modelo
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.84      0.90      0.87       126
           1       0.73      0.60      0.66        53

    accuracy                           0.82       179
   macro avg       0.79      0.75      0.77       179
weighted avg       0.81      0.82      0.81       179



In [None]:
#Cuando el modelo predice "Negativo", tiene un 84% de aciertos.
#De todas las reseñas realmente negativas, el modelo detecta el 90%.
#Buen equilibrio entre precisión y recall.
# El modelo tiene un buen equilibrio entre precisión y recall, especialmente para la clase negativa. Sin embargo, tiene más dificultades en detectar correctamente las reseñas positivas.

In [35]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()
model.fit(X_train_vec, y_train)

y_pred = model.predict(X_test_vec)
y_pred

array([0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1,
       1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1,
       0, 0, 0])

In [36]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_pred)

0.8044692737430168

In [None]:
# Su rendimiento es ligeramente inferior al Multinomial NB, lo que sugiere que la suposición de distribución normal de los datos no es la más adecuada para este problema.

In [39]:
from sklearn.naive_bayes import BernoulliNB

for model_aux in [BernoulliNB()]:
    model_aux.fit(X_train_vec, y_train)
    y_pred_aux = model_aux.predict(X_test_vec)
    print(f"{model_aux} with accuracy: {accuracy_score(y_test, y_pred_aux)}")

BernoulliNB() with accuracy: 0.770949720670391


In [None]:
#Este modelo tiene el peor desempeño de los tres enfoques de Naïve Bayes, posiblemente porque convierte los datos en valores binarios, perdiendo información valiosa de la frecuencia de palabras.

In [None]:
# Vemos que con GaussianNB y BernoulliNB obtenemos un menor accuracy que 0.82 de MultinomialMB

In [80]:
# Entrenar y evaluar Random Forest
rf_model = RandomForestClassifier(n_estimators=200, random_state=42)
rf_model.fit(X_train_vec, y_train)
rf_score = rf_model.score(X_test_vec, y_test)
print(f"Random Forest Accuracy: {rf_score}")

Random Forest Accuracy: 0.8156424581005587


In [None]:
#El Multinomial Naïve Bayes es el modelo más efectivo para este problema, ya que logra la mejor precisión y balance entre las clases. 