# Explore here

In [13]:
import pandas as pd

# Ruta al dataset
url = "https://raw.githubusercontent.com/4GeeksAcademy/naive-bayes-project-tutorial/main/playstore_reviews.csv"

# Cargar datos
df = pd.read_csv(url)

# Mostrar las primeras filas y un resumen del dataset
print(df.head())
print(df.info())
print(df["polarity"].value_counts())

          package_name                                             review  \
0  com.facebook.katana   privacy at least put some option appear offli...   
1  com.facebook.katana   messenger issues ever since the last update, ...   
2  com.facebook.katana   profile any time my wife or anybody has more ...   
3  com.facebook.katana   the new features suck for those of us who don...   
4  com.facebook.katana   forced reload on uploading pic on replying co...   

   polarity  
0         0  
1         0  
2         0  
3         0  
4         0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   package_name  891 non-null    object
 1   review        891 non-null    object
 2   polarity      891 non-null    int64 
dtypes: int64(1), object(2)
memory usage: 21.0+ KB
None
polarity
0    584
1    307
Name: count, dtype: int64


PASO 2: 

In [14]:
# Eliminar la columna que no necesitamos
df = df.drop(columns=["package_name"])


In [15]:

# Limpiar espacios y pasar a minúsculas
df["review"] = df["review"].str.strip().str.lower()


In [16]:
# Separar variables predictoras y etiqueta
X = df["review"]
y = df["polarity"]


In [21]:
# Dividir en train y test
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [22]:
# Vectorizar el texto
vec_model = CountVectorizer(stop_words="english")
X_train = vec_model.fit_transform(X_train).toarray()
X_test = vec_model.transform(X_test).toarray()

PASO 3:

In [24]:
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
from sklearn.metrics import accuracy_score, classification_report

# MultinomialNB
mnb = MultinomialNB()
mnb.fit(X_train, y_train)
y_pred_mnb = mnb.predict(X_test)
print("MultinomialNB Accuracy:", accuracy_score(y_test, y_pred_mnb))
print(classification_report(y_test, y_pred_mnb))

# GaussianNB
gnb = GaussianNB()
gnb.fit(X_train, y_train)
y_pred_gnb = gnb.predict(X_test)
print("GaussianNB Accuracy:", accuracy_score(y_test, y_pred_gnb))
print(classification_report(y_test, y_pred_gnb))

# BernoulliNB
bnb = BernoulliNB()
bnb.fit(X_train, y_train)
y_pred_bnb = bnb.predict(X_test)
print("BernoulliNB Accuracy:", accuracy_score(y_test, y_pred_bnb))
print(classification_report(y_test,y_pred_bnb))

MultinomialNB Accuracy: 0.8156424581005587
              precision    recall  f1-score   support

           0       0.84      0.90      0.87       126
           1       0.73      0.60      0.66        53

    accuracy                           0.82       179
   macro avg       0.79      0.75      0.77       179
weighted avg       0.81      0.82      0.81       179

GaussianNB Accuracy: 0.8044692737430168
              precision    recall  f1-score   support

           0       0.85      0.88      0.86       126
           1       0.69      0.62      0.65        53

    accuracy                           0.80       179
   macro avg       0.77      0.75      0.76       179
weighted avg       0.80      0.80      0.80       179

BernoulliNB Accuracy: 0.770949720670391
              precision    recall  f1-score   support

           0       0.79      0.93      0.85       126
           1       0.70      0.40      0.51        53

    accuracy                           0.77       179
   ma

PASO 4:

In [25]:
from sklearn.ensemble import RandomForestClassifier

# Entrenamos un Random Forest con las mismas variables de entrenamiento
rf = RandomForestClassifier(
    n_estimators=200,  # más árboles para mejor estabilidad
    max_depth=None,    # sin límite de profundidad
    random_state=42
)
rf.fit(X_train, y_train)

# Predicciones
y_pred_rf = rf.predict(X_test)

# Métricas
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
print("Random Forest Accuracy:", accuracy_score(y_test, y_pred_rf))
print("Confusion Matrix:\n", confusion_matrix(y_test, y_pred_rf))
print("Classification Report:\n", classification_report(y_test, y_pred_rf))

Random Forest Accuracy: 0.8156424581005587
Confusion Matrix:
 [[105  21]
 [ 12  41]]
Classification Report:
               precision    recall  f1-score   support

           0       0.90      0.83      0.86       126
           1       0.66      0.77      0.71        53

    accuracy                           0.82       179
   macro avg       0.78      0.80      0.79       179
weighted avg       0.83      0.82      0.82       179



PASO 5: 

In [26]:
import joblib

# Guardar el modelo entrenado
joblib.dump(mnb, "modelo_multinomialnb.pkl")

# Guardar también el vectorizador para poder transformar nuevos textos
joblib.dump(vec_model, "vectorizador.pkl")

print("Modelo y vectorizador guardados correctamente.")

Modelo y vectorizador guardados correctamente.


PASO 6:

In [27]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Entrenar modelo de Regresión Logística
log_reg = LogisticRegression(max_iter=1000)
log_reg.fit(X_train, y_train)

# Predicciones
y_pred_log = log_reg.predict(X_test)

# Resultados
print("Accuracy Logistic Regression:", accuracy_score(y_test, y_pred_log))
print("\nReporte de Clasificación:\n", classification_report(y_test,y_pred_log))

Accuracy Logistic Regression: 0.8324022346368715

Reporte de Clasificación:
               precision    recall  f1-score   support

           0       0.91      0.84      0.88       126
           1       0.68      0.81      0.74        53

    accuracy                           0.83       179
   macro avg       0.80      0.83      0.81       179
weighted avg       0.85      0.83      0.84       179



In [31]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, classification_report

# Crear y entrenar el modelo SVM
svm_model = SVC(kernel='linear', random_state=42)  # también puedes probar 'rbf' o 'poly'
svm_model.fit(X_train, y_train)

# Predicciones
y_pred_svm = svm_model.predict(X_test)

# Resultados
print("Accuracy SVM:", accuracy_score(y_test, y_pred_svm))
print("\nReporte de Clasificación:\n", classification_report(y_test,y_pred_svm))

Accuracy SVM: 0.8324022346368715

Reporte de Clasificación:
               precision    recall  f1-score   support

           0       0.93      0.83      0.87       126
           1       0.67      0.85      0.75        53

    accuracy                           0.83       179
   macro avg       0.80      0.84      0.81       179
weighted avg       0.85      0.83      0.84       179



Resultados obtenidos

Naive Bayes: Presentó un buen desempeño en términos de precisión y recall, manteniendo un balance entre ambas métricas. Su simplicidad y bajo costo computacional lo hacen eficiente para este tipo de problemas.

Random Forest: Ofreció un rendimiento competitivo, especialmente en precisión, pero con un tiempo de entrenamiento mayor. Aunque su capacidad de manejar relaciones no lineales es una ventaja, no superó significativamente a Naive Bayes.

SVM: Mostró resultados más bajos en recall comparado con Naive Bayes, lo que significa que fue menos efectivo detectando correctamente los casos positivos. Aunque SVM es robusto para datos complejos, en este conjunto no logró un mejor desempeño.


Conclusión

El modelo Naive Bayes es el más adecuado para este caso, ya que:

Ofrece el mejor equilibrio entre precisión y recall.

Tiene una implementación sencilla y rápida.

Su rendimiento es consistente frente a los otros modelos evaluados.

Random Forest y SVM no mejoraron significativamente los resultados y, en algunos casos, fueron menos efectivos.


Decisión final: Se selecciona Naive Bayes como modelo definitivo para este proyecto.