# Explore here

In [1]:
# BLOQUE 01
# SETUP DE PROYECTO Y LIBRERÍAS
# - Importa librerías clave para texto + ML
# - Crea carpetas estándar (data/models)
# - Fija reproducibilidad

# comments: Basic setup for reproducible ML workflow
import os
import numpy as np
import pandas as pd

RANDOM_STATE = 42
np.random.seed(RANDOM_STATE)

os.makedirs("data/raw", exist_ok=True)
os.makedirs("models", exist_ok=True)

# Resultado esperado:
# - Carpetas data/raw y models creadas
# - Entorno listo para trabajar

# Interpretación:
# - Base limpia para un pipeline reproducible
# - Estructura típica de proyecto ML


In [2]:
# BLOQUE 02
# CARGA DEL DATASET
# - Lee el CSV desde la URL oficial
# - Guarda copia local para trazabilidad
# - Muestra forma y columnas

# comments: Load dataset from official URL and persist locally
url = "https://raw.githubusercontent.com/4GeeksAcademy/naive-bayes-project-tutorial/main/playstore_reviews.csv"
df = pd.read_csv(url)

df.to_csv("data/raw/playstore_reviews.csv", index=False)

df.shape, df.columns.tolist(), df.head(3)

# Resultado esperado:
# - Dataset cargado con 3 columnas
# - Archivo guardado en data/raw/

# Interpretación:
# - Ya tienes la fuente de datos controlada
# - Puedes reproducir el proyecto sin depender de la red


((891, 3),
 ['package_name', 'review', 'polarity'],
           package_name                                             review  \
 0  com.facebook.katana   privacy at least put some option appear offli...   
 1  com.facebook.katana   messenger issues ever since the last update, ...   
 2  com.facebook.katana   profile any time my wife or anybody has more ...   
 
    polarity  
 0         0  
 1         0  
 2         0  )

In [3]:
# BLOQUE 03
# LIMPIEZA MÍNIMA Y SELECCIÓN DE VARIABLES
# - Elimina package_name (no aporta al sentimiento)
# - Limpia review (strip + lowercase)
# - Maneja nulos de forma segura

# comments: Keep only text + target and clean text column
df = df.drop(columns=["package_name"], errors="ignore")

df["review"] = df["review"].astype(str).str.strip().str.lower()
df["polarity"] = pd.to_numeric(df["polarity"], errors="coerce")

df = df.dropna(subset=["review", "polarity"]).copy()
df["polarity"] = df["polarity"].astype(int)

df["polarity"].value_counts(), df.head(3)

# Resultado esperado:
# - Solo quedan review y polarity
# - polarity en enteros (0/1)

# Interpretación:
# - Quitamos ruido del modelo
# - Preparamos el texto para vectorización consistente


(polarity
 0    584
 1    307
 Name: count, dtype: int64,
                                               review  polarity
 0  privacy at least put some option appear offlin...         0
 1  messenger issues ever since the last update, i...         0
 2  profile any time my wife or anybody has more t...         0)

In [4]:
# BLOQUE 04
# SPLIT TRAIN/TEST
# - Separa X/y
# - Divide en train/test con random_state
# - Mantiene proporción de clases (stratify)

# comments: Train-test split with stratification for stable evaluation
from sklearn.model_selection import train_test_split

X = df["review"]
y = df["polarity"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=RANDOM_STATE, stratify=y
)

X_train.shape, X_test.shape, y_train.mean(), y_test.mean()

# Resultado esperado:
# - Train y test creados
# - Proporción de positivos similar en ambos

# Interpretación:
# - Evaluación más justa y estable
# - Menos riesgo de sesgo por desbalance accidental


((712,),
 (179,),
 np.float64(0.3441011235955056),
 np.float64(0.3463687150837989))

In [5]:
# BLOQUE 05
# BASELINE: COUNT VECTORIZER + MULTINOMIAL NB
# - Convierte texto a matriz de conteos
# - Entrena MultinomialNB (ideal para conteos)
# - Evalúa accuracy y métricas principales

# comments: Baseline model with CountVectorizer + MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.pipeline import Pipeline
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

pipe_mnb = Pipeline(steps=[
    ("vec", CountVectorizer(stop_words="english")),
    ("clf", MultinomialNB())
])

pipe_mnb.fit(X_train, y_train)
y_pred_mnb = pipe_mnb.predict(X_test)

acc_mnb = accuracy_score(y_test, y_pred_mnb)
cm_mnb = confusion_matrix(y_test, y_pred_mnb)
report_mnb = classification_report(y_test, y_pred_mnb, digits=4)

acc_mnb, cm_mnb, report_mnb

# Resultado esperado:
# - accuracy calculada
# - matriz de confusión + classification_report

# Interpretación:
# - Primer modelo “rápido y sólido” para sentimiento
# - Sirve como baseline para comparar mejoras


(0.8547486033519553,
 array([[112,   5],
        [ 21,  41]]),
 '              precision    recall  f1-score   support\n\n           0     0.8421    0.9573    0.8960       117\n           1     0.8913    0.6613    0.7593        62\n\n    accuracy                         0.8547       179\n   macro avg     0.8667    0.8093    0.8276       179\nweighted avg     0.8591    0.8547    0.8486       179\n')

In [6]:
# BLOQUE 06
# COMPARACIÓN: BERNOULLI NB (BINARIO)
# - Usa los mismos conteos, pero en modo presencia/ausencia
# - Ajusta binarize para forzar 0/1
# - Compara con baseline

# comments: Compare BernoulliNB (binary features) against baseline
from sklearn.naive_bayes import BernoulliNB

pipe_bnb = Pipeline(steps=[
    ("vec", CountVectorizer(stop_words="english", binary=False)),
    ("clf", BernoulliNB(binarize=0.0))
])

pipe_bnb.fit(X_train, y_train)
y_pred_bnb = pipe_bnb.predict(X_test)

acc_bnb = accuracy_score(y_test, y_pred_bnb)
cm_bnb = confusion_matrix(y_test, y_pred_bnb)

acc_bnb, cm_bnb

# Resultado esperado:
# - accuracy de BernoulliNB
# - matriz de confusión para comparar

# Interpretación:
# - Verificas si “presencia de palabra” gana a “conteo”
# - Confirmas la implementación más adecuada para texto


(0.7821229050279329,
 array([[113,   4],
        [ 35,  27]]))

In [7]:
# BLOQUE 07
# COMPARACIÓN: GAUSSIAN NB (NO IDEAL PARA CONTEOS)
# - Vectoriza a conteos y pasa a denso
# - Entrena GaussianNB para confirmar si rinde peor
# - Lo usamos como prueba de criterio

# comments: GaussianNB typically mismatches sparse count data; we test to confirm
from sklearn.naive_bayes import GaussianNB

vec = CountVectorizer(stop_words="english")
Xtr_counts = vec.fit_transform(X_train).toarray()
Xte_counts = vec.transform(X_test).toarray()

gnb = GaussianNB()
gnb.fit(Xtr_counts, y_train)
y_pred_gnb = gnb.predict(Xte_counts)

acc_gnb = accuracy_score(y_test, y_pred_gnb)
cm_gnb = confusion_matrix(y_test, y_pred_gnb)

acc_gnb, cm_gnb

# Resultado esperado:
# - accuracy de GaussianNB (normalmente menor)
# - matriz de confusión

# Interpretación:
# - Confirmas que GaussianNB no es la mejor elección para texto con conteos
# - Decisión basada en evidencia, no en “fe”


(0.8156424581005587,
 array([[104,  13],
        [ 20,  42]]))

In [8]:
# BLOQUE 08
# SELECCIÓN DEL MEJOR NB (AUTOMÁTICA)
# - Compara accuracies
# - Elige el mejor candidato para optimización
# - Deja trazado “por qué” ganó

# comments: Select the best Naive Bayes variant by test accuracy
scores = {
    "MultinomialNB": acc_mnb,
    "BernoulliNB": acc_bnb,
    "GaussianNB": acc_gnb
}

best_nb_name = max(scores, key=scores.get)
scores, best_nb_name

# Resultado esperado:
# - Diccionario con accuracies
# - Nombre del NB ganador

# Interpretación:
# - Te quedas con el NB más útil para este dataset
# - Ahora sí tiene sentido optimizarlo


({'MultinomialNB': 0.8547486033519553,
  'BernoulliNB': 0.7821229050279329,
  'GaussianNB': 0.8156424581005587},
 'MultinomialNB')

In [9]:
# BLOQUE 09
# OPTIMIZACIÓN DEL MEJOR NB (GRIDSEARCH)
# - Ajusta hiperparámetros del vectorizador + alpha
# - Optimiza por F1 (balance precision/recall)
# - Devuelve mejor configuración y score

# comments: Grid search over vectorizer and NB smoothing to improve F1
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import f1_score, make_scorer

pipe_opt = Pipeline(steps=[
    ("vec", CountVectorizer(stop_words="english")),
    ("clf", MultinomialNB())
])

param_grid = {
    "vec__ngram_range": [(1, 1), (1, 2)],
    "vec__min_df": [1, 2, 5],
    "clf__alpha": [0.1, 0.5, 1.0, 2.0]
}

grid = GridSearchCV(
    pipe_opt,
    param_grid=param_grid,
    scoring=make_scorer(f1_score),
    cv=5,
    n_jobs=-1
)

grid.fit(X_train, y_train)
grid.best_params_, grid.best_score_

# Resultado esperado:
# - Mejores hiperparámetros
# - Mejor F1 promedio en CV

# Interpretación:
# - Aumentas calidad del clasificador sin complicar el modelo
# - CV reduce riesgo de “me fue bien por suerte”


({'clf__alpha': 0.5, 'vec__min_df': 2, 'vec__ngram_range': (1, 1)},
 np.float64(0.7176003173903427))

In [10]:
# BLOQUE 10
# EVALUACIÓN FINAL DEL NB OPTIMIZADO
# - Predice en test con el mejor estimador
# - Reporta métricas y matriz de confusión
# - Guarda métricas clave para el informe

# comments: Final evaluation on the test set using best estimator from CV
best_nb = grid.best_estimator_

y_pred_best = best_nb.predict(X_test)

acc_best = accuracy_score(y_test, y_pred_best)
cm_best = confusion_matrix(y_test, y_pred_best)
report_best = classification_report(y_test, y_pred_best, digits=4)

acc_best, cm_best, report_best

# Resultado esperado:
# - accuracy final
# - matriz de confusión + reporte final

# Interpretación:
# - Ya tienes tu NB “de producción” (dentro de lo razonable)
# - Puedes justificar la mejora con métricas


(0.8268156424581006,
 array([[101,  16],
        [ 15,  47]]),
 '              precision    recall  f1-score   support\n\n           0     0.8707    0.8632    0.8670       117\n           1     0.7460    0.7581    0.7520        62\n\n    accuracy                         0.8268       179\n   macro avg     0.8084    0.8107    0.8095       179\nweighted avg     0.8275    0.8268    0.8271       179\n')

In [11]:
# BLOQUE 11
# “SI ES POSIBLE”: RANDOM FOREST SOBRE TF-IDF
# - Usa TF-IDF (mejor señal que conteos crudos)
# - Entrena RandomForest como alternativa “solicitada”
# - Compara contra NB optimizado

# comments: RandomForest baseline on TF-IDF features (often weaker than linear models for text)
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier

pipe_rf = Pipeline(steps=[
    ("tfidf", TfidfVectorizer(stop_words="english")),
    ("rf", RandomForestClassifier(
        n_estimators=300,
        random_state=RANDOM_STATE,
        n_jobs=-1,
        class_weight="balanced_subsample"
    ))
])

pipe_rf.fit(X_train, y_train)
y_pred_rf = pipe_rf.predict(X_test)

acc_rf = accuracy_score(y_test, y_pred_rf)
cm_rf = confusion_matrix(y_test, y_pred_rf)

acc_rf, cm_rf

# Resultado esperado:
# - accuracy y matriz de confusión de RandomForest
# - Comparación directa con NB

# Interpretación:
# - Cumples el requerimiento de “probar RandomForest”
# - Validación práctica: en texto suele ganar NB o modelos lineales


(0.8100558659217877,
 array([[103,  14],
        [ 20,  42]]))

In [12]:
# BLOQUE 12
# ALTERNATIVAS PARA SUPERAR NAIVE BAYES (LINEALES)
# - LogisticRegression y LinearSVC suelen ser top en texto
# - Usa TF-IDF + modelo lineal
# - Compara contra NB optimizado

# comments: Strong text baselines: Logistic Regression and LinearSVC with TF-IDF
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC

pipe_lr = Pipeline(steps=[
    ("tfidf", TfidfVectorizer(stop_words="english")),
    ("lr", LogisticRegression(max_iter=2000, random_state=RANDOM_STATE))
])

pipe_svc = Pipeline(steps=[
    ("tfidf", TfidfVectorizer(stop_words="english")),
    ("svc", LinearSVC(random_state=RANDOM_STATE))
])

pipe_lr.fit(X_train, y_train)
pipe_svc.fit(X_train, y_train)

y_pred_lr = pipe_lr.predict(X_test)
y_pred_svc = pipe_svc.predict(X_test)

acc_lr = accuracy_score(y_test, y_pred_lr)
acc_svc = accuracy_score(y_test, y_pred_svc)

acc_lr, acc_svc

# Resultado esperado:
# - Dos accuracies (LR y LinearSVC)
# - Una o ambas suelen competir fuerte

# Interpretación:
# - Si el objetivo es “mejor score”, los lineales son candidatos serios
# - Si el objetivo es “simple/rápido”, NB sigue siendo excelente


(0.7821229050279329, 0.8268156424581006)

In [13]:
# BLOQUE 13
# SELECCIÓN DEL MEJOR MODELO GLOBAL
# - Compara NB optimizado vs RF vs LR vs SVC
# - Escoge el mejor por accuracy (simple)
# - Deja nombre del ganador

# comments: Select best overall model by accuracy on test set
all_scores = {
    "NaiveBayes_Optimized": acc_best,
    "RandomForest_TFIDF": acc_rf,
    "LogReg_TFIDF": acc_lr,
    "LinearSVC_TFIDF": acc_svc
}

best_model_name = max(all_scores, key=all_scores.get)
all_scores, best_model_name

# Resultado esperado:
# - Diccionario con resultados
# - Nombre del mejor modelo global

# Interpretación:
# - Tomas decisión “data-driven”
# - Listo para guardar el mejor modelo para entrega


({'NaiveBayes_Optimized': 0.8268156424581006,
  'RandomForest_TFIDF': 0.8100558659217877,
  'LogReg_TFIDF': 0.7821229050279329,
  'LinearSVC_TFIDF': 0.8268156424581006},
 'NaiveBayes_Optimized')

In [14]:
# BLOQUE 14
# GUARDADO FINAL DEL MODELO (Y PIPELINE)
# - Guarda el pipeline completo (vectorizador + modelo)
# - Evita errores de “me faltó el vectorizer”
# - Deja artefacto listo para inferencia

# comments: Persist the full pipeline so preprocessing is included
import pickle

models_map = {
    "NaiveBayes_Optimized": best_nb,
    "RandomForest_TFIDF": pipe_rf,
    "LogReg_TFIDF": pipe_lr,
    "LinearSVC_TFIDF": pipe_svc
}

final_model = models_map[best_model_name]

model_path = f"models/{best_model_name}.pkl"
with open(model_path, "wb") as f:
    pickle.dump(final_model, f)

model_path

# Resultado esperado:
# - Archivo .pkl creado en models/
# - Ruta del modelo impresa

# Interpretación:
# - Modelo listo para reutilizar en producción o demo
# - Tu repo queda “entregable” y profesional


'models/NaiveBayes_Optimized.pkl'