# Explore here

In [None]:
import pandas as pd

# Cargar el conjunto de datos
url = "https://raw.githubusercontent.com/4GeeksAcademy/naive-bayes-project-tutorial/main/playstore_reviews.csv"
df = pd.read_csv(url)

# Mostrar las primeras filas 
df.head()

# Limpiar la columna 'review' eliminando espacios y convirtiéndola a minúsculas
df["review"] = df["review"].str.strip().str.lower()

# Eliminar la columna 'package_name' ya que no es relevante para el análisis de sentimientos
df = df.drop(columns=["package_name"])

# Mostrar las primeras filas después de la limpieza
df.head()


Unnamed: 0,review,polarity
0,privacy at least put some option appear offlin...,0
1,"messenger issues ever since the last update, i...",0
2,profile any time my wife or anybody has more t...,0
3,the new features suck for those of us who don'...,0
4,forced reload on uploading pic on replying com...,0


In [None]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer

# Dividir el conjunto de datos en entrenamiento y prueba
X = df["review"]
y = df["polarity"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Inicializar el CountVectorizer
vec_model = CountVectorizer(stop_words="english")

# Ajustar el transformador en los datos
X_train_vec = vec_model.fit_transform(X_train).toarray()

# Transformar los datos de prueba 
X_test_vec = vec_model.transform(X_test).toarray()

# Mostrar el tamaño de las matrices generadas
print(f"Tamaño de X_train_vec: {X_train_vec.shape}")
print(f"Tamaño de X_test_vec: {X_test_vec.shape}")


Tamaño de X_train_vec: (623, 3090)
Tamaño de X_test_vec: (268, 3090)


In [None]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# Entrenar el modelo Naive Bayes
def train_naive_bayes(X_train, y_train, X_test, y_test):
    # Crear el modelo MultinomialNB
    nb_model = MultinomialNB()

    # Entrenar el modelo con los datos de entrenamiento
    nb_model.fit(X_train, y_train)

    # Realizar las predicciones sobre los datos de prueba
    y_pred = nb_model.predict(X_test)

    # Calcular la precisión y mostrar el reporte de clasificación
    accuracy = accuracy_score(y_test, y_pred)
    print(f"Precisión del modelo Naive Bayes: {accuracy}")
    print("Reporte de clasificación:")
    print(classification_report(y_test, y_pred))

    return nb_model

# Entrenar y evaluar el modelo Naive Bayes
naive_bayes_model = train_naive_bayes(X_train_vec, y_train, X_test_vec, y_test)


Precisión del modelo Naive Bayes: 0.8134328358208955
Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.85      0.89      0.87       188
           1       0.71      0.64      0.67        80

    accuracy                           0.81       268
   macro avg       0.78      0.76      0.77       268
weighted avg       0.81      0.81      0.81       268



In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Optimización del modelo con Random Forest
def optimize_with_random_forest(X_train, y_train, X_test, y_test):
    rf_model = RandomForestClassifier(n_estimators=100, random_state=42)

    # Entrenar el modelo de Random Forest
    rf_model.fit(X_train, y_train)

    # Realizar las predicciones
    y_pred = rf_model.predict(X_test)

    # Calcular la precisión y mostrar el reporte de clasificación
    accuracy = accuracy_score(y_test, y_pred)
    print(f"Precisión del modelo Random Forest: {accuracy}")
    print("Reporte de clasificación:")
    print(classification_report(y_test, y_pred))

    return rf_model

# Entrenar y evaluar el modelo Random Forest
random_forest_model = optimize_with_random_forest(X_train_vec, y_train, X_test_vec, y_test)


Precisión del modelo Random Forest: 0.8134328358208955
Reporte de clasificación:
              precision    recall  f1-score   support

           0       0.89      0.84      0.86       188
           1       0.67      0.75      0.71        80

    accuracy                           0.81       268
   macro avg       0.78      0.80      0.78       268
weighted avg       0.82      0.81      0.82       268



In [None]:
import os
import pickle

# Función para guardar el modelo
def save_model(model, filename):
    # Crear el directorio 
    os.makedirs(os.path.dirname(filename), exist_ok=True)

    # Guardar el modelo en el archivo
    with open(filename, 'wb') as f:
        pickle.dump(model, f)

# Guardar el modelo de Naive Bayes
save_model(naive_bayes_model, '/workspace/Naive-Bayes/models/naive_bayes_model.pkl')

# Guardar el modelo de Random Forest
save_model(random_forest_model, '/workspace/Naive-Bayes/models/random_forest_model.pkl')

print("Modelos guardados correctamente.")



Modelos guardados correctamente.


# Otras alternativas

In [10]:
from sklearn.svm import LinearSVC
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import accuracy_score

# Vectorización de texto
vectorizer = TfidfVectorizer(stop_words='english', max_features=3000)

# Transformación de los datos de texto
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Entrenar SVM
def train_svm(X_train, y_train, X_test, y_test):
    svm_model = LinearSVC(random_state=33)
    svm_model.fit(X_train, y_train)

    # Evaluación
    y_pred = svm_model.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    print(f"Precisión del modelo SVM: {accuracy}")

    return svm_model

# Entrenar el modelo SVM
svm_model = train_svm(X_train_vec, y_train, X_test_vec, y_test)



Precisión del modelo SVM: 0.8246268656716418
