In [18]:
import pandas as pd

total_data = pd.read_csv("https://raw.githubusercontent.com/4GeeksAcademy/naive-bayes-project-tutorial/main/playstore_reviews.csv", sep = ",")
total_data.head()

Unnamed: 0,package_name,review,polarity
0,com.facebook.katana,privacy at least put some option appear offli...,0
1,com.facebook.katana,"messenger issues ever since the last update, ...",0
2,com.facebook.katana,profile any time my wife or anybody has more ...,0
3,com.facebook.katana,the new features suck for those of us who don...,0
4,com.facebook.katana,forced reload on uploading pic on replying co...,0


In [19]:
# Eliminamos una variable porque solo nos interesa la parte del comentario, 
# ya que el hecho de clasificar un comentario en positivo o negativo dependerá de su contenido,
# no de la aplicación de la que se haya escrito.

def apply_preprocess(df):
    df = df.drop("package_name", axis=1)
    df["review"] = df["review"].str.strip().str.lower()     # Eliminar espacios y convertir a minúsculas el texto

    return df     # Devuelve el DataFrame modificado después de realizar las transformaciones.

total_data = apply_preprocess(total_data)        # Asigna el resultado nuevamente a la variable total_data.

total_data.head()

Unnamed: 0,review,polarity
0,privacy at least put some option appear offlin...,0
1,"messenger issues ever since the last update, i...",0
2,profile any time my wife or anybody has more t...,0
3,the new features suck for those of us who don'...,0
4,forced reload on uploading pic on replying com...,0


In [20]:
# Dividir el conjunto de datos en train y test

from sklearn.model_selection import train_test_split

X = total_data["review"]
y = total_data["polarity"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

X_train.head()

331    just did the latest update on viber and yet ag...
733    keeps crashing it only works well in extreme d...
382    the fail boat has arrived the 6.0 version is t...
704    superfast, just as i remember it ! opera mini ...
813    installed and immediately deleted this crap i ...
Name: review, dtype: object

In [21]:
# Transformar el texto en una matriz de recuento de palabras. Esta es una forma de obtener características numéricas a partir del texto.
from sklearn.feature_extraction.text import CountVectorizer

vec_model = CountVectorizer(stop_words = "english")
X_train = vec_model.fit_transform(X_train).toarray()
X_test = vec_model.transform(X_test).toarray()

X_train

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]], dtype=int64)

NAIVE BAYES

MODELO GAUSSIANO

In [22]:
from sklearn.naive_bayes import GaussianNB

model = GaussianNB()
model.fit(X_train, y_train)

In [23]:
y_pred = model.predict(X_test)
y_pred

array([0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       1, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1,
       1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1,
       0, 0, 0], dtype=int64)

In [24]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_pred)

0.8044692737430168

MODELO MULTINOMIAL

In [25]:
from sklearn.naive_bayes import MultinomialNB

modelM = MultinomialNB()
modelM.fit(X_train, y_train)

In [26]:
y_predM = modelM.predict(X_test)
y_predM

array([0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0,
       1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0,
       0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1,
       0, 0, 0], dtype=int64)

In [27]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_predM)

0.8156424581005587

MODELO BERNOULLI

In [28]:
from sklearn.naive_bayes import BernoulliNB

modelB = BernoulliNB()
modelB.fit(X_train, y_train)

In [29]:
y_predB = modelB.predict(X_test)
y_predB

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0], dtype=int64)

In [30]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_predB)

0.770949720670391

Según los datos obtenidos y siendo que estoy trabajando con datos de texto, el modelo más adecuado seria el de Multinomial

Optimizamos el modelo de Multinomial con Random Forest

In [31]:
from sklearn.model_selection import RandomizedSearchCV
from sklearn.naive_bayes import MultinomialNB

# Definir el modelo y el espacio de parámetros
modelRS = MultinomialNB()
parameters = {
    'alpha': [0.1, 0.5, 1.0, 1.5, 2.0],  # Valores específicos para alpha
    'fit_prior': [True, False],  # Probabilidades a priori
}

# Realizar la búsqueda aleatoria
random_search = RandomizedSearchCV(modelRS, parameters, cv=5, n_iter=50, random_state=42, scoring='accuracy')
random_search.fit(X_train, y_train)

# Ver los mejores parámetros y su rendimiento
print("Mejores Parámetros:", random_search.best_params_)
print("Mejor Precisión:", random_search.best_score_)



Mejores Parámetros: {'fit_prior': False, 'alpha': 2.0}
Mejor Precisión: 0.8201812272234807


In [32]:
#  Vamos a proceder a evaluar el rendimiento del modelo en el conjunto de prueba 

from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

# Crear el modelo con los mejores parámetros encontrados
model = MultinomialNB(alpha=1.917638190954774, fit_prior=False)

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular y mostrar la precisión en el conjunto de prueba
accuracy = accuracy_score(y_test, y_pred)
print("Precisión en el Conjunto de Prueba:", accuracy)

Precisión en el Conjunto de Prueba: 0.8212290502793296


In [33]:
from pickle import dump

dump(model, open("naive_bayes_default.sav", "wb"))

Vamos a explorar con otros modelos diferentes alternativas para mejorar este modelo

In [53]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import accuracy_score

# Configurar el modelo Gradient Boosted Trees
modelo_gb = GradientBoostingClassifier(n_estimators=400, learning_rate=0.1, max_depth=40, random_state=42)

# Entrenar el modelo en el conjunto de entrenamiento
modelo_gb.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred_gb = modelo_gb.predict(X_test)

# Calcular la precisión del modelo Gradient Boosted Trees
precision_gb = accuracy_score(y_test, y_pred_gb)

print("Precisión del modelo Gradient Boosted Trees en el Conjunto de Prueba:", precision_gb)

Precisión del modelo Gradient Boosted Trees en el Conjunto de Prueba: 0.7318435754189944


Despues de intentar cambiar y combinar varios modelos, cambiando parametros, no he conseguido poder superar el 0.82 con la optimizacion de random forest.