# Naive Bayes Project

Naive Bayes es un algoritmo de clasificación en el contexto del aprendizaje automático. Se basa en el teorema de Bayes y asume que todas las características son independientes entre sí, lo cual puede no ser cierto en la realidad, de ahí su nombre "naive" o ingenuo. Naive Bayes es efectivo y rápido para clasificar datos problemas de clasificación.

**Análisis de sentimientos**

En este proyecto practicarás con un conjunto de datos para crear un clasificador de reseñas de la tienda de Google Play.



En este conjunto de datos encontrarás las siguientes variables:

- package_name. Nombre de la aplicación móvil (categórico)
- review. Comentario sobre la aplicación móvil (categórico)
- polarity. Variable de clase (0 o 1), siendo 0 un comentario negativo y 1, positivo (numérico)

## 1. Cargamos los datos

In [None]:
# Example reading the SQL database from here

# from utils import db_connect
import pandas as pd
# engine = db_connect()

# dataframe = pd.read_sql("Select * from books;", engine)
# print(dataframe.describe())

In [None]:
# Example importing the CSV here

dataframe = pd.read_csv('https://raw.githubusercontent.com/4GeeksAcademy/naive-bayes-project-tutorial/main/playstore_reviews.csv')
dataframe.head()

Unnamed: 0,package_name,review,polarity
0,com.facebook.katana,privacy at least put some option appear offli...,0
1,com.facebook.katana,"messenger issues ever since the last update, ...",0
2,com.facebook.katana,profile any time my wife or anybody has more ...,0
3,com.facebook.katana,the new features suck for those of us who don...,0
4,com.facebook.katana,forced reload on uploading pic on replying co...,0


## 2. Estudio de variables y su contenido

En este caso, tenemos solo 3 variables: 2 predictoras y una etiqueta dicotómica. De las dos predictoras, realmente solo nos interesa la parte del comentario, ya que el hecho de clasificar un comentario en positivo o negativo dependerá de su contenido, no de la aplicación de la que se haya escrito. Por lo tanto, la variable package_name habría que eliminarla.



In [None]:
# Eliminamos package_name
dataframe.drop('package_name', axis = 1, inplace = True)
dataframe.head()

Unnamed: 0,review,polarity
0,privacy at least put some option appear offli...,0
1,"messenger issues ever since the last update, ...",0
2,profile any time my wife or anybody has more ...,0
3,the new features suck for those of us who don...,0
4,forced reload on uploading pic on replying co...,0


No podemos trabajar con texto plano, antes hay que procesarlo. Este proceso consta de varios pasos:

In [None]:
# Eliminamos los espcios y convertimos todo el texto a minúsculas
dataframe['review'] = dataframe['review'].str.strip().str.lower()

In [None]:
# Dividimos el conjunto de datos en train y test: X_train, X_test, y_train, y_test
from sklearn.model_selection import train_test_split

X = dataframe['review']
y = dataframe['polarity']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 0)

X_train.head()

140    was great i was going to give this 5 stars unt...
439    whatsapp i use this app now that blackberry me...
817    excellent!!!! awesome app very useful thanks f...
378    it's notification system is so poor. it doesn'...
491    good this is a very good app so far. great fea...
Name: review, dtype: object

In [None]:
# Transformamos el texto en una matriz de recuento de palabras. Aí obtenemos características numéricas a partir del texto.
from sklearn.feature_extraction.text import CountVectorizer

vec_model = CountVectorizer(stop_words = "english")
X_train = vec_model.fit_transform(X_train).toarray()
X_test = vec_model.transform(X_test).toarray()

## 3. Construimos un Naive Bayes

### Usamos el modelo GaussianNB

In [None]:
# Inicializamos el modelo y lo entrenamos
# from sklearn.naive_bayes import GaussianNB

# model = GaussianNB()
# model.fit(X_train, y_train)

In [None]:
# Usamos el modelo para predecir con el conjunto de datos de prueba
# y_pred = model.predict(X_test)
# y_pred

array([0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1,
       0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0,
       0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0,
       1, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1,
       0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 1,
       0, 0, 0])

In [None]:
# Comprobamos la precisión del modelo
# from sklearn.metrics import accuracy_score

# accuracy_score(y_test, y_pred)

0.7597765363128491

### Usamos el modelo MultinomialNB

In [None]:
# from sklearn.naive_bayes import MultinomialNB

model = MultinomialNB ()
model.fit(X_train, y_train)

In [None]:
y_pred = model.predict(X_test)
y_pred

array([0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 1, 0])

In [None]:
from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_pred)

0.7932960893854749

### Usamos el modelo BernoulliNB

In [None]:
# from sklearn.naive_bayes import BernoulliNB

# model = BernoulliNB()
# model.fit(X_train, y_train)

In [None]:
# y_pred = model.predict(X_test)
# y_pred

array([0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1,
       0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0])

In [None]:
# from sklearn.metrics import accuracy_score

# accuracy_score(y_test, y_pred)

0.6927374301675978

El modelo con un mayor porcentaje de predicción correcta es MultinomialNB

## 4. Optimizamos los hiperparámetros del modelo

In [None]:
import numpy as np
from sklearn.model_selection import RandomizedSearchCV

hyperparams = {
    "alpha": np.linspace(0.01, 10.0, 200),
    "fit_prior": [True, False]
}

# We initialize the random search
random_search = RandomizedSearchCV(model, hyperparams, n_iter = 50, scoring = "accuracy", cv = 5, random_state = 42)
random_search

In [None]:
random_search.fit(X_train, y_train)

print(f"Best hyperparameters: {random_search.best_params_}")

Best hyperparameters: {'fit_prior': False, 'alpha': 0.3614070351758794}


In [None]:
model = MultinomialNB(alpha = 1.917638190954774, fit_prior = False)
model.fit(X_train, y_train)
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy_score(y_test, y_pred)

0.7932960893854749

No hemos mejorado el modelo

Probar otro modelo.

O añadir más datos al dataset.