## **Bootcamp: Ciencia de Datos e Inteligencia Artificial**
## **Proyecto del Módulo 7: Técnicas avanzadas para ciencia de datos y empleabilidad**

Hola, ya es el último proyecto, has avanzado y aprendido mucho hasta acá. ¡Muchas felicidades!

Es hora de poner en práctica todo lo que hemos aprendido a lo largo de nuestra travesía.

Lee el proyecto y revisa con cuidado cada una de las instrucciones. Procura plasmar todo tu potencial para que lo concluyas de manera sobresaliente.

¡Éxito!

# Objetivos
- Aplicar con éxito todos los conocimientos que has adquirido a lo largo del Bootcamp.
- Consolidar las técnicas de limpieza, entrenamiento, graficación y ajuste a modelos de *Machine Learning*.
- Generar una API que brinde predicciones como resultado a partir de datos enviados.


# Proyecto

1. Selecciona uno de los siguientes *datasets*:
  - *Reviews* de aplicaciones de la Google Play Store: https://www.kaggle.com/datasets/lava18/google-play-store-apps
  - Estadísticas demográficas de los ganadores del premio Oscar de la Academia: https://www.kaggle.com/datasets/fmejia21/demographics-of-academy-awards-oscars-winners
  - Aspiraciones profesionales de la generación Z: https://www.kaggle.com/datasets/kulturehire/understanding-career-aspirations-of-genz

Cada uno representa un *dataset*, un problema y una forma diferente de abordarlo. Tu tarea es identificar las técnicas y modelos que podrías usar para tu proyecto.

2. Debes hacer un análisis exploratorio y limpieza de los datos. Usa las ténicas que creas convenientes.

3. Entrena el modelo de *Machine Learning*, procesamiento de lenguaje natural o red neuronal que creas adecuado.

4. Genera por lo menos dos gráficas y dos métricas de rendimiento; explica las puntuaciones de rendimiento que amerite tu problema. Todas las gráficas de rendimiento que realices deben tener leyendas, colores y títulos personalizados por ti.

  - Además, antes de subir el modelo a "producción", deberás realizar un proceso de ensambles (*ensemblings*) y de ajuste de hiperparámetros o *tuning* para intentar mejorar la precisión y disminuir la varianza de tu modelo.

5. Construye una API REST en la que cualquier usuario pueda mandar datos y que esta misma devuelva la predicción del modelo que has hecho. La API debe estar en la nube, ya sea en un servicio como Netlify o Ngrok, para que pueda ser consultada desde internet.

6. Genera una presentación del problema y del modelo de solución que planteas. Muestra gráficas, datos de rendimiento y explicaciones. Esta presentación debe estar enfocada a personas que no sepan mucho de ciencia de datos e inteligencia artificial.

7. **Solamente se recibirán trabajos subidos a tu cuenta de GitHub con un README.md apropiado que explique tu proyecto**.

## Criterios de evaluación

| Actividad | Porcentaje | Observaciones | Punto parcial
| -- | -- | -- | -- |
| Actividad 1. Limpieza y EDA | 20 | Realiza todas las tareas necesarias para hacer el EDA y la limpieza correcta, dependiendo de la problemática. Debes hacer como mínimo el análisis de completitud, escalamiento (si aplica) y tokenización (si aplica). | Realizaste solo algunas tareas de exploración y limpieza y el modelo se muestra aún con oportunidad de completitud, escalamiento y/o mejora. |
| Actividad 2. Entrenamiento del modelo | 20 | Elige el modelo y algoritmo adecuados para tu problema, entrénalo con los datos ya limpios y genera algunas predicciones de prueba. | No has realizado predicciones de prueba para tu modelo de ML y/o tu modelo muestra una precisión menor al 60 %. |
| Actividad 3. Graficación y métricas | 20 | Genera por lo menos dos gráficas y dos muestras de métricas que permitan visualizar el rendimiento y precisión del modelo que construiste. Además, realizaste los procesos de *tuning* y ensambles adecuados para tu problema. | Las gráficas no tienen leyendas y colores customizados, solo muestras una gráfica o no realizaste el *tuning* de hiperparámetros.
| Actividad 4. API REST | 20 | Generaste con éxito un *link* público en el que, por método POST, se puede mandar información y la API REST devuelve una predicción junto con el porcentaje de confianza de esta misma. | N/A
| Actividad 5. Presentación | 20 | Genera una presentación en la que establezcas como mínimo: el problema, proceso de solución, metodologías usadas, gráficas de rendimiento, demostración del modelo y aprendizajes obtenidos. Debes redactarla con términos que pueda entender cualquier persona, no solo científicos de datos. | La presentación no expone con claridad o en términos coloquiales el proceso de creación del modelo, sus ventajas y muestras de rendimiento.

**Mucho éxito en tu camino como Data Scientist.**

In [1]:
#Importamos las librerias necesarias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
import re
import unidecode

import spacy
import nltk
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize


from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, classification_report, accuracy_score

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.utils import to_categorical

from transformers import BertModel, BertTokenizer
import nltk

import torch
from sklearn.pipeline import Pipeline

# Gráficos
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
from wordcloud import WordCloud

#Menos advertencias
import warnings
warnings.filterwarnings('ignore')

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
!python -m spacy download en_core_web_md

Collecting en-core-web-md==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_md-3.7.1/en_core_web_md-3.7.1-py3-none-any.whl (42.8 MB)
     ---------------------------------------- 0.0/42.8 MB ? eta -:--:--
     ---------------------------------------- 0.0/42.8 MB ? eta -:--:--
     --------------------------------------- 0.0/42.8 MB 220.2 kB/s eta 0:03:15
     --------------------------------------- 0.1/42.8 MB 365.7 kB/s eta 0:01:57
     --------------------------------------- 0.1/42.8 MB 479.1 kB/s eta 0:01:30
     --------------------------------------- 0.2/42.8 MB 807.1 kB/s eta 0:00:53
     --------------------------------------- 0.2/42.8 MB 807.1 kB/s eta 0:00:53
     --------------------------------------- 0.2/42.8 MB 623.6 kB/s eta 0:01:09
     --------------------------------------- 0.3/42.8 MB 912.8 kB/s eta 0:00:47
     ---------------------------------------- 0.4/42.8 MB 1.1 MB/s eta 0:00:40
      -----------------------------------

In [3]:
nlp = spacy.load('en_core_web_md')

#Importamos las palabras de parada en inglés
nltk.download('stopwords')
stop_words = nltk.corpus.stopwords.words('english')

#Agregamos emojis a las palabras de parada
newStopWords =[':D', ':d', 'd:', ";D","XD","DX","Xd","(:",":(",":/", "/:","(X","):",":B","dX",":b","b:","X)",":p","p:",":q","q:","D:","D;","W:",":W"]
stop_words.extend(newStopWords)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Render\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [4]:
# Se inicializan las herramientas de bert que necesitamos para hacer la vectorización
model = BertModel.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

In [5]:
df = pd.read_csv('./googleplaystore_user_reviews.csv', encoding="utf-8")
pd.set_option('display.max_colwidth', None)
df.head()

Unnamed: 0,App,Translated_Review,Sentiment,Sentiment_Polarity,Sentiment_Subjectivity
0,10 Best Foods for You,"I like eat delicious food. That's I'm cooking food myself, case ""10 Best Foods"" helps lot, also ""Best Before (Shelf Life)""",Positive,1.0,0.533333
1,10 Best Foods for You,This help eating healthy exercise regular basis,Positive,0.25,0.288462
2,10 Best Foods for You,,,,
3,10 Best Foods for You,Works great especially going grocery store,Positive,0.4,0.875
4,10 Best Foods for You,Best idea us,Positive,1.0,0.3


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64295 entries, 0 to 64294
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   App                     64295 non-null  object 
 1   Translated_Review       37427 non-null  object 
 2   Sentiment               37432 non-null  object 
 3   Sentiment_Polarity      37432 non-null  float64
 4   Sentiment_Subjectivity  37432 non-null  float64
dtypes: float64(2), object(3)
memory usage: 2.5+ MB


In [7]:
df = df.dropna()
df.head()

Unnamed: 0,App,Translated_Review,Sentiment,Sentiment_Polarity,Sentiment_Subjectivity
0,10 Best Foods for You,"I like eat delicious food. That's I'm cooking food myself, case ""10 Best Foods"" helps lot, also ""Best Before (Shelf Life)""",Positive,1.0,0.533333
1,10 Best Foods for You,This help eating healthy exercise regular basis,Positive,0.25,0.288462
3,10 Best Foods for You,Works great especially going grocery store,Positive,0.4,0.875
4,10 Best Foods for You,Best idea us,Positive,1.0,0.3
5,10 Best Foods for You,Best way,Positive,1.0,0.3


In [8]:
df['Sentiment'].value_counts()

Sentiment
Positive    23998
Negative     8271
Neutral      5158
Name: count, dtype: int64

In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 37427 entries, 0 to 64230
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   App                     37427 non-null  object 
 1   Translated_Review       37427 non-null  object 
 2   Sentiment               37427 non-null  object 
 3   Sentiment_Polarity      37427 non-null  float64
 4   Sentiment_Subjectivity  37427 non-null  float64
dtypes: float64(2), object(3)
memory usage: 1.7+ MB


In [10]:
#stop

# Preprocesado

In [11]:
# Función para comprobar la completitud de los datos
def calcular_completitud(df):
  completitud = pd.DataFrame(df.isnull().sum())                                   #Crear el dataframe "completitud", la cual contenga la cantidad de datos nulos por columna
  completitud.reset_index(inplace = True)                                         #Agregar un índice númerico, y mover el índice que era la lista de columnas a una nueva
  completitud = completitud.rename(columns = {"index":"columna", 0:"total"})      #Renombrar las columnas "index" y "0" a "columna" y "total" respectivamente
  completitud["completitud"] = (1 - completitud["total"] / df.shape[0]) * 100     #Calcular la completitud de cada columna, y guardarlo en la columna "completitud"
  completitud = completitud.sort_values(by = "completitud", ascending=True)       #Organizar los datos por el porcentaje de completitud de menor a mayor
  completitud.reset_index(drop = True, inplace=True)                              #Resetear los índices para que correspondan al orden actual
  return(completitud)

# Se aplica la función
completitud = calcular_completitud(df)
completitud

Unnamed: 0,columna,total,completitud
0,App,0,100.0
1,Translated_Review,0,100.0
2,Sentiment,0,100.0
3,Sentiment_Polarity,0,100.0
4,Sentiment_Subjectivity,0,100.0


In [12]:
# Fórmula para limpiar el texto
def limpiar (texto):
    texto = texto.lower() # Texto en minusculas

    texto = re.sub(r'@(.*?)\s+', '', texto) # Quitamos nombres de usuario
    texto = re.sub(r'http(.*?)\s+', '', texto) # Quitamos urls
    texto = re.sub(r'\d+', '', texto) # Quitamos numeros
    texto = re.sub(r'[\n\t\r]', '', texto) # Quitamos saltos de linea, tabulaciones y retornos

    # Lemmatizamos
    texto = nlp(texto)
    texto = [word.lemma_ for word in texto]
    # Eliminamos palabras de parada
    texto = ' '.join([ word for word in texto if word not in stop_words ])

    texto = re.sub(r'[^\w\s]', '', texto) # Quitamos caracteres especiales (Esto tiene que ir despues de la lematización debido al los "'s")
    texto = re.sub(r'\s+', ' ', texto) # Quitamos espacios en blanco

    texto = texto.strip() # Quitamos espacios en blanco al inicio y al final

    return texto

In [13]:
# Aplicamos la función de limpieza del texto a cada registro en una columna diferente
df['Translated_Review'] = df['Translated_Review'].astype(str)
df['Translated_Review_clean'] = df['Translated_Review'].apply(lambda X: limpiar(X))

In [14]:
# Se substituyen los valores de "target" para que se vean mejor en el histograma
df['Sentiment'] = df['Sentiment'].replace({'Negative' : 2, 'Positive' : 1, 'Neutral' : 0})
df.head()

Unnamed: 0,App,Translated_Review,Sentiment,Sentiment_Polarity,Sentiment_Subjectivity,Translated_Review_clean
0,10 Best Foods for You,"I like eat delicious food. That's I'm cooking food myself, case ""10 Best Foods"" helps lot, also ""Best Before (Shelf Life)""",1,1.0,0.533333,I like eat delicious food I cook food case good food help lot also well shelf life
1,10 Best Foods for You,This help eating healthy exercise regular basis,1,0.25,0.288462,help eat healthy exercise regular basis
3,10 Best Foods for You,Works great especially going grocery store,1,0.4,0.875,work great especially go grocery store
4,10 Best Foods for You,Best idea us,1,1.0,0.3,good idea
5,10 Best Foods for You,Best way,1,1.0,0.3,good way


In [15]:
#df['Sentiment'].value_counts()

In [16]:
# Función de vectorización de BERT
def bert_vectorizer(comments, tokenizer, model):

  # Hay que convertir la columna a lista de strings para que la función se ejecute correctamente
  comments = comments.iloc[:,0].tolist()[:]

  embeddings = []
  for i in comments:
    # Tokenizar el documento y agregar tokens especiales
    tokens = tokenizer.tokenize(i)
    tokens = ['[CLS]'] + tokens + ['[SEP]']

    # Convertir los tokens en IDs
    ids = tokenizer.convert_tokens_to_ids(tokens)

    # Obtener la representación vectorial del documento
    with torch.no_grad():
      outputs = model(torch.tensor([ids]))[0]
      document_embedding = np.mean(outputs.numpy()[0], axis=0)

      embeddings.append(document_embedding)

  embeddings = pd.DataFrame(embeddings)

  print(embeddings.head())

  return embeddings

In [17]:
X = df[['Translated_Review_clean']]
Y = df[['Sentiment']]

# Se separan los dataframes X y Y en conjuntos de prueba y conjuntos de entrenamiento
X_train, X_test, y_train, y_test = train_test_split(
                                        X,
                                        Y,
                                        train_size   = 0.7,                    # Se deja el tamaño del conjunto de entrenamiento en 70% del conjunto original
                                        random_state = 111                      # Un random state fijo permite que los mismos resultados se repitan cada vez que se ejecute esta celda
                                    )
display(X_train, X_test, y_train, y_test)

Unnamed: 0,Translated_Review_clean
31533,helpful app great
19249,short time play genuinely fun pity reset account make upgrade mistake due error enjoy play game fluid simple addictive reward system try test system earn reward box wait set time open one
7320,overall great game I think would cool cycle bird spell level sometime choice fit level still addicted af regardless anything xd
63060,show rental available update enough
57763,good deal good chance try new thing discount
...,...
43672,I love app one problem member often circle try log
63485,good horoscope true
7648,download think good old classic basic version angry bird without ridiculous gimmick money grab course get greedy delete
16227,much support idea kind people site go I want learn project


Unnamed: 0,Translated_Review_clean
43185,say I get update information hopefully malware
26434,please include extension mobile browser
1233,work wonder I problem I find I think current day bit lag behind sometimes I get early still highlight previous day big issue aside perfect highly recommend anyone want track habit
35935,I write review I love app pay version allow customize speaker much little description I want I target area I want focus instrumental soundtrack interfere instruction well worth money
42985,stellar late update load blank screen fix please
...,...
31088,thank thank much application I hope learn something thank teach
63379,awful customer support number change unforeseen circumstance way log change password number make account I go back book well customer support email expect quick reply
37863,great
25270,good


Unnamed: 0,Sentiment
31533,1
19249,1
7320,1
63060,1
57763,1
...,...
43672,1
63485,1
7648,1
16227,1


Unnamed: 0,Sentiment
43185,0
26434,0
1233,1
35935,1
42985,1
...,...
31088,1
63379,2
37863,1
25270,1


In [18]:
comment_vectors_test = bert_vectorizer(X_test, tokenizer, model)
comment_vectors_train = bert_vectorizer(X_train, tokenizer, model)

        0         1         2         3         4         5         6    \
0  0.119647  0.078480  0.456830  0.025787  0.545567 -0.376236  0.418403   
1  0.061400 -0.026386  0.114780  0.015220  0.404581 -0.376505  0.155268   
2  0.163662 -0.054073  0.559303 -0.154289  0.269217 -0.414138  0.252899   
3  0.360258 -0.150836  0.536912  0.039546  0.457026 -0.094826  0.301569   
4 -0.025908 -0.215316  0.381945  0.070579  0.472600 -0.139976  0.156124   

        7         8         9    ...       758       759       760       761  \
0  0.524947 -0.032936 -0.429264  ...  0.447808  0.158646 -0.010730  0.005996   
1  0.464003 -0.178705 -0.398982  ...  0.632123 -0.144530  0.141950 -0.266357   
2  0.471837 -0.194766 -0.105115  ... -0.033495 -0.054724  0.175200 -0.125529   
3  0.156822  0.036460 -0.389013  ...  0.079877 -0.441883  0.047362 -0.101951   
4  0.670405  0.031906 -0.221679  ...  0.415147  0.018275 -0.108162 -0.434097   

        762       763       764       765       766       767  
0  0

In [19]:
#y_test.head()

In [20]:
#y_test_array = y_test['Sentiment'].to_numpy()


In [21]:
#y_test_c = y_test.copy()

In [22]:
# Se substituyen los valores de "target" para que se vean mejor en el histograma
#y_test_c['Sentiment'] = y_test_c['Sentiment'].replace({'Negative' : 2, 'Positive' : +1, 'Neutral' : 0})
#y_test_c.head()

In [23]:
#y_test_array = to_categorical(y_test_c)
#y_test_array

In [24]:
y_train_array = to_categorical(y_train)
y_test_array = to_categorical(y_test)

In [25]:
X_train = X_test = y_train = y_test = np.array([])

In [44]:
import keras
from tensorflow.keras import layers
#
from keras_tuner.tuners import RandomSearch
# optimizar baches y epocas
from scikeras.wrappers import KerasClassifier
# machine learning
from sklearn.model_selection import GridSearchCV


# Define the build_model function
def build_model(hp):
    model = keras.Sequential()
    model.add(layers.Dense(units=hp.Int('units',
                                        min_value=32,
                                        max_value=512,
                                        step=32),
                          activation='relu',
                          input_dim=768))
    model.add(layers.Dense(3, activation='softmax'))
    model.compile(
        optimizer=keras.optimizers.Adam(
          hp.Choice('learning_rate', values=[1e-2, 1e-3, 1e-4])),
        loss='categorical_crossentropy',
        metrics=['accuracy'])
    return model


tuner = RandomSearch(
    build_model,
    objective='val_accuracy',
    max_trials=10,
    executions_per_trial=3
)

tuner.search(comment_vectors_train, y_train_array, epochs=5, validation_data=(comment_vectors_test, y_test_array))

Reloading Tuner from .\untitled_project\tuner0.json


5 Epochs:
224 = 0.8041380842526754  172,256 │ 675 learning_rate=0.001
64 = 0.7954997420310974
384-384= 0.8019710977872213
320-320-320= 0.8069878617922465

50 Epochs

In [45]:
best_model = tuner.get_best_models(num_models=1)[0]
best_model.summary()

In [41]:
# Creamos el modelo con el número de neuronas sugerido
model2 = Sequential()
model2.add(Dense(224, activation = 'relu', input_dim=768))
model2.add(Dense(3, activation = 'softmax'))

In [42]:
# El Learning rate sugerido
opt = keras.optimizers.Adam(learning_rate=0.001)
# Compilamos el modelo
model2.compile(loss='categorical_crossentropy', optimizer=opt, metrics=['accuracy'])

In [None]:
#modelo=model2.fit(comment_vectors_train, y_train_array, epochs=50, validation_data=(comment_vectors_test, y_test_array))

In [46]:
wrapper = KerasClassifier(build_fn=best_model, verbose=1)
batch_size = [10, 20, 40, 60, 80, 100]
epochs = [10, 50, 100]
param_grid = dict(batch_size=batch_size, epochs=epochs)
grid = GridSearchCV(estimator=wrapper, param_grid=param_grid, n_jobs=-1, cv=3)
grid_result = grid.fit(comment_vectors_train, y_train_array)

print("Mejor: %f usando %s" % (grid_result.best_score_, grid_result.best_params_))

Epoch 1/10
[1m328/328[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 2ms/step - accuracy: 0.8425 - loss: 0.3901
Epoch 2/10
[1m328/328[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.8512 - loss: 0.3653
Epoch 3/10
[1m328/328[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.8624 - loss: 0.3426
Epoch 4/10
[1m328/328[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.8724 - loss: 0.3197
Epoch 5/10
[1m328/328[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.8806 - loss: 0.3072
Epoch 6/10
[1m328/328[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.8892 - loss: 0.2852
Epoch 7/10
[1m328/328[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.9011 - loss: 0.2677
Epoch 8/10
[1m328/328[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 2ms/step - accuracy: 0.9054 - loss: 0.2551
Epoch 9/10
[1m328/328[0m [32m━━━━━━━━