# Crear una aplicación web de análisis de opiniones

## Usando PyTorch y SageMaker

Programa de aprendizaje profundo Nanodegree | Despliegue

Ahora que tenemos una comprensión básica de cómo funciona SageMaker, intentaremos usarlo para construir un proyecto completo de principio a fin. Nuestro objetivo será tener una página web simple que un usuario pueda usar para ingresar una reseña de la película. La página web enviará la revisión a nuestro modelo implementado, que predecirá el sentimiento de la revisión ingresada.

## Instrucciones
Ya se le ha proporcionado un código de plantilla, y deberá implementar una funcionalidad adicional para completar con éxito este cuaderno. No necesitará modificar el código incluido más allá de lo solicitado. Las secciones que comienzan con 'TODO' en el encabezado indican que debe completar o implementar alguna parte dentro de ellas. Se proporcionarán instrucciones para cada sección y los detalles de la implementación están marcados en el bloque de código con un # TODO: ... comentario. ¡Asegúrese de leer las instrucciones cuidadosamente!

Además de implementar el código, habrá preguntas para responder que se relacionan con la tarea y su implementación. Cada sección donde responderá una pregunta está precedida por un encabezado 'Pregunta:'. Lea atentamente cada pregunta y proporcione su respuesta debajo del encabezado 'Respuesta:' editando la celda Markdown.

**Nota**: Las celdas de código y Markdown se pueden ejecutar usando el atajo de teclado Shift + Enter. Además, una celda se puede editar haciendo clic en ella (haciendo doble clic en las celdas Markdown) o presionando Entrar mientras está resaltada.

## Bosquejo general
Recuerde el esquema general de los proyectos de SageMaker utilizando una instancia de cuaderno.

1. Descargue o recupere los datos.
2. Procesar / preparar los datos.
3. Suba los datos procesados a S3.
4. Entrenar a un modelo elegido.
5. Pruebe el modelo entrenado (generalmente usando un trabajo de transformación por lotes).
6. Implemente el modelo entrenado.
7. Use el modelo desplegado.
Para este proyecto, seguirá los pasos del esquema general con algunas modificaciones.

Primero, no probará el modelo en su propio paso. Todavía estará probando el modelo, sin embargo, lo hará implementando su modelo y luego utilizando el modelo implementado enviándole los datos de prueba. Una de las razones para hacerlo es para que pueda asegurarse de que su modelo implementado funcione correctamente antes de seguir adelante.

Además, implementará y utilizará su modelo entrenado por segunda vez. En la segunda iteración, personalizará la forma en que se implementa su modelo entrenado al incluir parte de su propio código. Además, su modelo recién implementado se utilizará en la aplicación web de análisis de sentimientos.

## Paso 1: descargando los datos
Al igual que en el cuaderno XGBoost en SageMaker, utilizaremos el conjunto de datos de IMDb

In [None]:
%mkdir ../data
!wget -O ../data/aclImdb_v1.tar.gz http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
!tar -zxf ../data/aclImdb_v1.tar.gz -C ../data

## Paso 2: preparación y procesamiento de los datos
Además, como en el cuaderno XGBoost, haremos un procesamiento inicial de datos. Los primeros pasos son los mismos que en el ejemplo XGBoost. Para comenzar, leeremos cada una de las revisiones y las combinaremos en una sola estructura de entrada. Luego, dividiremos el conjunto de datos en un conjunto de entrenamiento y un conjunto de prueba.

In [None]:
import os
import glob

def read_imdb_data(data_dir='../data/aclImdb'):
    data = {}
    labels = {}
    
    for data_type in ['train', 'test']:
        data[data_type] = {}
        labels[data_type] = {}
        
        for sentiment in ['pos', 'neg']:
            data[data_type][sentiment] = []
            labels[data_type][sentiment] = []
            
            path = os.path.join(data_dir, data_type, sentiment, '*.txt')
            files = glob.glob(path)
            
            for f in files:
                with open(f) as review:
                    data[data_type][sentiment].append(review.read())
                    # Here we represent a positive review by '1' and a negative review by '0'
                    labels[data_type][sentiment].append(1 if sentiment == 'pos' else 0)
                    
            assert len(data[data_type][sentiment]) == len(labels[data_type][sentiment]), \
                    "{}/{} data size does not match labels size".format(data_type, sentiment)
                
    return data, labels

In [None]:
data, labels = read_imdb_data()
print("IMDB reviews: train = {} pos / {} neg, test = {} pos / {} neg".format(
            len(data['train']['pos']), len(data['train']['neg']),
            len(data['test']['pos']), len(data['test']['neg'])))

Ahora que hemos leído los datos de entrenamiento y pruebas sin procesar del conjunto de datos descargado, combinaremos las revisiones positivas y negativas y mezclaremos los registros resultantes.

In [None]:
from sklearn.utils import shuffle

def prepare_imdb_data(data, labels):
    """Prepare training and test sets from IMDb movie reviews."""
    
    #Combine positive and negative reviews and labels
    data_train = data['train']['pos'] + data['train']['neg']
    data_test = data['test']['pos'] + data['test']['neg']
    labels_train = labels['train']['pos'] + labels['train']['neg']
    labels_test = labels['test']['pos'] + labels['test']['neg']
    
    #Shuffle reviews and corresponding labels within training and test sets
    data_train, labels_train = shuffle(data_train, labels_train)
    data_test, labels_test = shuffle(data_test, labels_test)
    
    # Return a unified training data, test data, training labels, test labets
    return data_train, data_test, labels_train, labels_test

In [None]:
train_X, test_X, train_y, test_y = prepare_imdb_data(data, labels)
print("IMDb reviews (combined): train = {}, test = {}".format(len(train_X), len(test_X)))

Ahora que tenemos nuestros conjuntos de entrenamiento y prueba unificados y preparados, deberíamos hacer una verificación rápida y ver un ejemplo de los datos en los que se entrenará nuestro modelo. En general, es una buena idea, ya que le permite ver cómo cada uno de los pasos de procesamiento adicionales afecta las revisiones y también garantiza que los datos se hayan cargado correctamente.

In [None]:
print(train_X[100])
print(train_y[100])

El primer paso para procesar las revisiones es asegurarse de que se eliminen las etiquetas html que aparezcan. Además, deseamos tokenizar nuestro aporte, de esa manera palabras como entretenido y entretenido se consideran lo mismo con respecto al análisis de sentimientos.

In [None]:
import nltk
from nltk.corpus import stopwords
from nltk.stem.porter import *

import re
from bs4 import BeautifulSoup

def review_to_words(review):
    nltk.download("stopwords", quiet=True)
    stemmer = PorterStemmer()
    
    text = BeautifulSoup(review, "html.parser").get_text() # Remove HTML tags
    text = re.sub(r"[^a-zA-Z0-9]", " ", text.lower()) # Convert to lower case
    words = text.split() # Split string into words
    words = [w for w in words if w not in stopwords.words("english")] # Remove stopwords
    words = [PorterStemmer().stem(w) for w in words] # stem
    
    return words

El método review_to_words definido anteriormente utiliza BeautifulSoup para eliminar las etiquetas html que aparecen y utiliza el paquete nltk para simular las revisiones. Para verificar que sabemos cómo funciona todo, intente aplicar review_to_words a una de las revisiones del conjunto de capacitación.

In [None]:
# TODO: aplicar review_to_words a una revisión (train_X [100] o cualquier otra revisión)

**Pregunta**: Anteriormente mencionamos que el método review_to_words elimina el formato html y nos permite tokenizar las palabras encontradas en una revisión, por ejemplo, convertir entretenidos y entretenidos en entretener para que sean tratados como si fueran la misma palabra. ¿Qué más, si hay algo, le hace este método a la entrada?

**Respuesta**:

El siguiente método aplica el método review_to_words a cada una de las revisiones en los conjuntos de datos de capacitación y prueba. Además, almacena en caché los resultados. Esto se debe a que realizar este paso de procesamiento puede llevar mucho tiempo. De esta manera, si no puede completar el cuaderno en la sesión actual, puede regresar sin necesidad de procesar los datos por segunda vez.

In [None]:
import pickle

cache_dir = os.path.join("../cache", "sentiment_analysis")  # where to store cache files
os.makedirs(cache_dir, exist_ok=True)  # ensure cache directory exists

def preprocess_data(data_train, data_test, labels_train, labels_test,
                    cache_dir=cache_dir, cache_file="preprocessed_data.pkl"):
    """Convert each review to words; read from cache if available."""

    # If cache_file is not None, try to read from it first
    cache_data = None
    if cache_file is not None:
        try:
            with open(os.path.join(cache_dir, cache_file), "rb") as f:
                cache_data = pickle.load(f)
            print("Read preprocessed data from cache file:", cache_file)
        except:
            pass  # unable to read from cache, but that's okay
    
    # If cache is missing, then do the heavy lifting
    if cache_data is None:
        # Preprocess training and test data to obtain words for each review
        #words_train = list(map(review_to_words, data_train))
        #words_test = list(map(review_to_words, data_test))
        words_train = [review_to_words(review) for review in data_train]
        words_test = [review_to_words(review) for review in data_test]
        
        # Write to cache file for future runs
        if cache_file is not None:
            cache_data = dict(words_train=words_train, words_test=words_test,
                              labels_train=labels_train, labels_test=labels_test)
            with open(os.path.join(cache_dir, cache_file), "wb") as f:
                pickle.dump(cache_data, f)
            print("Wrote preprocessed data to cache file:", cache_file)
    else:
        # Unpack data loaded from cache file
        words_train, words_test, labels_train, labels_test = (cache_data['words_train'],
                cache_data['words_test'], cache_data['labels_train'], cache_data['labels_test'])
    
    return words_train, words_test, labels_train, labels_test

In [None]:
# Preprocess data
train_X, test_X, train_y, test_y = preprocess_data(train_X, test_X, train_y, test_y)

## Transforma los datos
En el cuaderno XGBoost transformamos los datos de su representación de palabras a una representación de características de bolsa de palabras. Para el modelo que vamos a construir en este cuaderno, construiremos una representación de características que es muy similar. Para comenzar, representaremos cada palabra como un número entero. Por supuesto, algunas de las palabras que aparecen en las revisiones ocurren con poca frecuencia y, por lo tanto, es probable que no contengan mucha información para el análisis de sentimientos. La forma en que trataremos este problema es que arreglaremos el tamaño de nuestro vocabulario de trabajo y solo incluiremos las palabras que aparecen con más frecuencia. Luego combinaremos todas las palabras poco frecuentes en una sola categoría y, en nuestro caso, la etiquetaremos como 1.

Como utilizaremos una red neuronal recurrente, será conveniente que la duración de cada revisión sea la misma. Para hacer esto, fijaremos un tamaño para nuestras revisiones y luego rellenaremos revisiones cortas con la categoría 'sin palabra' (que etiquetaremos como 0) y truncaremos las revisiones largas.

### (TODO) Crear un diccionario de palabras
Para comenzar, necesitamos construir una forma de mapear las palabras que aparecen en las revisiones a enteros. Aquí fijamos el tamaño de nuestro vocabulario (incluidas las categorías 'sin palabra' e 'infrecuente') en 5000, pero es posible que desee cambiar esto para ver cómo afecta al modelo.

> **TODO**: Complete la implementación para el método build_dict () a continuación. Tenga en cuenta que aunque vocab_size esté configurado en 5000, solo queremos construir un mapeo para las 4998 palabras que aparecen con más frecuencia. Esto se debe a que queremos reservar las etiquetas especiales 0 para 'sin palabra' y 1 para 'palabra infrecuente'.

In [None]:
import numpy as np

def build_dict(data, vocab_size = 5000):
    """Construye y devuelve un diccionario que asigna cada una
    de las palabras que aparecen con más frecuencia a un número entero único"""
    
     #TODO: Determine con qué frecuencia aparece cada palabra en `data`.
        #Tenga en cuenta que `data` es una lista de oraciones y que una oración es una lista de palabras.
    word_count = {}
    # Un diccionario que almacena las palabras que aparecen en las reseñas junto con la frecuencia con la que aparecen
    
     # TODO: ordena las palabras encontradas en `data` para que sorted_words [0] sea la palabra que aparece con más frecuencia y
     # sorted_words [-1] es la palabra que aparece con menos frecuencia.
    sorted_words = None
    
    word_dict = {} # Esto es lo que estamos construyendo, un diccionario que traduce palabras en enteros
    
    for idx, word in enumerate(sorted_words[:vocab_size - 2]):
        word_dict[word] = idx + 2
    # El -2 es para que ahorremos espacio para las etiquetas 'no word' 'infrequent'
    return word_dict
    

In [None]:
word_dict = build_dict(train_X)

**Pregunta**: ¿Cuáles son las cinco palabras que aparecen con más frecuencia (tokenizadas) en el conjunto de entrenamiento? ¿Tiene sentido que estas palabras aparezcan con frecuencia en el conjunto de entrenamiento?

**Respuesta**:

In [None]:
# TODO: use este espacio para determinar las cinco palabras que aparecen con más frecuencia en el conjunto de entrenamiento.

## Guarde word_dict
Más adelante, cuando construyamos un punto final que procese una revisión enviada, necesitaremos usar el word_dict que hemos creado. Como tal, lo guardaremos en un archivo ahora para uso futuro.

In [None]:
data_dir = '../data/pytorch' # Carpeta para guardar el archivo
if not os.path.exists(data_dir): # Comprobar si la carpeta existe
    os.makedirs(data_dir)

In [None]:
with open(os.path.join(data_dir, 'word_dict.pkl'), "wb") as f:
    pickle.dump(word_dict, f)

## Transforma las reseñas
Ahora que tenemos nuestro diccionario de palabras que nos permite transformar las palabras que aparecen en las revisiones en números enteros, es hora de usarlo y convertir nuestras revisiones a su representación de secuencia entera, asegurándose de rellenar o truncar a una longitud fija, que en nuestro caso es 500.

In [None]:
def convert_and_pad(word_dict, sentence, pad=500):
    NOWORD = 0 # We will use 0 to represent the 'no word' category
    INFREQ = 1 # and we use 1 to represent the infrequent words, i.e., words not appearing in word_dict
    
    working_sentence = [NOWORD] * pad
    
    for word_index, word in enumerate(sentence[:pad]):
        if word in word_dict:
            working_sentence[word_index] = word_dict[word]
        else:
            working_sentence[word_index] = INFREQ
            
    return working_sentence, min(len(sentence), pad)

def convert_and_pad_data(word_dict, data, pad=500):
    result = []
    lengths = []
    
    for sentence in data:
        converted, leng = convert_and_pad(word_dict, sentence, pad)
        result.append(converted)
        lengths.append(leng)
        
    return np.array(result), np.array(lengths)

In [None]:
train_X, train_X_len = convert_and_pad_data(word_dict, train_X)
test_X, test_X_len = convert_and_pad_data(word_dict, test_X)

Como una verificación rápida para asegurarse de que las cosas funcionan como se esperaba, verifique cómo se ve una de las revisiones en el conjunto de capacitación después de haber sido procesada. ¿Esto parece razonable? ¿Cuál es la duración de una revisión en el conjunto de capacitación?

In [None]:
# Use esta celda para examinar una de las revisiones procesadas para asegurarse de que todo funcione según lo previsto.

**Pregunta**: En las celdas de arriba usamos los métodos preprocess_data y convert_and_pad_data para procesar tanto el conjunto de entrenamiento como el de pruebas. ¿Por qué o por qué no podría ser un problema?

**Respuesta**:

## Paso 3: sube los datos a S3
Al igual que en el cuaderno XGBoost, necesitaremos cargar el conjunto de datos de entrenamiento en S3 para que nuestro código de entrenamiento pueda acceder a él. Por ahora lo guardaremos localmente y lo subiremos a S3 más adelante.

### Guarde el conjunto de datos de entrenamiento procesado localmente
Es importante tener en cuenta el formato de los datos que estamos guardando, ya que necesitaremos saberlo cuando escribamos el código de capacitación. En nuestro caso, cada fila del conjunto de datos tiene la etiqueta del formulario, longitud, revisión [500] donde revisión [500] es una secuencia de 500 enteros que representan las palabras en la revisión.

In [None]:
import pandas as pd
    
pd.concat([pd.DataFrame(train_y), pd.DataFrame(train_X_len), pd.DataFrame(train_X)], axis=1) \
        .to_csv(os.path.join(data_dir, 'train.csv'), header=False, index=False)

## Subiendo los datos de entrenamiento
A continuación, debemos cargar los datos de entrenamiento al depósito S3 predeterminado de SageMaker para que podamos proporcionar acceso a ellos mientras entrenamos nuestro modelo.

In [None]:
import sagemaker

sagemaker_session = sagemaker.Session()

bucket = sagemaker_session.default_bucket()
prefix = 'sagemaker/sentiment_rnn'

role = sagemaker.get_execution_role()

In [None]:
input_data = sagemaker_session.upload_data(path=data_dir, bucket=bucket, key_prefix=prefix)

**NOTA**: La celda de arriba carga todo el contenido de nuestro directorio de datos. Esto incluye el archivo word_dict.pkl. Esto es afortunado ya que lo necesitaremos más adelante cuando creamos un punto final que acepte una revisión arbitraria. Por ahora, solo tomaremos nota del hecho de que reside en el directorio de datos (y también en el grupo de entrenamiento S3) y que necesitaremos asegurarnos de que se guarde en el directorio del modelo.

## Paso 4: Construye y entrena el modelo PyTorch
En el cuaderno XGBoost discutimos qué es un modelo en el marco de SageMaker. En particular, un modelo comprende tres objetos.

* Artefactos modelo,
* Código de entrenamiento, y
* Código de inferencia,
cada uno de los cuales interactúa entre sí. En el ejemplo de XGBoost, utilizamos el código de capacitación e inferencia proporcionado por Amazon. Aquí todavía usaremos contenedores proporcionados por Amazon con el beneficio adicional de poder incluir nuestro propio código personalizado.

Comenzaremos implementando nuestra propia red neuronal en PyTorch junto con un script de entrenamiento. Para los propósitos de este proyecto, hemos proporcionado el objeto modelo necesario en el archivo model.py, dentro de la carpeta del tren. Puede ver la implementación proporcionada ejecutando la celda a continuación.

In [None]:
!pygmentize train/model.py

La conclusión importante de la implementación proporcionada es que hay tres parámetros que podemos desear ajustar para mejorar el rendimiento de nuestro modelo. Estas son la dimensión de incrustación, la dimensión oculta y el tamaño del vocabulario. Es probable que queramos que estos parámetros sean configurables en el script de entrenamiento para que, si deseamos modificarlos, no necesitemos modificar el script en sí. Veremos cómo hacer esto más adelante. Para comenzar, escribiremos algunos de los códigos de capacitación en el cuaderno para que podamos diagnosticar más fácilmente cualquier problema que surja.

Primero, cargaremos una pequeña porción del conjunto de datos de entrenamiento para usar como muestra. Trataría mucho tiempo intentar entrenar el modelo por completo en el portátil, ya que no tenemos acceso a una gpu y la instancia de cálculo que estamos utilizando no es particularmente poderosa. Sin embargo, podemos trabajar en una pequeña parte de los datos para tener una idea de cómo se comporta nuestro script de entrenamiento.

In [None]:
import torch
import torch.utils.data

# Read in only the first 250 rows
train_sample = pd.read_csv(os.path.join(data_dir, 'train.csv'), header=None, names=None, nrows=250)

# Turn the input pandas dataframe into tensors
train_sample_y = torch.from_numpy(train_sample[[0]].values).float().squeeze()
train_sample_X = torch.from_numpy(train_sample.drop([0], axis=1).values).long()

# Build the dataset
train_sample_ds = torch.utils.data.TensorDataset(train_sample_X, train_sample_y)
# Build the dataloader
train_sample_dl = torch.utils.data.DataLoader(train_sample_ds, batch_size=50)

## (TODO) Escribiendo el método de entrenamiento
Luego necesitamos escribir el código de entrenamiento en sí. Esto debería ser muy similar a los métodos de entrenamiento que ha escrito antes para entrenar modelos PyTorch. Dejaremos algunos aspectos difíciles como guardar / cargar modelos y cargar parámetros hasta un poco más tarde.