# Como enseñar a las máquinas a leer y comprender

## ParlIA

ParlAI es un framework de Python que permite la investigación de Inteligencia Artificial de diálogo. Además este framework cuenta con muchos conjuntos de datos populares para realizar múltiples tareas sobre ellos, una amplia gama de ayudantes para crear agentes y capacitarlos en varias tareas.

## Instalación del ParlIA

In [17]:
!pip3 install -q parlai
!pip3 install -q subword_nmt 

## Importando el Dataset

Para la evaluación del modelo, se decidió usar el dataset Children’S Book Test (CBT), ya que este era el de menor
tamaño y esto facilitaría que el modelo cargue más rápido al momento de entrenar y evaluar.

### Importamos el Dataset.

In [18]:
from parlai.core.build_data import DownloadableFile
import parlai.core.build_data as build_data
import os

#Descargamos todos los recursos que el dataset requiere en el ParlIA para su uso.
RESOURCES = [
    DownloadableFile(
        'http://parl.ai/downloads/cbt/cbt.tar.gz',
        'cbt.tar.gz',
        '932df0cadc1337b2a12b4c696b1041c1d1c6d4b6bd319874c6288f02e4a61e92',
    )
]

# Se define el build para descargar y generar los datos necesarios del dataset CBT.
def build(opt):
    dpath = os.path.join(opt['datapath'], 'CBT')
    version = None

    if not build_data.built(dpath, version_string=version):
        print('[building data: ' + dpath + ']')
        if build_data.built(dpath):
            # Se elimina los archivos desactualizados de la versión anterior.
            build_data.remove_dir(dpath)
        build_data.make_dir(dpath)

        # Descargamos los datos.
        for downloadable_file in RESOURCES:
            downloadable_file.download_file(dpath)

        # Marcamos los datos como construidos.
        build_data.mark_done(dpath, version_string=version)

### Mostramos un ejemplo

In [28]:
# El script display_data se usa para mostrar el contenido de una tarea en particular.
# Mostramos un ejemplo de los datos del train
from parlai.scripts.display_data import DisplayData
# Num_example define el número de ejemplos a mostrar y task es la tarea del dataset, en este caso de cbt.
DisplayData.main(task='cbt', num_examples=1) 

06:20:10 | Opt:
06:20:10 |     allow_missing_init_opts: False
06:20:10 |     batchsize: 1
06:20:10 |     datapath: C:\Users\hp\anaconda3\envs\pytorch\lib\site-packages\data
06:20:10 |     datatype: train:ordered
06:20:10 |     dict_class: None
06:20:10 |     display_add_fields: 
06:20:10 |     download_path: None
06:20:10 |     dynamic_batching: None
06:20:10 |     hide_labels: False
06:20:10 |     ignore_agent_reply: True
06:20:10 |     image_cropsize: 224
06:20:10 |     image_mode: raw
06:20:10 |     image_size: 256
06:20:10 |     init_model: None
06:20:10 |     init_opt: None
06:20:10 |     is_debug: False
06:20:10 |     loglevel: info
06:20:10 |     max_display_len: 1000
06:20:10 |     model: None
06:20:10 |     model_file: None
06:20:10 |     multitask_weights: [1]
06:20:10 |     mutators: None
06:20:10 |     num_examples: 1
06:20:10 |     override: "{'task': 'cbt', 'num_examples': 1}"
06:20:10 |     parlai_home: C:\Users\hp\anaconda3\envs\pytorch\lib\site-packages
06:20:10 |     

### Implementamos los agentes.

Implementamos los agentes para que comprendan la estructura de las tareas y que sean capaces de representarlas.
En este caso crearemos cuatro agentes que llamaremos profesores para que cada uno realice tareas específicas diferentes.

In [19]:
# Importamos FbDeprecatedDialogTeacher, MultiTaskTeacher para que nuestros agentes creados hereden sus métodos.
from parlai.core.teachers import FbDeprecatedDialogTeacher, MultiTaskTeacher

import copy
import os

# Creamos el path para devolvernos a la ruta de los archivos de datos correctos del dataset.
def _path(task, opt):
    # Genera los datos si no existen.
    build(opt)
    suffix = ''
    dt = opt['datatype'].split(':')[0]
    if dt == 'train':
        suffix = 'train'
    elif dt == 'test':
        suffix = 'test_2500ex'
    elif dt == 'valid':
        suffix = 'valid_2000ex'

    return os.path.join(
        opt['datapath'], 'CBT', 'CBTest', 'data', task + '_' + suffix + '.txt'
    )

# Se crean los profesores para que entiendan las tareas y sean capaces de representarlas.
class NETeacher(FbDeprecatedDialogTeacher):
    def __init__(self, opt, shared=None):
        opt['datafile'] = _path('cbtest_NE', opt)
        opt['cloze'] = True
        super().__init__(opt, shared)


class CNTeacher(FbDeprecatedDialogTeacher):
    def __init__(self, opt, shared=None):
        opt['datafile'] = _path('cbtest_CN', opt)
        opt['cloze'] = True
        super().__init__(opt, shared)


class VTeacher(FbDeprecatedDialogTeacher):
    def __init__(self, opt, shared=None):
        opt['datafile'] = _path('cbtest_V', opt)
        opt['cloze'] = True
        super().__init__(opt, shared)


class PTeacher(FbDeprecatedDialogTeacher):
    def __init__(self, opt, shared=None):
        opt['datafile'] = _path('cbtest_P', opt)
        opt['cloze'] = True
        super().__init__(opt, shared)


# De forma predeterminada, este último profesor entrena a todas las tareas a la vez.

class DefaultTeacher(MultiTaskTeacher):
    def __init__(self, opt, shared=None):
        opt = copy.deepcopy(opt)
        opt['task'] = 'cbt:NE,cbt:CN,cbt:V,cbt:P'
        super().__init__(opt, shared)

# Creando nuestro modelo

Creamos un modelo seq2seq, que va a consistir en un encoder y decoder cada uno conteniendo una capa LSTM.
La clase TorchGeneratorAgent manejará las características comunes de un decoder, como la decodificación forzada y la búsqueda en haz.

In [32]:
# Importamos torch.nn para la creación de la red neuronal
import torch.nn as nn
# Importamos torch.nn.functional que nos servirá para implementar capas que no tienen parámatros
import torch.nn.functional as F
import parlai.core.torch_generator_agent as tga

# Definimos el encoder 
class Encoder(nn.Module):
    
    #Consta de una capa de incrustación y un LSTM de 1 capa con el
    #tamaño oculto especificado.
    
    #Inicialización.
    def __init__(self, embeddings, hidden_size):
        
        # Llamamos a super en todos los nn.Modules para que lo herede.
        super().__init__()

        self.embeddings = embeddings
        # Se definen los parámetros para la capa LSTM del encoder.
        self.lstm = nn.LSTM(
            input_size=hidden_size,
            hidden_size=hidden_size,
            num_layers=1,
            batch_first=True,
        )

    def forward(self, input_tokens):
                   
        #Realice el forward pass para el codificador.
        
        #La entrada input_tokens, son los tokens de contexto dados
        embedded = self.embeddings(input_tokens)
        # Se devuelven los estados ocultos y de la celda LSTM
        _output, hidden = self.lstm(embedded)
        return hidden

# Definimos el decoder
class Decoder(nn.Module):
    
    #Consta de una capa de incrustación y un LSTM de 1 capa con el
    #tamaño oculto especificado.
   
    #El decodificador permite la decodificación incremental ingiriendo el
    #estado incremental actual en cada pasada hacia adelante.
  
    #Inicialización.
    def __init__(self, embeddings, hidden_size):
        
        # Llamamos a super en todos los nn.Modules para que lo herede.
        super().__init__()
        self.embeddings = embeddings
        # Se definen los parámetros para la capa LSTM del decoder.
        self.lstm = nn.LSTM(
            input_size=hidden_size,
            hidden_size=hidden_size,
            num_layers=1,
            batch_first=True,
        )

    def forward(self, input, encoder_state, incr_state=None):
        
        #Realice el forward pass para el decodificador.
        
        #La entrada son los tokens generados por el decodificador
        embedded = self.embeddings(input)
        if incr_state is None:
            # Sembramos el LSTM con el estado oculto del decodificador.
            state = encoder_state
        else:
            # Reutilizamos el estado del decodificador existente
            state = incr_state

        # Obtenemos la nueva salida y el estado incremental del decodificador
        output, incr_state = self.lstm(embedded, state)

        return output, incr_state

# Implementa los métodos de TorchGeneratorModel para reordenar los estados del codificador y los estados incrementales del
# decodificador. Crea una instancia y también define la capa de salida final.
class ExampleModel(tga.TorchGeneratorModel):
   
    #Inicialización.
    def __init__(self, dictionary, hidden_size=1024):
        super().__init__(
            padding_idx=dictionary[dictionary.null_token],
            start_idx=dictionary[dictionary.start_token],
            end_idx=dictionary[dictionary.end_token],
            unknown_idx=dictionary[dictionary.unk_token],
        )
        self.embeddings = nn.Embedding(len(dictionary), hidden_size)
        self.encoder = Encoder(self.embeddings, hidden_size)
        self.decoder = Decoder(self.embeddings, hidden_size)

    def output(self, decoder_output):
        
        #Realiza la salida final -> transformación logits.
        
        return F.linear(decoder_output, self.embeddings.weight)

    def reorder_encoder_states(self, encoder_states, indices):
        
        #Reordena los estados del codificador para seleccionar solo los índices de lote dados.
        #Se indexa la selección en la dimensión del lote.
        h, c = encoder_states
        return h[:, indices, :], c[:, indices, :]

    def reorder_decoder_incremental_state(self, incr_state, indices):
        # Método es implementado para reducir la complejidad de generación.
        h, c = incr_state
        return h[:, indices, :], c[:, indices, :]

# Creamos el modelo Seq2seq que hereda de TorchGeneratorAgent
@register_agent("my_first_lstm")
class Seq2seqAgent(tga.TorchGeneratorAgent):
    
    @classmethod
    def add_cmdline_args(cls, argparser, partial_opt):

        # Agrega todos los argumentos de TorchGeneratorAgent
        super().add_cmdline_args(argparser)

        # Agregamos argumentos personalizados solo para este modelo.
        group = argparser.add_argument_group('Example TGA Agent')
        group.add_argument(
            '-hid', '--hidden-size', type=int, default=1024, help='Hidden size.'
        )

    # Se construye el modelo.
    def build_model(self):
        model = ExampleModel(self.dict, self.opt['hidden_size'])
        self._copy_embeddings(model.embeddings.weight, self.opt['embedding_type'])
        return model

## Entrenando el Modelo


Entrenamos el modelo con el dataset CBT 

In [23]:
#Importamos TrainModel de ParlIA para entrenar el modelo seq2seq creado
from parlai.scripts.train_model import TrainModel
from parlai.core.agents import create_agent

TrainModel.main(
    model='my_first_lstm',
    model_file='my_first_lstm/model',
    task='cbt',
    # Entrenamos el modelo con un lote
    batchsize=1,
    validation_every_n_secs=10,
    max_train_time=60,
)

03:49:52 | building dictionary first...
03:49:52 | No model with opt yet at: my_first_lstm/model(.opt)
03:49:52 | Using CUDA
03:49:52 | loading dictionary from my_first_lstm/model.dict
03:49:52 | num words = 51210
03:49:52 | Total parameters: 69,232,640 (69,232,640 trainable)
03:49:52 | Opt:
03:49:52 |     adafactor_eps: '(1e-30, 0.001)'
03:49:52 |     adam_eps: 1e-08
03:49:52 |     add_p1_after_newln: False
03:49:52 |     aggregate_micro: False
03:49:52 |     allow_missing_init_opts: False
03:49:52 |     batchsize: 1
03:49:52 |     beam_block_full_context: True
03:49:52 |     beam_block_list_filename: None
03:49:52 |     beam_block_ngram: -1
03:49:52 |     beam_context_block_ngram: -1
03:49:52 |     beam_delay: 30
03:49:52 |     beam_length_penalty: 0.65
03:49:52 |     beam_min_length: 1
03:49:52 |     beam_size: 1
03:49:52 |     betas: '(0.9, 0.999)'
03:49:52 |     bpe_add_prefix_space: None
03:49:52 |     bpe_debug: False
03:49:52 |     bpe_dropout: None
03:49:52 |     bpe_merge: No

({'cbt:NE/exs': SumMetric(2000),
  'exs': SumMetric(8000),
  'cbt:NE/accuracy': ExactMatchMetric(0),
  'cbt:NE/f1': F1Metric(0),
  'cbt:NE/bleu-4': BleuMetric(0),
  'cbt:NE/clen': AverageMetric(489),
  'cbt:NE/ctrunc': AverageMetric(0),
  'cbt:NE/ctrunclen': AverageMetric(0),
  'cbt:NE/llen': AverageMetric(2.047),
  'cbt:NE/ltrunc': AverageMetric(0),
  'cbt:NE/ltrunclen': AverageMetric(0),
  'cbt:NE/loss': AverageMetric(10.06),
  'cbt:NE/ppl': PPLMetric(2.333e+04),
  'cbt:NE/token_acc': AverageMetric(0.2694),
  'cbt:NE/token_em': AverageMetric(0),
  'cbt:CN/exs': SumMetric(2000),
  'cbt:CN/accuracy': ExactMatchMetric(0.001),
  'cbt:CN/f1': F1Metric(0.001),
  'cbt:CN/bleu-4': BleuMetric(1e-12),
  'cbt:CN/clen': AverageMetric(522.1),
  'cbt:CN/ctrunc': AverageMetric(0),
  'cbt:CN/ctrunclen': AverageMetric(0),
  'cbt:CN/llen': AverageMetric(2.004),
  'cbt:CN/ltrunc': AverageMetric(0),
  'cbt:CN/ltrunclen': AverageMetric(0),
  'cbt:CN/loss': AverageMetric(11.07),
  'cbt:CN/ppl': PPLMetric(

In [24]:
TrainModel.main(
    model='my_first_lstm',
    model_file='my_first_lstm/model',
    task='cbt',
    # Entrenamos el modelo con un lote
    batchsize=3,
    validation_every_n_secs=10,
    max_train_time=60,
)

05:15:31 | building dictionary first...
05:15:31 | [33mOverriding opt["batchsize"] to 3 (previously: 1)[0m
05:15:31 | Using CUDA
05:15:31 | loading dictionary from my_first_lstm/model.dict
05:15:31 | num words = 51210
05:15:32 | Total parameters: 69,232,640 (69,232,640 trainable)
05:15:32 | Loading existing model params from my_first_lstm/model
05:15:32 | Opt:
05:15:32 |     adafactor_eps: '[1e-30, 0.001]'
05:15:32 |     adam_eps: 1e-08
05:15:32 |     add_p1_after_newln: False
05:15:32 |     aggregate_micro: False
05:15:32 |     allow_missing_init_opts: False
05:15:32 |     batchsize: 3
05:15:32 |     beam_block_full_context: True
05:15:32 |     beam_block_list_filename: None
05:15:32 |     beam_block_ngram: -1
05:15:32 |     beam_context_block_ngram: -1
05:15:32 |     beam_delay: 30
05:15:32 |     beam_length_penalty: 0.65
05:15:32 |     beam_min_length: 1
05:15:32 |     beam_size: 1
05:15:32 |     betas: '[0.9, 0.999]'
05:15:32 |     bpe_add_prefix_space: None
05:15:32 |     bpe_de

({'cbt:NE/exs': SumMetric(2000),
  'exs': SumMetric(8000),
  'cbt:NE/accuracy': ExactMatchMetric(0),
  'cbt:NE/f1': F1Metric(0.00025),
  'cbt:NE/bleu-4': BleuMetric(6.767e-14),
  'cbt:NE/clen': AverageMetric(489),
  'cbt:NE/ctrunc': AverageMetric(0),
  'cbt:NE/ctrunclen': AverageMetric(0),
  'cbt:NE/llen': AverageMetric(2.047),
  'cbt:NE/ltrunc': AverageMetric(0),
  'cbt:NE/ltrunclen': AverageMetric(0),
  'cbt:NE/loss': AverageMetric(10.13),
  'cbt:NE/ppl': PPLMetric(2.509e+04),
  'cbt:NE/token_acc': AverageMetric(0.3464),
  'cbt:NE/token_em': AverageMetric(0),
  'cbt:CN/exs': SumMetric(2000),
  'cbt:CN/accuracy': ExactMatchMetric(0.001),
  'cbt:CN/f1': F1Metric(0.001),
  'cbt:CN/bleu-4': BleuMetric(1e-12),
  'cbt:CN/clen': AverageMetric(522.1),
  'cbt:CN/ctrunc': AverageMetric(0),
  'cbt:CN/ctrunclen': AverageMetric(0),
  'cbt:CN/llen': AverageMetric(2.004),
  'cbt:CN/ltrunc': AverageMetric(0),
  'cbt:CN/ltrunclen': AverageMetric(0),
  'cbt:CN/loss': AverageMetric(11.36),
  'cbt:CN/pp