# Práctico 1

[Enunciado](https://github.com/DiploDatos/AprendizajeProfundo/blob/master/Practico.md) del trabajo práctico.

**Implementación de red neuronal [Perceptrón Multicapa](https://en.wikipedia.org/wiki/Multilayer_perceptron) (MLP).**

## Integrantes
- Mauricio Caggia
- Luciano Monforte
- Gustavo Venchiarutti
- Guillermo Robiglio

## Importaciones

In [None]:
import json
import gzip
import pandas as pd
import numpy as np
from tqdm.notebook import tqdm
import torch
from torch.utils.data import Dataset, DataLoader, IterableDataset

## Constantes

In [None]:
ARCHIVO_SET_DE_ENTRENAMIENTO = './data/meli-challenge-2019/spanish.train.jsonl.gz'
ARCHIVO_DE_ENTRENAMIENTO_REDUCIDO = './data/train.json'
ARCHIVO_SET_DE_PRUEBA = './data/meli-challenge-2019/spanish.test.jsonl.gz'
ARCHIVO_DE_PRUEBA_REDUCIDO = './data/test.json'
ARCHIVO_SET_DE_VALIDACION = './data/meli-challenge-2019/spanish.validation.jsonl.gz'
ARCHIVO_DE_VALIDACION_REDUCIDO = './data/validation.json'
ARCHIVO_TOKENS = './data/meli-challenge-2019/spanish_token_to_index.json.gz'

## Carga de datos

Completa

In [None]:
%%time
file_paths = [ARCHIVO_SET_DE_ENTRENAMIENTO, # Ingresar opción 0 👁 ⚠ Tarda más de 2 minutos en cargar y puede que haya un desbordamiento de RAM o muera el kernel⚠
              ARCHIVO_SET_DE_PRUEBA,  # Ingresar opción 1
              ARCHIVO_SET_DE_VALIDACION] # Ingresar opción 2 ⚠ Tarda más de 30 segundos en cargar
i = int(input('Ingresar opción para carga de archivo (0 a 2): '))
df = pd.read_json(path_or_buf=file_paths[i], lines=True)

Reducida

In [None]:
%%time
file_paths = [ARCHIVO_DE_ENTRENAMIENTO_REDUCIDO, # Ingresar opción 0
              ARCHIVO_DE_PRUEBA_REDUCIDO, # Ingresar opción 1
              ARCHIVO_DE_VALIDACION_REDUCIDO] # Ingresar opción 2
i = int(input('Ingresar opción para carga de archivo (0 a 2): '))
df_reducido = pd.read_json(path_or_buf=file_paths[i], lines=False)

In [None]:
tokens = pd.read_json(path_or_buf=ARCHIVO_TOKENS, lines=True).T

## Análisis y visualización de los datos

El **set de entrenamiento** original tiene 4895280 registros con valores no nulos y 10 columnas. Las columnas de dicho dataset son:
- **language**: El idioma del dataset (españor o portugués). En el trabajo práctico utilizaremos solamente el dataset es español.
- **label_quality**: Calidad de la etiqueta (confiable o no confiable). Se dispone de 4508043 registros no confiables y 387237 registros confiables.
- **title**: El título que se asignó al producto.
- **category**: La categoría que se asignó al producto.
- **split**: El tipo de dataset. _train_ para el set de entrenamiento.
- **tokenized_title**: El título tokenizado. Esto significa que los datos fueron preprocesados.
- **data**: El número asignado a cada palabra del título tokenizado. Esta información es la que se utilizará para entrenar el modelo.
- **target**: El número que corresponde a cada categoría.
- **n_labels**: Cantidad de etiquetas numéricas correspondientes a las distintas categorías. 632 etiquetas (0 a 631) para el caso del set de entrenamiento.
- **size**: La cantidad de registros. 4895280 registros para el caso del set de entrenamiento.

El **set de prueba** original tiene 63680 registros con valores no nulos y 10 columnas. Las columnas de dicho dataset son:
- **language**: El idioma del dataset (españor o portugués). En el trabajo práctico utilizaremos solamente el dataset es español.
- **label_quality**: Calidad de la etiqueta (confiable o no confiable). Todas las etiquetas de este dataset son confiables.
- **title**: El título que se asignó al producto.
- **category**: La categoría que se asignó al producto.
- **split**: El tipo de dataset. _test_ para el set de prueba.
- **tokenized_title**: El título tokenizado. Esto significa que los datos fueron preprocesados.
- **data**: El número asignado a cada palabra del título tokenizado. Esta información es la que se utilizará para entrenar el modelo.
- **target**: El número que corresponde a cada categoría.
- **n_labels**: Cantidad de etiquetas numéricas correspondientes a las distintas categorías. 632 etiquetas (0 a 631) para el caso del set de prueba.
- **size**: La cantidad de registros. 63680 registros para el caso del set de prueba.

El **set de validación** original tiene 1223820 registros con valores no nulos y 10 columnas. Las columnas de dicho dataset son:
- **language**: El idioma del dataset (españor o portugués). En el trabajo práctico utilizaremos solamente el dataset es español.
- **label_quality**: Calidad de la etiqueta (confiable o no confiable). Se dispone de 1127189 registros no confiables y 96631 registros confiables.
- **title**: El título que se asignó al producto.
- **category**: La categoría que se asignó al producto.
- **split**: El tipo de dataset. _validation_ para el set de prueba.
- **tokenized_title**: El título tokenizado. Esto significa que los datos fueron preprocesados.
- **data**: El número asignado a cada palabra del título tokenizado. Esta información es la que se utilizará para entrenar el modelo.
- **target**: El número que corresponde a cada categoría.
- **n_labels**: Cantidad de etiquetas numéricas correspondientes a las distintas categorías. 632 etiquetas (0 a 631) para el caso del set de validación.
- **size**: La cantidad de registros. 1223820 registros para el caso del set de validación.

El archivo **spanish_token_to_index** tiene las 50002 correspondencias que existen entre las palabras tokenizadas del título y las etiquetas numéricas bajo la columna data en los sets de entrenamiento, prueba y validación.

In [None]:
df.head()

La siguiente celda se utiliza para reducir el dataset a partir del dataset completo.

Un atajo es cargar directamente el dataset reducido.

In [None]:
df_reducido = df.drop(columns=['language', 'label_quality', 'title',
                               'category', 'split', 'tokenized_title',
                               'n_labels', 'size'])

In [None]:
df_reducido.head()

In [None]:
df_reducido.tail()

Las siguientes tres celdas se utilizan una única vez para guardar un dataset reducido para cada conjunto de datos.

In [None]:
# df_reducido.to_json(ARCHIVO_DE_ENTRENAMIENTO_REDUCIDO)

In [None]:
# df_reducido.to_json(ARCHIVO_DE_PRUEBA_REDUCIDO)

In [None]:
# df_reducido.to_json(ARCHIVO_DE_VALIDACION_REDUCIDO)

### La columna *data*

El **dataset de entrenamiento** posee un total de 26129139 etiquetas (que se corresponden con una palabra toquenizada) comprendidad entre el 1 y el 50001, esto es, 50001 etiquetas diferentes que permiten anticipar que el tensor que se utilizará para el entrenamiento de la red neuronal tendrá una dimensión de 4895280 x 50001.

El **dataset de prueba** posee un total de 354208 etiquetas (que se corresponden con una palabra toquenizada) comprendidas entre el 1 y el 50001. En este conjunto de datos hay 25741 etiquetas diferentes. El tensor tendrá una dimensión de 63680 x 50001.

El **dataset de validación** posee un total de 6531439 etiquetas (que se corresponden con una palabra toquenizada) comprendidas entre el 1 y el 50001. En este conjunto de datos hay 49961 etiquetas diferentes. El tensor tendrá una dimensión de 1223820 x 50001.

**NOTA**: En ninguno de los casos aparece la etiqueta 0, por eso aquí hay un elemento menos que en la lista de las etiquetas de palabras tokenizadas.

In [None]:
data = df_reducido.data

lista_num_palabras = []
for id_palabras in data:
    lista_num_palabras += id_palabras
    

print('Cantidad de etiquetas:', len(lista_num_palabras))
print('Cantidad de etiquetas diferentes:', len(set(lista_num_palabras)))
print('Valor máximo:', max(lista_num_palabras))
print('Valor mínimo:', min(lista_num_palabras))

### La columna *target*

Contiene un número entero correspondiente a cada categoría. 632 etiquetas entre 0 y 631.

In [None]:
labels = df_reducido.target.unique()
print(f'{labels.shape[0]} etiquetas ordenadas como se muestra a continuación:')
np.sort(labels)

### Tokens y sus etiquetas

Las siguientes 3 celdas de código demuestran que la relación entre los datos bajo las columnas `tokenized_title` y `data` está dada en el archivo `spanish_token_to_index` que vincula cada palabra a un índice numérico entero.

In [None]:
i = 0 # Un índice cualquiera para extraer datos
items = df.at[i, 'tokenized_title']
items

In [None]:
# Comparar la salida de esta celda con la de la siguiente
df.at[i, 'data']

In [None]:
nro_items = []
for item in items:
    id_item = tokens.loc[item][0]
    nro_items.append(id_item)
nro_items

## Construcción del Dataset

In [None]:
filas = df_reducido.shape[0]
columnas = 50001
esqueleto = np.zeros((filas, columnas), dtype=np.int8)

In [None]:
matriz = pd.DataFrame(esqueleto, columns=range(1,columnas+1))
matriz

In [None]:
for i in range(len(df_reducido)):
    lista_de_etiquetas = df_reducido.iloc[i, 0]
    for etiqueta in lista_de_etiquetas:
        matriz.iloc[i, etiqueta-1] = 1

In [None]:
torch.tensor(matriz.values).shape

In [None]:
class PrimerDataset(Dataset):
    def __init__(self, df_reducido):
        self.df_reducido = df_reducido
    
    def __len__(self):
        pass
    
    def __getitem__(self):
        pass
    
    def hacer_esqueleto(self):
        filas = self.df_reducido.shape[0]
        columnas = 50001
        esqueleto = np.zeros((filas, columnas), dtype=np.int8)
        return esqueleto
    
    def hacer_matriz(self, esqueleto):
        matriz = pd.DataFrame(esqueleto, columns=range(1,columnas+1))
    
primer_dataset = PrimerDataset()

## Dataset de PyTorch

In [None]:
class MeLiChallengeDataset(IterableDataset):
    def __init__(self):
        opcion = input('¿Qué dataset querés cargar ([train]/test/valid)? ')
        if opcion == 'test':
            self.file_path = './data/meli-challenge-2019/spanish.test.jsonl.gz'
        elif opcion == 'valid':
            self.file_path = './data/meli-challenge-2019/spanish.validation.jsonl.gz'
        else:
            self.file_path = './data/meli-challenge-2019/spanish.train.jsonl.gz'
        
    def __iter__(self):
        print('Cargando', self.file_path)
        with gzip.open(self.file_path, "rt") as file:
            for line in file:
                data = json.loads(line)
                item = {
                    "data": self.crear_fila_del_tensor(),
                    "target": data['target']
                }
                yield item
                
    def crear_fila_del_tensor(self):
        tensor = torch.tensor((), dtype=torch.int8)
        return tensor.new_zeros(10)

dataset = MeLiChallengeDataset()
dataloader = DataLoader(dataset, batch_size=4, shuffle=False, num_workers=0)
dataiter = iter(dataloader)
print(f"Sample batch:\n{dataiter.next()}")

In [None]:
tensor = torch.tensor((), dtype=torch.int8)

In [None]:
tensor.new_zeros((200, 100))

## Construcción del Modelo

## Optimizador

In [None]:
for input, target in dataset:
    optimizer.zero_grad()
    output = model(input)
    loss = loss_fn(output, target)
    loss.backward()
    optimizer.step()

## Entrenamiento del Modelo

## Evaluación del Modelo

## Guardado de los parámetros del modelo