<a href="https://colab.research.google.com/github/txusser/Master_IA_Sanidad/blob/main/Modulo_3/Clases/Semana_26_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Este cuaderno es una adaptación del trabajo previo de:
https://github.com/matiasbattocchia/datitos


Vamos a hacer un recorrido por los pasos básicos del pre-procesamiento de texto. Estos pasos son necesarios para transformar texto del lenguaje humano a un formato legible para máquinas para su posterior procesamiento.

Veremos cómo realizar estos pasos con código propio, para mayor entendimiento de lo que está sucediendo, y con [spaCy](https://spacy.io/).

En concreto, los pasos son:

1. **Limpieza**, la remoción del contenido no deseado.
2. **Normalización**, la conversión diferentes formas a una sola. 
3. **Tokenización**, la separación del texto en tókenes (unidades mínimas, por ejemplo palabras).
4. Separación en **conjuntos de datos**: entrenamiento, validación, prueba.
5. Generación del **vocabulario**, la lista de tókenes conocidos.
6. **Numericalización**, el mapeo de tókenes a números enteros.

Nota: El órden de los primeros tres pasos (limpieza, normalización, tokenización) puede variar según conveniencia. El resto de los pasos mantiene el órden.

## Dataset de ejemplo

¿Qué sería de esta publicación sin algunos ejemplos? En nuestro caso vamos a utilizar el dataset CodiEsp. Se trata de un corpus de textos clínicos en español:



In [None]:
!rm -r /content/sample_data
!wget https://zenodo.org/record/3837305/files/codiesp.zip
!unzip codiesp.zip >> /dev/null

rm: cannot remove '/content/sample_data': No such file or directory
--2023-02-13 17:48:58--  https://zenodo.org/record/3837305/files/codiesp.zip
Resolving zenodo.org (zenodo.org)... 188.185.124.72
Connecting to zenodo.org (zenodo.org)|188.185.124.72|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 11239591 (11M) [application/octet-stream]
Saving to: ‘codiesp.zip.1’


2023-02-13 17:49:20 (522 KB/s) - ‘codiesp.zip.1’ saved [11239591/11239591]

replace final_dataset_v4_to_publish/README.txt? [y]es, [n]o, [A]ll, [N]one, [r]ename: A


In [None]:
import pandas as pd
from os.path import join

dir_dataset = 'final_dataset_v4_to_publish'
train_dataset = join(dir_dataset,'train','trainX.tsv')

df = pd.read_csv(train_dataset, sep='\t', header=None)

In [None]:
with pd.option_context('display.max_colwidth', -1):
    
    display(df.sample(10))

Unnamed: 0,0,1,2,3,4
1989,S0211-57352007000200017-1,DIAGNOSTICO,r41.0,delirio,2271 2278
8657,S1698-69462006000400005-1,DIAGNOSTICO,c64.1,derecha carcinoma renal,2811 2818;2925 2940
7264,S1134-80462015000100006-1,DIAGNOSTICO,r52,dolor,1655 1660
6820,S1130-63432014000200011-1,DIAGNOSTICO,i10,hipertensión,211 223
2553,S0211-69952015000200015-1,DIAGNOSTICO,c94.6,procesos mieloproliferativos,1269 1297
8892,S1699-695X2015000300013-1,DIAGNOSTICO,e05.90,hipertiroidismo,2040 2055
658,S0004-06142009000100010-2,DIAGNOSTICO,r53.1,astenia,655 662
8251,S1139-76322015000100013-1,DIAGNOSTICO,l29.9,pruriginosas,105 117
8660,S1698-69462006000400005-1,DIAGNOSTICO,k63.5,pólipos colónica,1992 1999;2033 2041
8409,S1139-76322016000200010-1,DIAGNOSTICO,r60.9,edema,251 256


In [None]:
example_text_file = join(dir_dataset,'train','text_files','S0211-69952015000200015-1.txt')
f = open(example_text_file,'r')
example_text=f.read()
print(example_text)
f.close()


Varón de 70 años de raza blanca, con antecedentes de hiperplasia prostática benigna, fibrilación auricular recurrente y hemitiroidectomía derecha por hiperplasia nodular, así como insuficiencia renal crónica no estudiada (creatinina basal 1,5 mg/dl).
Acude a Urgencias por clínica de tres meses de evolución de inestabilidad de la marcha y debilidad generalizada (ingreso previo en otro centro por estos síntomas). Al examen físico, el paciente está deshidratado, confuso, bradipsíquico y con temblor distal.
Los datos analíticos se resumen en la (tabla 1), destacando deterioro importante de la función renal, hipercalcemia severa y elevación marcada de PTH (veinte veces sobre el valor de referencia del laboratorio). Se inicia sueroterapia, perfusión de furosemida y corticoides endovenosos, bifosfonatos y calcitonina. Debido a la severidad de la clínica neurológica, se indica simultáneamente terapia renal sustitutiva urgente mediante hemodiálisis con baja concentración de calcio en el dializa

## Expresiones regulares

Si las expresiones regulares no te resultan familiares entonces vale la pena estudiarlas brevemente, ya que las usaremos. Podés mirar este [tutorial](https://robologs.net/2019/05/05/como-utilizar-expresiones-regulares-regex-en-python) que encontramos en la web.

In [None]:
import re

## Limpieza

Muchas técnicas modernas no realizan limpieza alguna. Dependiendo de lo que queramos hacer tal vez convenga deshacernos de algunos elementos.

In [None]:
def limpiar(texto):
    puntuación = r'[,;.:¡!¿?@#$%&[\](){}<>~=+\-*/|\\_^`"\']'
    
    # signos de puntuación
    texto = re.sub(puntuación, ' ', texto)

    return texto

En esta función substituimos los signos de puntuación
    
    , ; . : ¡ ! ¿ ? @ # $ % & [ ] ( ) { } < > ~ = + - * / | \ _ ^ ` " '

por espacios (me gusta más; usar string vacío `''` para eliminarlos) medieante expresiones regulares (algunos caracteres tuvieron que ser escapados anteponiendo `\` por tener un significado especial para la expresión regular). Hacemos lo mismo con los dígitos. Veamos un ejemplo de funcionamiento.

In [222]:
limpiar('El paciente presenta fiebre/febrícula, tos y mocos')

'El paciente presenta fiebre febrícula  tos y mocos'

Otros elementos que podríamos pensar en remover son caracteres invisibles, espacios redundantes. Veremos que esto en particular también puede ser resulto en la tokenización.

## Normalización

Normalizar es la tarea de llevar lo que puede ser expresado de múltiples maneras como fechas, números y abreviaturas a una única forma. Por ejemplo

     13/03/30 -> trece de marzo de dos mil treinta
     DC -> departamento de computación

Se trata de una práctica clásica de la época de los modelos de lenguaje probabilísticos, que intentaban reducir lo más posible la cantidad de palabras. En cierta forma 1 palabra = 1 atributo (lo que en los '90s conocimos como convertibilidad). Elegir atributos es ingeniería de atributos, la parte central del *machine learning*, y lo justamente lo que el *deep learning* busca automatizar.

Sin embargo hay una normalización muy común hoy, el **convertir todo el texto a minúsculas**. En el caso del español, una normalización común es la **remoción de tildes**.

In [None]:
def normalizar(texto):
    # todo a minúsculas
    texto = texto.lower()

    # tildes y diacríticas
    texto = re.sub('á', 'a', texto)
    texto = re.sub('é', 'e', texto)
    texto = re.sub('í', 'i', texto)
    texto = re.sub('ó', 'o', texto)
    texto = re.sub('ú', 'u', texto)
    texto = re.sub('ü', 'u', texto)
    texto = re.sub('ñ', 'n', texto)

    return texto

In [223]:
normalizar('El paciente es español y tomará antibióticos')

'el paciente es espanol y tomara antibioticos'

Hay una librería llamada [unidecode](https://pypi.org/project/Unidecode) que realiza transliteración: representa letras o palabras de un alfabeto en otro, útil si tenemos caracteres en ruso (cirílico) o chino (caracteres Han), aún útil para el alfabeto latino cuando queremos pasar de Unicode a ASCII (lo que substituiría las tildes).

In [224]:
!pip install unidecode
from unidecode import unidecode

unidecode('El paciente es español y tomará antibióticos')

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


'El paciente es espanol y tomara antibioticos'

Una normalización que no vale la pena intentar con este dataset es la **correción ortográfica** con un paquete como [pyspellchecker](https://pypi.org/project/pyspellchecker). Los artículos incluídos en codiesp ya cuentan con corrección ortográfica

## Tokenización

Tokenizar es separar el texto en partes más pequeñas llamadas tókenes. Una unidad muy común es la palabras pero depende de lo que queramos hacer, si es que no hemos eliminado a los signos de puntuación estos también serían tókenes. Las palabras frecuentemente están compuestas por una raíz, prefijo y/o sufijo, por lo que podríamos decidir separarlos también. En inglés es común separar `it's` en `it` y `'s`, si bien en español esta situación no es común.

A diferencia de la limpieza y la normalización, la tokenización **es un paso indispesable** en la preparación de texto para su procesamiento.

Para el dataset en cuestión la tokenización es simple, vamos a separar seǵun espacios y demás caracteres invisibles como `\t` (tabulación) y `\n` (salto de línea). De haber signos de puntuación, pro ejemplo si quisiéramos procesar un documento extenso en oraciones, el proceso es más complejo ya que `final.` tiene un punto en vez de un espacio, y no siempre los puntos demarcan el final de un tóken como en `A.M.` y `P.M.`.

Debemos definir si elementos como los signos de puntuación son tókenes o si simplemente delimitan palabras o tókenes, en cuyo caso desaparecerían en el proceso. Mismo con los caracteres invisibles, si estuviésemos haciendo un modelo que programe en Python, la indentación es fundamental y deberiera mantenerse.

In [None]:
def tokenizar(texto):
    # IMPORTANTE: podría devolver una lista vacía
    return [tóken for tóken in texto.split()]

`split` también se encarga de los caracteres invisibles repetidos.

In [225]:
tokenizar('El paciente presenta síntomas de gripe')

['El', 'paciente', 'presenta', 'síntomas', 'de', 'gripe']

Varios modelos de lenguaje utilizan caracteres en vez de palabras como tókenes, esto es útil por varios motivos que listaremos más adelante. Otros utilizan partes de palabras como sílabas (las partes se determinan estadísticamente). Ver https://arxiv.org/pdf/1508.07909.pdf.

### Tokenización utilizando alguna librería

    pip install spacy
    python -m spacy download es_core_news_sm

In [None]:
!pip install spacy
!python -m spacy download es_core_news_sm

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
2023-02-13 17:52:23.719526: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer.so.7'; dlerror: libnvinfer.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2023-02-13 17:52:23.719731: W tensorflow/compiler/xla/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libnvinfer_plugin.so.7'; dlerror: libnvinfer_plugin.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/nvidia/lib:/usr/local/nvidia/lib64
2023-02-13 17:52:27.272289: E tensorflow/compiler/xla/stream_executor/cuda/cuda_driver.cc:267] failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected
Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collect

In [232]:
import spacy

nlp = spacy.load('es_core_news_sm')

doc = nlp('El paciente tiene síntomas de gripe')

print([tóken.text for tóken in doc])

['El', 'paciente', 'tiene', 'síntomas', 'de', 'gripe']


### *Stop words*

Hay listas armadas de palabras muy comunes (*stop words*). Podemos elaborarla de alguna manera o usar alguna existente.

    pip install nltk

In [None]:
!pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [229]:
import nltk
nltk.download('stopwords')
    
from nltk.corpus import stopwords

stopwords.words('spanish') [0:10]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se']

Un detalle a cuidar es que la tokenización usada para la lista de *stop words* tiene que haber sido la misma o similar que la usada para los documentos.

In [233]:
def filtrar_stop_words(doc):
    return [tóken for tóken in doc if tóken not in stopwords.words('spanish')]

filtrar_stop_words(
    ['el', 'paciente', 'tiene', 'síntomas', 'de', 'gripe'])

['paciente', 'síntomas', 'gripe']

## Otros pre-procesos

Clásicamente se aplicaban alguno de estos para reducir aún más la cantidad de palabras:

#### *Stemming*

*Stem*, de raíz, reduce la inflección de las palabras, mapeando un grupo de palabras a la misma raíz, sin importar si la raíz es una palabras válida en el lenguaje.

     caminando, caminar, camino -> camin

#### *Lemmatization*

A diferencia del *stemming*, la lematización reduce las palabras inflexadas a palabras que pertenecen al lenguaje. La raíz pasa a llamarse *lema*.

## Primera parte del pre-procesamiento

In [234]:
def preprocesar(texto):
    texto = limpiar(texto)
    texto = normalizar(texto)
    texto = tokenizar(texto)
    texto = filtrar_stop_words(texto)

    return texto

## Conjuntos de datos

En la competencias normalmente encontramos dos archivos, el de entrenamiento y el de inferencia —que le suelen llamar de prueba y es el que tenemos que predecir para entregar—. Del que suelen llamar `train` también tenemos que obtener el de validación.

In [235]:
train_dataset = join(dir_dataset,'train','trainX.tsv')
test_dataset = join(dir_dataset,'test','testX.tsv')

in_train_df = pd.read_csv(train_dataset, sep = '\t', header=None)
in_test_df = pd.read_csv(test_dataset, sep = '\t', header=None)

in_train_df = in_train_df.loc[in_train_df[1]=='DIAGNOSTICO']
in_test_df = in_test_df.loc[in_test_df[1]=='DIAGNOSTICO']

in_train_df

Unnamed: 0,0,1,2,3,4
2,S0004-06142005000700014-1,DIAGNOSTICO,n44.8,teste derecho aumentado de tamaño,1343 1376
3,S0004-06142005000700014-1,DIAGNOSTICO,z20.818,exposición a Brucella,594 615
4,S0004-06142005000700014-1,DIAGNOSTICO,r60.9,edemas,1250 1256
5,S0004-06142005000700014-1,DIAGNOSTICO,r52,dolores,78 85
6,S0004-06142005000700014-1,DIAGNOSTICO,a23.9,Brucella,607 615
...,...,...,...,...,...
9176,S2340-98942015000100005-1,DIAGNOSTICO,r06.00,disnea,942 948
9177,S2340-98942015000100005-1,DIAGNOSTICO,c56.2,carcinoma seroso papilar en ovario izquierdo,94 138
9178,S2340-98942015000100005-1,DIAGNOSTICO,r97.1,elevación de CA 125,413 432
9179,S2340-98942015000100005-1,DIAGNOSTICO,r55,pérdida de conocimiento,959 982


In [236]:
unique_docs = pd.unique(in_train_df[0])
train_df = pd.DataFrame(columns=['text','labels'])
for i in unique_docs:
  doc_df = in_train_df.loc[in_train_df[0]==i]
  labels = []
  for index_, row_ in doc_df.iterrows():
    label = row_[2]
    labels.append(label)
  labels = max(set(labels), key = labels.count)
  train_df = train_df.append({'text':i, 'labels':labels}, ignore_index=True)


unique_docs = pd.unique(in_test_df[0])
test_df = pd.DataFrame(columns=['text','labels'])
for i in unique_docs:
  doc_df = in_test_df.loc[in_test_df[0]==i]
  labels = []
  for index_, row_ in doc_df.iterrows():
    label = row_[2]
    labels.append(label)
  labels = max(set(labels), key = labels.count)
  test_df = test_df.append({'text':i, 'labels':labels}, ignore_index=True)
test_df


Unnamed: 0,text,labels
0,S0004-06142005000500011-1,s22.49xa
1,S0004-06142005000900014-1,n32.9
2,S0004-06142006000100010-1,n28.89
3,S0004-06142006000500012-1,c64.9
4,S0004-06142006000600014-1,n36.8
...,...,...
245,S1887-85712016000100005-1,t14.8
246,S1887-85712017000100004-1,s72.401
247,S1888-75462016000400180-1,s22.41x
248,S1888-75462017000100042-1,m25.439


Ahora estamos en condiciones de pre-procesar todo lo que tenemos:

In [None]:
train_docs = []

for doc_name in train_df['text']:
  text_file = join(dir_dataset,'train','text_files','%s.txt' % doc_name)
  f = open(text_file,'r')
  
  doc_text=f.read()
  plain_text = preprocesar(doc_text)
  f.close()

  train_docs.append(plain_text)

test_docs = []

for doc_name in test_df['text']:
  text_file = join(dir_dataset,'test','text_files','%s.txt' % doc_name)
  f = open(text_file,'r')
  
  doc_text=f.read()
  plain_text = preprocesar(doc_text)
  f.close()

  test_docs.append(plain_text)

Hemos pasado de una Series de Pandas, array de NumPy o una **lista de strings**

Un poco de nomenclatura: estamos llamando corpus a la colección de textos. Nos referimos también a los textos como documentos. También estamos usando el término lote (*batch*) para referirnos a un (sub)conjunto de documentos.

## Vocabulario

Este paso es importante. Aquí definimos y limitamos la tókenes que vamos a utilizar. El lenguaje es infinito, para convertirlo en un problema tratable muchas veces los que hacemos es reducirlo. Clave para varias prácticas de reducción es contar las frecuencias de los tókenes, esto es, cuántas veces aparece cada tóken en todo el corpus. Como mencionamos las palabras más frecuentes no aportan mucha información y las más infrecuentes si bien son las que más información tienen no llegarán a ser representativas para nuestro modelo. Descartar palabras poco frecuentes también afecta a errores ortográficos.

### Implementación

Veamos cómo acomodamos lo que hemos visto ahora en la clase `Vocab`.

In [271]:
# versión 4
import numpy as np
from itertools import chain
from collections import Counter

class Vocab():
    @property
    def índice_relleno(self):
        return self.mapeo.get(self.tóken_relleno)
    
    def __init__(self, tóken_desconocido='<unk>', tóken_relleno='<pad>', frecuencia_mínima=0.0, frecuencia_máxima=0.1,
                 longitud_mínima=1, longitud_máxima=np.inf, stop_words=['paciente', 'síntoma', 'tratamiento'], límite_vocabulario=None):
        
        self.tóken_desconocido = tóken_desconocido
        self.tóken_relleno = tóken_relleno
        self.frecuencia_mínima = frecuencia_mínima
        self.frecuencia_máxima = frecuencia_máxima
        self.longitud_mínima = longitud_mínima
        self.longitud_máxima = longitud_máxima
        self.stop_words = stop_words
        self.límite_vocabulario = límite_vocabulario
    
    # ningún cambio aquí
    def reducir_vocabulario(self, lote):
        contador_absoluto = Counter(chain(*lote))
        
        contador_documentos = Counter()
        
        for doc in lote:
            contador_documentos.update(set(doc))
        
        # frecuencia mínima
        if isinstance(self.frecuencia_mínima, int): # frecuencia de tóken
            vocabulario_mín = [tóken for tóken, frecuencia in contador_absoluto.most_common() if frecuencia >= self.frecuencia_mínima]
        else: # frecuencia de documento
            vocabulario_mín = [tóken for tóken, frecuencia in contador_documentos.most_common() if frecuencia/len(lote) >= self.frecuencia_mínima]
        
        # frecuencia máxima
        if isinstance(self.frecuencia_máxima, int): # frecuencia de tóken
            vocabulario_máx = [tóken for tóken, frecuencia in contador_absoluto.most_common() if self.frecuencia_máxima >= frecuencia]
        else: # frecuencia de documento
            vocabulario_máx = [tóken for tóken, frecuencia in contador_documentos.most_common() if self.frecuencia_máxima >= frecuencia/len(lote)]

        # intersección de vocabulario_mín y vocabulario_máx preservando el órden
        vocabulario = [tóken for tóken in vocabulario_mín if tóken in vocabulario_máx]

        # longitud
        vocabulario = [tóken for tóken in vocabulario if self.longitud_máxima >= len(tóken) >= self.longitud_mínima]
        
        # stop words
        vocabulario = [tóken for tóken in vocabulario if tóken not in self.stop_words]
        
        # límite
        vocabulario = vocabulario[:self.límite_vocabulario]
        
        return vocabulario
        
    def fit(self, lote):
        vocabulario = self.reducir_vocabulario(lote)
        
        if self.tóken_desconocido:
            vocabulario.append(self.tóken_desconocido)
        
        if self.tóken_relleno:
            vocabulario.insert(0, self.tóken_relleno)
        
        self.mapeo = {tóken: índice for índice, tóken in enumerate(vocabulario)}

        return self
    
    # ningún cambio aquí
    def transform(self, lote):
        if self.tóken_desconocido: # reemplazar
            return [[tóken if tóken in self.mapeo else self.tóken_desconocido for tóken in doc] for doc in lote]
        else: # ignorar
            return [[tóken for tóken in doc if tóken in self.mapeo] for doc in lote]
    
    # ningún cambio aquí
    def tókenes_a_índices(self, lote):
        lote = self.transform(lote)
        
        return [[self.mapeo[tóken] for tóken in doc] for doc in lote]
    
    # ningún cambio aquí
    def índices_a_tókenes(self, lote):
        mapeo_inverso = list(self.mapeo.keys())
        
        return [[mapeo_inverso[índice] for índice in doc] for doc in lote]
    
    def __len__(self):
        return len(self.mapeo)

## El pre-procesamiento hasta ahora

In [272]:
v = Vocab().fit(train_docs)

train_índices = v.tókenes_a_índices(train_docs)
test_índices = v.tókenes_a_índices(test_docs)

In [274]:
len(v)

15531

Con esto concluye la primera parte. Hay varias librerías que tienen clases que se encargan de efectuar los pasos que hemos visto. Tienen un comportamiento por defecto, que es configurable (los parámetros que hemos visto) y a su vez, personalizable, para reemplazar algunos o todos los pasos por código propio. En general son librerías desarrolladas por angloparlantes, funcionan *out-of-the-box* bien para el inglés; cuando queremos procesar texto en español vale la pena tener más control sobre estos procesos.

* [CountVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html) de scikit-learn.
* [TextDataBunch](https://docs.fast.ai/text.data.html#TextDataBunch.from_df) de fast.ai.

## Pre-procesando las etiquetas

Las etiquetas del dataset también necesitan ser convertidas a números enteros consecutivos. No lo pensamos para este fin pero `Vocab` sería útil en este aspecto. El único tema es que `Vocab.fit` y demás métodos esperan listas de listas de tókenes y a las etiquetas las encontramos en forma de listas de tókenes simplemente.

Podemos llevar la columna de las etiquetas a una lista de listas con `train_df['Intencion'].values.reshape(-1,1)`, de manera de poder interfacearlo con `Vocab`. Algo como `train_df[['Intencion']].values` para que Pandas devuelva un `DataFrame` en vez de una `Series` también funcionaría.

In [275]:
train_etiquetas = train_df[['labels']].values
test_etiquetas = test_df[['labels']].values

Todo lo que tenga que ver con limitación del vocabulario o agregado de tókenes especiales no nos interesa para este caso de uso.

In [276]:
vocabulario_etiquetas = Vocab(tóken_desconocido=None).fit(train_etiquetas)

train_etiquetas = vocabulario_etiquetas.tókenes_a_índices(train_etiquetas)
test_etiquetas = vocabulario_etiquetas.tókenes_a_índices(test_etiquetas)


Ya casi estamos. Solo debemos reconvertir a las etiquetas en una lista de índices (su dimensión original) con un recurso que ya conocemos.

In [267]:
train_etiquetas_índices = list(chain(*train_etiquetas))
test_etiquetas_índices = list(chain(*test_etiquetas))

train_etiquetas_índices[:10]

[45, 46, 1, 47, 2, 3, 48, 4, 49, 50]

Hasta ahora llegamos a convertir esto

```python
[
    'que se requiere para un prestamo personal',
    'me piden mi numero de cuenta es mi cbu',
]
```
 
en esto

```python
[
    [4160, 4683, 4484, 3703, 5294, 4011, 3825],
    [3275, 3854, 3319, 3554, 1532, 1462, 2151, 3319, 950],
]
```

donde dijimos que las partes fundamentales son la tokenización —separar a los documentos en unidades de información— y la numericalización —el asignarle a cada uno de los tókenes un número, más que nada para que la computadora, que gusta mucho de los números, sea feliz—.

También habíamos dicho que **un tóken es un atributo** pero no dijimos mucho más al respecto. Veamos cómo puede ser esto. La tarea de ejemplo es clasificar documentos. Estamos acustumbrados a tener muestras y etiquetas como `X` e `y` en las que la primera es una matriz de muestras (filas) y atributos (columnas), y la segunda suele ser una columna. Cuando el dataset está sin pre-procesar tenemos las muestras (filas) pero no los atributos (columnas), por lo general tenemos una única columna con los documentos en forma de strings, lo que mucha forma de atributos no tiene. 

Ahora que hemos pre-procesado el texto estamos a un paso de obtener los atributos. La función de los atributos es describir o caracterizar a las muestras. El modelo lee estos atributos para realizar inferencias. Hay distintas maneras de describir a los documentos, algunas más sofisticadas que otras, una intuitiva es aprovechar que los tókenes están numerados desde 0 hasta L (`len(vocabulario)`) y otorgarle una columna a cada uno en la matriz de atributos de tamaño N x L (donde N es la cantidad de muestras).

Hecho esto, solo resta contar cuántas veces aparece cada tóken en cada documento y asentarlo en la matriz.

```
                  |  bien  hola  si    todo
-------------------------------------------
'hola todo bien'  |  1     1     0     1
'si bien bien'    |  2     0     1     0
```

Como comentario, esta forma de describir los documentos ignora enteramente el órden de los tókenes, sabemos que el sentido de una oración puede cambir completamente si cambiamos algunas palabras de lugar. Para el problema en cuestión, no parece ser tan grave ya que para clasificar una pregunta podría bastar con reconocer algunas palabras claves como *cambio* y *clave* o *requisito* y *préstamo*.

Ver [tf-idf](https://es.wikipedia.org/wiki/Tf-idf).

### BONUS (Si hay tiempo)
## PyTorch

El típico bucle de entrenamiento de PyTorch tiene esta pinta.

```python
for época in range(N_ÉPOCAS):
    for lote in datos_entrenamiento:
        # reseteamos los gradientes
        optimizador.zero_grad()
        
        predicciones = red_neuronal(lote.X)
        pérdida = criterio(predicciones, lote.y)
        
        # calculamos los gradientes
        pérdida.backward()
    
        # aplicamos los gradientes
        optimizador.step()
```

Recordemos que a diferencia de otros modelos las redes neuronales revisitan varias veces el dataset, en lo que se llaman épocas, cada época es un recorrido por todas las muestras de entrenamiento.

En una época el dataset se puede mostrar entero, de a una muestra, o como es común hoy en día de a grupos o lotes (*batches*). La experiencia mostró que es útil variar el orden de las muestras en cada época.

PyTorch provee ciertas facilidades para el manejo de los datos con las clases definidas en [torch.utils.data](https://pytorch.org/docs/stable/data.html) a ser:
1. `Dataset`. Organiza los datos. Le pasamos un número o índice de muestra y nos devuelve la muestra usualmente como una tupla `(atributos, etiqueta)`.
1. `Sampler`. Salvo que lo queramos de otra manera, se encarga de brindar un orden aleatoreo de los índices del dataset; uno diferente cada vez que le preguntamos.
1. `BatchSampler`. Por defecto, se inicializa con un `Sampler` y el tamaño de lote. Se encarga de armar grupos de índices; diferentes cada vez que le preguntamos.
1. `DataLoader`. Valiéndose de los grupos de índices de `BatchSampler`, obtiene muestras de `Dataset`. De esta manera para cada época devuelve lotes de muestras al azar.  

Por `Sampler` y `BatchSampler` no nos detendremos ya el comportamiento por defecto, que es barajar el dataset en cada época y armar lotes del mismo tamaño es todo lo que necesitamos.

## DataLoader

`DataLoader` es un *iterable*. Los iterables son colecciones de elementos que se pueden recorrer; implementan el método `__iter__`, del que se espera que devuelva un objeto *iterador* (`iterador = iter(iterable)`). A su vez el iterador implementa el método `__next__` que se encarga devolver secuencialmente los elementos de la colección hasta que se agota; una vez que esto sucede el iterador debe ser descartado y en todo caso le pedimos al iterable que nos arme un nuevo iterador. Cuando usamos la construcción `for ítem in iterable`, el intérprete de Python implícitamente obtiene un iterador.

Ver la [sección de interables](https://docs.python.org/3/tutorial/classes.html#iterators) en el tutorial de Python.

In [192]:
lista = iter(['uno','dos'])

next(lista)

'uno'

In [208]:
from torch.utils.data import DataLoader

train_dl = DataLoader(train_ds, batch_size=20, shuffle=True)

*Le* estamos diciendo a `DataLoader` que queremos lotes de 32 muestras (`batch_size`) y que el armado de los lotes sea aleatorio (`shuffle`). 

In [210]:
def rellenar_documentos(lote, largos, índice_relleno):
    máximo_largo = max(largos)
    
    return [doc + [índice_relleno] * (máximo_largo - largos[i]) for i, doc in enumerate(lote)]

In [212]:
class AtriDicc():
    def __init__(self, *args, **kwargs):
        self.__dict__ = dict(*args, **kwargs)
    
    def __repr__(self):
        return repr(self.__dict__)

In [213]:
from torch.utils.data import Dataset

class Textset(Dataset):
    def __init__(self, documentos, etiquetas=None):
            
        self.documentos = documentos
        self.etiquetas  = etiquetas or np.full(len(documentos), np.nan)

    def __len__(self):
        return len(self.documentos)
    
    def __getitem__(self, item):
        return AtriDicc(
            documento = self.documentos[item],
            largo = len(self.documentos[item]),
            etiqueta =  self.etiquetas[item],
        )

In [217]:
train_ds = Textset(train_índices, train_etiquetas_índices)
len(train_ds)
train_ds[400].documento[:10]

[2, 14054, 160, 1, 28, 35, 2282, 7438, 112, 43]

## Función *collate*

*Collate* significa juntar diferentes piezas de información para ver sus similaridades y diferencias, también puede ser colectar y organizar las hojas de un reporte, un libro. En el contexto de `DataLoader` quiere decir arreglar el lote. Entonces esta función recibe una lista de elementos del `Dataset`, en nuestro caso una lista de de `AtriDicc`s, y debe devolver el lote en una forma útil y en lo posible realizar conversiones a tensores.

`DataLoader` posee una *collate function* por defecto que utiliza internamente y que en muchos casos funciona correctamente, pero otros como ahora que tenemos documentos de distinto largo nos toca definir una función propia.

In [218]:
def rellenar_lote(lote):
    """Prepara lotes para ingresar a nn.Embedding"""
    documentos = [elemento.documento for elemento in lote]
    largos     = [elemento.largo     for elemento in lote]
    etiquetas  = [elemento.etiqueta  for elemento in lote]

    rellenos = rellenar_documentos(documentos, largos, v.índice_relleno)
    
    return AtriDicc(
        documentos = torch.tensor(rellenos),
        etiquetas  = torch.tensor(etiquetas),
    )

Cuando instanciamos un `DataLoader` le pasamos la función que acabamos de definir.

In [219]:
train_dl = DataLoader(train_ds, collate_fn=rellenar_lote, batch_size=3, shuffle=True)

In [220]:
un_lote = next(iter(train_dl))
un_lote.documentos

tensor([[  53,  834,    1,  ...,   32, 5042,  291],
        [   2,   12,  357,  ...,    0,    0,    0],
        [ 402,  120,   53,  ...,    0,    0,    0]])

In [221]:
un_lote.etiquetas

tensor([185,   1,  62])

## Fuentes consultadas

https://github.com/matiasbattocchia/datitos/blob/master/_notebooks/2020-07-23-Preprocesamiento-de-texto-para-NLP-parte-1.ipynb
https://github.com/matiasbattocchia/datitos/blob/master/_notebooks/2020-07-30-Preprocesamiento-de-texto-para-NLP-parte-2.ipynb