# Preprocesamiento de datos de texto

In [None]:
!pip install -U spacy
!python -m spacy download es_core_news_sm # Instalaci√≥n Modelo Spacy de procesamiento de lenguaje natural en espa√±ol
!pip install -U "datasets<3.0" #Con el fin de poder cargar el dataset de ejemplo

In [None]:
import datasets  # Biblioteca de manejo de conjuntos de datos para procesamiento de lenguaje natural
import es_core_news_sm  # Modelo Spacy de procesamiento de lenguaje natural en espa√±ol
import spacy  # Biblioteca de procesamiento de lenguaje natural
import pandas as pd  # Biblioteca de manejo de conjuntos de datos
import re  # M√≥dulo de expresiones regulares
import tokenizers  # Biblioteca de tokenizaci√≥n de texto
import nltk  # Biblioteca de procesamiento de lenguaje natural
from pathlib import Path  # Biblioteca para manejo de paths relativos

## ü§ó Datasets

ü§ó (HuggingFace) Datasets es una biblioteca de manejo de conjuntos de datos para procesamiento de lenguaje natural que se destaca por la simplicidad de sus m√©todos y el gran repositorio ü§ó Hub que contiene muchos conjuntos de datos libres para descargar s√≥lo con una linea de Python.

En nuestro curso trabajaremos con `spanish_diagnostics`, un conjunto de datos de nuestro grupo investigaci√≥n PLN@CMM que contiene textos de sospechas diagn√≥sticas de la lista de espera chilena y est√° etiquetado con el destino de la interconsulta; este destino puede ser `dental` o `no_dental`.

In [None]:
# Con esta linea descargamos el conjunto de datos completo
spanish_diagnostics = datasets.load_dataset('fvillena/spanish_diagnostics')

In [None]:
def normalize(text, remove_tildes=True):
    """Normaliza una cadena de texto convirti√©ndo todo a min√∫sculas, quitando los caracteres no alfab√©ticos y los tildes"""
    text = text.lower()  # Llevamos todo a min√∫scula
    # Reemplazamos los caracteres no alfab√©ticos por un espacio
    text = re.sub(r'[^A-Za-z√±√°√©√≠√≥√∫]', ' ', text)
    if remove_tildes:
        text = re.sub('√°', 'a', text)  # Reemplazamos los tildes
        text = re.sub('√©', 'e', text)
        text = re.sub('√≠', 'i', text)
        text = re.sub('√≥', 'o', text)
        text = re.sub('√∫', 'u', text)
    return text

In [None]:
spanish_diagnostics_normalized = spanish_diagnostics["train"].map(
    lambda x: {  # Utilizamos una funci√≥n an√≥nima que devuelve un diccionario
        # Esta es una nueva caracter√≠stica que agregaremos a nuestro conjunto de datos.
        "normalized_text": normalize(x["text"])
    })

In [None]:
spanish_diagnostics_normalized

Ahora nuestro conjunto de datos cuenta con una nueva caracter√≠stica `normalized_text`.

In [None]:
spanish_diagnostics_normalized[0]

## Tokenizaci√≥n

La tokenizaci√≥n es el proceso de demarcaci√≥n de secciones de una cadena de caracteres. Estas secciones podr√≠an ser oraciones, palabras o subpalabras.

El m√©todo m√°s simple para tokenizar una cadena de caracteres en nuestro lenguaje es la separaci√≥n por espacios. Aplicamos una separaci√≥n por espacios mediante el m√©todo `str.split()` sobre nuestro conjunto de datos normalizado.

In [None]:
spanish_diagnostics_normalized[0]["normalized_text"]

In [None]:
spanish_diagnostics_normalized[0]["normalized_text"].split()

Si bien el m√©todo de separaci√≥n por espacios funciona bien en nuestro conjunto de datos normalizado, tambi√©n quisi√©ramos tokenizar nuestro texto sin normalizar.

In [None]:
spanish_diagnostics_normalized[0]["text"]

In [None]:
spanish_diagnostics_normalized[0]["text"].split()

Al aplicar el mismo m√©todos podemos observar que no funciona totalmente bien debido a la presencia de caracteres no alfab√©ticos. Para solucionar esto, existen m√©todos basados en una serie de reglas para solucionar estos problemas. Utilizaremos la implementaci√≥n de un tokenizador basado en reglas de la biblioteca de procesamiento de lenguaje natural Spacy.

In [None]:
spacy_tokenizer = es_core_news_sm.load().tokenizer

In [None]:
list(spacy_tokenizer(spanish_diagnostics_normalized[0]["text"]))

Al utilizar el tokenizador basado en reglas, podemos tener resultados mucho mejores que los anteriores.

### ü§ó Tokenizers

ü§ó tambi√©n cuenta con una biblioteca llamada Tokenizers, con la cual podemos construir nuestro tokenizador basado en nuestro conjunto de datos.

Instanciamos el tokenizador con un modelo WordPiece, el cual parte construyendo un vocabulario que incluye todas los caracteres presentes en el conjunto de datos y posteriormente comienza a mezclar caracteres hasta encontrar conjuntos de caracteres que tienen m√°s probabilidad de aparecer juntos que separados.

In [None]:
tokenizer = tokenizers.Tokenizer(tokenizers.models.WordPiece())

Esta biblioteca nos permite a√±adir pasos de normalizaci√≥n directamente. Replicamos lo mismo que hacemos con nuestra funci√≥n `normalizer()`.

In [None]:
normalizer = tokenizers.normalizers.Sequence([
    tokenizers.normalizers.Lowercase(),  # Llevamos todo a min√∫scula
    # Separamos cada caracter seg√∫n los elementos que lo componen: √° -> (a, ¬¥)
    tokenizers.normalizers.NFD(),
    tokenizers.normalizers.StripAccents(),  # Eliminamos todos los acentos
    # Reemplazamos todos los caracteres no alfab√©ticos
    tokenizers.normalizers.Replace(tokenizers.Regex(r"[^a-z ]"), " ")
])

In [None]:
normalizer.normalize_str(spanish_diagnostics_normalized[0]["text"])

A√±adimos el normalizador al tokenizador

In [None]:
tokenizer.normalizer = normalizer

Pre tokenizamos nuestro conjunto de datos mediante espacio para delimitar el tama√±o que puede tener cada token.

In [None]:
tokenizer.pre_tokenizer = tokenizers.pre_tokenizers.Whitespace()

Instanciamos el entrenador que entrenar√° nuestro tokenizador.

In [None]:
trainer = tokenizers.trainers.WordPieceTrainer()

Entrenamos el tokenizador sobre nuestro conjunto de datos.

In [None]:
tokenizer.train_from_iterator(spanish_diagnostics_normalized["text"], trainer)

Mediante el m√©todo `Tokenizer.encode()` obtenemos la representaci√≥n tokenizada de nuesto texto. Esta representaci√≥n contiene varios atributos, donde los m√°s interesantes son:

- `ids`: Contiene nuestro texto representado a trav√©s de una lista que contiene los identificadores de cada token.
- `tokens`: Contiene nuestro texto representado a trav√©s de una lista que contiene el texto de cada token.

In [None]:
spanish_diagnostics_normalized[0]["text"]

In [None]:
tokenized_output = tokenizer.encode(spanish_diagnostics_normalized[0]["text"])

In [None]:
# Para ver todo el vocabulario del tonekizador consultar la siguiente funcion
tokenizer.get_vocab()

In [None]:
tokenized_output.ids

In [None]:
tokenized_output.tokens

Tal como lo hicimos anteriormente podemos aplicar paralelamente nuestro tokenizador sobre el conjunto de datos mediante el m√©todo `Dataset.map()`

In [None]:
spanish_diagnostics_normalized_tokenized = spanish_diagnostics_normalized.map(
    lambda x: {"tokenized_text": tokenizer.encode(x["text"]).tokens})

Nuestro conjunto de datos ahora contiene el texto tokenizado en la caracter√≠stica `tokenized_text`.

In [None]:
spanish_diagnostics_normalized_tokenized[0]

## Stemming y Lematizaci√≥n

Con el fin de disminuir la cantidad de caracter√≠sticas de las representaciones de texto existen m√©todos que reducen el tama√±o de vocabulario al eliminar inflexiones que puedan tener las palabras. Estos m√©todos son:

- Lematizaci√≥n: Este m√©todo lleva una palabra en su forma flexionada a su forma base, por ejemplo *tratada* -> *tratar*
- Stemming: Este m√©todo trunca las palabras de entrada mediante un algoritmo predefinido para encontrar la ra√≠z de la misma, por ejemplo *tratada* -> *trat*

El proceso de lematizaci√≥n lo haremos a trav√©s de la biblioteca Spacy y el proceso de stemming a trav√©s de la biblioteca NLTK utilizando el algoritmo Snowball.

Instanciamos el analizador de Spacy

In [None]:
nlp = es_core_news_sm.load()

Definimos como tokenizador el que entrenamos anteriormente.

In [None]:
def custom_tokenizer(text):
    tokens = tokenizer.encode(text).tokens
    return spacy.tokens.Doc(nlp.vocab, tokens)

In [None]:
nlp.tokenizer = custom_tokenizer

Instanciamos el Stemmer

In [None]:
stemmer = nltk.stem.SnowballStemmer("spanish")

Podemos verificar c√≥mo funcionan estos m√©todos sobre un texto de prueba de nuestro conjunto de datos.

In [None]:
spanish_diagnostics_normalized_tokenized[5]["text"]

In [None]:
for t in nlp(spanish_diagnostics_normalized_tokenized[5]["text"]):
    print(
        f"Token: {t.text}\nLema: {t.lemma_}\nStem: {stemmer.stem(t.text)}\n---")