# 04 - Preprocesamiento de textos (Normalización)

* Antes de procesar los texto con cualquier algoritmo de aprendizaje automático (supervisado o no supervisado) es necesario realizar un preporcesamiento con el objetivo de limpiar, normalizar y estructurar el texto.


* Para ello se propone el siguiente framework:


* Los pasos propuestos en este framework pueden abordarse en el orden que se quiera e incluso alguno de estas etapas no sería necesario realizarse en función de como tengamos los textos.


* Definamos a continuación lo que hay que realizar en cada uno de estos pasos:


1.- ***Eliminación de ruido***: 

   * Este paso tiene como objetivo eliminar todos aquellos símbolos o caracteres que no aportan nada en el significado de las frases (ojo no confundir con las stop-words), como por ejemplo etiquetas HTML (para el caso del scraping), parseos de XML, JSON, etc.
    
2.- ***Tokenización***: 
   * Este paso tiene como objetivo dividir las cadenas de texto del documento en piezas más pequeñas o tokens.
   * Aunque la tokenización es el proceso de dividir grandes cadenas de texto en cadenas más pequeñas, se suele diferenciar la:
       * ***Segmentation***: Tarea de dividir grandes cadenas de texto en piezas más pequeñas como oraciones o párrafos.
       * ***Tokenization***: Tarea de dividir grandes cadenas de texto solo y exclusivamente en palabras.
    
3.- ***Normalización***:

   * La normalización es una tarea que tiene como objetivo poner todo el texto en igualdad de condiciones:
        * Convertir todo el texto en mayúscula o minúsculas
        * Eliminar, puntos, comas, comillas, etc.
        * Convertir los números a su equivalente a palabras
        * Quitar las Stop-words
        * etc.
        
<hr>

## Ejemplo de Preprocesamiento de Texto.


* Aunque no hay una norma o guía de como realizar una normalización de texto ya que esta depende del problema a resolver y de la naturaleza del texto, vamos a mostrar a continuación algunas operaciones más o menos comúnes para la tokenización y normalización de los textos.


* Si bien este ejemplo esta hecho utilizando la librería de ***spaCy*** (ya que lo vamos a aplicar sobre un texto en Español) puede realizarse tambien con la librería de ***NLTK*** e incluso determinadas funcionalidades de tratamiento de strings lo podemos hacer con otras librerías.


* En el siguiente ejemplo vamos a tokenizar y normalizar un texto:
    1. Transformar un texto en tokens
    2. Eliminar los tokens que son signos (puntuación, exclamación, etc.)
    3. Eliminar las palabras que tienen menos de 'N' caracteres
    4. Eliminar las palabras que son Stop Words
    5. Pasar el texto a minúsculas
    6. Lematización
    
    
* **Nota**: *la normalización de texto que se va a codificar a continuación puede codificarse de forma más optimizada sin la necesidad de recorrer tantas veces la lista de tokens. Ya que este es un ejemplo con fines didácticos, este se centra en los conceptos y no en la optimización*

In [1]:
import spacy
nlp = spacy.load('es_core_news_sm')

In [2]:
def get_tokens(text):
    """
    Función que dado un texto devuelve una lista con las palabras del texto no vacias
    """
    doc = nlp(text)
    return [word.text.strip() for word in doc if len(word.text.strip()) > 0]

In [4]:
def remove_punctuation(words):
    """
    Función que dada una lista de palabras, elimina los signos de puntuación
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.text for word in doc if not word.is_punct]

In [5]:
def remove_short_words(words, num_chars):
    """
    Función que dada una lista de palabras y un número mínimo de caracteres que tienen que tener
    las palabras, elimina todas las palabras que tengan menos caracteres que los indicados
    """
    return [word for word in words if len(word) > num_chars]

In [6]:
def remove_stop_words(words):
    """
    Función que dada una lista de palabras, elimina las Stop Words
    """
    doc = nlp(" ".join(words))
    return [word.text for word in doc if not word.is_stop]

In [7]:
def to_lowercase(words):
    """
    Función que dada una lista de palabras, las transforma a minúsculas
    """
    return [word.lower() for word in words]

In [8]:
def lemmatizer(words):
    """
    Función que dada una lista de palabras, devuelve esa lista con el lema de cada una de esas palabras
    """
    doc = nlp(" ".join(words))
    return [word.lemma_ for word in doc]

In [9]:
def normalize(text):
    """
    Dado un texto, devuelve el texto tokenizado y normalizado
    """
    words = get_tokens(text=text)
    words = remove_punctuation(words=words)
    words = remove_short_words(words=words, num_chars=3)
    words = remove_stop_words(words)
    words = to_lowercase(words)
    words = lemmatizer(words)
    return words

#### Pasamos a tokenizar y normalizar el siguiente texto usando la función de normalización realizada

In [10]:
raw = """El sector cultural fue uno de los más golpeados en esta pandemia, debido a la gran cantidad de espectáculos que fueron cancelados.
Sin embargo, gracias a la virtualidad fue posible seguir promoviendo iniciativas culturales.
Valiéndose de esta posibilidad, nació el año pasado UPC Cultural, el centro cultural que surgió con el claro propósito de democratizar la cultura y el arte.
Y en enero de este 2022 cumplió su primer año.
Con motivo de su aniversario, se realizó el conversatorio ‘La gestión cultural antes, durante y después de la pandemia’,
evento que tuvo como ponentes a Sergio Llusera, director del Centro Cultural de la Universidad del Pacífico, y María Eugenia Yllia, magíster en Museología
por la Universidad Ricardo Palma. Además, contó con la participación de Carina Moreno, docente de la carrera de Artes Escénicas de la UPC."""
print(normalize(raw))

['sector', 'cultural', 'golpeado', 'pandemiar', 'cantidad', 'espectáculo', 'cancelado', 'gracias', 'virtualidad', 'seguir', 'promover', 'iniciativa', 'cultural', 'valer él', 'posibilidad', 'nacer', 'cultural', 'centro', 'cultural', 'surgir', 'propósito', 'democratizar', 'cultura', 'arte', 'enero', '2022', 'cumplir', 'motivo', 'aniversario', 'conversatorio', 'gestión', 'cultural', 'pandemio', 'evento', 'ponentes', 'sergio', 'llusera', 'director', 'centro', 'cultural', 'universidad', 'pacífico', 'maría', 'eugenia', 'yllia', 'magíster', 'museología', 'universidad', 'ricardo', 'palma', 'contar', 'participación', 'carín', 'moreno', 'docente', 'carrera', 'art', 'escénico']


#### En este ejemplo podemos ver como reducimos las palabras (tokens) del texto original, quedandonos con lo importante y normalizado
#### Pasamos de 156 tokens del texto original a 58 tokens tras la normalización

In [11]:
print('Número de tokens del texto original: ' + str(len(get_tokens(raw))))
print('Número de tokens distintos del texto original: ' + str(len(set(get_tokens(raw)))))
print('Número de tokens tras la normalización: ' + str(len(normalize(raw))))
print('Número de tokens distintos tras la normalización: ' + str(len(set(normalize(raw)))))

Número de tokens del texto original: 156
Número de tokens distintos del texto original: 97
Número de tokens tras la normalización: 58
Número de tokens distintos tras la normalización: 51
