# Caso Práctico

* Antes de procesar los texto con cualquier algoritmo de aprendizaje automático (supervisado o no supervisado) es necesario realizar un preporcesamiento con el objetivo de limpiar, normalizar y estructurar el texto.


* Para ello se propone el siguiente framework:


* Los pasos propuestos en este framework pueden abordarse en el orden que se quiera e incluso alguno de estas etapas no sería necesario realizarse en función de como tengamos los textos.


* Definamos a continuación lo que hay que realizar en cada uno de estos pasos:


1.- ***Eliminación de ruido***:

   * Este paso tiene como objetivo eliminar todos aquellos símbolos o caracteres que no aportan nada en el significado de las frases (ojo no confundir con las stop-words), como por ejemplo etiquetas HTML (para el caso del scraping), parseos de XML, JSON, etc.
    
2.- ***Tokenización***:
   * Este paso tiene como objetivo dividir las cadenas de texto del documento en piezas más pequeñas o tokens.
   * Aunque la tokenización es el proceso de dividir grandes cadenas de texto en cadenas más pequeñas, se suele diferenciar la:
       * ***Segmentation***: Tarea de dividir grandes cadenas de texto en piezas más pequeñas como oraciones o párrafos.
       * ***Tokenization***: Tarea de dividir grandes cadenas de texto solo y exclusivamente en palabras.
    
3.- ***Normalización***:

   * La normalización es una tarea que tiene como objetivo poner todo el texto en igualdad de condiciones:
        * Convertir todo el texto en mayúscula o minúsculas
        * Eliminar, puntos, comas, comillas, etc.
        * Convertir los números a su equivalente a palabras
        * Quitar las Stop-words
        * etc.
        
<hr>

## Ejemplo de Preprocesamiento de Texto.


* Aunque no hay una norma o guía de como realizar una normalización de texto ya que esta depende del problema a resolver y de la naturaleza del texto, vamos a mostrar a continuación algunas operaciones más o menos comúnes para la tokenización y normalización de los textos.


* En el siguiente ejemplo vamos a tokenizar y normalizar un texto:
    1. Transformar un texto en tokens
    2. Eliminar los tokens que son signos (puntuación, exclamación, etc.)
    3. Eliminar las palabras que tienen menos de 'N' caracteres
    4. Eliminar las palabras que son Stop Words
    5. Pasar el texto a minúsculas
    6. Lematización
    
    
* **Nota**: *la normalización de texto que se va a codificar a continuación puede codificarse de forma más optimizada sin la necesidad de recorrer tantas veces la lista de tokens. Ya que este es un ejemplo con fines didácticos, este se centra en los conceptos y no en la optimización*

In [1]:
#!pip install spacy

In [2]:
#!python -m spacy download es

In [3]:
import spacy
nlp = spacy.load('es_core_news_sm')

In [4]:
def get_tokens(text):
    """
    Función que dado un texto devuelve una lista con las palabras del texto no vacias
    """
    doc = nlp(text)
    return [word.text.strip() for word in doc if len(word.text.strip()) > 0]

In [5]:
def remove_punctuation(words):
    """
    Función que dada una lista de palabras, elimina los signos de puntuación
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.text for word in doc if not word.is_punct]

In [6]:
def remove_short_words(words, num_chars):
    """
    Función que dada una lista de palabras y un número mínimo de caracteres que tienen que tener
    las palabras, elimina todas las palabras que tengan menos caracteres que los indicados
    """
    return [word for word in words if len(word) > num_chars]

In [7]:
def remove_stop_words(words):
    """
    Función que dada una lista de palabras, elimina las Stop Words
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.text for word in doc if not word.is_stop]

In [8]:
def to_uppercase(words):
  """
  Función que dada una lista de palabaras, las transforma a mayusculas
  """
  return [word.upper() for word in words]

In [9]:
def to_lowercase(words):
    """
    Función que dada una lista de palabras, las transforma a minúsculas
    """
    return [word.lower() for word in words]

In [10]:
def lemmatizer(text):
    """
    Función que dado un texto, devuelve una lista de lemas de las palabras en el texto
    """
    doc = nlp(text)
    return [token.lemma_ for token in doc]

In [11]:
def normalize(text):
    """
    Dado un texto, devuelve el texto tokenizado y normalizado
    """
    words = get_tokens(text=text)
    words = remove_punctuation(words=words)
    words = remove_short_words(words=words, num_chars=3)
    words = remove_stop_words(words)
    words = to_uppercase(words)
    words = to_lowercase(words)
    lemmatized_text = " ".join(words)  # Unir las palabras en una cadena de texto
    lemmatized_words = lemmatizer(lemmatized_text)  # Aplicar lemmatizer al texto unido
    return lemmatized_words

In [None]:
#def lemmatizer(words):
    """
    Función que dada una lista de palabras, devuelve esa lista con el lema de cada una de esas palabras
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.lemma_ for word in doc]

In [48]:
#def normalize(text):
    """
    Dado un texto, devuelve el texto tokenizado y normalizado
    """
    words = get_tokens(text=text)
    words = remove_punctuation(words=words)
    words = remove_short_words(words=words, num_chars=3)
    words = remove_stop_words(words)
    words = to_uppercase(words)
    words = to_lowercase(words)
    words = lemmatizer(words)
    return words

#### Pasamos a tokenizar y normalizar el siguiente texto usando la función de normalización realizada

In [12]:
raw = """Lionel Andrés Messi Cuccittini, conocido como Leo Messi, es un futbolista argentino que juega como delantero o centrocampista. Desde 2023, integra el plantel del Inter Miami de la MLS canadoestadounidense. Es también internacional con la selección de Argentina, de la que es capitán."""
print(normalize(raw))

['lionel', 'andrés', 'messi', 'cuccittini', 'conocido', 'messi', 'futbolista', 'argentino', 'jugar', 'delantero', 'centrocampista', '2023', 'integrar', 'plantel', 'inter', 'miami', 'canadoestadounidense', 'internacional', 'selección', 'argentino', 'capitán']


#### En este ejemplo podemos ver como reducimos las palabras (tokens) del texto original, quedandonos con lo importante y normalizado
#### Pasamos de 128 tokens del texto original a 44 tokens tras la normalización

In [13]:
print('Número de tokens del texto original: ' + str(len(get_tokens(raw))))
print('Número de tokens distintos del texto original: ' + str(len(set(get_tokens(raw)))))
print('Número de tokens tras la normalización: ' + str(len(normalize(raw))))
print('Número de tokens distintos tras la normalización: ' + str(len(set(normalize(raw)))))

Número de tokens del texto original: 50
Número de tokens distintos del texto original: 37
Número de tokens tras la normalización: 21
Número de tokens distintos tras la normalización: 19
