# Caso Práctico 4.2

* Antes de procesar los texto con cualquier algoritmo de aprendizaje automático (supervisado o no supervisado) es necesario realizar un preporcesamiento con el objetivo de limpiar, normalizar y estructurar el texto.


* Para ello se propone el siguiente framework:


<img src="./imgs/007_framework_preprocesamiento_texto.png" style="width: 500px;"/>


* Los pasos propuestos en este framework pueden abordarse en el orden que se quiera e incluso alguno de estas etapas no sería necesario realizarse en función de como tengamos los textos.


* Definamos a continuación lo que hay que realizar en cada uno de estos pasos:


1.- ***Eliminación de ruido***: 

   * Este paso tiene como objetivo eliminar todos aquellos símbolos o caracteres que no aportan nada en el significado de las frases (ojo no confundir con las stop-words), como por ejemplo etiquetas HTML (para el caso del scraping), parseos de XML, JSON, etc.
    
2.- ***Tokenización***: 
   * Este paso tiene como objetivo dividir las cadenas de texto del documento en piezas más pequeñas o tokens.
   * Aunque la tokenización es el proceso de dividir grandes cadenas de texto en cadenas más pequeñas, se suele diferenciar la:
       * ***Segmentation***: Tarea de dividir grandes cadenas de texto en piezas más pequeñas como oraciones o párrafos.
       * ***Tokenization***: Tarea de dividir grandes cadenas de texto solo y exclusivamente en palabras.
    
3.- ***Normalización***:

   * La normalización es una tarea que tiene como objetivo poner todo el texto en igualdad de condiciones:
        * Convertir todo el texto en mayúscula o minúsculas
        * Eliminar, puntos, comas, comillas, etc.
        * Convertir los números a su equivalente a palabras
        * Quitar las Stop-words
        * etc.
        
<hr>

## Ejemplo de Preprocesamiento de Texto.


* Aunque no hay una norma o guía de como realizar una normalización de texto ya que esta depende del problema a resolver y de la naturaleza del texto, vamos a mostrar a continuación algunas operaciones más o menos comúnes para la tokenización y normalización de los textos.


* En el siguiente ejemplo vamos a tokenizar y normalizar un texto:
    1. Transformar un texto en tokens
    2. Eliminar los tokens que son signos (puntuación, exclamación, etc.)
    3. Eliminar las palabras que tienen menos de 'N' caracteres
    4. Eliminar las palabras que son Stop Words
    5. Pasar el texto a minúsculas
    6. Lematización
    
    
* **Nota**: *la normalización de texto que se va a codificar a continuación puede codificarse de forma más optimizada sin la necesidad de recorrer tantas veces la lista de tokens. Ya que este es un ejemplo con fines didácticos, este se centra en los conceptos y no en la optimización*

In [1]:
import spacy
nlp = spacy.load('es_core_news_sm')

In [2]:
def get_tokens(text):
    """
    Función que dado un texto devuelve una lista con las palabras del texto no vacias
    """
    doc = nlp(text)
    return [word.text.strip() for word in doc if len(word.text.strip()) > 0]

In [3]:
def remove_punctuation(words):
    """
    Función que dada una lista de palabras, elimina los signos de puntuación
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.text for word in doc if not word.is_punct]

In [4]:
def remove_short_words(words, num_chars):
    """
    Función que dada una lista de palabras y un número mínimo de caracteres que tienen que tener
    las palabras, elimina todas las palabras que tengan menos caracteres que los indicados
    """
    return [word for word in words if len(word) > num_chars]

In [5]:
def remove_stop_words(words):
    """
    Función que dada una lista de palabras, elimina las Stop Words
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.text for word in doc if not word.is_stop]

In [6]:
def to_lowercase(words):
    """
    Función que dada una lista de palabras, las transforma a minúsculas
    """
    return [word.lower() for word in words]

In [7]:
def lemmatizer_DEPRECATED(words):
    """
    Función que dada una lista de palabras, devuelve esa lista con el lema de cada una de esas palabras
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.lemma_ for word in doc]


In [8]:
def lemmatizer(words):
    """
    Función que dada una lista de palabras, devuelve esa lista con el lema de cada una de esas palabras
    """
    tempDocument = ' '.join(words)
    # Opcional nlp = spacy.load("es_core_web_sm")
    tempDocument = nlp(tempDocument)
    return [word.lemma_ for word in tempDocument]

In [9]:
def normalize(text):
    """
    Dado un texto, devuelve el texto tokenizado y normalizado
    """
    words = get_tokens(text=text)
    words = remove_punctuation(words=words)
    words = remove_short_words(words=words, num_chars=3)
    words = remove_stop_words(words)
    words = to_lowercase(words)
    words = lemmatizer(words)
    return words

#### Pasamos a tokenizar y normalizar el siguiente texto usando la función de normalización realizada

In [10]:
raw = """Fernando Alonso ha vuelto a sacar petróleo de la carrera, saliendo 13º y acabando 7º un 
         gran premio que ha coronado adelantando en pista a Sebastian Vettel, líder del Mundial.
         Aunque no ha querido sacar pecho por ello: "Su coche estaba tocado, tenía problemas de dirección, 
         estaban en clara desventaja e iba perdiendo cada vez más, vi que en la recta iba a ser imposible 
         adelantarle incluso con el DRS no conseguía pillarle así que como se abría mucho pensé que en la 
         primera curva que pudiera lo intentaba por dentro y a la primera salió bien y creo que hay que 
         estar contentos, séptimos otra vez, sumando puntos en las tres carreras", ha señalado."""
print(normalize(raw))

['fernando', 'alonso', 'vuelto', 'sacar', 'petróleo', 'carrera', 'salir', 'acabar', 'premio', 'coronado', 'adelantar', 'pista', 'sebastiar', 'vettel', 'líder', 'mundial', 'querido', 'sacar', 'pecho', 'coche', 'tocado', 'problema', 'dirección', 'claro', 'desventajo', 'perder', 'recta', 'imposible', 'adelantar él', 'conseguía', 'pillar él', 'aber', 'pensé', 'curir', 'poder', 'intentar', 'salir', 'contento', 'séptir', 'sumar', 'punto', 'carrera', 'señalado']


#### En este ejemplo podemos ver como reducimos las palabras (tokens) del texto original, quedandonos con lo importante y normalizado
#### Pasamos de 128 tokens del texto original a 44 tokens tras la normalización

In [11]:
print('Número de tokens del texto original: ' + str(len(get_tokens(raw))))
print('Número de tokens distintos del texto original: ' + str(len(set(get_tokens(raw)))))
print('Número de tokens tras la normalización: ' + str(len(normalize(raw))))
print('Número de tokens distintos tras la normalización: ' + str(len(set(normalize(raw)))))

Número de tokens del texto original: 128
Número de tokens distintos del texto original: 91
Número de tokens tras la normalización: 43
Número de tokens distintos tras la normalización: 40


In [12]:
# No funciona el programa, veamos que pasa si lo hacemos a mano
texto = """El Tribunal Electoral (TE) ha recordado a los partidos políticos y a todos los que aspiran a cargos de elección popular por la 
libre postulación que estamos en un período de veda electoral, en la que las manifestaciones populares o la propaganda está prohibida. 
No obstante, hay políticos que burlan la prohibición con creativos métodos que hacen posible hacer campaña sin la aparente violación de 
las normas. Estas nuevas fórmulas deberían ser identificadas por la Fiscalía Electoral para someterlas..."""

print("Paso 1: Get Tokens.")
temp = get_tokens(text=texto)
print(temp)


Paso 1: Get Tokens.
['El', 'Tribunal', 'Electoral', '(', 'TE', ')', 'ha', 'recordado', 'a', 'los', 'partidos', 'políticos', 'y', 'a', 'todos', 'los', 'que', 'aspiran', 'a', 'cargos', 'de', 'elección', 'popular', 'por', 'la', 'libre', 'postulación', 'que', 'estamos', 'en', 'un', 'período', 'de', 'veda', 'electoral', ',', 'en', 'la', 'que', 'las', 'manifestaciones', 'populares', 'o', 'la', 'propaganda', 'está', 'prohibida', '.', 'No', 'obstante', ',', 'hay', 'políticos', 'que', 'burlan', 'la', 'prohibición', 'con', 'creativos', 'métodos', 'que', 'hacen', 'posible', 'hacer', 'campaña', 'sin', 'la', 'aparente', 'violación', 'de', 'las', 'normas', '.', 'Estas', 'nuevas', 'fórmulas', 'deberían', 'ser', 'identificadas', 'por', 'la', 'Fiscalía', 'Electoral', 'para', 'someterlas', '...']


In [13]:
print("Paso 2: Eliminar puntuacion.")
temp2 = remove_punctuation(words=temp)
print(temp2)

Paso 2: Eliminar puntuacion.
['El', 'Tribunal', 'Electoral', 'TE', 'ha', 'recordado', 'a', 'los', 'partidos', 'políticos', 'y', 'a', 'todos', 'los', 'que', 'aspiran', 'a', 'cargos', 'de', 'elección', 'popular', 'por', 'la', 'libre', 'postulación', 'que', 'estamos', 'en', 'un', 'período', 'de', 'veda', 'electoral', 'en', 'la', 'que', 'las', 'manifestaciones', 'populares', 'o', 'la', 'propaganda', 'está', 'prohibida', 'No', 'obstante', 'hay', 'políticos', 'que', 'burlan', 'la', 'prohibición', 'con', 'creativos', 'métodos', 'que', 'hacen', 'posible', 'hacer', 'campaña', 'sin', 'la', 'aparente', 'violación', 'de', 'las', 'normas', 'Estas', 'nuevas', 'fórmulas', 'deberían', 'ser', 'identificadas', 'por', 'la', 'Fiscalía', 'Electoral', 'para', 'someterlas']


In [14]:
print("Paso 3: Eliminar N-Gramas")
temp3 = remove_short_words(words=temp2, num_chars=3)
print(temp3)

Paso 3: Eliminar N-Gramas
['Tribunal', 'Electoral', 'recordado', 'partidos', 'políticos', 'todos', 'aspiran', 'cargos', 'elección', 'popular', 'libre', 'postulación', 'estamos', 'período', 'veda', 'electoral', 'manifestaciones', 'populares', 'propaganda', 'está', 'prohibida', 'obstante', 'políticos', 'burlan', 'prohibición', 'creativos', 'métodos', 'hacen', 'posible', 'hacer', 'campaña', 'aparente', 'violación', 'normas', 'Estas', 'nuevas', 'fórmulas', 'deberían', 'identificadas', 'Fiscalía', 'Electoral', 'para', 'someterlas']


In [15]:
print("Paso 4: Eliminar Stop Words.")
temp4 = remove_stop_words(temp3)
print(temp4)

Paso 4: Eliminar Stop Words.
['Tribunal', 'Electoral', 'recordado', 'partidos', 'políticos', 'aspiran', 'cargos', 'elección', 'popular', 'libre', 'postulación', 'período', 'veda', 'electoral', 'manifestaciones', 'populares', 'propaganda', 'prohibida', 'obstante', 'políticos', 'burlan', 'prohibición', 'creativos', 'métodos', 'campaña', 'aparente', 'violación', 'normas', 'fórmulas', 'deberían', 'identificadas', 'Fiscalía', 'Electoral', 'someterlas']


In [16]:
print("Paso 5: Todo a Minuscula.")
temp5 = to_lowercase(temp4)
print(temp5)

Paso 5: Todo a Minuscula.
['tribunal', 'electoral', 'recordado', 'partidos', 'políticos', 'aspiran', 'cargos', 'elección', 'popular', 'libre', 'postulación', 'período', 'veda', 'electoral', 'manifestaciones', 'populares', 'propaganda', 'prohibida', 'obstante', 'políticos', 'burlan', 'prohibición', 'creativos', 'métodos', 'campaña', 'aparente', 'violación', 'normas', 'fórmulas', 'deberían', 'identificadas', 'fiscalía', 'electoral', 'someterlas']


In [17]:
print("Paso 6: Lamentizar.")
temp6 = lemmatizer(temp5)
print(temp6)

Paso 6: Lamentizar.
['tribunal', 'electoral', 'recordado', 'partido', 'político', 'aspirar', 'cargo', 'elección', 'popular', 'libre', 'postulación', 'período', 'vedir', 'electoral', 'manifestación', 'popular', 'propaganda', 'prohibido', 'obstante', 'político', 'burlar', 'prohibición', 'creativo', 'método', 'campaña', 'aparente', 'violación', 'norma', 'fórmula', 'deber', 'identificado', 'fiscalía', 'electoral', 'someter él']
