# 04 - Preprocesamiento de textos (Normalización)

* Antes de procesar los texto con cualquier algoritmo de aprendizaje automático (supervisado o no supervisado) es necesario realizar un preporcesamiento con el objetivo de limpiar, normalizar y estructurar el texto.


* Para ello se propone el siguiente framework:


<img src="./imgs/007_framework_preprocesamiento_texto.png" style="width: 500px;"/>


* Los pasos propuestos en este framework pueden abordarse en el orden que se quiera e incluso alguno de estas etapas no sería necesario realizarse en función de como tengamos los textos.


* Definamos a continuación lo que hay que realizar en cada uno de estos pasos:


1.- ***Eliminación de ruido***: 

   * Este paso tiene como objetivo eliminar todos aquellos símbolos o caracteres que no aportan nada en el significado de las frases (ojo no confundir con las stop-words), como por ejemplo etiquetas HTML (para el caso del scraping), parseos de XML, JSON, etc.
    
2.- ***Tokenización***: 
   * Este paso tiene como objetivo dividir las cadenas de texto del documento en piezas más pequeñas o tokens.
   * Aunque la tokenización es el proceso de dividir grandes cadenas de texto en cadenas más pequeñas, se suele diferenciar la:
       * ***Segmentation***: Tarea de dividir grandes cadenas de texto en piezas más pequeñas como oraciones o párrafos.
       * ***Tokenization***: Tarea de dividir grandes cadenas de texto solo y exclusivamente en palabras.
    
3.- ***Normalización***:

   * La normalización es una tarea que tiene como objetivo poner todo el texto en igualdad de condiciones:
        * Convertir todo el texto en mayúscula o minúsculas
        * Eliminar, puntos, comas, comillas, etc.
        * Convertir los números a su equivalente a palabras
        * Quitar las Stop-words
        * etc.
        
<hr>

## Ejemplo de Preprocesamiento de Texto.


* Aunque no hay una norma o guía de como realizar una normalización de texto ya que esta depende del problema a resolver y de la naturaleza del texto, vamos a mostrar a continuación algunas operaciones más o menos comúnes para la tokenización y normalización de los textos.


* Si bien este ejemplo esta hecho utilizando la librería de ***spaCy*** (ya que lo vamos a aplicar sobre un texto en Español) puede realizarse tambien con la librería de ***NLTK*** e incluso determinadas funcionalidades de tratamiento de strings lo podemos hacer con otras librerías.


* En el siguiente ejemplo vamos a tokenizar y normalizar un texto:
    1. Transformar un texto en tokens
    2. Eliminar los tokens que son signos (puntuación, exclamación, etc.)
    3. Eliminar las palabras que tienen menos de 'N' caracteres
    4. Eliminar las palabras que son Stop Words
    5. Pasar el texto a minúsculas
    6. Lematización
    
    
* **Nota**: *la normalización de texto que se va a codificar a continuación puede codificarse de forma más optimizada sin la necesidad de recorrer tantas veces la lista de tokens. Ya que este es un ejemplo con fines didácticos, este se centra en los conceptos y no en la optimización*

In [1]:
import spacy
nlp = spacy.load('es_core_news_sm')

In [2]:
def get_tokens(text):
    """
    Función que dado un texto devuelve una lista con las palabras del texto no vacias
    """
    doc = nlp(text)
    return [word.text.strip() for word in doc if len(word.text.strip()) > 0]

In [3]:
def remove_punctuation(words):
    """
    Función que dada una lista de palabras, elimina los signos de puntuación
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.text for word in doc if not word.is_punct]

In [4]:
def remove_short_words(words, num_chars):
    """
    Función que dada una lista de palabras y un número mínimo de caracteres que tienen que tener
    las palabras, elimina todas las palabras que tengan menos caracteres que los indicados
    """
    return [word for word in words if len(word) > num_chars]

In [5]:
def remove_stop_words(words):
    """
    Función que dada una lista de palabras, elimina las Stop Words
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.text for word in doc if not word.is_stop]

In [6]:
def to_lowercase(words):
    """
    Función que dada una lista de palabras, las transforma a minúsculas
    """
    return [word.lower() for word in words]

In [7]:
def lemmatizer(words):
    """
    Función que dada una lista de palabras, devuelve esa lista con el lema de cada una de esas palabras
    """
    doc = spacy.tokens.doc.Doc(nlp.vocab, words=words)
    return [word.lemma_ for word in doc]

In [8]:
def normalize(text):
    """
    Dado un texto, devuelve el texto tokenizado y normalizado
    """
    words = get_tokens(text=text)
    words = remove_punctuation(words=words)
    words = remove_short_words(words=words, num_chars=3)
    words = remove_stop_words(words)
    words = to_lowercase(words)
    words = lemmatizer(words)
    return words

#### Pasamos a tokenizar y normalizar el siguiente texto usando la función de normalización realizada

In [9]:
raw = """Fernando Alonso ha vuelto a sacar petróleo de la carrera, saliendo 13º y acabando 7º un 
         gran premio que ha coronado adelantando en pista a Sebastian Vettel, líder del Mundial.
         Aunque no ha querido sacar pecho por ello: "Su coche estaba tocado, tenía problemas de dirección, 
         estaban en clara desventaja e iba perdiendo cada vez más, vi que en la recta iba a ser imposible 
         adelantarle incluso con el DRS no conseguía pillarle así que como se abría mucho pensé que en la 
         primera curva que pudiera lo intentaba por dentro y a la primera salió bien y creo que hay que 
         estar contentos, séptimos otra vez, sumando puntos en las tres carreras", ha señalado."""
print(normalize(raw))

['fernando', 'alonso', 'volver', 'sacar', 'petróleo', 'carrera', 'salir', 'acabar', 'premiar', 'coronar', 'adelantar', 'pistar', 'sebastian', 'vettel', 'líder', 'mundial', 'querer', 'sacar', 'pechar', 'coche', 'tocar', 'problema', 'dirección', 'claro', 'desventaja', 'perder', 'recto', 'imposible', 'adelantarle', 'conseguir', 'pillarle', 'abrir', 'pensar', 'curvo', 'poder', 'intentar', 'salir', 'contento', 'séptimo', 'sumar', 'punto', 'carrera', 'señalar']


#### En este ejemplo podemos ver como reducimos las palabras (tokens) del texto original, quedandonos con lo importante y normalizado
#### Pasamos de 128 tokens del texto original a 44 tokens tras la normalización

In [10]:
print('Número de tokens del texto original: ' + str(len(get_tokens(raw))))
print('Número de tokens distintos del texto original: ' + str(len(set(get_tokens(raw)))))
print('Número de tokens tras la normalización: ' + str(len(normalize(raw))))
print('Número de tokens distintos tras la normalización: ' + str(len(set(normalize(raw)))))

Número de tokens del texto original: 128
Número de tokens distintos del texto original: 91
Número de tokens tras la normalización: 43
Número de tokens distintos tras la normalización: 40


<hr>


# Bonus Track - Tratamiento de Strings


## Codificación de Caracteres (Unicode)


* Uno de los quebraderos de cabeza que se tiene a la hora de trabajar con python (sobre todo con python 2.X) es el tema de la ***codificación de los textos (Strings)***.


* En un principio los ordenadores se diseñaron para utilizar el alfabeto ingles (que entre otras cosas no tiene ni acentos ni letras como la "ñ" para el Español) y por ese motivo se definió la codificación ***ASCII*** (***A***merican ***S***tandard ***C***ode for ***I***nformation ***I***nterchange) definido con 128 caracteres (7 bits para representar los 2<sup>7</sup> = 128 caracteres).


<img src="./imgs/019_ASCII.png" style="width: 500px;"/>


* Dado que en el resto de lenguas en el mundo hay muchos más caracteres, se definió una nueva codificación de caracteres denominada como ***UNICODE*** que representa alrededor de 110.000 caracteres.


* Por tanto para poder trabajar con Strings (codificados de diferente manera) se debería hacer lo siguiente:

    1. ¿Cual es la codificación de mi fichero original?
    2. **Decode**: Paso el string de mi fichero a Unicode (cambio de codificación)
    3. Realizo las operaciones que sean necesarias sobre los strings codificados en **Unicode**
    4. **Encode**: Escribo de **Unicode** a otra **codificación** el string con el que he trabajado

<img src="./imgs/008_Unicode_Decode_Encode.png" style="width: 500px;"/>


<hr>


## Operaciones con Strings


* Muchas veces tenemos que realizar operaciones de transforación sobre palabras o textos. A continuación se muestran algunas de las funciones más útiles para trabajar con strings:

|Nombre Función|Funcionalidad|
|---|---|
|[s.find(t)](#M1)|index of first instance of string t inside s (-1 if not found)|
|[s.rfind(t)](#M2)|index of last instance of string t inside s (-1 if not found)|
|[s.index(t)](#M3)|like s.find(t) except it raises ValueError if not found|
|[s.rindex(t)](#M4)|like s.rfind(t) except it raises ValueError if not found|
|[s.join(text)](#M5)|combine the words of the text into a string using s as the glue|
|[s.split(t)](#M6)|split s into a list wherever a t is found (whitespace by default)|
|[s.splitlines()](#M7)|split s into a list of strings, one per line|
|[s.lower()](#M8)|a lowercased version of the string s|
|[s.upper()](#M9)|an uppercased version of the string s|
|[s.title()](#M10)|a titlecased version of the string s|
|[s.strip()](#M11)|a copy of s without leading or trailing whitespace|
|[s.replace(t, u)](#M12)|replace instances of t with u inside s|

<hr>


### <a name="M1">s.find(t)</a>


* Encuentra la posición (indice) del string que se pasa como parámetro empezando a contar desde la izquierda.


* Si no encuentra el string, devuelve valor -1.

In [11]:
s = 'Ricardo Moya'
s.find('Moya')

8

In [12]:
s.find('a')

3

In [13]:
s.find('e')

-1

<hr>


### <a name="M2">s.rfind(t)</a>


* Hace lo mismo que "s.find(t)" pero empezando a contar desde la derecha.

In [14]:
s.rfind('a')

11

In [15]:
s.rfind('Moya')

8

<hr>


### <a name="M3">s.index(t)</a>


* Hace lo mismo que "s.find(t)", con la única diferencia que devuelve un error (en vez de un -1) si no encuentra el string que se pasa como parámetro.

In [16]:
s.index('Moya')

8

In [17]:
s.index('a')

3

In [18]:
s.index('e') # Devuelve un error

ValueError: substring not found

<hr>


### <a name="M4">s.rindex(t)


* Hace lo mismo que "s.index(t)" pero empezando a contar desde la derecha.

In [19]:
s.rindex('a')

11

In [20]:
s.rfind('Moya')

8

<hr>


### <a name="M5">separador.join(text)</a>


* Une cada letra del string que se le pasa como parámetro con el separador.

In [21]:
'-'.join(s)

'R-i-c-a-r-d-o- -M-o-y-a'

* Esta es una función muy utilizada para formar una cadena de texto con separador (por ejemplo un espacio en blanco) a partir de una lista o tupla:

In [22]:
lista = ["Un", "radar", "multa", "a", "Mariano", "Rajoy", "por", "caminar", "demasiado", "rapido"]
' '.join(lista)

'Un radar multa a Mariano Rajoy por caminar demasiado rapido'

<hr>


### <a name="M6">s.split(t)</a>


* Divide el String "***s***" en una lista siempre que encuentre un separador "***t***".


* Por defecto el separador es el espacio en blanco.

In [23]:
texto = "Un radar multa a Mariano Rajoy por caminar demasiado rapido"
texto.split(' ')

['Un',
 'radar',
 'multa',
 'a',
 'Mariano',
 'Rajoy',
 'por',
 'caminar',
 'demasiado',
 'rapido']

<hr>


### <a name="M7">s.splitlines()</a>


* Divide un String "***s***" en una lista siempre que encuentre un salto de linea (\n).

In [24]:
texto = """ linea 1\nlinea 2
linea 3
"""

texto.splitlines()

[' linea 1', 'linea 2', 'linea 3']

<hr>


### <a name="M8">s.lower()</a>


* Transforma un String "***s***" a minúsculas.

In [25]:
s = "MiNuSCuLaS"
s.lower()

'minusculas'

<hr>


### <a name="M9">s.upper()</a>


* Transforma un String "***s***" a mayúsculas.

In [26]:
s = "mAyUscUlAs"
s.upper()

'MAYUSCULAS'

<hr>


### <a name="M10">s.title()</a>


* Transforma el String "***s***" en formato título; es decir, pone la primera letra de cada palabra de String en mayúsculas y el resto en minúsculas.

In [27]:
s = "rIcArdO mOyA"
s.title()

'Ricardo Moya'

<hr>


### <a name="M11">s.strip()</a>


* Elimina los espacios en blanco y caracteres espaciales que hay tanto a la decrecha como a la izquierda del String "***s***".


* Existen también las variantes de:
    - s.rstrip(): Elimina los espacios en blanco y caracteres espaciales que hay a la derecha del string.
    - s.lstrip(): Elimina los espacios en blanco y caracteres espaciales que hay a la izquierda del string.

In [28]:
s = "   \tRicardo Moya  \t  "
s.strip()

'Ricardo Moya'

In [29]:
s.rstrip()

'   \tRicardo Moya'

In [30]:
s.lstrip()

'Ricardo Moya  \t  '

<hr>


### <a name="M12">s.replace(t, u)</a>


* Dado un String "***s***" sustituye cada aparición "***t***" por "***u***", pasandose "***t***" y "***u***" como parámetro.

In [31]:
s = "Un radar multa a Mariano Rajoy por caminar demasiado rapido"
s.replace("Mariano Rajoy", "un tio")

'Un radar multa a un tio por caminar demasiado rapido'