<div style="font-size: 200%; font-weight: bold; color: maroon; line-height: 32px">3 - NLP<br/>Preprocesado de texto
</div>
<!-- ThreePoints 2020 - v.1.0 -->

TODO

# Tokenización

Podemos segmentar los documentos en unidades de información más pequeños. Un libro puede dividirse, por ejemplo, en capítulos, éstos a su vez en párrafos, los párrafos en frases, las frases en palabras y las palabras en caracteres.

Usaremos como ejemplo [la sinópsis de El Padrino de filmaffinity](https://www.filmaffinity.com/es/film809297.html).

In [6]:
text = "América, años 40. Don Vito Corleone (Marlon Brando) es el respetado y temido jefe de una de las cinco familias de la mafia de Nueva York. Tiene cuatro hijos: Connie (Talia Shire), el impulsivo Sonny (James Caan), el pusilánime Fredo (John Cazale) y Michael (Al Pacino), que no quiere saber nada de los negocios de su padre. Cuando Corleone, en contra de los consejos de 'Il consigliere' Tom Hagen (Robert Duvall), se niega a participar en el negocio de las drogas, el jefe de otra banda ordena su asesinato. Empieza entonces una violenta y cruenta guerra entre las familias mafiosas. (FILMAFFINITY)"

Podemos recurrir a la [clase string de Python ](https://docs.python.org/2/library/string.html) que contiene multitud de métodos para el procesado de texto.

## Clase String

### Tokenización en frases

Seleccionamos como delimitador un punto (".").

In [7]:
sentences = text.split('.')

for idx, word in enumerate(sentences):
    print('Frase {0:5}{1:5}'.format(str(idx), word))
    if idx==5:  # mostramos solo las 5 primeras frases
        break

Frase 0    América, años 40
Frase 1     Don Vito Corleone (Marlon Brando) es el respetado y temido jefe de una de las cinco familias de la mafia de Nueva York
Frase 2     Tiene cuatro hijos: Connie (Talia Shire), el impulsivo Sonny (James Caan), el pusilánime Fredo (John Cazale) y Michael (Al Pacino), que no quiere saber nada de los negocios de su padre
Frase 3     Cuando Corleone, en contra de los consejos de 'Il consigliere' Tom Hagen (Robert Duvall), se niega a participar en el negocio de las drogas, el jefe de otra banda ordena su asesinato
Frase 4     Empieza entonces una violenta y cruenta guerra entre las familias mafiosas
Frase 5     (FILMAFFINITY)


### Tokenización en palabras

Seleccionamos como delimitador un espacio (" &nbsp;").

## Usando NLTK

También podemos emplear alguna librería para este propósito.

En este caso usaremos algunas utilidades que nos brinda [NLTK](https://www.nltk.org/) para tokenizar textos:
- word_tokenize : devuelve una copia "tokenizada" del texto usando el tokenizador recomendado en NLTK
- sent_tokenize : similar al _word tokenizer_, pero a nivel de frase
- regexp_tokenize: la tokenización se realiza basada en expresiones regulares (regex)
- TweetTokenizer: útil cuando se trabaja con tweets. Permite separar hashtags, menciones o menciones

In [8]:
from nltk.tokenize import sent_tokenize, word_tokenize

In [9]:
print(sent_tokenize(text))

['América, años 40.', 'Don Vito Corleone (Marlon Brando) es el respetado y temido jefe de una de las cinco familias de la mafia de Nueva York.', 'Tiene cuatro hijos: Connie (Talia Shire), el impulsivo Sonny (James Caan), el pusilánime Fredo (John Cazale) y Michael (Al Pacino), que no quiere saber nada de los negocios de su padre.', "Cuando Corleone, en contra de los consejos de 'Il consigliere' Tom Hagen (Robert Duvall), se niega a participar en el negocio de las drogas, el jefe de otra banda ordena su asesinato.", 'Empieza entonces una violenta y cruenta guerra entre las familias mafiosas.', '(FILMAFFINITY)']


In [10]:
print(word_tokenize(text))

['América', ',', 'años', '40', '.', 'Don', 'Vito', 'Corleone', '(', 'Marlon', 'Brando', ')', 'es', 'el', 'respetado', 'y', 'temido', 'jefe', 'de', 'una', 'de', 'las', 'cinco', 'familias', 'de', 'la', 'mafia', 'de', 'Nueva', 'York', '.', 'Tiene', 'cuatro', 'hijos', ':', 'Connie', '(', 'Talia', 'Shire', ')', ',', 'el', 'impulsivo', 'Sonny', '(', 'James', 'Caan', ')', ',', 'el', 'pusilánime', 'Fredo', '(', 'John', 'Cazale', ')', 'y', 'Michael', '(', 'Al', 'Pacino', ')', ',', 'que', 'no', 'quiere', 'saber', 'nada', 'de', 'los', 'negocios', 'de', 'su', 'padre', '.', 'Cuando', 'Corleone', ',', 'en', 'contra', 'de', 'los', 'consejos', 'de', "'Il", 'consigliere', "'", 'Tom', 'Hagen', '(', 'Robert', 'Duvall', ')', ',', 'se', 'niega', 'a', 'participar', 'en', 'el', 'negocio', 'de', 'las', 'drogas', ',', 'el', 'jefe', 'de', 'otra', 'banda', 'ordena', 'su', 'asesinato', '.', 'Empieza', 'entonces', 'una', 'violenta', 'y', 'cruenta', 'guerra', 'entre', 'las', 'familias', 'mafiosas', '.', '(', 'FILMA

## Usando spaCy

De manera análoga, podemos usar spaCy para tokenizar nuestros documentos.

In [11]:
import os
import spacy

basedir = os.path.dirname(spacy.__path__[0])
if not os.path.isdir(os.path.join(basedir, 'es_core_news_sm')):
    from spacy.cli import download
    download('es_core_news_sm')    

In [12]:
nlp = spacy.load('es_core_news_sm')

In [13]:
# Si la celda anterior falla, descomentar y ejecutar esta celda
# import es_core_news_sm
# nlp = es_core_news_sm.load()

In [15]:
doc = nlp(text)
for idx, token in enumerate(doc):
    print(token.text)
    if idx==5:
        break

América
,
años
40
.
Don


# Homogeneización

Con el objetivo de que 

De nuevo, la clase [string](https://docs.python.org/2/library/string.html) de Python nos permite normalizar el texto de multidud de maneras. Algunos ejemplos:

- **s.find(t)** índice de la primera instancia del string t en el string s (devuelve -1 si no lo encuentra)
- **s.rfind(t)** índice de la última instancia del string t en el string s (devuelve -1 si no lo encuentra)
- **s.join(text)** combina las palabras de un texto en un string donde s es la unión entre substrings. Puede aplicarse en listas de strings
- **s.rsplit(t)** separa un string s siempre que encuentre t. Por defecto t es un espacio en blanco (visto en el primer ejemplo sobre tokenización)
- **s.lower()** convierte a minúsculas el string s
- **s.upper()** convierte a mayúsculas el string s
- **s.title()** convierte el primer carácter del string s en mayúsculas y el resto a minúsculas
- **s.strip()** elimina espacios en blanco al inicio y al final del string s
- **s.replace(t, u)** reemplaza el string t por el string u en un string dado s
- **t in s** comprueba si el string t está contenido en el string s

In [34]:
text_test = text[:96]
text_test

'América, años 40. Don Vito Corleone (Marlon Brando) es el respetado y temido jefe de una de las '

In [35]:
text_test.find('Corleone')

27

In [36]:
text_test.find('de')

82

In [37]:
'-'.join(text_test)

'A-m-é-r-i-c-a-,- -a-ñ-o-s- -4-0-.- -D-o-n- -V-i-t-o- -C-o-r-l-e-o-n-e- -(-M-a-r-l-o-n- -B-r-a-n-d-o-)- -e-s- -e-l- -r-e-s-p-e-t-a-d-o- -y- -t-e-m-i-d-o- -j-e-f-e- -d-e- -u-n-a- -d-e- -l-a-s- '

In [38]:
'-'.join(text_test.split())

'América,-años-40.-Don-Vito-Corleone-(Marlon-Brando)-es-el-respetado-y-temido-jefe-de-una-de-las'

In [39]:
text_test.lower()

'américa, años 40. don vito corleone (marlon brando) es el respetado y temido jefe de una de las '

In [40]:
text_test.upper()

'AMÉRICA, AÑOS 40. DON VITO CORLEONE (MARLON BRANDO) ES EL RESPETADO Y TEMIDO JEFE DE UNA DE LAS '

In [41]:
text_test.title()

'América, Años 40. Don Vito Corleone (Marlon Brando) Es El Respetado Y Temido Jefe De Una De Las '

In [43]:
text_test.strip()

'América, años 40. Don Vito Corleone (Marlon Brando) es el respetado y temido jefe de una de las'

In [42]:
text_test.replace('de', 'XX')

'América, años 40. Don Vito Corleone (Marlon Brando) es el respetado y temido jefe XX una XX las '

In [45]:
print('America' in text_test)
print('América' in text_test)

False
True


Podemos también eliminar signos de puntuación:

In [57]:
import string

table = str.maketrans('', '', string.punctuation)
' '.join([word.translate(table) for word in text_test.split()])

'América años 40 Don Vito Corleone Marlon Brando es el respetado y temido jefe de una de las'

Y acentos:

In [59]:
import unicodedata

unicodedata.normalize('NFKD', text_test).encode('ascii', 'ignore').decode('utf-8', 'ignore')

'America, anos 40. Don Vito Corleone (Marlon Brando) es el respetado y temido jefe de una de las '

Lo habitual es concatenar varias de estas funciones en el momento de normalizar textos:

In [69]:
table = str.maketrans('', '', string.punctuation)

# Convertimos a minúsculas
text_aux = text_test.strip().lower()

# Eliminamos acentos
text_aux = unicodedata.normalize('NFKD', text_aux).encode('ascii', 'ignore').decode('utf-8', 'ignore')

# Eliminamos signos de puntuación
text_aux = ' '.join([word.translate(table) for word in text_aux.split()])

print('Texto original:\n{}'.format(text_test))
print('\nTexto normalizado:\n{}'.format(text_aux))

Texto original:
América, años 40. Don Vito Corleone (Marlon Brando) es el respetado y temido jefe de una de las 

Texto normalizado:
america anos 40 don vito corleone marlon brando es el respetado y temido jefe de una de las


# Stopwords

Palabras con -a priori- ningún significado o que aportan muy poca información. Suelen ser palabras muy comunes como, por ejemplo, preposiciones.

En NLP se suele trabajar con vocabularios enormes (en Don Quijote de la Mancha aparecen en torno a 23.000 palabras distintas) por lo que interesa filtras aquellas que menos información aporten. El que aporten o no información dependerá del caso de uso.

Existen multitud de listas de stopwords para diversos idiomas en Internet. Lo habitual es usar alguna de estas listas con conocimiento del dominio concreto de aplicación en el que nos encontremos, eliminando o inluyendo términos a dicha lista.

Por conveniencia, usaremos la lista de stopwords en castellano que incluye NLTK.

In [62]:
try:
    from nltk.corpus import stopwords
    stop_words = set(stopwords.words('spanish'))
except:
    import nltk
    nltk.download('stopwords')
    from nltk.corpus import stopwords
    stop_words = set(stopwords.words('spanish'))

In [63]:
stop_words

{'a',
 'al',
 'algo',
 'algunas',
 'algunos',
 'ante',
 'antes',
 'como',
 'con',
 'contra',
 'cual',
 'cuando',
 'de',
 'del',
 'desde',
 'donde',
 'durante',
 'e',
 'el',
 'ella',
 'ellas',
 'ellos',
 'en',
 'entre',
 'era',
 'erais',
 'eran',
 'eras',
 'eres',
 'es',
 'esa',
 'esas',
 'ese',
 'eso',
 'esos',
 'esta',
 'estaba',
 'estabais',
 'estaban',
 'estabas',
 'estad',
 'estada',
 'estadas',
 'estado',
 'estados',
 'estamos',
 'estando',
 'estar',
 'estaremos',
 'estará',
 'estarán',
 'estarás',
 'estaré',
 'estaréis',
 'estaría',
 'estaríais',
 'estaríamos',
 'estarían',
 'estarías',
 'estas',
 'este',
 'estemos',
 'esto',
 'estos',
 'estoy',
 'estuve',
 'estuviera',
 'estuvierais',
 'estuvieran',
 'estuvieras',
 'estuvieron',
 'estuviese',
 'estuvieseis',
 'estuviesen',
 'estuvieses',
 'estuvimos',
 'estuviste',
 'estuvisteis',
 'estuviéramos',
 'estuviésemos',
 'estuvo',
 'está',
 'estábamos',
 'estáis',
 'están',
 'estás',
 'esté',
 'estéis',
 'estén',
 'estés',
 'fue',
 'f

Eliminamos stopwords del texto normalizado:

In [68]:
table = str.maketrans('', '', string.punctuation)

# Convertimos a minúsculas
text_aux = text_test.strip().lower()

# Eliminamos acentos
text_aux = unicodedata.normalize('NFKD', text_aux).encode('ascii', 'ignore').decode('utf-8', 'ignore')

# Eliminamos signos de puntuación
text_aux = ' '.join([word.translate(table) for word in text_aux.split()])

# Eliminamos stopwords. Es necesario tokenizar el texto en palabras
text_aux = [word for word in text_aux.split() if not word in stop_words]

# Construimos el string nuevamente desde la lista de términos generados en la línea anterior
text_aux = ' '.join(text_aux)

print('Texto original:\n{}'.format(text_test))
print('\nTexto normalizado:\n{}'.format(text_aux))

Texto original:
América, años 40. Don Vito Corleone (Marlon Brando) es el respetado y temido jefe de una de las 

Texto normalizado:
america anos 40 don vito corleone marlon brando respetado temido jefe


# Stemming



# Lemmatization

Más complejo que el Stemming. Técnica de normalización de textos que busca reducir las palabras a su raíz (lemma), siendo este lemma siempre una palabra real.
 
Muy utilizado para reducir la cardinalidad del vocabulario asociando para diferentes formas flexionadas un único token ('entreno', 'entrenarás', 'entrenaría' -> 'entrenar').