# 02 - Conceptos para el Procesamiento del Lenguaje Natural (NLP)


* En este Notebook vamos a enumerar y definir algunos de los conceptos más importantes que se dan en el Procesamiento del Lenguaje Natural y a ver algunos ejemplos en código.


* Mostremos a continuación la definición de estos conceptos:


### 1.- Corpus:

* Un ***Corpus*** (en Latín "cuerpo") en el NLP se refiere a una colección de textos como pueda ser un conjunto de artículos periodísticos, libros, críticas, tweets, etc.

### 2.- Bag of Words (BoW):

* ***BoW*** (Bolsa de palabras) es un modelo que se utiliza para simplificar el contenido de un documento (o conjunto de documentos) omitiendo la gramática y el orden de las palabras, centrándose solo en el número de ocurrencias de palabras dentro del texto.

### 3.- Normalización:

* La ***normalización*** es una tarea que tiene como objetivo poner todo el texto en igualdad de condiciones:

    - Convertir todo el texto en mayúscula o minúsculas
    - Eliminar, puntos, comas, comillas, etc.
    - Convertir los números a su equivalente a palabras
    - Quitar palabras que no aportan significado al texto (Stop-words)
    - Etc.

### 4.- Tokenización:

* Es una tarea que divide las cadenas de texto del documento en piezas más pequeñas o tokens. En la fase de tokenización los documentos se dividen en oraciones y estas se "tokenizan" en palabras. Aunque la tokenización es el proceso de dividir grandes cadenas de texto en cadenas más pequeñas, se suele diferenciar la:
<span></span><br><br>
    - ***Segmentación***: Tarea de dividir grandes cadenas de texto en piezas más pequeñas como oraciones o párrafos.
<span></span><br><br>
    - ***Tokenización***: Tarea de dividir grandes cadenas de texto solo y exclusivamente en palabras.


### 5.- Stemming:

* ***Stemming*** es el proceso de eliminar los afijos (sufijos, prefijos, infijos, circunflejos) de una palabra para obtener un tallo de palabra.
<span></span><br><br>
     + *Ejemplo*: Conduciendo -> conducir


### 6.- Lematización:


* La ***lematización*** es el proceso lingüístico que sustituye una palabra con forma flexionada (plurales, femeninos, verbos conjugados, etc.) por su lema; es decir, por una palabra válida en el idioma. 


* Si lo queremos definir de otra manera es sustituir una palabra con forma flexionada por la palabra que encontraríamos en el diccionario. 
<span></span><br><br>
    + *Ejemplo*: Coches -> Coche; Guapas -> Guapo


### 7.- Stop Words:


* Son palabras que no aportan nada al significado de las frases como las preposiciones, determinantes, etc.


### 8.- Parts-of-speech (POS) Tagging:


* Consiste en asignar una etiqueta de categoría a las partes tokenizadas de una oración. El etiquetado POS más popular sería identificar palabras como sustantivos, verbos, adjetivos, etc.


* En la lengua castellana nos podemos encontrar 9 categorías de palabras:

    - Artículo o determinante 
    - Sustantivo o nombre 
    - Pronombre 
    - Verbo 
    - Adjetivo 
    - Adverbio 
    - Preposición 
    - Conjunción 
    - Interjección


### 9.- n-grammas:


* Los ***n-gramas*** son otro modelo de representación para simplificar los contenidos de selección de texto. 


* A diferencia de la representación sin orden de una bolsa de palabras (bag of words), el modelado de n-gramas está interesado en preservar secuencias contiguas de N elementos de la selección de texto.

<hr>

# Ejemplos con NLTK

*NOTA: Los conceptos de "Corpus" (1), "Bag of Words" (2) y "Normalización" (3) son unos conceptos más amplios que explicar que el resto y por tanto se explicaran en otros notebooks de manera específica.*

## 4.- Tokenización

* Divide las cadenas de texto del documento en piezas más pequeñas o tokens.

In [1]:
import nltk
from nltk import word_tokenize
doc = "Un radar multa a Mariano Rajoy por caminar demasiado rapido"
words = nltk.word_tokenize(doc)
print (words)

['Un', 'radar', 'multa', 'a', 'Mariano', 'Rajoy', 'por', 'caminar', 'demasiado', 'rapido']


## 5.- Stemming

* Proceso de eliminar los afijos


* Para realizar el Stemming con NLTK tenemos que seleccionar el "Stemmer" adecuado dependiendo del idioma.


* En NLTK existen dos "Stemmers" que son los siguientes:
    * PorterStemmer
    * SnowballStemmer


* Para más información sobre estos ver el siguiente enlace: http://www.nltk.org/howto/stem.html
<span></span><br><br>
     + *Ejemplo en Inglés* con el *PorterStemmer*

In [2]:
from nltk.stem import PorterStemmer  
stm = PorterStemmer()
print (stm.stem('running'))
print (stm.stem('minimum'))

run
minimum


* Los Stemmers de NLTK para idiomas distintos al Ingles son relativamente malos ya que NLTK esta pensado para la lengua inglesa.
    + *Ejemplo en Español* con el *SnowballStemmer*

In [3]:
from nltk.stem import SnowballStemmer
stm = SnowballStemmer('spanish') # Hay que indicarle explicitamente el idioma
print (stm.stem('corriendo'))
print (stm.stem('mínimo'))

corr
minim


## 6.- Lematización


* Proceso lingüístico que sustituye una palabra con forma flexionada (plurales, femeninos, verbos conjugados, etc.) por su lema; es decir, por una palabra válida en el idioma.


* La Lematización que hace NLTK solo es buena para la lengua inglesa.

In [4]:
from nltk.stem import WordNetLemmatizer
lemm = WordNetLemmatizer()
print (lemm.lemmatize('dogs'))
print (lemm.lemmatize('perros'))

dog
perros


## 7.- Stop words


* Son las palabras que no aportan nada al significado de la frase.


* NLTK tiene para una serie de idiomas un listado de Stop Words.


* Para el Español dispone de un listado de stop words:

In [5]:
from nltk.corpus import stopwords
print(set(stopwords.words('spanish')))

{'una', 'habíais', 'sería', 'estaríamos', 'habríais', 'eso', 'fuesen', 'cual', 'habido', 'quien', 'durante', 'tus', 'son', 'sean', 'esos', 'tendrás', 'hayan', 'otra', 'ti', 'hubiste', 'sí', 'habíamos', 'qué', 'en', 'tenían', 'hubo', 'hubiesen', 'fuisteis', 'están', 'he', 'algunos', 'otros', 'habrán', 'tendré', 'tuvierais', 'su', 'tanto', 'tu', 'tuvieses', 'tendréis', 'pero', 'estos', 'estéis', 'hubimos', 'hayas', 'sentida', 'sintiendo', 'tuvimos', 'estada', 'por', 'estaban', 'desde', 'fueses', 'mis', 'estarías', 'hubiese', 'estarían', 'tuviera', 'nosotras', 'habrá', 'sentidos', 'habías', 'estas', 'seáis', 'hubieras', 'para', 'seremos', 'seas', 'serías', 'unos', 'tendrán', 'fuimos', 'hubierais', 'fueran', 'estábamos', 'quienes', 'nosotros', 'míos', 'esa', 'suyos', 'tenemos', 'estás', 'tú', 'les', 'estén', 'habida', 'sois', 'vuestros', 'suyas', 'con', 'habían', 'al', 'hubieron', 'estuvierais', 'mías', 'estarán', 'mío', 'estuvieras', 'habiendo', 'estoy', 'nada', 'nuestro', 'fuese', 'de', 

* Este listado de palabras se utiliza para eliminarlas de los textos.


* Veamos a continuación como obtener las stop words de una frase tras su tokenización.

In [6]:
doc = "Un radar multa a Mariano Rajoy por caminar demasiado rapido"
words = nltk.word_tokenize(doc)
for word in words:
        if word in stopwords.words('spanish'):
            print (word)

a
por


## 8.- Part of Speech (PoS)


* Consiste en asignar una etiqueta de categoría a las partes tokenizadas de una oración: sustantivos, verbos, adjetivos, etc.


* El PoS de NLTK solo esta disponible para el ingles y tiene las siguientes categorias:

|Tag|Meaning|
|---|---|
|ADJ|adjective|
|ADP|adposition|
|ADV|adverb|
|CONJ|conjunction|
|DET|determiner|
|NOUN|noun|
|NUM|numeral|
|PRT|particle|
|PRON|pronoun|
|VERB|verb|
|.|punctuation|
|X|other|


* Nota: La tabla anterior no significa que solo asigne esas categorias, si no que tiene esas categorias y luego las va desgranando; por ejemplo, los verbos o adjetivos pueden ser de diferentes tipos y les pondrá una etiqueta en función de ese tipo.


* Veamos a continuación un ejemplo:

In [7]:
doc = nltk.word_tokenize('Is marathon running bad for you?')
print (nltk.pos_tag(doc))

[('Is', 'VBZ'), ('marathon', 'JJ'), ('running', 'VBG'), ('bad', 'JJ'), ('for', 'IN'), ('you', 'PRP'), ('?', '.')]


### PoS en Español:


* Para poder "tagear" correctamente las palabras en Español, tenemos que descargarnos un diccionario específico para esta lengua.


* El grupo de Procesamiento de Lenguaje Natural de la Universidad de Stanford ha desarrollado un diccionario en castellano que nos pertime etiquetar las palabras.


* En el siguiente enlace se puede ver su descripción: https://nlp.stanford.edu/software/spanish-faq.shtml


* Para ello debemos de descargarnos el software especifico proporcionado por la universidad de Standford a través del siguiente enlace: https://nlp.stanford.edu/software/tagger.shtml

<img src="./imgs/004_Standford_tagger.png" style="width: 600px;"/>


* Una vez descargada la librería tenemos que:
    1. Descomprimir el fichero
    2. Obtener el jar: stanford-postagger-3.9.2.jar
    3. Obtener el tagger spanish.tagger que se encuentra dentro de la carpeta models


* Estos ficheros necesarios ya estan copiados dentro del proyecto en la carpeta 'libs'


* Veamos como ejecutarlo (*Nota: si se utiliza windows hay que poner las rutas absolutas de estos ficheros (variables 'jar' y 'tagger_file')*)

In [8]:
from nltk.internals import find_jars_within_path
from nltk.tag import StanfordPOSTagger

jar = "./libs/Standford_tagger/stanford-postagger-3.9.2.jar"
tagger_file = "./libs/Standford_tagger/spanish.tagger"

tagger = StanfordPOSTagger(tagger_file, jar)

doc = "Un radar multa a Mariano Rajoy por caminar demasiado rapido"
words = nltk.word_tokenize(doc)
tags = tagger.tag(words)
print(tags)

[('Un', 'di0000'), ('radar', 'nc0s000'), ('multa', 'nc0s000'), ('a', 'sp000'), ('Mariano', 'np00000'), ('Rajoy', 'np00000'), ('por', 'sp000'), ('caminar', 'vmn0000'), ('demasiado', 'rg'), ('rapido', 'aq0000')]


* En este caso el "taggeo" es diferente al de NLTK.


* Si nos fijamos en la documentación:
    - ('Un', 'di0000') -> Article (indefinite)
    - ('radar', 'nc0s000') -> Common noun (singular)
    - ('multa', 'nc0s000') -> Common noun (singular)
    - ('a', 'sp000') -> Preposition
    - ('Mariano', 'np00000') -> Proper noun
    - ('Rajoy', 'np00000') -> Proper noun
    - ('por', 'sp000') -> Preposition
    - ('caminar', 'vmn0000') -> Verb (main, infinitive)
    - ('demasiado', 'rg') -> Adverb (general)
    - ('rapido', 'aq0000')  -> Adjective (descriptive)

## 9.- n-grams

* Modelo de representación que selecciona secuencias contiguas de N elementos de la selección de texto.

In [9]:
from nltk import ngrams
doc = "Un radar multa a Mariano Rajoy por caminar demasiado rapido"
words = nltk.word_tokenize(doc)
num_elementos = 3
n_grams = ngrams(words, num_elementos)
for grams in n_grams:
    print (grams)

('Un', 'radar', 'multa')
('radar', 'multa', 'a')
('multa', 'a', 'Mariano')
('a', 'Mariano', 'Rajoy')
('Mariano', 'Rajoy', 'por')
('Rajoy', 'por', 'caminar')
('por', 'caminar', 'demasiado')
('caminar', 'demasiado', 'rapido')
