# Procesamiento del Lenguaje Natural, con Python





# Índice

#### Tema 1: Introducción


* ¿Qué es un Lenguaje?


* ¿Qué es el Procesamiento del Lenguaje Natural?


* Herramientas en Python para NLP:
    - NLTK
    - SpaCy
    - Gensim
    - Scikit
    - TensorFlow-Keras


#### Tema 2: NLP - Conceptos y Preprocesamiento de texto


* Conceptos:

    - Corpus
    - Bag of Words (BoW)
    - Tokenización
    - N-Grammas
    - Stemming
    - Lematización
    - Stop-Words
    - Parts of Speech (PoS)
    - Named Entity Recognition (NER)


* Normalización de textos: Preprocesamiento


#### Tema 3: Analisis Automático de texto subjetivo (Clasificación de textos)


* Introducción: Clasificación de textos con Naive Bayes


* Clasificación de textos: Algoritmos de aprendizaje para la clasificación


* Clasificación de textos: Redes Neuronales


#### Tema 4: Topic Modeling (Clustering)


* LSI: Latent Semantic Index


* LDA: Latent Dirichlet Allocation


* Visialización: pyLDAvis


#### Tema 5: Uso de modelos pre-entrenado en "Hugging Face" (Transformers)


* Clasificación


* Traducción


* Resumenes de textos


#### Tema 6: Introducción a GPT3


<hr>


# Tema 1: Introducción


## ¿Qué es un Lenguaje?


* Un Lenguajes es un conjunto potencialmente infinito de oraciones y sentencias de palabras construidas mediante reglas gramaticales, foneticas y de significación que rigen el propio lenguaje.


* Nos encontramos con 3 tipos de lenguajes:
<span></span><br><br>
    - ***Lenguaje Natural***: Lengua o idioma que nace espontáneamente de un grupo de hablantes por la necesidad de establecer comunicación verbal. Ejm: Ingles, Castellano, Frances, Italiano, etc.
<span></span><br><br>
    - ***Lenguaje Formal***: Lenguajes diseñados para un ámbito de aplicación concreto, que se definen de manera precisa y libre de ambigüedad. Ejm: Matemático, Lógico, Musical, Programación (C, Java, Python, R, Scala, etc.)
<span></span><br><br>
    - ***Lenguaje Artificial***: Lenguajes diseñados antes de ser usados por sus parlantes. Es una mezcla entre los lenguajes naturales y formales. Ejm: Klingon.



## ¿Qué es el Procesamiento del Lenjuaje Natural?


* El ***Procesamiento del Lenguaje Natural*** (NLP) es un campo que combina la ***Informática***, la ***Inteligencia Artificial*** y la ***Lingüística***; que tiene como objetivo, tratar la interacción entre los lenguajes humanos (lenguajes naturales) y los dispositivos informáticos.


* El NLP abarca los siguientes campos:
    - Recuperación de información
    - Extracción y categorización de información
    - Análisis automático de texto subjetivo (Análisis de sentimientos)
    - Traducción automática
    - Generación del lenguaje
    - Questions & Answering (Chatbots)


<img src="./imgs/000_nlp.png" style="width: 700px;"/>



## De la *Lingüística* al *Procesamiento del Lenguaje Natural*

### - Lingüística


* La ***lingüística*** es el estudio científico del lenguaje, incluyendo su gramática, semántica y fonética.


* En términos generales, un ***lingüista*** es cualquier persona que estudia un idioma.


### - Lingüística computacional


* La lingüística computacional es el estudio de la lingüística utilizando las herramientas de la informática.


### - Procesamiento estadístico del lenguaje natural


* La lingüística computacional también se conoce con el nombre de Procesamiento del Lenguaje Natural, para reflejar el enfoque más ingenieril o empírico de los métodos estadísticos aplicados a la Lingüistica.


* El dominio estadístico del campo, lleva a menudo a que el ***NLP*** sea descrito como ***Procesamiento Estadístico del Lenguaje Natural***, para distanciarse (en la definición) de los métodos clásicos de la lingüística computacional.


### - Procesamiento del Lenguaje natural


* Campo que combina la ***Informática***, la ***Inteligencia Artificial*** y la ***Lingüística***; que tiene como objetivo, tratar la interacción entre los lenguajes humanos (lenguajes naturales) y los dispositivos informáticos.


## Herramientas en Python para el NLP


* Aunque existen bastante librería en Python destinadas al Procesamiento del Lenguaje Natural o a resolver determinadas partes del NLP, mostramos a continuación una serie de librería que vamos a utilizar en este curso:
<span></span><br><br>
    - ***NLTK*** (https://www.nltk.org/): Es una librería desarrollada por Steven Bird y Edward Loper para el NLP (principalmente en Inglés) que incorpora muchas funcionalidades como, corpus, recursos léxicos, algoritmos de aprendizaje para el NLP, etc.
<span></span><br><br>
    - ***SpaCy*** (https://spacy.io/): Es una librería para el NLP incorpora funcionalidades como Tokenización, Lematización, PoS, NER, etc. en varios idiomas. A diferencia de NLTK que tienen fines de caracter didáctico, SpaCy esta pensado para explotarlo en entornos productivos.
<span></span><br><br>
    - ***Gensim*** (https://radimrehurek.com/gensim): Es una librería desarrollada por el Checo Radim Řehůřek, Ph.D, que tiene implementadas; entre otras cosas, algoritmos como el LSI y el LDA para la detección de tópicos (Topic Modeling)
<span></span><br><br>
    - ***Scikit*** (https://scikit-learn.org/): Es una librería que tiene implementada multitud de algoritmos de aprendizaje (regresión, clasificación, cluterización, reducción de la dimensionalidad) y funcionalidades para trabajar con estos algoritmos.
<span></span><br><br>
    - ***TensorFlow-Keras*** (https://www.tensorflow.org/): Es una librería desarrollada por Google para trabajar con Redes Neuronales (MLP, CNN, RNN). La versión 2 de TensorFlow hace uso del API de Keras para un desarrollo más sencillo.
    
    
## Bibliografía recomendada para NLP (en Inglés)


1. **Natural Language Processing with Python** de Steven Bird, Ewan Klein y Edward Loper. O'Reilly Media. Julio 2009.

2. **Applied Text Analysis with Python**, de Benjamin Bengfort, Rebecca Bilbro y Tony Ojeda. O'Reilly Media. Junio 2018.

3. **Natural Language Processing Crash Course for Beginners**, de AI Publishing. Agosto 2020.

4. **Transformers for Natural Language Processing**,  de Denis Rothman. Packt Publishing. Enero 2021.
    

# 01 - Introducción a la librería NLTK


* NLTK (https://www.nltk.org/) es una librería para Python, usada para el análisis y la manipulación del lenguaje natural.


* Se instala bien con el gestor de paquetes "pip" o con "conda" en caso de utilizarlo. Para instalarlo con pip o conda se realiza de la siguiente manera respectivamente:

```
>> pip install nltk
>> conda install nltk
```

<hr>

## 1.- Instalación y descargar de las bases de datos

* NLTK utiliza una serie de bases de datos léxicas para la manipulación del lenguaje natural.


* También dispone de una una serie de corpus (colección de textos) que nos podemos descargar para "jugar" con ellos.


* Para descargarnos las bases de datos y los corpus realizaremos lo siguiente:
    1. Importar la librería nltk
    2. llamar a al método "download"<sup>(*)</sup>
    3. Aparecerá una ventana emergente para seleccionar todo lo que NLTK nos permite descargar
    
    
###### (*): Si utilizas un MAC es posible que al ejecutar el método "download()" haga un logout de la sesión. Para evitarlo y para que se descargue todo el contenido, es necesario pasarle al método "download" como parámetros aquello que nos queramos descargar, en nuestro caso todo:

```
>> nltk.download('all')
```

In [1]:
import nltk
nltk.download()
#nltk.download('all')

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> Q


True

4. Seleccionar todo aquello que queramos descargar.
    1. Para empezar seleccionamos todo (all)
    2. Pulsamos el boton de descargar
    
<img src="./imgs/001_nltk_download_db.png" style="width: 500px;"/>

5. Una vez que ya tenemos todo descargado no aparecerá con fondo verde todo lo descargardo:

<img src="./imgs/002_nltk_download_all.png" style="width: 500px;"/>

6. Llegados a este punto ya tenemos descargado todos los corpus y bases de datos lexicas en el directorio que se indicar en la ventana emergente.

<hr>

## 2.- Corpus


* Un ***Corpus*** (en Latín "*Cuerpo*") dentro del contexto del NLP se refiere a una colección de textos como puede ser un conjunto de artítulo periodísticos, libros, críticas, tweets, etc.


* NLTK dispone de una serie de ***Corpus*** con los que poder trabajar y realizar pruebas.


* Algunos de los ***corpus*** que pueden ser de interés didáctico son los siguientes:

|Corpus|Content|
|---|---|
|Brown Corpus|15 genres, 1.15M words, tagged, categorized|
|CESS Treebanks|1M words, tagged and parsed (Catalan, Spanish)|
|Gutenberg (selections)|18 texts, 2M words|
|Inaugural Address Corpus|U.S. Presidential Inaugural Addresses (1789–present)|
|Movie Reviews|2k movie reviews with sentiment polarity classification|
|Reuters Corpus|1.3M words, 10k news documents, categorized|
|Stopwords Corpus|2,400 stopwords for 11 languages|
|WordNet 3.0 (English)|145k synonym sets|


* Para más información relativa a los corpus ir al siguiente enlace: http://www.nltk.org/howto/


<hr>

### 2.1.- Manejo de Corpus (funcionalidades)

Dentro de NLTK podemos encontrarnos diferentes tipos de Corpus que podrían clasificarse en:

* Textos planos: como el corpus de *Gutenberg*
* Textos categorizados: como el corpus de *Bronwn* (15 generos)
* Textos multicategóricos: como el corpus de *Reuters* (1 documentos, varias categorias)
* Textos temporales: como el corpus *Inaugural Address Corpus*, discursos presidenciales a lo largo de la historia

Para el manejo de estos corpus NLTK nos ofrece las siguientes funciones:

|Example|Description|
|---|---|
|fileids()|the files of the corpus|
|fileids([categories])|the files of the corpus corresponding to these categories|
|categories()|the categories of the corpus|
|categories([fileids])|the categories of the corpus corresponding to these files|
|raw()|the raw content of the corpus|
|raw(fileids=[f1,f2,f3])|the raw content of the specified files|
|raw(categories=[c1,c2])|the raw content of the specified categories|
|words()|the words of the whole corpus|
|words(fileids=[f1,f2,f3])|the words of the specified fileids|
|words(categories=[c1,c2])|the words of the specified categories|
|sents()|the sentences of the whole corpus|
|sents(fileids=[f1,f2,f3])|the sentences of the specified fileids|
|sents(categories=[c1,c2])|the sentences of the specified categories|
|abspath(fileid)|the location of the given file on disk|
|encoding(fileid)|the encoding of the file (if known)|
|open(fileid)|open a stream for reading the given corpus file|
|root|if the path to the root of locally installed corpus|
|readme()|the contents of the README file of the corpus|

### 2.1.1.- Ejemplo con el corpus de Gutenberg

**1. ¿Que ficheros componen el corpus?**

In [2]:
import nltk
nltk.download('gutenberg')

[nltk_data] Downloading package gutenberg to /root/nltk_data...
[nltk_data]   Unzipping corpora/gutenberg.zip.


True

In [3]:
from nltk.corpus import gutenberg
gutenberg.fileids()

['austen-emma.txt',
 'austen-persuasion.txt',
 'austen-sense.txt',
 'bible-kjv.txt',
 'blake-poems.txt',
 'bryant-stories.txt',
 'burgess-busterbrown.txt',
 'carroll-alice.txt',
 'chesterton-ball.txt',
 'chesterton-brown.txt',
 'chesterton-thursday.txt',
 'edgeworth-parents.txt',
 'melville-moby_dick.txt',
 'milton-paradise.txt',
 'shakespeare-caesar.txt',
 'shakespeare-hamlet.txt',
 'shakespeare-macbeth.txt',
 'whitman-leaves.txt']

**2. ¿Cual es el contenido del fichero "blake-poems.txt"?**

(Por legibilidad mostramos solo los 300 primeros caracteres)

In [4]:
contenido = gutenberg.raw("blake-poems.txt")
contenido[:300]

'[Poems by William Blake 1789]\n\n \nSONGS OF INNOCENCE AND OF EXPERIENCE\nand THE BOOK of THEL\n\n\n SONGS OF INNOCENCE\n \n \n INTRODUCTION\n \n Piping down the valleys wild,\n   Piping songs of pleasant glee,\n On a cloud I saw a child,\n   And he laughing said to me:\n \n "Pipe a song about a Lamb!"\n   So I piped'

**3. De cada uno de los ficheros mostramos:**
    - Número de caracteres
    - Número de palabras
    - Número de frases
    - Número de palabras distintas que aparecen en el texto (primero las pasamos a minúsculas)
    - Número de medio de caracteres por palabra
    - Número medio de palabras por frase
    - Diversidad léxica (número de palabras / palabras distintas del texto)

In [5]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [6]:
for file in gutenberg.fileids():
    num_chars = len(gutenberg.raw(file))
    num_words = len(gutenberg.words(file))
    num_sents = len(gutenberg.sents(file))
    num_words_distinct = len(set([w.lower() for w in gutenberg.words(file)]))
    avg_chars_words = int(num_chars/num_words)
    avg_words_sents = int(num_words/num_sents)
    lexical_diversity = int(num_words/num_words_distinct)
    print("{num_chars:<10} {num_words:<10} {num_sents:<10} {num_words_distinct:<10} {avg_chars_words:<10} {avg_words_sents:<10} {lexical_diversity:<10} {file:<10}"
          .format(num_chars=num_chars, num_words=num_words, num_sents=num_sents,
                  num_words_distinct=num_words_distinct, avg_chars_words=avg_chars_words,
                  avg_words_sents = avg_words_sents, lexical_diversity=lexical_diversity, file=file))

887071     192427     7752       7344       4          24         26         austen-emma.txt
466292     98171      3747       5835       4          26         16         austen-persuasion.txt
673022     141576     4999       6403       4          28         22         austen-sense.txt
4332554    1010654    30103      12767      4          33         79         bible-kjv.txt
38153      8354       438        1535       4          19         5          blake-poems.txt
249439     55563      2863       3940       4          19         14         bryant-stories.txt
84663      18963      1054       1559       4          17         12         burgess-busterbrown.txt
144395     34110      1703       2636       4          20         12         carroll-alice.txt
457450     96996      4779       8335       4          20         11         chesterton-ball.txt
406629     86063      3806       7794       4          22         11         chesterton-brown.txt
320525     69213      3742       6349      

<hr>

### 2.1.2.- Ejemplo con el corpus de Brown

Este es un corpus que contiene una serie de textos categorizados (o tageados) con un tipos de genero

**1. ¿Cuales son las categorias del corpus de Brown?**

In [7]:
import nltk
nltk.download('brown')

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.


True

In [8]:
from nltk.corpus import brown
brown.categories()

['adventure',
 'belles_lettres',
 'editorial',
 'fiction',
 'government',
 'hobbies',
 'humor',
 'learned',
 'lore',
 'mystery',
 'news',
 'religion',
 'reviews',
 'romance',
 'science_fiction']

***2. ¿Qué ficheros componen la categoría de noticias (news)?*** (por legibilidad solo mostramos 5)

In [9]:
brown.fileids(['news'])[0:5]

['ca01', 'ca02', 'ca03', 'ca04', 'ca05']

***3.¿Que categorias corresponden al fichero "ca01"?***

In [10]:
brown.categories(fileids=['ca01'])

['news']

***4.¿Que palabras corresponden a la categoria humor?***

In [11]:
brown.words(categories='humor')

['It', 'was', 'among', 'these', 'that', 'Hinkle', ...]

<hr>

## 3.- WordNet

* ***WordNet*** es un diccionario semántico y jerárquico en Ingles compuesto por una 155k palabras y 117K sinónimos.


* De forma jerarquica, esta estructurado de tal manera que hay una serie de palabras llamadas "***unique beginers***" o "*root synsets*" que son palabras que definen "conceptos" muy generales y a partir de esos conceptos generales engloban una serie de palabras pertenecientes a ese concepto. Veamos el siguiente ejemplo:

<img src="./imgs/003_wordnet-hierarchy.png" style="width: 500px;"/>
<p style="text-align: center;">imagen obtenida del libro: "<i>Natural Language Procesing with Python</i>"</p>


* En este ejemplo vemos como un "*camión*" (truck) esta definido como un "*vehiculo motorizado*" (motor vehicle) y este a su vez esta definido por otra palabra de nivel conceptual superior, hasta llegar a un muy alto nivel de palabra que lo define como un "*artefacto*" (artefact).


* Este seria ("a grandes rasgos") como está organizado este diccionario, de tal manera que permite obtener de una palabra cosas como:
    * Sinónimos
    * Antónimos
    * Hipérnimos
    * Hipónimos
    * Merónimos
    * Holónimos
    * Etc.
    

Veamos a continuación un ejemplo con la palabra "motorcar" y como nos daría una lista de sinónimos (synset) de esa palabra con la función "synsets()"

In [12]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [13]:
from nltk.corpus import wordnet as wn
wn.synsets('motorcar')

[Synset('car.n.01')]

* En este caso nos devuelve una lista de sinónimos (synset), que serian los "nodos" del diccionario jerarquico a partir del cual se relaciona esa palabra. Para este ejemplo solo nos ha dado un sinónimo.

* A partir del "nodo" 'car.n.01' vamos a:
    * Obtener su definición
    * Obtener los lemas de sus sinónimos (de la palabra car no de la palabra motorcar)

In [14]:
definicion = wn.synset('car.n.01').definition()
sinonimos = wn.synset('car.n.01').lemma_names()

print('Definición: ' + definicion)
print('Sinónimos: ' + str(sinonimos))

Definición: a motor vehicle with four wheels; usually propelled by an internal combustion engine
Sinónimos: ['car', 'auto', 'automobile', 'machine', 'motorcar']


### Relación semántica entre palabras

* Otro tema interesante que tenemos con ***WordNet*** es que nos permite ver la relación semáncia o la similaridad que hay entre palabras veamos por ejemplo la similaridad entre las siguientes palabras:

    * car
    * truck
    * dog

* Primero obtenemos alguno de los "nodos" de la palabra (el primero)
* Comparamos la similaridad "nodo" con "nodo"

In [15]:
car = wn.synsets('car')[0]
truck = wn.synsets('truck')[0]
dog = wn.synsets('dog')[0]

print('Similaridad entre Coche y Camión: ' + str(car.path_similarity(truck)))
print('Similaridad entre Coche y Perro: ' + str(car.path_similarity(dog)))

Similaridad entre Coche y Camión: 0.3333333333333333
Similaridad entre Coche y Perro: 0.07692307692307693


# 02 - Conceptos para el Procesamiento del Lenguaje Natural (NLP)


* En este Notebook vamos a enumerar y definir algunos de los conceptos más importantes que se dan en el Procesamiento del Lenguaje Natural y a ver algunos ejemplos en código.


* Mostremos a continuación la definición de estos conceptos:


### 1.- Corpus:

* Un ***Corpus*** (en Latín "cuerpo") en el NLP se refiere a una colección de textos como pueda ser un conjunto de artículos periodísticos, libros, críticas, tweets, etc.

### 2.- Bag of Words (BoW):

* ***BoW*** (Bolsa de palabras) es un modelo que se utiliza para simplificar el contenido de un documento (o conjunto de documentos) omitiendo la gramática y el orden de las palabras, centrándose solo en el número de ocurrencias de palabras dentro del texto.

### 3.- Normalización:

* La ***normalización*** es una tarea que tiene como objetivo poner todo el texto en igualdad de condiciones:

    - Convertir todo el texto en mayúscula o minúsculas
    - Eliminar, puntos, comas, comillas, etc.
    - Convertir los números a su equivalente a palabras
    - Quitar palabras que no aportan significado al texto (Stop-words)
    - Etc.

### 4.- Tokenización:

* Es una tarea que divide las cadenas de texto del documento en piezas más pequeñas o tokens. En la fase de tokenización los documentos se dividen en oraciones y estas se "tokenizan" en palabras. Aunque la tokenización es el proceso de dividir grandes cadenas de texto en cadenas más pequeñas, se suele diferenciar la:
<span></span><br><br>
    - ***Segmentación***: Tarea de dividir grandes cadenas de texto en piezas más pequeñas como oraciones o párrafos.
<span></span><br><br>
    - ***Tokenización***: Tarea de dividir grandes cadenas de texto solo y exclusivamente en palabras.


### 5.- Stemming:

* ***Stemming*** es el proceso de eliminar los afijos (sufijos, prefijos, infijos, circunflejos) de una palabra para obtener un tallo de palabra.
<span></span><br><br>
     + *Ejemplo*: Conduciendo -> conducir


### 6.- Lematización:


* La ***lematización*** es el proceso lingüístico que sustituye una palabra con forma flexionada (plurales, femeninos, verbos conjugados, etc.) por su lema; es decir, por una palabra válida en el idioma.


* Si lo queremos definir de otra manera es sustituir una palabra con forma flexionada por la palabra que encontraríamos en el diccionario.
<span></span><br><br>
    + *Ejemplo*: Coches -> Coche; Guapas -> Guapo


### 7.- Stop Words:


* Son palabras que no aportan nada al significado de las frases como las preposiciones, determinantes, etc.


### 8.- Parts-of-speech (POS) Tagging:


* Consiste en asignar una etiqueta de categoría a las partes tokenizadas de una oración. El etiquetado POS más popular sería identificar palabras como sustantivos, verbos, adjetivos, etc.


* En la lengua castellana nos podemos encontrar 9 categorías de palabras:

    - Artículo o determinante
    - Sustantivo o nombre
    - Pronombre
    - Verbo
    - Adjetivo
    - Adverbio
    - Preposición
    - Conjunción
    - Interjección


### 9.- n-grammas:


* Los ***n-gramas*** son otro modelo de representación para simplificar los contenidos de selección de texto.


* A diferencia de la representación sin orden de una bolsa de palabras (bag of words), el modelado de n-gramas está interesado en preservar secuencias contiguas de N elementos de la selección de texto.

<hr>

# Ejemplos con NLTK

*NOTA: Los conceptos de "Corpus" (1), "Bag of Words" (2) y "Normalización" (3) son unos conceptos más amplios que explicar que el resto y por tanto se explicaran en otros notebooks de manera específica.*

## 4.- Tokenización

* Divide las cadenas de texto del documento en piezas más pequeñas o tokens.

In [16]:
import nltk
from nltk import word_tokenize
doc = "Una multa de transito es muy onerosa en la Ciudad de Buenos Aires"
words = nltk.word_tokenize(doc)
print (words)

['Una', 'multa', 'de', 'transito', 'es', 'muy', 'onerosa', 'en', 'la', 'Ciudad', 'de', 'Buenos', 'Aires']


## 5.- Stemming

* Proceso de eliminar los afijos


* Para realizar el Stemming con NLTK tenemos que seleccionar el "Stemmer" adecuado dependiendo del idioma.


* En NLTK existen dos "Stemmers" que son los siguientes:
    * PorterStemmer
    * SnowballStemmer


* Para más información sobre estos ver el siguiente enlace: http://www.nltk.org/howto/stem.html
<span></span><br><br>
     + *Ejemplo en Inglés* con el *PorterStemmer*

In [17]:
from nltk.stem import PorterStemmer
stm = PorterStemmer()
print (stm.stem('running'))
print (stm.stem('minimum'))

run
minimum


* Los Stemmers de NLTK para idiomas distintos al Ingles son relativamente malos ya que NLTK esta pensado para la lengua inglesa.
    + *Ejemplo en Español* con el *SnowballStemmer*

In [18]:
from nltk.stem import SnowballStemmer
stm = SnowballStemmer('spanish') # Hay que indicarle explicitamente el idioma
print (stm.stem('corriendo'))
print (stm.stem('mínimo'))

corr
minim


## 6.- Lematización


* Proceso lingüístico que sustituye una palabra con forma flexionada (plurales, femeninos, verbos conjugados, etc.) por su lema; es decir, por una palabra válida en el idioma.


* La Lematización que hace NLTK solo es buena para la lengua inglesa.

In [19]:
from nltk.stem import WordNetLemmatizer
lemm = WordNetLemmatizer()
print (lemm.lemmatize('dogs'))
print (lemm.lemmatize('perros'))

dog
perros


## 7.- Stop words


* Son las palabras que no aportan nada al significado de la frase.


* NLTK tiene para una serie de idiomas un listado de Stop Words.


* Para el Español dispone de un listado de stop words:

In [21]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [22]:
from nltk.corpus import stopwords
print(set(stopwords.words('spanish')))

{'hubiste', 'tendrá', 'mía', 'sentido', 'tened', 'tenidos', 'estabais', 'será', 'fuéramos', 'le', 'antes', 'una', 'teníamos', 'estéis', 'tendrían', 'tuviéramos', 'tengan', 'hubiesen', 'habidos', 'tuvo', 'tendrías', 'tuya', 'estaba', 'sentidas', 'tuyos', 'habrás', 'estas', 'eras', 'fueron', 'había', 'tendríais', 'seamos', 'habéis', 'estuviste', 'estés', 'otra', 'tendréis', 'tendríamos', 'las', 'vuestra', 'estos', 'sentida', 'habías', 'tú', 'hubieses', 'fueses', 'sobre', 'fuisteis', 'tenían', 'estarías', 'hubiéramos', 'fueran', 'habíais', 'estoy', 'fueras', 'teniendo', 'seré', 'está', 'que', 'tuviese', 'estuviera', 'suyos', 'tenga', 'sus', 'tenéis', 'hubiera', 'fuimos', 'todo', 'este', 'hubierais', 'lo', 'tenido', 'otros', 'estuvieseis', 'fuiste', 'seáis', 'estuvisteis', 'teníais', 'del', 'tengo', 'sentid', 'para', 'la', 'estad', 'eso', 'tuvisteis', 'ellos', 'habrías', 'hay', 'yo', 'fue', 'tendrán', 'tenemos', 'uno', 'ella', 'haya', 'es', 'nos', 'fuésemos', 'tuvimos', 'tendremos', 'estan

* Este listado de palabras se utiliza para eliminarlas de los textos.


* Veamos a continuación como obtener las stop words de una frase tras su tokenización.

In [24]:
doc = "Las multas en la Ciudad de Buenos Aires son onerosas"
words = nltk.word_tokenize(doc)
for word in words:
        if word in stopwords.words('spanish'):
            print (word)

en
la
de
son


## 8.- Part of Speech (PoS)


* Consiste en asignar una etiqueta de categoría a las partes tokenizadas de una oración: sustantivos, verbos, adjetivos, etc.


* El PoS de NLTK solo esta disponible para el ingles y tiene las siguientes categorias:

|Tag|Meaning|
|---|---|
|ADJ|adjective|
|ADP|adposition|
|ADV|adverb|
|CONJ|conjunction|
|DET|determiner|
|NOUN|noun|
|NUM|numeral|
|PRT|particle|
|PRON|pronoun|
|VERB|verb|
|.|punctuation|
|X|other|


* Nota: La tabla anterior no significa que solo asigne esas categorias, si no que tiene esas categorias y luego las va desgranando; por ejemplo, los verbos o adjetivos pueden ser de diferentes tipos y les pondrá una etiqueta en función de ese tipo.


* Veamos a continuación un ejemplo:

In [26]:
import nltk
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [27]:
doc = nltk.word_tokenize('Is marathon running bad for you?')
print (nltk.pos_tag(doc))

[('Is', 'VBZ'), ('marathon', 'JJ'), ('running', 'VBG'), ('bad', 'JJ'), ('for', 'IN'), ('you', 'PRP'), ('?', '.')]


### PoS en Español:


* Para poder "tagear" correctamente las palabras en Español, tenemos que descargarnos un diccionario específico para esta lengua.


* El grupo de Procesamiento de Lenguaje Natural de la Universidad de Stanford ha desarrollado un diccionario en castellano que nos pertime etiquetar las palabras.


* En el siguiente enlace se puede ver su descripción: https://nlp.stanford.edu/software/spanish-faq.shtml


* Para ello debemos de descargarnos el software especifico proporcionado por la universidad de Standford a través del siguiente enlace: https://nlp.stanford.edu/software/tagger.shtml

<img src="./imgs/004_Standford_tagger.png" style="width: 600px;"/>


* Una vez descargada la librería tenemos que:
    1. Descomprimir el fichero
    2. Obtener el jar: stanford-postagger-3.9.2.jar
    3. Obtener el tagger spanish.tagger que se encuentra dentro de la carpeta models


* Estos ficheros necesarios ya estan copiados dentro del proyecto en la carpeta 'libs'


* Veamos como ejecutarlo (*Nota: si se utiliza windows hay que poner las rutas absolutas de estos ficheros (variables 'jar' y 'tagger_file')*)

In [42]:
from nltk.internals import find_jars_within_path
from nltk.tag import StanfordPOSTagger

jar = "./libs/Standford_tagger/stanford-postagger-3.9.2.jar"
tagger_file = "./libs/Standford_tagger/spanish.tagger"

tagger = StanfordPOSTagger(tagger_file, jar)



LookupError: Could not find stanford-postagger.jar jar file at ./libs/Standford_tagger/stanford-postagger-3.9.2.jar

In [43]:
doc = "Las multas en la Ciudad de Buenos Aires son onerosas"
words = nltk.word_tokenize(doc)
tags = tagger.tag(words)
print(tags)

NameError: name 'tagger' is not defined

* En este caso el "taggeo" es diferente al de NLTK.


* Si nos fijamos en la documentación:
    - ('Un', 'di0000') -> Article (indefinite)
    - ('radar', 'nc0s000') -> Common noun (singular)
    - ('multa', 'nc0s000') -> Common noun (singular)
    - ('a', 'sp000') -> Preposition
    - ('Mariano', 'np00000') -> Proper noun
    - ('Rajoy', 'np00000') -> Proper noun
    - ('por', 'sp000') -> Preposition
    - ('caminar', 'vmn0000') -> Verb (main, infinitive)
    - ('demasiado', 'rg') -> Adverb (general)
    - ('rapido', 'aq0000')  -> Adjective (descriptive)

## 9.- n-grams

* Modelo de representación que selecciona secuencias contiguas de N elementos de la selección de texto.

In [38]:
from nltk import ngrams
doc = "Las multas en la Ciudad de Buenos Aires son onerosas"
words = nltk.word_tokenize(doc)
num_elementos = 3
n_grams = ngrams(words, num_elementos)
for grams in n_grams:
    print (grams)

('Las', 'multas', 'en')
('multas', 'en', 'la')
('en', 'la', 'Ciudad')
('la', 'Ciudad', 'de')
('Ciudad', 'de', 'Buenos')
('de', 'Buenos', 'Aires')
('Buenos', 'Aires', 'son')
('Aires', 'son', 'onerosas')
