# Introducción al Procesamiento del Lenguaje Natural, con Python

# Contenido

#### Tema 1: Introducción


* ¿Qué es un Lenguaje?


* ¿Qué es el Procesamiento del Lenguaje Natural?


* Herramientas en Python para NLP:
    - NLTK
    - SpaCy
    - Gensim
    - Scikit
    - TensorFlow-Keras


#### Tema 2: NLP - Conceptos y Preprocesamiento de texto


* Conceptos:

    - Corpus
    - Bag of Words (BoW)
    - Tokenización
    - N-Grammas
    - Stemming
    - Lematización
    - Stop-Words
    - Parts of Speech (PoS)
    - Named Entity Recognition (NER)


* Normalización de textos: Preprocesamiento


#### Tema 3: Analisis Automático de texto subjetivo (Clasificación de textos)


* Introducción: Clasificación de textos con Naive Bayes


* Clasificación de textos: Algoritmos de aprendizaje para la clasificación


* Clasificación de textos: Redes Neuronales


#### Tema 4: Topic Modeling (Clustering)


* LSI: Latent Semantic Index


* LDA: Latent Dirichlet Allocation


* Visialización: pyLDAvis


#### Tema 5: Uso de modelos pre-entrenado en "Hugging Face" (Transformers)


* Clasificación


* Traducción


* Resumenes de textos


#### Tema 6: Introducción a GPT3


<hr>


# Tema 1: Introducción


## ¿Qué es un Lenguaje?


* Un Lenguajes es un conjunto potencialmente infinito de oraciones y sentencias de palabras construidas mediante reglas gramaticales, foneticas y de significación que rigen el propio lenguaje.


* Nos encontramos con 3 tipos de lenguajes:
<span></span><br><br>
    - ***Lenguaje Natural***: Lengua o idioma que nace espontáneamente de un grupo de hablantes por la necesidad de establecer comunicación verbal. Ejm: Ingles, Castellano, Frances, Italiano, etc.
<span></span><br><br>
    - ***Lenguaje Formal***: Lenguajes diseñados para un ámbito de aplicación concreto, que se definen de manera precisa y libre de ambigüedad. Ejm: Matemático, Lógico, Musical, Programación (C, Java, Python, R, Scala, etc.)
<span></span><br><br>
    - ***Lenguaje Artificial***: Lenguajes diseñados antes de ser usados por sus parlantes. Es una mezcla entre los lenguajes naturales y formales. Ejm: Klingon.



## ¿Qué es el Procesamiento del Lenjuaje Natural?


* El ***Procesamiento del Lenguaje Natural*** (NLP) es un campo que combina la ***Informática***, la ***Inteligencia Artificial*** y la ***Lingüística***; que tiene como objetivo, tratar la interacción entre los lenguajes humanos (lenguajes naturales) y los dispositivos informáticos.


* El NLP abarca los siguientes campos:
    - Recuperación de información
    - Extracción y categorización de información
    - Análisis automático de texto subjetivo (Análisis de sentimientos)
    - Traducción automática
    - Generación del lenguaje
    - Questions & Answering (Chatbots)


## De la *Lingüística* al *Procesamiento del Lenguaje Natural*

### - Lingüística


* La ***lingüística*** es el estudio científico del lenguaje, incluyendo su gramática, semántica y fonética.


* En términos generales, un ***lingüista*** es cualquier persona que estudia un idioma.


### - Lingüística computacional


* La lingüística computacional es el estudio de la lingüística utilizando las herramientas de la informática. 


### - Procesamiento estadístico del lenguaje natural


* La lingüística computacional también se conoce con el nombre de Procesamiento del Lenguaje Natural, para reflejar el enfoque más ingenieril o empírico de los métodos estadísticos aplicados a la Lingüistica. 


* El dominio estadístico del campo, lleva a menudo a que el ***NLP*** sea descrito como ***Procesamiento Estadístico del Lenguaje Natural***, para distanciarse (en la definición) de los métodos clásicos de la lingüística computacional.


### - Procesamiento del Lenguaje natural


* Campo que combina la ***Informática***, la ***Inteligencia Artificial*** y la ***Lingüística***; que tiene como objetivo, tratar la interacción entre los lenguajes humanos (lenguajes naturales) y los dispositivos informáticos.


## Herramientas en Python para el NLP


* Aunque existen bastante librería en Python destinadas al Procesamiento del Lenguaje Natural o a resolver determinadas partes del NLP, mostramos a continuación una serie de librería que vamos a utilizar en este curso:
<span></span><br><br>
    - ***NLTK*** (https://www.nltk.org/): Es una librería desarrollada por Steven Bird y Edward Loper para el NLP (principalmente en Inglés) que incorpora muchas funcionalidades como, corpus, recursos léxicos, algoritmos de aprendizaje para el NLP, etc.
<span></span><br><br>
    - ***SpaCy*** (https://spacy.io/): Es una librería para el NLP incorpora funcionalidades como Tokenización, Lematización, PoS, NER, etc. en varios idiomas. A diferencia de NLTK que tienen fines de caracter didáctico, SpaCy esta pensado para explotarlo en entornos productivos.
<span></span><br><br>
    - ***Gensim*** (https://radimrehurek.com/gensim): Es una librería desarrollada por el Checo Radim Řehůřek, Ph.D, que tiene implementadas; entre otras cosas, algoritmos como el LSI y el LDA para la detección de tópicos (Topic Modeling)
<span></span><br><br>
    - ***Scikit*** (https://scikit-learn.org/): Es una librería que tiene implementada multitud de algoritmos de aprendizaje (regresión, clasificación, cluterización, reducción de la dimensionalidad) y funcionalidades para trabajar con estos algoritmos.
<span></span><br><br>
    - ***TensorFlow-Keras*** (https://www.tensorflow.org/): Es una librería desarrollada por Google para trabajar con Redes Neuronales (MLP, CNN, RNN). La versión 2 de TensorFlow hace uso del API de Keras para un desarrollo más sencillo.
    
    
## Bibliografía recomendada para NLP (en Inglés)


1. **Natural Language Processing with Python** de Steven Bird, Ewan Klein y Edward Loper. O'Reilly Media. Julio 2009.

2. **Applied Text Analysis with Python**, de Benjamin Bengfort, Rebecca Bilbro y Tony Ojeda. O'Reilly Media. Junio 2018.

3. **Natural Language Processing Crash Course for Beginners**, de AI Publishing. Agosto 2020.

4. **Transformers for Natural Language Processing**,  de Denis Rothman. Packt Publishing. Enero 2021.
    

# 01 - Introducción a la librería NLTK


* NLTK (https://www.nltk.org/) es una librería para Python, usada para el análisis y la manipulación del lenguaje natural.


* Se instala bien con el gestor de paquetes "pip" o con "conda" en caso de utilizarlo. Para instalarlo con pip o conda se realiza de la siguiente manera respectivamente:

```
>> pip install nltk
>> conda install nltk
```

<hr>

## 1.- Instalación y descargar de las bases de datos

* NLTK utiliza una serie de bases de datos léxicas para la manipulación del lenguaje natural.


* También dispone de una una serie de corpus (colección de textos) que nos podemos descargar para "jugar" con ellos.


* Para descargarnos las bases de datos y los corpus realizaremos lo siguiente:
    1. Importar la librería nltk
    2. llamar a al método "download"<sup>(*)</sup>
    3. Aparecerá una ventana emergente para seleccionar todo lo que NLTK nos permite descargar
    
    
###### (*): Si utilizas un MAC es posible que al ejecutar el método "download()" haga un logout de la sesión. Para evitarlo y para que se descargue todo el contenido, es necesario pasarle al método "download" como parámetros aquello que nos queramos descargar, en nuestro caso todo:

```
>> nltk.download('all')
```

In [None]:
import nltk
nltk.download("all")


## 2.- Corpus


* Un ***Corpus*** (en Latín "*Cuerpo*") dentro del contexto del NLP se refiere a una colección de textos como puede ser un conjunto de artítulo periodísticos, libros, críticas, tweets, etc.


* NLTK dispone de una serie de ***Corpus*** con los que poder trabajar y realizar pruebas.


* Algunos de los ***corpus*** que pueden ser de interés didáctico son los siguientes:

|Corpus|Content|
|---|---|
|Brown Corpus|15 genres, 1.15M words, tagged, categorized|
|CESS Treebanks|1M words, tagged and parsed (Catalan, Spanish)|
|Gutenberg (selections)|18 texts, 2M words|
|Inaugural Address Corpus|U.S. Presidential Inaugural Addresses (1789–present)|
|Movie Reviews|2k movie reviews with sentiment polarity classification|
|Reuters Corpus|1.3M words, 10k news documents, categorized|
|Stopwords Corpus|2,400 stopwords for 11 languages|
|WordNet 3.0 (English)|145k synonym sets|


* Para más información relativa a los corpus ir al siguiente enlace: http://www.nltk.org/howto/


<hr>

### 2.1.- Manejo de Corpus (funcionalidades)

Dentro de NLTK podemos encontrarnos diferentes tipos de Corpus que podrían clasificarse en:

* Textos planos: como el corpus de *Gutenberg*
* Textos categorizados: como el corpus de *Bronwn* (15 generos)
* Textos multicategóricos: como el corpus de *Reuters* (1 documentos, varias categorias)
* Textos temporales: como el corpus *Inaugural Address Corpus*, discursos presidenciales a lo largo de la historia

Para el manejo de estos corpus NLTK nos ofrece las siguientes funciones:

|Example|Description|
|---|---|
|fileids()|the files of the corpus|
|fileids([categories])|the files of the corpus corresponding to these categories|
|categories()|the categories of the corpus|
|categories([fileids])|the categories of the corpus corresponding to these files|
|raw()|the raw content of the corpus|
|raw(fileids=[f1,f2,f3])|the raw content of the specified files|
|raw(categories=[c1,c2])|the raw content of the specified categories|
|words()|the words of the whole corpus|
|words(fileids=[f1,f2,f3])|the words of the specified fileids|
|words(categories=[c1,c2])|the words of the specified categories|
|sents()|the sentences of the whole corpus|
|sents(fileids=[f1,f2,f3])|the sentences of the specified fileids|
|sents(categories=[c1,c2])|the sentences of the specified categories|
|abspath(fileid)|the location of the given file on disk|
|encoding(fileid)|the encoding of the file (if known)|
|open(fileid)|open a stream for reading the given corpus file|
|root|if the path to the root of locally installed corpus|
|readme()|the contents of the README file of the corpus|

### 2.1.1.- Ejemplo con el corpus de Gutenberg

**1. ¿Que ficheros componen el corpus?**

In [None]:
from nltk.corpus import gutenberg
gutenberg.fileids()

**2. ¿Cual es el contenido del fichero "blake-poems.txt"?**

(Por lectura mostramos solo los 300 primeros caracteres)

In [None]:
contenido = gutenberg.raw("blake-poems.txt")
contenido[:300]

Para cargar alguno de estos libros en variables y poder manipularlos directamente, podemos utilizar varios métodos.

- `gutenberg.raw` recupera el texto como una única cadena de caracteres.
- `gutenberg.words` recupera el texto tokenizado en palabras. El método devuelve una lista palabras.
- `gutenberg.sents` recupera el texto segmentado por oraciones. El método devuelve una lista de oraciones. Cada oración es a su vez una lista de palabras.
- `gutenberg.paras` recupera el texto  segmentado por párrafos. El método devuelve una lista de párrafos.  Cada párrafo es una lista de oraciones, cada oración es a su vez una lista de palabras.

In [None]:
# cargo la vesión 'cruda' de un par de libros. Como son libros del Proyecto Gutenberg, se trata de ficheros en texto plano
alice = gutenberg.raw("carroll-alice.txt")
print(alice[:200]) # imprimo los primeros 200 caracteres del libro de Alicia

bible = gutenberg.raw("bible-kjv.txt")
print(bible[:200]) # imprimo los primeros 200 caracteres de la Biblia

De cada uno de los ficheros mostramos: 

- Número de caracteres 

- Número de palabras

- Número de frases 
 
- Número de medio de caracteres por palabra 
 
- Número medio de palabras por frase
 
- Diversidad léxica (número de palabras / palabras distintas del texto)

In [None]:
for file in gutenberg.fileids():
    num_chars = len(gutenberg.raw(file))
    num_words = len(gutenberg.words(file))
    num_sents = len(gutenberg.sents(file))
    avg_chars_words = int(num_chars/num_words)
    avg_words_sents = int(num_words/num_sents)
    lexical_diversity = int(num_words/num_words_distinct)
    print("{num_chars:<10} {num_words:<10} {num_sents:<10} {avg_chars_words:<10} {avg_words_sents:<10} {lexical_diversity:<10} {file:<10}"
          .format(num_chars=num_chars, num_words=num_words, num_sents=num_sents, avg_chars_words=avg_chars_words,
                  avg_words_sents = avg_words_sents, lexical_diversity=lexical_diversity, file=file))

Ejemplo con el corpus de Brown

Este es un corpus que contiene una serie de textos categorizados (o tageados) con un tipos de genero

1. ¿Cuales son las categorias del corpus de Brown?

In [None]:
from nltk.corpus import brown
brown.categories()

***2. ¿Qué ficheros componen la categoría de noticias (news)?*** (por legibilidad solo mostramos 5)

In [None]:
brown.fileids(['news'])[0:5]

***3.¿Que categorias corresponden al fichero "ca01"?***

In [None]:
brown.categories(fileids=['ca01'])

***4.¿Que palabras corresponden a la categoria humor?***

In [None]:
brown.words(categories='humor')

## 3.- WordNet

* ***WordNet*** es un diccionario semántico y jerárquico en Ingles compuesto por una 155k palabras y 117K sinónimos.


* De forma jerarquica, esta estructurado de tal manera que hay una serie de palabras llamadas "***unique beginers***" o "*root synsets*" que son palabras que definen "conceptos" muy generales y a partir de esos conceptos generales engloban una serie de palabras pertenecientes a ese concepto. Veamos el siguiente ejemplo:

* En este ejemplo vemos como un "*camión*" (truck) esta definido como un "*vehiculo motorizado*" (motor vehicle) y este a su vez esta definido por otra palabra de nivel conceptual superior, hasta llegar a un muy alto nivel de palabra que lo define como un "*artefacto*" (artefact).


* Este seria ("a grandes rasgos") como está organizado este diccionario, de tal manera que permite obtener de una palabra cosas como:
    * Sinónimos
    * Antónimos
    * Hipérnimos
    * Hipónimos
    * Merónimos
    * Holónimos
    * Etc.
    

Veamos a continuación un ejemplo con la palabra "motorcar" y como nos daría una lista de sinónimos (synset) de esa palabra con la función "synsets()"

In [None]:
from nltk.corpus import wordnet as wn
wn.synsets('motorcar')

* En este caso nos devuelve una lista de sinónimos (synset), que serian los "nodos" del diccionario jerarquico a partir del cual se relaciona esa palabra. Para este ejemplo solo nos ha dado un sinónimo.

* A partir del "nodo" 'car.n.01' vamos a:
    * Obtener su definición
    * Obtener los lemas de sus sinónimos (de la palabra car no de la palabra motorcar)

In [None]:
definicion = wn.synset('car.n.01').definition()
sinonimos = wn.synset('car.n.01').lemma_names()

print('Definición: ' + definicion)
print('Sinónimos: ' + str(sinonimos))

### Relación semántica entre palabras

* Otro tema interesante que tenemos con ***WordNet*** es que nos permite ver la relación semáncia o la similaridad que hay entre palabras veamos por ejemplo la similaridad entre las siguientes palabras:

    * car
    * truck
    * dog

* Primero obtenemos alguno de los "nodos" de la palabra (el primero)
* Comparamos la similaridad "nodo" con "nodo"

In [None]:
car = wn.synsets('car')[0]
truck = wn.synsets('truck')[0]
dog = wn.synsets('dog')[0]

print('Similaridad entre Coche y Camión: ' + str(car.path_similarity(truck)))
print('Similaridad entre Coche y Perro: ' + str(car.path_similarity(dog)))