<a href="https://colab.research.google.com/github/isegura/OCW-UC3M-NLPDeep-2023/blob/main/tema1_2_nltk.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center>
<img src="https://upload.wikimedia.org/wikipedia/commons/4/47/Acronimo_y_nombre_uc3m.png" width=50%/>

<h1><font color='#12007a'>Procesamiento de Lenguaje Natural con Aprendizaje Profundo</font></h1>
<p>Autora: Isabel Segura Bedmar</p>

<img align='right' src="https://mirrors.creativecommons.org/presskit/buttons/88x31/png/by-nc-sa.png" width=15%/>
</center>  

# 1.1. Librería NLTK

En este ejercicio, trabajaremos con la librería
NLTK (Natural Language Toolkit) (https://www.nltk.org/).

NLTK es una librería de Python que nos permite trabajar con textos en lenguaje natural.  Esta librería permite  procesar  textos y realizar varias tareas básicas de PLN. En este ejercicio, se estudian las siguientes tareas:
- división de oraciones y tokenización
- stemming y lematización
- análisis morfosintáctico (PoS tagging)
- análisis sintáctico (parsing).

Además de estas tareas básicas, NLTK también permite reconocer entidades.



No es necesario instalar la librería NLTK (ya está incluida en Google Colab).

Sin embargo, si será necesario descargar algunos paquetes para realizar ciertas tareas. Por ejemplo, es necesario descargar el paquete *punkt* necesario para realizar tareas de análisis sintáctico:

In [1]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

## Qué tareas podemos realizar con NLTK




### Cómo dividir un texto en sus oraciones


Para la mayoría de los textos sería suficiente con considerar el signo de puntuación '.' como carácter para dividir el texto. Sin embargo, esta división no siempre es trivial (por ejemplo, qué ocurre con abreviaturas que contienen '.').

NLTK proporciona un método, **sent_tokenize**, que segmenta un texto en oraciones de forma robusta, siendo capaz de manejar todo tipo de textos.

In [5]:
text='''Billy always listens to his mother. He always does what she says.
If his mother says, Brush your teeth, Billy brushes his teeth.
If his mother says, Go to bed, Billy goes to bed. Billy is a very good boy.
His father, Dr. Smith, is very proud of him.'''


sentences = nltk.sent_tokenize(text)
for sentence in sentences:
    print(sentence)


Billy always listens to his mother.
He always does what she says.
If his mother says, Brush your teeth, Billy brushes his teeth.
If his mother says, Go to bed, Billy goes to bed.
Billy is a very good boy.
His father, Dr. Smith, is very proud of him.


Para poder dividir un texto en otro idioma distinto al inglés, sería necesario cargar el tokenizador para el idioma correspondiente.

In [6]:
tokenizer_es = nltk.data.load('tokenizers/punkt/spanish.pickle')
text='Este es un curso de NLP. Ahora estamos estudiando NLTK. Luego veremos Spacy.'
sentences=tokenizer_es.tokenize(text)
print(sentences)


['Este es un curso de NLP.', 'Ahora estamos estudiando NLTK.', 'Luego veremos Spacy.']




### Cómo tokenizar un texto en sus oraciones

La tokenización consiste en dividir un texto en sus palabras y signos de puntuación.

El método **split** no es capaz de manejar los signos de puntuacion y tampoco ciertos usos del apóstrofo *'* (genitivos sajón, formas cortas de la negación , etc):


In [8]:
text="Mr. O'Neill thinks that the boys' stories about Chile's capital aren't amusing."
tokens=[t for t in text.split()]
print(tokens)

['Mr.', "O'Neill", 'thinks', 'that', 'the', "boys'", 'stories', 'about', "Chile's", 'capital', "aren't", 'amusing.']



NLTK proporciona un método, **word_tokenize**, capaz de realizar la tokenización de un texto de forma más robusta que el método split.

Compara la tokenización producida por split y la del método word_tokenize.

In [None]:
tokens=nltk.word_tokenize(text)
print(tokens)

['Mr.', "O'Neill", 'thinks', 'that', 'the', 'boys', "'", 'stories', 'about', 'Chile', "'s", 'capital', 'are', "n't", 'amusing', '.']


### Cómo identificar las categorías morfosintácticas (PoS) de las palabras en un texto

Clasificar palabras en sus categorías morfosintácticas o gramáticales (Part-of-speech tags).

 Estas etiquetas nos proporcionan información muy útil para tareas como el reconocimiento de entidades o la extracción de relaciones.

 Es necesarios descargar el paquete **averaged_perceptron_tagger**:



In [27]:
nltk.download('averaged_perceptron_tagger')


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

Una vez tokenizado un texto, debemos aplicar el **pos_tag** para obtener sus etiquetas morfosintácticas:

In [28]:
text="At least four people were dead after a man began shooting at a synagogue in the Squirrel Hill neighbourhood of Pittsburgh on Saturday."
tokens = nltk.word_tokenize(text)
tags=nltk.pos_tag(tokens)
print(tags)

[('At', 'IN'), ('least', 'JJS'), ('four', 'CD'), ('people', 'NNS'), ('were', 'VBD'), ('dead', 'JJ'), ('after', 'IN'), ('a', 'DT'), ('man', 'NN'), ('began', 'VBD'), ('shooting', 'VBG'), ('at', 'IN'), ('a', 'DT'), ('synagogue', 'NN'), ('in', 'IN'), ('the', 'DT'), ('Squirrel', 'NNP'), ('Hill', 'NNP'), ('neighbourhood', 'NN'), ('of', 'IN'), ('Pittsburgh', 'NNP'), ('on', 'IN'), ('Saturday', 'NNP'), ('.', '.')]


El listado completo de las categorías morfosintácticas de NLTK está disponible en:
https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

Además, la siguiente celda también nos permite consultar este listado.

In [29]:
nltk.download('tagsets')
nltk.help.upenn_tagset()


$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.


### Normalización de textos: lematización y stemming



#### Lematización

La lematización consiste en el análisis morfológico de una palabra para obtener su lema o forma canónica (la palabra que se encuentra en el diccionario).

Por ejemplo, 'walk', 'walked', 'walks', 'walking' comparten la misma forma base o lema: 'walk'.

La lematización está basada en el uso de diccionario (recursos léxicos). También utiliza la información del contexto de la palabra a lematizar.

En NLTK, necesitamos descargar el paquete **wordnet**. WordNet es uno de las bases de datos léxicas del idioma inglés. Contiene información sobre nombres, verbos, adjetivos y adverbios.


In [9]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...


True

La clase **WordNetLemmatizer** proporciona el método **lematize** que recibe una palabra y devuelve su lema.

En la siguiente celda, NLTK es utilizado para tokenizar una oración. Para cada token, se muestra su lema:

In [10]:
from nltk.stem import WordNetLemmatizer

sentence='The women sang songs and stories about the thieves.'
tokens=nltk.word_tokenize(sentence)
lematizer = WordNetLemmatizer()
print('Token:\t\tLemma:')
for t in tokens:
    print(t,'\t\t',lematizer.lemmatize(t))


Token:		Lemma:
The 		 The
women 		 woman
sang 		 sang
songs 		 song
and 		 and
stories 		 story
about 		 about
the 		 the
thieves 		 thief
. 		 .


#### Stemming
Es el proceso de reducir las palabras flexionadas a su raíz.

Está basado en un conjunto de reglas ( [Algoritmo de Porter](https://https://tartarus.org/martin/PorterStemmer/)) que tratan de encontrar la raíz de una palabra.

Ejemplos de reglas:

| Regla | Ejemplo  |
|----------|----------|
| S ->     | cats -> cat |
| ES ->   | glasses -> glass   |
| (verb) ED ->   | wanted -> want   |
| (verb) ING ->   | killing -> kill   |

NLTK proporciona la clase PorterStemmer, que es una implementación del algoritmo Porter. Veamos el siguiente ejemplo:


In [12]:
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()
for word in ['fish', 'fishes', 'fished', 'fishing']:
    print(word, ', stem=', stemmer.stem(word))


fish , stem= fish
fishes , stem= fish
fished , stem= fish
fishing , stem= fish


Sin embargo, este no siempre funciona correctamente:


In [13]:
for word in ['stories', 'leaves', 'horses', 'does']:
    print(word, ', stem=', stemmer.stem(word))


stories , stem= stori
leaves , stem= leav
horses , stem= hors
does , stem= doe


**¿Qué proceso es más correcto: la lematización o el stemming?**

Veamos algunos ejemplos, para ver qué proceso es más robusto:

In [14]:
for word in ['stories', 'leaves', 'horses', 'does']:
    print(word, ', stem=', stemmer.stem(word), ' lema=', lematizer.lemmatize(word))


stories , stem= stori  lema= story
leaves , stem= leav  lema= leaf
horses , stem= hors  lema= horse
does , stem= doe  lema= doe


En general, la lematización es un proceso más robusto.

Sin embargo, en el ejemplo anterior, la lematización no es capaz de obtener el lema para la forma verbal **does**.

En NLTK, es posible pasar un segundo parámetro al objeto WordNetLemmatizer, para indicar la categoría morfosintáctica de la palabra que queremos lematizar ('n' para nombres,  'a' para adjetivos,  'v' para verbos, y 'r' para adverbios). Esto permite al lematizador manejar las palabras que pueden tener varias categorías morfosintácticas (por ejemplo, **leaves** puede ser un nombre plural, y la tercera personal del singular del verbo **leave**).


Veamos más ejemplos donde la lematización es capaz de obtener el lema correcto, pero el stemming no es capaz de obtener una raíz correcta.


El lema de 'better' es 'good'. El stemming no es capaz de obtener esta relación.


In [None]:
word='better'
print(word, ",  stem:", stemmer.stem(word))
print(word, ",  lema:", lematizer.lemmatize(word, 'a'))


El gerundio 'meeting' tiene como lema 'meet', que va a coincidir con su stem. Sin embargo, el lema del sustantivo 'meeting' es 'meeting', que no coincide con el stem.

In [17]:
word='meeting'
print(word, ", its stem is:", stemmer.stem(word))
print(word, ", its lemma is:", lematizer.lemmatize(word, 'v'))
print(word, ", its lemma is:", lematizer.lemmatize(word, 'n'))

meeting , its stem is: meet
meeting , its lemma is: meet
meeting , its lemma is: meeting


In [None]:
word='drove'
print(word, " stem:", stemmer.stem(word))
print(word, " lema:", lematizer.lemmatize(word, 'v'))


Otro error típico en stemming  es que para algunos conjuntos de palabras (por ejemplo, las palabras **easy**, **easily**, **easier**, **easiest**), el algoritmo debería devolver la misma raíz (**easy**), pero no es así.
La lematización sí es capaz de resolver correctamente el lema de esos adjetivos.

In [21]:
for word in ['easy', 'easily', 'easier', 'easiest']:
    print(word, ' stem=', stemmer.stem(word), " lema:", lematizer.lemmatize(word, 'a'))


easy  stem= easi  lema: easy
easily  stem= easili  lema: easily
easier  stem= easier  lema: easy
easiest  stem= easiest  lema: easy


##### Stemming en otros idiomas


Utiliza la clase **SnowballStemmer** (una versión mejorada de Porter):

In [22]:
from  nltk.stem import SnowballStemmer
sno = SnowballStemmer('spanish')
for word in ['cantar', 'cantaré', 'cantaba', 'cantó', 'cantaron']:
    print(word, 'stem=', sno.stem(word))

cantar stem= cant
cantaré stem= cant
cantaba stem= cant
cantó stem= cant
cantaron stem= cant


Por tanto, podemos concluir que la lematización es más robusta (aunque el stemming es más eficiente, más rápido).

La lematización y stemming son tareas que nos permiten normalizar el texto, reduciendo la variabilidad léxica del lenguaje natural. Son muy útiles en algunas aplicaciones de PLN, como la clasificación de textos y la recuperación de información.
Al normalizar los textos (lematizar o realizar stemming), estamos eliminando ruido, reduciendo el vocabulario asociado a una colección de textos, y por tanto, disminuyendo la dimensionalidad en los modelos de representación de bolsa de palabras o tf-idf.



-

### Cómo eliminar las palabras vacías (Stopwords)
Son palabras sin significado semántico: artículos, preposiciones, conjunciones, y algunos adverbios.
También palabras muy comunes como los verbos modales o verbos frecuentes en el idioma ('to be', 'to have', etc).

Es útil identificar estas palabras en los textos para poder ignorarlas durante la representación de los textos, ya que no añaden información semántica y pueden añadir ruido.


Es necesario descargar el paquete **stopwords**


In [24]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

NLTK tiene una lista predefinida de palabras vacías que hace referencia a las palabras más comunes.


In [25]:
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

En la siguiente celda, vemos un ejemplo de código para eliminar las stopwords del texto:

In [26]:
stop_words = sorted(stopwords.words("spanish"))

text = 'El ajedrez es un juego de estrategia.'
tokens = nltk.word_tokenize(text)
print(tokens)

relevant_tokens = [token for token in tokens if token.lower() not in stop_words]
print(relevant_tokens)


['El', 'ajedrez', 'es', 'un', 'juego', 'de', 'estrategia', '.']
['ajedrez', 'juego', 'estrategia', '.']


### Cómo obtener  entidades nombradas en un texto


NLTK proporciona un método **ne_chunks**, capaz de reconocer entidades del tipo PERSONA, ORGANIZACIÓN y GEP.

Descarga los siguientes paquetes:


In [30]:
nltk.download('maxent_ne_chunker')
nltk.download('words')



[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

Primero vamos a ver cómo podemos obtener los sintagmas nominales de un texto:

In [38]:
text="At least four people were dead after a man began shooting at a synagogue in the Squirrel Hill neighbourhood of Pittsburgh on Saturday."
tokens = nltk.word_tokenize(text)
tags=nltk.pos_tag(tokens)
ner_tags = nltk.ne_chunk(tags)
print(ner_tags)


(S
  At/IN
  least/JJS
  four/CD
  people/NNS
  were/VBD
  dead/JJ
  after/IN
  a/DT
  man/NN
  began/VBD
  shooting/VBG
  at/IN
  a/DT
  synagogue/NN
  in/IN
  the/DT
  (ORGANIZATION Squirrel/NNP Hill/NNP)
  neighbourhood/NN
  of/IN
  (GPE Pittsburgh/NNP)
  on/IN
  Saturday/NNP
  ./.)


El reconocimiento de entidades de NLTK no es muy robusto. Por ejemplo, en la siguiente celda, podemos ver cómo Apple es reconocida como 'PERSON'!!!

In [39]:
text="Apple opened its first retail store in Mumbai on Tuesday."
tokens = nltk.word_tokenize(text)
tags=nltk.pos_tag(tokens)
ner_tags = nltk.ne_chunk(tags)
print(ner_tags)


(S
  (PERSON Apple/NNP)
  opened/VBD
  its/PRP$
  first/JJ
  retail/JJ
  store/NN
  in/IN
  (GPE Mumbai/NNP)
  on/IN
  Tuesday/NNP
  ./.)
