# NLTK

NLTK (Natural Language Toolkit) es una librería de Python que nos permite trabajar con textos en lenguaje natural.  Esta librería permite realizar procesar el textos y realizar varias tareas básicas de PLN. En este tutorial, veremos las siguientes tareas: 
- división de oraciones y tokenización
- stemming y lematización
- análisis morfosintáctico (PoS tagging)
- análisis sintáctico (parsing). 

Además de estas tareas básicas, NLTK también permite reconocer entidades. 



## Instalar NLTK

First we need to install NLTK. 

In [1]:
!pip install --user -U nltk


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Debemos descargar el paquete 'punkt' para realizar las tareas de análisis sintáctico:

In [2]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## División de oraciones

El objetivo de esta tarea es dividir un texto en sus oraciones.
Para la mayoría de los textos sería suficiente con considerar el signo de puntuación '.' como carácter para dividir el texto. Sin embargo, esta división no siempre es trivial (por ejemplo, qué ocurre con abreviaturas que contienen '.'). 

NLTK proporciona un método que segmenta un texto en oraciones de forma robusta, siendo capaz de manejar todo tipo de textos. 


In [3]:
text='Billy always listens to his mother. He always does what she says. ' \
+ 'If his mother says, Brush your teeth, Billy brushes his teeth. ' \
+ 'If his mother says, Go to bed, Billy goes to bed. Billy is a very good boy. ' \
+ 'His father, Dr. Smith, is very proud of him. ' \


sentences = nltk.sent_tokenize(text)
for sentence in sentences:
    print(sentence)


Billy always listens to his mother.
He always does what she says.
If his mother says, Brush your teeth, Billy brushes his teeth.
If his mother says, Go to bed, Billy goes to bed.
Billy is a very good boy.
His father, Dr. Smith, is very proud of him.


Para poder dividir un texto en otro idioma distinto al inglés, sería necesario cargar el tokenizador para el idioma correspondiente. 

In [4]:
tokenizer_es = nltk.data.load('tokenizers/punkt/spanish.pickle')
text='Este es un curso de NLP. Ahora estamos estudiando NLTK. Luego veremos Spacy.'
sentences=tokenizer_es.tokenize(text)
print(sentences)


['Este es un curso de NLP.', 'Ahora estamos estudiando NLTK.', 'Luego veremos Spacy.']


## Tokenización

Es la tarea de dividir un texto en sus palabras y signos de puntuación. 

El método split no es capaz de manejar los signos de puntuacion:


In [5]:
text="Mr. O'Neill thinks that the boys' stories about Chile's capital aren't amusing."
tokens=[t for t in text.split()]
print(tokens)

['Mr.', "O'Neill", 'thinks', 'that', 'the', "boys'", 'stories', 'about', "Chile's", 'capital', "aren't", 'amusing.']


NLTK proporciona un método capaz de realizar la tokenización de un texto de forma más robusta que el método split:

In [6]:
tokens=nltk.word_tokenize(text)
print(tokens)

['Mr.', "O'Neill", 'thinks', 'that', 'the', 'boys', "'", 'stories', 'about', 'Chile', "'s", 'capital', 'are', "n't", 'amusing', '.']


Además de manejar correctamente los signos de puntuación, NLTK también es capaz de detectar las conjunciones del idioma, por ejemplo, 'aren't' ha sido descompueto en los tokens 'are' y 'n't'.

## Lemmatization 

La lematización consiste en el análisis morfológico de una palabra para obtener su lema. Por ejemplo, 'walk', 'walked', 'walks', 'walking' comparten la misma forma base o lema: 'walk'.

La lematización está basada en el uso de diccionario (recursos léxicos). También de la información del contexto de la palabra a lematizar. 


In [12]:
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [8]:
from nltk.stem import WordNetLemmatizer

sentence='The women sang songs and stories about the thieves.'
#sentence='He tries to answer the questions'
tokens=nltk.word_tokenize(sentence)
lematizer = WordNetLemmatizer()
print('Token:\t\tLemma:')
for t in tokens:
    print(t,'\t\t',lematizer.lemmatize(t))


Token:		Lemma:
The 		 The
women 		 woman
sang 		 sang
songs 		 song
and 		 and
stories 		 story
about 		 about
the 		 the
thieves 		 thief
. 		 .


## Stemming

Es el proceso de reducir las palabras flexionadas a su raíz. Por ejemplo, 'fish' es la raíz de las siguientes palabras: 'fishing', 'fished' y 'fisher'.

El stemming está basado en un conjunto de reglas (algoritmo de Porter) que tratan de encontrar la raíz de una palabra. Es un proceso menos robusto que la lematización, pero mucho más eficiente. 


In [9]:
from nltk.stem.porter import PorterStemmer
stemmer = PorterStemmer()
for t in tokens:
    print(t,'\t\t',stemmer.stem(t))

The 		 the
women 		 women
sang 		 sang
songs 		 song
and 		 and
stories 		 stori
about 		 about
the 		 the
thieves 		 thiev
. 		 .



Ambos procesos ayudan a reducir la variabilidad léxica del lenguaje natural. En muchas aplicaciones de LN (como recuperación de información o respuesta a preguntas) es muy común representar los textos considerando los lemas o las raíces en lugar de las palabras. 


Veamos algunos ejemplos. 

La palabra "play" es la forma base de la palabra "playing" y, por lo tanto, coincide tanto en la stemming como en la lematización.


In [17]:
from nltk.corpus import wordnet
word='playing'

print(word, ", its stem is:", stemmer.stem(word))
print(word, ", its lemma is:", lematizer.lemmatize(word, wordnet.VERB))


playing , its stem is: play
playing , its lemma is: play



Ejemplos:
- La palabra 'better' tiene como lema 'good'. El stemming no es capaz de obtener esta relación. 



In [16]:
word='better'
print(word, ", its stem is:", stemmer.stem(word))
print(word, ", its lemma is:", lematizer.lemmatize(word, wordnet.ADJ))

better , its stem is: better
better , its lemma is: good




- El gerundio 'meeting' tiene como lema 'meet', que va a coincidir con su stem. Sin embargo, el lema del sustantivo 'meeting' es 'meeting', que no coincide con el stem. 

In [18]:
word='meeting'
print(word, ", its stem is:", stemmer.stem(word))
print(word, ", its lemma is:", lematizer.lemmatize(word, wordnet.VERB))
print(word, ", its lemma is:", lematizer.lemmatize(word, wordnet.NOUN))

meeting , its stem is: meet
meeting , its lemma is: meet
meeting , its lemma is: meeting


In [None]:
word='better'
print(word, ", its stem is:", stemmer.stem(word))
print(word, ", its lemma is:", lematizer.lemmatize(word, wordnet.ADJ))

Más ejemplos de palabras en los que no coincide el stem y el lema:

In [19]:

word='seen'

print(word, " Stemmer:", stemmer.stem(word))
print(word, "Lemmatizer:", lematizer.lemmatize(word, wordnet.VERB))
print()
word='drove'

print(word, " Stemmer:", stemmer.stem(word))
print(word, "Lemmatizer:", lematizer.lemmatize(word, wordnet.VERB))


seen  Stemmer: seen
seen Lemmatizer: see

drove  Stemmer: drove
drove Lemmatizer: drive


## Stopwords 
Son palabras que no tienen significado semántico como son los artículos, las preposiciones, las conjunciones, y algunos adverbios. También palabras muy comunes como el verbo 'to be'. 

Es útil identificar estas palabras en los textos para poder ignorarlas durante la representación de los textos (transformación de palabras en vectores) ya que no añaden información semántica y pueden añadir mucho ruido. 


La herramienta NLTK tiene una lista predefinida de palabras vacías que hace referencia a las palabras más comunes.

La lista de palabras vacías podrían cambiar según su aplicación.


In [22]:
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [23]:
from nltk.corpus import stopwords
print(stopwords.words("english"))

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his', 'himself', 'she', "she's", 'her', 'hers', 'herself', 'it', "it's", 'its', 'itself', 'they', 'them', 'their', 'theirs', 'themselves', 'what', 'which', 'who', 'whom', 'this', 'that', "that'll", 'these', 'those', 'am', 'is', 'are', 'was', 'were', 'be', 'been', 'being', 'have', 'has', 'had', 'having', 'do', 'does', 'did', 'doing', 'a', 'an', 'the', 'and', 'but', 'if', 'or', 'because', 'as', 'until', 'while', 'of', 'at', 'by', 'for', 'with', 'about', 'against', 'between', 'into', 'through', 'during', 'before', 'after', 'above', 'below', 'to', 'from', 'up', 'down', 'in', 'out', 'on', 'off', 'over', 'under', 'again', 'further', 'then', 'once', 'here', 'there', 'when', 'where', 'why', 'how', 'all', 'any', 'both', 'each', 'few', 'more', 'most', 'other', 'some', 'such', 'no', 'nor', 'not', 'only', 'own', 'same', 'so', 'than', '

En la siguiente celda, vemos un ejemplo de código para eliminar las stopwords del texto: 

In [24]:
stop_words = set(stopwords.words("english"))
sentence = "Backgammon is one of the oldest known board games."

words = nltk.word_tokenize(sentence)
without_stop_words = [word for word in words if not word in stop_words]
print(without_stop_words)

['Backgammon', 'one', 'oldest', 'known', 'board', 'games', '.']


## Análisis Morfosintáctico (PoS tagging)

Clasificar palabras en sus categorías léxicas (art-of-speech tags). Estas etiquetas nos proporcionan información muy útil para tareas como el reconocimiento de entidades o la extracción de relaciones.
Primero, debe tokenizar el texto. Luego, el método **pos_tag** proporciona las etiquetas PoS.

In [25]:
nltk.download('averaged_perceptron_tagger')


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [26]:
text="At least four people were dead after a man began shooting at a synagogue in the Squirrel Hill neighbourhood of Pittsburgh on Saturday."
tokens = nltk.word_tokenize(text)
tags=nltk.pos_tag(tokens)
print(tags)

[('At', 'IN'), ('least', 'JJS'), ('four', 'CD'), ('people', 'NNS'), ('were', 'VBD'), ('dead', 'JJ'), ('after', 'IN'), ('a', 'DT'), ('man', 'NN'), ('began', 'VBD'), ('shooting', 'VBG'), ('at', 'IN'), ('a', 'DT'), ('synagogue', 'NN'), ('in', 'IN'), ('the', 'DT'), ('Squirrel', 'NNP'), ('Hill', 'NNP'), ('neighbourhood', 'NN'), ('of', 'IN'), ('Pittsburgh', 'NNP'), ('on', 'IN'), ('Saturday', 'NNP'), ('.', '.')]


El lsitado completo de las categorías morfosintácticas de NLTK está disponible en: 
https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

Además, la siguiente celda también nos permite consultar este listado. 

In [28]:
nltk.download('tagsets')
nltk.help.upenn_tagset()


$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.


## Reconocimiento de Entidades

NLTK proporciona un clasificador que ya ha sido entrenado para reconocer entidades del tipo PERSONA, ORGANIZACIÓN y GEP, al que se accede con la función nltk.ne_chunk().


In [30]:
nltk.download('maxent_ne_chunker')
nltk.download('words')



[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.
[nltk_data] Downloading package words to /root/nltk_data...


(S
  At/IN
  least/JJS
  four/CD
  people/NNS
  were/VBD
  dead/JJ
  after/IN
  a/DT
  man/NN
  began/VBD
  shooting/VBG
  at/IN
  a/DT
  synagogue/NN
  in/IN
  the/DT
  (ORGANIZATION Squirrel/NNP Hill/NNP)
  neighbourhood/NN
  of/IN
  (GPE Pittsburgh/NNP)
  on/IN
  Saturday/NNP
  ./.)


[nltk_data]   Unzipping corpora/words.zip.


In [32]:
text="At least four people were dead after a man began shooting at a synagogue in the Squirrel Hill neighbourhood of Pittsburgh on Saturday."
tokens = nltk.word_tokenize(text)
tags=nltk.pos_tag(tokens)
ner_tags = nltk.ne_chunk(tags)
print(ner_tags)


(S
  At/IN
  least/JJS
  four/CD
  people/NNS
  were/VBD
  dead/JJ
  after/IN
  a/DT
  man/NN
  began/VBD
  shooting/VBG
  at/IN
  a/DT
  synagogue/NN
  in/IN
  the/DT
  (ORGANIZATION Squirrel/NNP Hill/NNP)
  neighbourhood/NN
  of/IN
  (GPE Pittsburgh/NNP)
  on/IN
  Saturday/NNP
  ./.)
