# PRACTICA GUIADA 1: Preprocesamiento de Texto

En este notebook presentamos NLTK (Natural Language Toolkit) para resolver problemas de procesamiento de lenguaje natural (NLP).

https://www.nltk.org/


Documentación: https://www.nltk.org/py-modindex.html

Libro: http://www.nltk.org/book/

### Tareas básicas de NLP con NLTK

In [1]:
# Descargamos algunos ejemplos introductorios:

import nltk
nltk.download('gutenberg')
nltk.download('genesis')
nltk.download('inaugural')
nltk.download('nps_chat')
nltk.download('webtext')
nltk.download('treebank')

[nltk_data] Downloading package gutenberg to /home/DS-DH/nltk_data...
[nltk_data]   Unzipping corpora/gutenberg.zip.
[nltk_data] Downloading package genesis to /home/DS-DH/nltk_data...
[nltk_data]   Unzipping corpora/genesis.zip.
[nltk_data] Downloading package inaugural to /home/DS-DH/nltk_data...
[nltk_data]   Unzipping corpora/inaugural.zip.
[nltk_data] Downloading package nps_chat to /home/DS-DH/nltk_data...
[nltk_data]   Unzipping corpora/nps_chat.zip.
[nltk_data] Downloading package webtext to /home/DS-DH/nltk_data...
[nltk_data]   Unzipping corpora/webtext.zip.
[nltk_data] Downloading package treebank to /home/DS-DH/nltk_data...
[nltk_data]   Unzipping corpora/treebank.zip.


True

In [2]:
# Importamos los ejemplos introductorios:

from nltk.book import *

*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908


### Contando vocabularios de palabras

In [3]:
text7

<Text: Wall Street Journal>

sents() devuelve una lista de oraciones o expresiones, cada una codificada como una lista de palabras (string) 

el resultado es list(list(str))


In [4]:
sents()

sent1: Call me Ishmael .
sent2: The family of Dashwood had long been settled in Sussex .
sent3: In the beginning God created the heaven and the earth .
sent4: Fellow - Citizens of the Senate and of the House of Representatives :
sent5: I have a problem with people PMing me to lol JOIN
sent6: SCENE 1 : [ wind ] [ clop clop clop ] KING ARTHUR : Whoa there !
sent7: Pierre Vinken , 61 years old , will join the board as a nonexecutive director Nov. 29 .
sent8: 25 SEXY MALE , seeks attrac older single lady , for discreet encounters .
sent9: THE suburb of Saffron Park lay on the sunset side of London , as red and ragged as a cloud of sunset .


---
sent7 devuelve la primera oración del texto 7:

In [5]:
sent7

['Pierre',
 'Vinken',
 ',',
 '61',
 'years',
 'old',
 ',',
 'will',
 'join',
 'the',
 'board',
 'as',
 'a',
 'nonexecutive',
 'director',
 'Nov.',
 '29',
 '.']

---
len(sent7) devuelve la cantidad de palabras que tiene la primera linea del texto 7

In [6]:
len(sent7)

18

---
len(text7) devuelve la cantidad de palabras que tiene texto 7 (con repeticiones)

In [7]:
# cuento "a mano" cuantas palabras hay:
tmp = [w for w in text7]
len(tmp)

100676

In [8]:
len(text7)

100676

---
len(set(text7)) devuelve la cantidad de palabras de text7 sin repeticiones

In [9]:
# cuento a mano cuantas palabras hay sin repeticiones:
tmp = [w for w in text7]
tmp_sin_rep = set(tmp)
len(tmp_sin_rep)

12408

In [10]:
len(set(text7))

12408

list(set(text7))[:10] devuelve las primeras 10 palabras de text7 sin repeticiones y sin orden

In [11]:
list(set(text7))[:10]

['actual',
 'senses',
 'luxury',
 'side',
 'fleet',
 '*T*-161',
 'facial',
 'producers',
 '*-120',
 'center']

### Frecuencia de las palabras

In [12]:
dist = nltk.FreqDist(text7)

dist

FreqDist({',': 4885, 'the': 4045, '.': 3828, 'of': 2319, 'to': 2164, 'a': 1878, 'in': 1572, 'and': 1511, '*-1': 1123, '0': 1099, ...})

In [13]:
vocab1 = dist.keys()
#print(vocab1)
#En Python 3 dict.keys() devuelve un objeto iterable
list(vocab1)[:10]

['Pierre', 'Vinken', ',', '61', 'years', 'old', 'will', 'join', 'the', 'board']

In [14]:
# Podemos observar la cantidad de veces que aparece una palabra en un texto:

dist['the']

4045

In [15]:
# Creamos una lista de las palabras de más de 5 caracteres que aparecen más de 100 veces:

freqwords = [w for w in vocab1 if len(w) > 5 and dist[w] > 100]
freqwords

['billion',
 'company',
 'president',
 'because',
 'market',
 'million',
 'shares',
 'trading',
 'program']

### Stemming

Stemming es un método para reducir una palabra a su raíz o (en inglés) a un stem. 

Ejemplo en castellano: "gato", "gata", "gatos" => "gat"

Ejemplo en ingles: "automates", "automatic"   => "automat"

El stemming o lematización es hallar el lema (stem) de las palabras y no tiene que tener significado.
* Un algoritmo de stemming es un proceso de normalización lingüística en el cual las diferentes formas que puede adoptar
una palabra son reducidos a una única forma común, a la cual se denomina stem o lema.
* Stem o lema es la porción de la palabra después de eliminar sus afijos. Por ejemplo: perr para las palabras perros, perros,
perrito, perrote, etc.

Para el idioma inglés, puede elegir entre **PorterStammer** o **LancasterStammer**, siendo PorterStemmer el más antiguo desarrollado originalmente en 1979. LancasterStemmer se desarrolló en 1990 y utiliza un enfoque más agresivo que el algoritmo de stemming de Porter.

In [16]:
# Importamos los algoritmos de Stemming

from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

In [17]:
# Creamos objects a partir de las clases PorterStemmer y LancasterStemmer

porter = PorterStemmer()
lancaster=LancasterStemmer()


# Le pasamos palabras a ambos algoritmos para que hagan stemming:
print("Porter Stemmer")
print(porter.stem("cats"))
print(porter.stem("trouble"))
print(porter.stem("troubling"))
print(porter.stem("troubled"))
print("\n")
print("Lancaster Stemmer")
print(lancaster.stem("cats"))
print(lancaster.stem("trouble"))
print(lancaster.stem("troubling"))
print(lancaster.stem("troubled"))

Porter Stemmer
cat
troubl
troubl
troubl


Lancaster Stemmer
cat
troubl
troubl
troubl


In [18]:
# Creamos una lista de palabras para hacer stemming con ambos algoritmos:

word_list = ["friend", "friendship", "friends", "friendships","stabil","destabilize","misunderstanding","railroad","moonlight","football"]
# print de titulo:
print("{0:20}{1:20}{2:20}".format("Word","Porter Stemmer","lancaster Stemmer"))
# print de datos:
for word in word_list:
    porter_stem = porter.stem(word)
    lancaster_stem = lancaster.stem(word)
    print("{0:20}{1:20}{2:20}".format(word, porter_stem, lancaster_stem))

Word                Porter Stemmer      lancaster Stemmer   
friend              friend              friend              
friendship          friendship          friend              
friends             friend              friend              
friendships         friendship          friend              
stabil              stabil              stabl               
destabilize         destabil            dest                
misunderstanding    misunderstand       misunderstand       
railroad            railroad            railroad            
moonlight           moonlight           moonlight           
football            footbal             footbal             


Cómo se puede observar el algoritmo de Porter toma a toda la frase como una sola unidad:

In [19]:
sentence = "Pythoners are very intelligent and work very pythonly and now they are pythoning their way to success."
porter.stem(sentence)

'pythoners are very intelligent and work very pythonly and now they are pythoning their way to success.'

Por lo tanto antes de aplicar stemming tenemos que tokenizar la frase.

### Tokenization

Es el proceso de separar (y posiblemente clasificar) partes de un string. Puede considerarse una sub tarea del proceso de parsing. Los token resultados son la entrada de otro paso de procesamiento. 

In [20]:
sentence.split(' ')

['Pythoners',
 'are',
 'very',
 'intelligent',
 'and',
 'work',
 'very',
 'pythonly',
 'and',
 'now',
 'they',
 'are',
 'pythoning',
 'their',
 'way',
 'to',
 'success.']

Vemos que tokenizar haciendo un split en los espacios no genera los resultados esperados, porque el punto queda tokenizado junto con la palabra "success".

In [21]:
# Otro ejemplo para ver como falla la tokenización con el split(' ')

sentence2 = "Children shouldn't drink a sugary drink before bed."
sentence2.split(' ')

['Children', "shouldn't", 'drink', 'a', 'sugary', 'drink', 'before', 'bed.']

---

https://www.nltk.org/api/nltk.tokenize.html

sent_tokenize: tokenization en oraciones

word_tokenize: tokenization en palabras

In [22]:
from nltk.tokenize import sent_tokenize, word_tokenize

nltk.word_tokenize(sentence2)

['Children',
 'should',
 "n't",
 'drink',
 'a',
 'sugary',
 'drink',
 'before',
 'bed',
 '.']

In [23]:
text = "This is the first sentence. A gallon of milk in the U.S. costs $2.99. Is this the third sentence? Yes, it is!"

sentences = nltk.sent_tokenize(text)
print(sentences)
len(sentences)

['This is the first sentence.', 'A gallon of milk in the U.S. costs $2.99.', 'Is this the third sentence?', 'Yes, it is!']


4

In [24]:
sentences

['This is the first sentence.',
 'A gallon of milk in the U.S. costs $2.99.',
 'Is this the third sentence?',
 'Yes, it is!']

In [25]:
# Definimos una función que tokeniza una frase y aplica el Stemming de Porter:

def stemSentence(sentence):
    
    token_words = word_tokenize(sentence)
    token_words
    stem_sentence = []
    
    porter = PorterStemmer()
    
    for word in token_words:
        stem_sentence.append(porter.stem(word))
        stem_sentence.append(" ")
    return "".join(stem_sentence)


x = stemSentence(sentence)
print(x)

python are veri intellig and work veri pythonli and now they are python their way to success . 


### Stemmers en otros idiomas:

Python **nltk** no solo proporciona dos stemmers en inglés: PorterStemmer y LancasterStemmer, sino también muchos stemmers que no están en inglés como **SnowballStemmers**. (https://www.nltk.org/api/nltk.stem.html#module-nltk.stem.snowball)

Idiomas que maneja **SnowballStemmers**:

 - danés
 - holandés
 - inglés
 - francés
 - alemán
 - húngaro
 - italiano
 - noruego
 - portugués
 - rumano
 - ruso
 - español
 - sueco

In [26]:
from nltk.stem.snowball import SnowballStemmer

englishStemmer = SnowballStemmer("english")
englishStemmer.stem("having")

'have'

In [27]:
spanishStemmer = SnowballStemmer("spanish")
spanishStemmer.stem("Corriendo")

'corr'

In [28]:
# Defimimos una función que aplica stemming a una frase en castellano:

def stemfraseesp(frase):
    
    token_words = word_tokenize(frase)
    token_words
    stem_sentence = []
    
    spanishStemmer = SnowballStemmer("spanish")
    
    for word in token_words:
        stem_sentence.append(spanishStemmer.stem(word))
        stem_sentence.append(" ")
    return "".join(stem_sentence)


In [29]:
frase1 = "Una frase de prueba en castellano para aplicar stemming"

x = stemfraseesp(frase1)
print(x)

una fras de prueb en castellan par aplic stemming 


### Lemmatization

Es el proceso de agrupar las distintas formas de una palabra para que puedan analizarse como un solo elemento, identificado por el lema de la palabra o forma de diccionario.

A diferencia de stemming, la lematización depende de la identificación correcta de la parte deseada del discurso y el significado de una palabra en una oración, así como dentro del contexto más amplio que rodea esa oración, como las oraciones vecinas o incluso un documento completo.


wordnet: https://wordnet.princeton.edu/ - https://www.nltk.org/api/nltk.corpus.reader.html#module-nltk.corpus.reader.wordnet
    
udhr  https://www.nltk.org/api/nltk.corpus.reader.html#module-nltk.corpus.reader.udhr

In [30]:
import nltk
nltk.download('wordnet')
nltk.download('udhr')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\mbeati\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package udhr to
[nltk_data]     C:\Users\mbeati\AppData\Roaming\nltk_data...
[nltk_data]   Package udhr is already up-to-date!


True

In [31]:
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

sentence = "He was running and eating at same time. He has bad habit of swimming after playing long hours in the Sun."
punctuations = "?:!.,;"
sentence_words = nltk.word_tokenize(sentence)
for word in sentence_words:
    if word in punctuations:
        sentence_words.remove(word)

sentence_words

print("{0:20}{1:20}".format("Word","Lemma"))
for word in sentence_words:
    print ("{0:20}{1:20}".format(word,wordnet_lemmatizer.lemmatize(word)))

Word                Lemma               
He                  He                  
was                 wa                  
running             running             
and                 and                 
eating              eating              
at                  at                  
same                same                
time                time                
He                  He                  
has                 ha                  
bad                 bad                 
habit               habit               
of                  of                  
swimming            swimming            
after               after               
playing             playing             
long                long                
hours               hour                
in                  in                  
the                 the                 
Sun                 Sun                 


In [32]:
udhr = nltk.corpus.udhr.words('English-Latin1')
udhr[:20]

['Universal',
 'Declaration',
 'of',
 'Human',
 'Rights',
 'Preamble',
 'Whereas',
 'recognition',
 'of',
 'the',
 'inherent',
 'dignity',
 'and',
 'of',
 'the',
 'equal',
 'and',
 'inalienable',
 'rights',
 'of']

In [33]:
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()

sentence_words = udhr[:20] 

print("{0:20}{1:20}".format("Word","Lemma"))
for word in sentence_words:
    print ("{0:20}{1:20}".format(word,wordnet_lemmatizer.lemmatize(word)))

Word                Lemma               
Universal           Universal           
Declaration         Declaration         
of                  of                  
Human               Human               
Rights              Rights              
Preamble            Preamble            
Whereas             Whereas             
recognition         recognition         
of                  of                  
the                 the                 
inherent            inherent            
dignity             dignity             
and                 and                 
of                  of                  
the                 the                 
equal               equal               
and                 and                 
inalienable         inalienable         
rights              right               
of                  of                  
