In [1]:
#*************************************************************************
#1.Importamos la libreria NLTK
#*************************************************************************
import nltk


#*************************************************************************
#2.Creamos una texto de entrada a nuestra cadena NLP
#*************************************************************************
text = "I didn't notice my animals were uglier than yours! I'm sorry..."
print ("\n\n1. Texto:",text)


#*************************************************************************
#2.Dividimos el texto en frases
#*************************************************************************
sentences = nltk.tokenize.sent_tokenize(text)
print ("\n\n2. Frases:",sentences)


#*****************************************************************************
#3.Tokenización: tokenizamos el texto, es decir dividimos el texto en tokens
#*****************************************************************************
tokens = nltk.word_tokenize(text)
print ("\n\n3. Tokens:",tokens)



#*************************************************************************
#4.Análisis morfológico: asignamos una etiqueta morfologica a cada token
#*************************************************************************
tagged = nltk.pos_tag(tokens)
print ("\n\n4. Analisis Morfologico:",tagged)



#*******************************************************************  
#5.Stemming: obtenemos la raíz (en inglés 'stem') de cada token
#*******************************************************************  
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print ("\n\n5. Stems: ")
for tok in tokens:
    print (stemmer.stem(tok.lower()))
  
    
 
 
#*******************************************************************  
#6.Lematización: obtenemos el lema de cada token 
#*******************************************************************  
from nltk.stem import WordNetLemmatizer 
lemmatizer = WordNetLemmatizer()
#El lematizador de wordnet solo reconoce 4 etiquetas POS: a (adjetivo), r(adverbio),n (nombre),v(verbo). 
#Así que debemos hacer una conversión del formato Penn Tree Bank al formato wordnet (ej: NN->n, JJ->a, RB->r, VB->V, ...)
from nltk.corpus import wordnet
wnTags = {'N':wordnet.NOUN,'J':wordnet.ADJ,'V':wordnet.VERB,'R':wordnet.ADV} 
print ("\n\n\n6. Lemas: ")
for (tok,tag) in tagged:
    #wordnet no contiene las formas abreviadas 'm  y  n't así que las introducimos nosotros para que lematice bien
    if tok=='\'m':
        tok = 'am'
    if tok=='\'s':
        tok = 'is'
    if tok=='n\'t':
        tok = 'not'
    tag = tag[:1]
    lemma = lemmatizer.lemmatize(tok.lower(),wnTags.get(tag,wordnet.NOUN))
    #otra forma alternativa de obtener el lema hubiera sido llamar directamente a la funcion wordnet.morphy, que hace lo mismo:
    #lemma = wordnet.morphy(tok.lower(),wnTags.get(tag,wordnet.NOUN))
    if lemma is None: #Si wordnet no contiene la palabra, supondremos que el lema es igual al token
       lemma = tok.lower() 
    print (lemma)

    
    
    
    
#*******************************************************************    
#7.Análisis sintáctico
#******************************************************************* 

#Partimos de una frase de un conocido texto de Groucho Marx, con una clara ambigüedad: 
#"While hunting in Africa, I shot an elephant in my pijamas. How he got into my pijamas, I don't know."
#¿Groucho estaba en pijama o el elefante estaba dentro de su pijama?
sent = ['I', 'shot', 'an', 'elephant', 'in', 'my', 'pijamas']

#Creamos nuestra propia Gramatica Libre de Contexto (en inglés CFG)
grammar = nltk.CFG.fromstring("""
S -> NP VP
PP -> P NP
NP -> Det N | Det N PP | 'I'
VP -> V NP | VP PP
Det -> 'an' | 'my'
N -> 'elephant' | 'pijamas'
V -> 'shot' | 'did'
P -> 'in'
""")


#Generamos un parser sintáctico capaz de reconocer la gramática
parser = nltk.ChartParser(grammar, trace=1)
print ('\n\n\n7. Analisis sintactico:\n')
for tree in parser.parse(sent):
    print(tree,'\n')
    tree.draw()
nltk.parse.chart.demo(2, print_times=False, trace=1, sent='I saw a dog', numparses=1)




1. Texto: I didn't notice my animals were uglier than yours! I'm sorry...


2. Frases: ["I didn't notice my animals were uglier than yours!", "I'm sorry..."]


3. Tokens: ['I', 'did', "n't", 'notice', 'my', 'animals', 'were', 'uglier', 'than', 'yours', '!', 'I', "'m", 'sorry', '...']


4. Analisis Morfologico: [('I', 'PRP'), ('did', 'VBD'), ("n't", 'RB'), ('notice', 'VB'), ('my', 'PRP$'), ('animals', 'NNS'), ('were', 'VBD'), ('uglier', 'JJR'), ('than', 'IN'), ('yours', 'JJR'), ('!', '.'), ('I', 'PRP'), ("'m", 'VBP'), ('sorry', 'JJ'), ('...', ':')]


5. Stems: 
i
did
n't
notic
my
anim
were
uglier
than
your
!
i
'm
sorri
...



6. Lemas: 
i
do
not
notice
my
animal
be
ugly
than
yours
!
i
be
sorry
...



7. Analisis sintactico:

|.  I  . shot.  an .eleph.  in .  my .pijam.|
|[-----]     .     .     .     .     .     .| [0:1] 'I'
|.     [-----]     .     .     .     .     .| [1:2] 'shot'
|.     .     [-----]     .     .     .     .| [2:3] 'an'
|.     .     .     [-----]     .     .     .| 

## Ejercicio

In [2]:
#Importamos los módulos necesarios
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer
from nltk.corpus import wordnet

1.- Creamos el texto de entrada a nuestra cadena NLP

In [3]:
text = "I didn't notice my animals were uglier than yours! I'm sorry..."
#Mostramos el resultado
print ("TEXTO:",text)

TEXTO: I didn't notice my animals were uglier than yours! I'm sorry...


2.- Dividimos el texto en frases

In [4]:
sentences= nltk.tokenize.sent_tokenize (text)
#Mostramos el resultado
print (sentences)

["I didn't notice my animals were uglier than yours!", "I'm sorry..."]


3.- Tokenizamos el texto de cada frase mediante un bucle, extraemos la etiqueta para cada uno de ellos y, finalmente mostramos su lema:

In [5]:
#Importamos numpy porque luego vamos a trabajar con arrays para extraer en esta estructura los tags
import numpy as np
#definimos un array para los tag
array_POS = []
#definimos un array para los lemas
array_lema = []
       
for sentence in sentences:
    tokens=nltk.word_tokenize(sentence)
    print ("TOKENS:", tokens) #Mostramos el resultado
    tags=nltk.pos_tag(tokens)
    array_POS.append(tags)
    print ("TAGS:",tags) #Mostramos el resultado
    stemmer=PorterStemmer()
    lemmatizer=WordNetLemmatizer ()
    from nltk.corpus import wordnet
    wnTags = {'N':wordnet.NOUN,'J':wordnet.ADJ,'V':wordnet.VERB,'R':wordnet.ADV} 
    print ("LEMAS: ") #Mostramos el resultado
    for (tok,tag) in tags:
        #wordnet no contiene las formas abreviadas 'm  y  n't que aparecen en la frase así que las introducimos para que lematice bien
        if tok=='\'m':
            tok = 'am'
        if tok=='n\'t':
            tok = 'not'
        tag = tag[:1]
        #obtenemos el lema llamando a la funcion wordnet.morphy:
        lemma = wordnet.morphy(tok.lower(),wnTags.get(tag,wordnet.NOUN))
        #Si wordnet no contiene una de las palabras contenidas en el texto a analizar, suponemos que lema = token
        if lemma is None: 
            lemma = tok.lower() 
        print (lemma)
        #guardamos los lemas obtenidos en el array creado a tal efecto
        array_lema.append(lemma)

TOKENS: ['I', 'did', "n't", 'notice', 'my', 'animals', 'were', 'uglier', 'than', 'yours', '!']
TAGS: [('I', 'PRP'), ('did', 'VBD'), ("n't", 'RB'), ('notice', 'VB'), ('my', 'PRP$'), ('animals', 'NNS'), ('were', 'VBD'), ('uglier', 'JJR'), ('than', 'IN'), ('yours', 'JJR'), ('!', '.')]
LEMAS: 
i
do
not
notice
my
animal
be
ugly
than
yours
!
TOKENS: ['I', "'m", 'sorry', '...']
TAGS: [('I', 'PRP'), ("'m", 'VBP'), ('sorry', 'JJ'), ('...', ':')]
LEMAS: 
i
be
sorry
...


In [6]:
#Representamos el array de los lemas
print ("- Array de los lemas:",array_lema)
#Representamos el array de los tags
print ("- Array de los tags:",array_POS)

- Array de los lemas: ['i', 'do', 'not', 'notice', 'my', 'animal', 'be', 'ugly', 'than', 'yours', '!', 'i', 'be', 'sorry', '...']
- Array de los tags: [[('I', 'PRP'), ('did', 'VBD'), ("n't", 'RB'), ('notice', 'VB'), ('my', 'PRP$'), ('animals', 'NNS'), ('were', 'VBD'), ('uglier', 'JJR'), ('than', 'IN'), ('yours', 'JJR'), ('!', '.')], [('I', 'PRP'), ("'m", 'VBP'), ('sorry', 'JJ'), ('...', ':')]]


4.- Creamos nuestra propia Gramatica Libre de Contexto (CFG) para los lemas obtenidos de la frase a analizar:

In [7]:
#Generamos la gramática para los lemas
grammar_lemas = nltk.CFG.fromstring("""
S -> NP VP
PP -> Adv Nom NP | Pron Nom VP Punt
NP -> 'i' | PP | 'i' Verb Adj Punt
VP -> Verb PP | Verb Adj Conj Pron
Punt -> '!' NP | '...'
Adv ->  'not' 
Conj -> 'than' 
Nom -> 'notice' | 'animal'
Pron -> 'my' | 'yours' 
Verb -> 'be' | 'do'
Adj -> 'ugly' | 'sorry'
""")

#Enviamos los lemas a analizar en la gramática
parser = nltk.ChartParser(grammar_lemas)
print ('Analisis sintactico lema:')
for treelema in parser.parse(array_lema):
    print(treelema,'\n')
    treelema.draw()

Analisis sintactico lema:
(S
  (NP i)
  (VP
    (Verb do)
    (PP
      (Adv not)
      (Nom notice)
      (NP
        (PP
          (Pron my)
          (Nom animal)
          (VP (Verb be) (Adj ugly) (Conj than) (Pron yours))
          (Punt ! (NP i (Verb be) (Adj sorry) (Punt ...)))))))) 



5.- Creamos nuestra propia Gramatica Libre de Contexto (CFG) para los POS obtenidos de la frase a analizar:

In [8]:
#Generamos la gramática para los tags utilizando el array creado para los tags
nltk.pos_tag(array_lema)
grammar_POS = nltk.CFG.fromstring("""
S -> NP VP
NP -> 'NNS' 'VBP' 'RB' | 'RB' 'IN' 'UH' Punt |'NN' VP
VP -> 'VB' 'PRP$' 'JJ' 'VB' NP | 'VB' 'JJ' Punt
Punt -> '.' NP| ':'
""")
#Cargo los tags mediante una sentencia (no he logrado hacerlo en este tiempo con el array que había generado antes).
sentence_POS = "NNS VBP RB VB PRP$ JJ VB RB IN UH . NN VB JJ :".split(" ") 
#Creamos el parser
parser_POS = nltk.ChartParser(grammar_POS)
print ('Analisis sintactico POS:')
#Cargamos en el arbol
for tree_POS in parser_POS.parse(sentence_POS):
    print(tree_POS,'\n')
    tree_POS.draw()

Analisis sintactico POS:
(S
  (NP NNS VBP RB)
  (VP
    VB
    PRP$
    JJ
    VB
    (NP RB IN UH (Punt . (NP NN (VP VB JJ (Punt :))))))) 

