In [1]:
#*************************************************************************
#1.Importamos la libreria NLTK
#*************************************************************************
import nltk

In [2]:
#*************************************************************************
#2.Instalamos todas las librerias/corpus/modelos que sean necesarios
#*************************************************************************
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

In [2]:
#*************************************************************************
#2.Creamos una texto de entrada a nuestra cadena NLP
#*************************************************************************
text = "I didn't notice my animals were uglier than yours! I'm sorry..."
print ("\n\n1. Texto:",text)



1. Texto: I didn't notice my animals were uglier than yours! I'm sorry...


In [3]:
#*************************************************************************
#2.Dividimos el texto en frases
#*************************************************************************
sentences = nltk.tokenize.sent_tokenize(text)
print ("\n\n2. Frases:",sentences)




2. Frases: ["I didn't notice my animals were uglier than yours!", "I'm sorry..."]


In [4]:
#*****************************************************************************
#3.Tokenización: tokenizamos el texto, es decir dividimos el texto en tokens
#*****************************************************************************
tokens = nltk.word_tokenize(text)
print ("\n\n3. Tokens:",tokens)



3. Tokens: ['I', 'did', "n't", 'notice', 'my', 'animals', 'were', 'uglier', 'than', 'yours', '!', 'I', "'m", 'sorry', '...']


In [5]:
#*************************************************************************
#4.Análisis morfológico: asignamos una etiqueta morfologica a cada token
#*************************************************************************
tagged = nltk.pos_tag(tokens)
print ("\n\n4. Analisis Morfologico:",tagged)



4. Analisis Morfologico: [('I', 'PRP'), ('did', 'VBD'), ("n't", 'RB'), ('notice', 'VB'), ('my', 'PRP$'), ('animals', 'NNS'), ('were', 'VBD'), ('uglier', 'JJR'), ('than', 'IN'), ('yours', 'JJR'), ('!', '.'), ('I', 'PRP'), ("'m", 'VBP'), ('sorry', 'JJ'), ('...', ':')]


In [6]:
#*******************************************************************  
#5.Stemming: obtenemos la raíz (en inglés 'stem') de cada token
#*******************************************************************  
from nltk.stem import PorterStemmer
stemmer = PorterStemmer()
print ("\n\n5. Stems: ")
for tok in tokens:
    print (stemmer.stem(tok.lower()))



5. Stems: 
i
did
n't
notic
my
anim
were
uglier
than
your
!
i
'm
sorri
...


In [7]:
#*******************************************************************  
#6.Lematización: obtenemos el lema de cada token 
#*******************************************************************  
from nltk.stem import WordNetLemmatizer 
lemmatizer = WordNetLemmatizer()
#El lematizador de wordnet solo reconoce 4 etiquetas POS: a (adjetivo), r(adverbio),n (nombre),v(verbo). 
#Así que debemos hacer una conversión del formato Penn Tree Bank al formato wordnet (ej: NN->n, JJ->a, RB->r, VB->V, ...)
from nltk.corpus import wordnet
wnTags = {'N':wordnet.NOUN,'J':wordnet.ADJ,'V':wordnet.VERB,'R':wordnet.ADV} 
print ("\n\n\n6. Lemas: ")
for (tok,tag) in tagged:
    #wordnet no contiene las formas abreviadas 'm  y  n't así que las introducimos nosotros para que lematice bien
    if tok=='\'m':
        tok = 'am'
    if tok=='\'s':
        tok = 'is'
    if tok=='n\'t':
        tok = 'not'
    tag = tag[:1]
    lemma = lemmatizer.lemmatize(tok.lower(),wnTags.get(tag,wordnet.NOUN))
    #otra forma alternativa de obtener el lema hubiera sido llamar directamente a la funcion wordnet.morphy, que hace lo mismo:
    #lemma = wordnet.morphy(tok.lower(),wnTags.get(tag,wordnet.NOUN))
    if lemma is None: #Si wordnet no contiene la palabra, supondremos que el lema es igual al token
       lemma = tok.lower() 
    print (lemma)




6. Lemas: 
i
do
not
notice
my
animal
be
ugly
than
yours
!
i
be
sorry
...


In [8]:
#*******************************************************************    
#7.Análisis sintáctico
#******************************************************************* 

#Partimos de una frase de un conocido texto de Groucho Marx, con una clara ambigüedad: 
#"While hunting in Africa, I shot an elephant in my pijamas. How he got into my pijamas, I don't know."
#¿Groucho estaba en pijama o el elefante estaba dentro de su pijama?
sent = ['I', 'shot', 'an', 'elephant', 'in', 'my', 'pijamas']

#Creamos nuestra propia Gramatica Libre de Contexto (en inglés CFG)
grammar = nltk.CFG.fromstring("""
S -> NP VP
PP -> P NP
NP -> Det N | Det N PP | 'I'
VP -> V NP | VP PP
Det -> 'an' | 'my'
N -> 'elephant' | 'pijamas'
V -> 'shot' | 'did'
P -> 'in'
""")

#Generamos un parser sintáctico capaz de reconocer la gramática
parser = nltk.ChartParser(grammar)
print ('\n\n\n7. Analisis sintactico:\n')
for tree in parser.parse(sent):
    print(tree,'\n')
    tree.draw()




7. Analisis sintactico:

(S
  (NP I)
  (VP
    (VP (V shot) (NP (Det an) (N elephant)))
    (PP (P in) (NP (Det my) (N pijamas))))) 

(S
  (NP I)
  (VP
    (V shot)
    (NP (Det an) (N elephant) (PP (P in) (NP (Det my) (N pijamas)))))) 



## Actividad del Trabajo

Tomar el texto de entrada: “I didn't notice my animals were uglier than yours! I'm sorry...”

In [205]:
#*************************************************************************
#Creamos una texto de entrada a nuestra cadena NLP
#*************************************************************************
text = "I didn't notice my animals were uglier than yours. I'm sorry..."
print ("\n1. Texto:",text)


1. Texto: I didn't notice my animals were uglier than yours. I'm sorry...


Tokenizar dicho texto de entrada. En el paso 7 se tokeniza manualmente entregando un array de
palabras al parser, ahora no debemos hacer eso sino que debemos usar un tokenizador y un divisor
de frases, que alimenten al parser. En el paso 7 sólo se analizaba una frase, ahora nosotros debemos
analizar con nuestro programa todas las frases que contenga nuestro texto, recorriendolas con un
bucle.

In [71]:
sentences = nltk.tokenize.sent_tokenize(text)
print ("\n\n2. Frases:",sentences)



2. Frases: ["I didn't notice my animals were uglier than yours.", "I'm sorry..."]


In [201]:
def func_test(text) :
    print("\n************ sentence ************\n",text, "\n**********************************")
    tokens = nltk.word_tokenize(text)
    print ("\n Tokens:",tokens)
    
    tagged = nltk.pos_tag(tokens)
    print ("\n Analisis Morfologico:",tagged)

    from nltk.stem import WordNetLemmatizer 
    lemmatizer = WordNetLemmatizer()
    #El lematizador de wordnet solo reconoce 4 etiquetas POS: a (adjetivo), r(adverbio),n (nombre),v(verbo). 
    #Así que debemos hacer una conversión del formato Penn Tree Bank al formato wordnet (ej: NN->n, JJ->a, RB->r, VB->V, ...)
    from nltk.corpus import wordnet
    wnTags = {'N':wordnet.NOUN,'J':wordnet.ADJ,'V':wordnet.VERB,'R':wordnet.ADV}
    
    my_lemas = []

    
    print ("\n Lemas: ")
    for (tok,tag) in tagged:
        #wordnet no contiene las formas abreviadas 'm  y  n't así que las introducimos nosotros para que lematice bien
        if tok=='\'m':
            tok = 'am'
        if tok=='\'s':
            tok = 'is'
        if tok=='n\'t':
            tok = 'not'
        if tok=='\'re':
            tok = 'are'
        if tok=='\'ll':
            tok = 'will'
        if tok=='\'d':
            tok = 'would'
        if tok=='\'ve':
            tok = 'have'
        tag = tag[:1]
        lemma = lemmatizer.lemmatize(tok.lower(),wnTags.get(tag,wordnet.NOUN))
        #otra forma alternativa de obtener el lema hubiera sido llamar directamente a la funcion wordnet.morphy, que hace lo mismo:
        #lemma = wordnet.morphy(tok.lower(),wnTags.get(tag,wordnet.NOUN))
        if lemma is None: #Si wordnet no contiene la palabra, supondremos que el lema es igual al token
           lemma = tok.lower()

        my_lemas.append(lemma)

    my_lemas = [x for i,x in enumerate(my_lemas) if x.isalpha() ]    
    #my_lemas = [x for i,x in enumerate(my_lemas) if (x!='.') and (x!='...') ]    
    print(my_lemas)

    #Creamos nuestra propia Gramatica Libre de Contexto (en inglés CFG)
    grammar = nltk.CFG.fromstring("""
    S -> NP VP | NP V RB N NP NP VP
    SN -> NP V RB
    PP -> P NP 
    NP -> Det N | Det N PP | 'i' | V N 
    VP -> V NP | VP PP | V JJ | V RB N| IN Det  
    JJ -> 'sorry'
    Det -> 'an' | 'my' | 'yours'
    N -> 'animal' | 'notice' |'ugly'
    V -> 'do' | 'did' |'be'  
    RB -> 'not'
    IN -> 'than'
    P -> 'in'
    
    """)

    print(grammar)
    
    #Generamos un parser sintáctico capaz de reconocer la gramática
    parser = nltk.ChartParser(grammar)
    print ('\n\n\n7. Analisis sintactico:\n')
    
    print(my_lemas)
    
    for tree in parser.parse(my_lemas):
        print(tree,'\n')
        tree.draw()        

Escribir una nueva gramática que se adapte al nuevo texto. Pueden inventarse los símbolos
sintácticos o ponerse en español si se prefiere: por ej SN (Sintagma Nominal) en vez de NP (Noun
Phrase). Escribir una gramática es complejo y tedioso, por tanto es recomendable comenzar
escribiendo una gramática muy sencilla (una sola regla), y a continuación ejecutarla para ver el
resultado. Una vez obtenido un resultado sin error, añadir nuevas reglas, sucesivamente, una a una,
para ser capaces de detectar los fallos.

- S - Sentence
- NP - Noun Phrase
- VP - Verb Phrase
- NN - Singular Noun 
- PP - Prepositional Phrase 
- DT - Determiner
- VI - Intransitive Verb
- VT - Transitive Verb
- IN - Preposition

In [203]:
for text in sentences:
    func_test(text) 


************ sentence ************
 I didn't notice my animals were uglier than yours. 
**********************************

 Tokens: ['I', 'did', "n't", 'notice', 'my', 'animals', 'were', 'uglier', 'than', 'yours', '.']

 Analisis Morfologico: [('I', 'PRP'), ('did', 'VBD'), ("n't", 'RB'), ('notice', 'VB'), ('my', 'PRP$'), ('animals', 'NNS'), ('were', 'VBD'), ('uglier', 'JJR'), ('than', 'IN'), ('yours', 'NNS'), ('.', '.')]

 Lemas: 
['i', 'do', 'not', 'notice', 'my', 'animal', 'be', 'ugly', 'than', 'yours']
Grammar with 26 productions (start state = S)
    S -> NP VP
    S -> NP V RB N NP NP VP
    SN -> NP V RB
    PP -> P NP
    NP -> Det N
    NP -> Det N PP
    NP -> 'i'
    NP -> V N
    VP -> V NP
    VP -> VP PP
    VP -> V JJ
    VP -> V RB N
    VP -> IN Det
    JJ -> 'sorry'
    Det -> 'an'
    Det -> 'my'
    Det -> 'yours'
    N -> 'animal'
    N -> 'notice'
    N -> 'ugly'
    V -> 'do'
    V -> 'did'
    V -> 'be'
    RB -> 'not'
    IN -> 'than'
    P -> 'in'



7. Anali

Dibujar los distintos análisis de cada frase, mediante el comando 'tree.draw()'

Es decir, en el programa que acabamos de ver no se llega a completar una cadena NLP ya que el
último proceso (análisis sintáctico) no toma como entrada el texto inicial sino un nuevo texto.
Nosotros en la práctica deberemos conseguir enlazar todos los elementos de la cadena, además de
crear una nueva gramática.

![EC2 Logo](arbol1.PNG)

![EC2 Logo](arbol2.PNG)