## Parsers

Esta implementación hace uso de herramientas de nltk y spaCy, y trabaja sobre una Gramática Libre de Contexto personalmente definida. La limitación de esta implementación radica en la dificultad de generalizar un procesamiento arbitrario y no solo dependiente de reglas. Al final del día se termina usando un parser previo proveniente de nltk o de Spacy.

In [1]:
import nltk
from nltk import pos_tag, word_tokenize, CFG
from nltk.parse import RecursiveDescentParser

nltk.download("averaged_perceptron_tagger")
nltk.download("punkt")

def parser_full(sentence):
    # Tokenización
    tokens = word_tokenize(sentence)
    pos_tags = pos_tag(tokens)
    print("POS Tags:", pos_tags)
    
    # Gramática Libre de Contexto
    grammar = CFG.fromstring("""
        S -> NP VP
        NP -> DT NN | PRP
        VP -> VB NP | VB
        DT -> "the"
        NN -> "cat" | "dog"
        PRP -> "he" | "she"
        VB -> "chased" | "sleeps"
    """)
    
    parser = RecursiveDescentParser(grammar)
    
    # Representación gráfica, cortesía de nltk.
    print("Árboles:")
    for tree in parser.parse(tokens):
        print(tree)
        tree.pretty_print()

o1 = "the cat chased the dog"
o3 = "the dog sleeps the cat sleeps"
parser_full(o1)
parser_full(o3)

POS Tags: [('the', 'DT'), ('cat', 'NN'), ('chased', 'VBD'), ('the', 'DT'), ('dog', 'NN')]
Árboles:
(S (NP (DT the) (NN cat)) (VP (VB chased) (NP (DT the) (NN dog))))
              S               
      ________|_____           
     |              VP        
     |         _____|___       
     NP       |         NP    
  ___|___     |      ___|___   
 DT      NN   VB    DT      NN
 |       |    |     |       |  
the     cat chased the     dog

POS Tags: [('the', 'DT'), ('dog', 'NN'), ('sleeps', 'VBZ'), ('the', 'DT'), ('cat', 'NN'), ('sleeps', 'NNS')]
Árboles:


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\FLopezP\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\FLopezP\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
import nltk
from nltk import pos_tag, word_tokenize, CFG
from nltk.parse import RecursiveDescentParser
import spacy

# Se tienen que hacer ciertos ajustes para que funcione en español.
nlp = spacy.load("es_core_news_sm")

def parser_es(sentence):
    # Tokenización usando spaCy
    doc = nlp(sentence)
    tokens = [token.text for token in doc]
    pos_tags = [(token.text, token.pos_) for token in doc]
    print("POST:", pos_tags)
    
    grammar = CFG.fromstring("""
        S -> NP VP
        NP -> DT NN | PRP
        VP -> VB NP | VB
        DT -> "el" | "la"
        NN -> "gato" | "perro"
        PRP -> "él" | "ella"
        VB -> "persigue" | "duerme"
    """)
    
    parser = RecursiveDescentParser(grammar)
    
    # Ejemplo visual.
    print("Árboles:")
    for tree in parser.parse(tokens):
        print(tree)
        tree.pretty_print()

o2 = "el gato persigue el perro"
parser_es(o2)

POST: [('el', 'DET'), ('gato', 'NOUN'), ('persigue', 'VERB'), ('el', 'DET'), ('perro', 'NOUN')]
Árboles:
(S (NP (DT el) (NN gato)) (VP (VB persigue) (NP (DT el) (NN perro))))
                S                  
      __________|______             
     |                 VP          
     |           ______|___         
     NP         |          NP      
  ___|___       |       ___|____    
 DT      NN     VB     DT       NN 
 |       |      |      |        |   
 el     gato persigue  el     perro



In [3]:
# Ejemplos multilinguales. Claramente no funcionan porque las palabras no están presentes en la CFG del idioma contrario.

parser_es(o1)
parser_full(o2)

POST: [('the', 'PROPN'), ('cat', 'PROPN'), ('chased', 'VERB'), ('the', 'PROPN'), ('dog', 'PROPN')]
Árboles:


ValueError: Grammar does not cover some of the input words: "'the', 'cat', 'chased', 'the', 'dog'".