In [9]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag
from nltk.chunk import RegexpParser

In [10]:
# Internet dice que baje esto, se pueden intentar otros modelos de nltk.
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

# Cualquier vaina que consegui en internet
texto = "The quick brown fox, which was being chased by a cunning and agile hound, jumped over the lazy dog lying near the barn."

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\gabri\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\gabri\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


In [11]:
# Tokenizar en oraciones y palabras
oraciones = sent_tokenize(texto)
palabras = [word_tokenize(oracion) for oracion in oraciones]

# Etiquetar las palabras
etiquetas = [pos_tag(oracion) for oracion in palabras]

print(etiquetas)

[[('The', 'DT'), ('quick', 'JJ'), ('brown', 'NN'), ('fox', 'NN'), (',', ','), ('which', 'WDT'), ('was', 'VBD'), ('being', 'VBG'), ('chased', 'VBN'), ('by', 'IN'), ('a', 'DT'), ('cunning', 'NN'), ('and', 'CC'), ('agile', 'NN'), ('hound', 'NN'), (',', ','), ('jumped', 'VBD'), ('over', 'IN'), ('the', 'DT'), ('lazy', 'JJ'), ('dog', 'NN'), ('lying', 'VBG'), ('near', 'IN'), ('the', 'DT'), ('barn', 'NN'), ('.', '.')]]


In [12]:
# Extraer sujeto y verbo
sujetos = []
verbos = []

"""
NP: etiqueta regla para una frase nominal.
{...}: Las llaves encierran las reglas para lo que constituye una frase nominal.
<DT>?: Un determinante (como 'the', 'a', 'an') es opcional (? significa cero o uno).
<JJ>*: Cero o más adjetivos (* significa cero o más).
<NN|NNS|NNP|NNPS>+: Uno o más sustantivos comunes (NN), sustantivos comunes en plural (NNS), nombres propios (NNP) o nombres propios en plural (NNPS). El + significa uno o más.
"""


"""
VP: Esta etiqueta indica que estamos definiendo una regla para una frase verbal.
{...}: Las llaves encierran las reglas para lo que constituye una frase verbal.
<VB|VBD|VBG|VBN|VBP|VBZ>: Cualquier forma de verbo. Las etiquetas posibles son:
VB: Verbo base (por ejemplo, "run").
VBD: Verbo en pasado (por ejemplo, "ran").
VBG: Verbo en gerundio (por ejemplo, "running").
VBN: Verbo en participio pasado (por ejemplo, "run" en "has run").
VBP: Verbo en presente sin 's' (por ejemplo, "run" en "they run").
VBZ: Verbo en presente con 's' (por ejemplo, "runs").
"""

#^^^^ Cortesia de inteligencia artificial. Se puede jugar con estos parametros segun lo que queramos.

# NP (noun-phrases) frases nominales, VP (Verb-phrases) Verbos
grammar = r"""
    NP: {<DT>?<JJ>*<NN|NNS|NNP|NNPS>+}
    VP: {<VB|VBD|VBG|VBN|VBP|VBZ>}
"""
cp = RegexpParser(grammar)

# Cada palabra tokenizada tiene una etiqueta del tipo de palabra que es
for oracion_etiquetada in etiquetas:

    # Parseamos con el regexparser creado antes
    tree = cp.parse(oracion_etiquetada)

    # Se explora arbol donde se relacionan cada palabra entre si.
    for subtree in tree.subtrees():

        #Si es frase nominal
        if subtree.label() == 'NP':
            #Para cada palabra y su etiqueta en las hojas del subarbol
            for word, tag in subtree.leaves():
                #Si posee sustantivo comun, es un sujeto
                if tag.startswith('NN'):
                    sujetos.append(word)
        # Si es verbo en la etiqueta
        elif subtree.label() == 'VP':
            #Para cada palabra y su etiqueta en las hojas del subarbol
            for word, tag in subtree.leaves():
                #Si posee un verbo base como etiqueta, es un verbo
                if tag.startswith('VB'):
                    verbos.append(word)


In [13]:
print("Sujetos:", sujetos)
print("Verbos:", verbos)

Sujetos: ['brown', 'fox', 'cunning', 'agile', 'hound', 'dog', 'barn']
Verbos: ['was', 'being', 'chased', 'jumped', 'lying']
