In [2]:
import nltk
from nltk.chunk import RegexpParser
from nltk.tokenize import word_tokenize
from nltk.corpus import state_union
from nltk.tag import pos_tag

# Descargar los recursos necesarios de NLTK
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('state_union')

# Ejemplo de texto
text = "NLTK es una biblioteca de Python para procesamiento de lenguaje natural."

# Tokenizar el texto en palabras
words = word_tokenize(text)

# Etiquetar las palabras con sus POS tags
tagged = pos_tag(words)

# Definir la gramática para identificar frases nominales (NP)
grammar = r"""
    NP: {<DT>?<JJ>*<NN>}
    P: {<IN>}
    V: {<V.*>}
    PP: {<P> <NP>}
    VP: {<V> <NP|PP>*}
"""

# Crear el analizador de gramática
parser = RegexpParser(grammar)

# Aplicar el analizador al texto etiquetado
result = parser.parse(tagged)

# Imprimir el resultado
print(result)

# Función para mostrar el árbol de chunking de una forma más legible
def print_chunks(tree):
    for subtree in tree:
        if isinstance(subtree, nltk.Tree):
            print(f"{subtree.label()}: {' '.join([word for word, tag in subtree.leaves()])}")

print_chunks(result)

# Visualizar el árbol (opcional)
result.draw()


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\jason\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\jason\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package state_union to
[nltk_data]     C:\Users\jason\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\state_union.zip.


(S
  NLTK/NNP
  es/CC
  (NP una/JJ biblioteca/NN)
  (P de/IN)
  Python/NNP
  para/FW
  (NP procesamiento/NN)
  de/FW
  lenguaje/FW
  natural/JJ
  ./.)
NP: una biblioteca
P: de
NP: procesamiento
