In [45]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk
from nltk.corpus import stopwords

In [46]:
def process_text(text):
    # Tokenización de oraciones
    sentences = sent_tokenize(text)
    print("Oraciones:", sentences)

    # Tokenización de palabras
    tokens = word_tokenize(text)
    print("Tokens:", tokens)

    # Etiquetado gramatical
    tagged = pos_tag(tokens)
    print("Etiquetas gramaticales:", tagged)

    # Reconocimiento de entidades nombradas
    named_entities = ne_chunk(tagged)
    print("Entidades nombradas:", named_entities)

    # Eliminación de palabras vacías (stop words)
    stop_words = set(stopwords.words('english'))
    filtered_words = [token for token in tokens if token.lower() not in stop_words]
    print("Palabras filtradas:", filtered_words)

# Texto de ejemplo
texto_ejemplo = "El gato está durmiendo en la alfombra. Mi nombre es Juan y vivo en Nueva York."

# Procesar el texto
process_text(texto_ejemplo)

Oraciones: ['El gato está durmiendo en la alfombra.', 'Mi nombre es Juan y vivo en Nueva York.']
Tokens: ['El', 'gato', 'está', 'durmiendo', 'en', 'la', 'alfombra', '.', 'Mi', 'nombre', 'es', 'Juan', 'y', 'vivo', 'en', 'Nueva', 'York', '.']
Etiquetas gramaticales: [('El', 'NNP'), ('gato', 'NN'), ('está', 'NN'), ('durmiendo', 'NN'), ('en', 'IN'), ('la', 'NN'), ('alfombra', 'NN'), ('.', '.'), ('Mi', 'NNP'), ('nombre', 'JJ'), ('es', 'NN'), ('Juan', 'NNP'), ('y', 'NN'), ('vivo', 'NN'), ('en', 'IN'), ('Nueva', 'NNP'), ('York', 'NNP'), ('.', '.')]
Entidades nombradas: (S
  (GPE El/NNP)
  gato/NN
  está/NN
  durmiendo/NN
  en/IN
  la/NN
  alfombra/NN
  ./.
  Mi/NNP
  nombre/JJ
  es/NN
  (PERSON Juan/NNP)
  y/NN
  vivo/NN
  en/IN
  (PERSON Nueva/NNP York/NNP)
  ./.)
Palabras filtradas: ['El', 'gato', 'está', 'durmiendo', 'en', 'la', 'alfombra', '.', 'Mi', 'nombre', 'es', 'Juan', 'vivo', 'en', 'Nueva', 'York', '.']


## Respuesta

Primero tenemos que verificar que cumplimos con los requerimientos del sistema, mediante la instalación del módulo NLTK.

In [47]:
pip install nltk


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.1.1[0m[39;49m -> [0m[32;49m23.1.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


Se instalan los modelos pre-entrenados para que funcione el código.

In [48]:
# Se descarga el modelo para la división de texto
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/codespace/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /home/codespace/nltk_data...
[nltk_data]   Package words is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

De igual manera que en el primer ejercicio, lo que tenemos que realizar es la importación de los módulos que vamos a usar.

In [49]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag
from nltk.chunk import ne_chunk
from nltk.corpus import stopwords

Ahora para poder leer nuestro texto desde un archivo txt tenemos que realizar lo siguiente.

In [50]:
# Se usa 'with open' ya que nos facilita el hecho de no tener que cerrar 
# el archivo en códigos grandes como ocurre al usar solamente 'open'.
with open('texto.txt', 'r') as texto: # Se señala que solo buscamos leer el archivo con 'r' 
    texto_ejemplo = texto.read()


# En este caso usamos " para poder ingresar ' dentro del texto impreso.
print(f"Datos dentro del archivo 'texto.txt': \n{texto_ejemplo}")

Datos dentro del archivo 'texto.txt': 
El gato está durmiendo en la alfombra. Mi nombre es Juan y vivo en Nueva York.


Creamos la función a usar, que básicamente sería la mimsa que ya tenemos y la corremos.

In [51]:
def process_text(text):
    # Tokenización de oraciones
    sentences = sent_tokenize(text)
    print("Oraciones:", sentences)

    # Tokenización de palabras
    tokens = word_tokenize(text)
    print("Tokens:", tokens)

    # Etiquetado gramatical
    tagged = pos_tag(tokens)
    print("Etiquetas gramaticales:", tagged)

    # Reconocimiento de entidades nombradas
    named_entities = ne_chunk(tagged)
    print("Entidades nombradas:", named_entities)

    # Eliminación de palabras vacías (stop words)
    stop_words = set(stopwords.words('english'))
    filtered_words = [token for token in tokens if token.lower() not in stop_words]
    print("Palabras filtradas:", filtered_words)


# Procesar el texto
process_text(texto_ejemplo)

Oraciones: ['El gato está durmiendo en la alfombra.', 'Mi nombre es Juan y vivo en Nueva York.']
Tokens: ['El', 'gato', 'está', 'durmiendo', 'en', 'la', 'alfombra', '.', 'Mi', 'nombre', 'es', 'Juan', 'y', 'vivo', 'en', 'Nueva', 'York', '.']
Etiquetas gramaticales: [('El', 'NNP'), ('gato', 'NN'), ('está', 'NN'), ('durmiendo', 'NN'), ('en', 'IN'), ('la', 'NN'), ('alfombra', 'NN'), ('.', '.'), ('Mi', 'NNP'), ('nombre', 'JJ'), ('es', 'NN'), ('Juan', 'NNP'), ('y', 'NN'), ('vivo', 'NN'), ('en', 'IN'), ('Nueva', 'NNP'), ('York', 'NNP'), ('.', '.')]
Entidades nombradas: (S
  (GPE El/NNP)
  gato/NN
  está/NN
  durmiendo/NN
  en/IN
  la/NN
  alfombra/NN
  ./.
  Mi/NNP
  nombre/JJ
  es/NN
  (PERSON Juan/NNP)
  y/NN
  vivo/NN
  en/IN
  (PERSON Nueva/NNP York/NNP)
  ./.)
Palabras filtradas: ['El', 'gato', 'está', 'durmiendo', 'en', 'la', 'alfombra', '.', 'Mi', 'nombre', 'es', 'Juan', 'vivo', 'en', 'Nueva', 'York', '.']
