In [None]:
 # Primero debemos instalar NLTK
!pip install nltk



# **Tokenización**

In [None]:
import nltk

# Download the necessary NLTK data
nltk.download('punkt')  # Download Punkt Sentence Tokenizer Models
nltk.download('punkt_tab') # Download Punkt Tokenizer Models (Tab-separated)

from nltk.tokenize import word_tokenize

texto = "¡Hola! Estoy aprendiendo procesamiento de lenguaje natural."
tokens = word_tokenize(texto)
print(tokens)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


['¡Hola', '!', 'Estoy', 'aprendiendo', 'procesamiento', 'de', 'lenguaje', 'natural', '.']


In [None]:
from nltk.tokenize import word_tokenize
import nltk

# Download the 'punkt_tab' resource
nltk.download('punkt_tab')


input_str = "NLTK is a leading platform for building Python programs to work with human language data."

tokens = nltk.word_tokenize(input_str)

print(input_str)
print(tokens)

NLTK is a leading platform for building Python programs to work with human language data.
['NLTK', 'is', 'a', 'leading', 'platform', 'for', 'building', 'Python', 'programs', 'to', 'work', 'with', 'human', 'language', 'data', '.']


[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


# **Eliminar palabras vacias**

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import nltk

In [None]:
import spacy

In [None]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [None]:
stop_words_en = set(stopwords.words('english'))
stop_words_es = set(stopwords.words('spanish'))

In [None]:
input_str

'NLTK is a leading platform for building Python programs to work with human language data.'

In [None]:
tokens = word_tokenize(input_str)
result = [i for i in tokens if not i in stop_words_en]
result

['NLTK',
 'leading',
 'platform',
 'building',
 'Python',
 'programs',
 'work',
 'human',
 'language',
 'data',
 '.']

In [None]:
tokens = word_tokenize("NLTK es una plataforma líder para construir programas en Python que trabajan con datos de lenguaje humano.")
result = [i for i in tokens if not i in stop_words_es]
result

['NLTK',
 'plataforma',
 'líder',
 'construir',
 'programas',
 'Python',
 'trabajan',
 'datos',
 'lenguaje',
 'humano',
 '.']

# **Dervicacion**

In [None]:
from nltk.stem import PorterStemmer, SnowballStemmer
from nltk.tokenize import word_tokenize

In [None]:
stemmer = PorterStemmer()
input_str ="There are multiple algorithms for stemming."
tokens = word_tokenize(input_str)
for word in tokens:
    print(f"word: {word}, stem: {stemmer.stem(word)}")

word: There, stem: there
word: are, stem: are
word: multiple, stem: multipl
word: algorithms, stem: algorithm
word: for, stem: for
word: stemming, stem: stem
word: ., stem: .


In [None]:
stemmer = SnowballStemmer(language="spanish")
input_str ="Existen varios tipos de algoritmos de derivación."
tokens = word_tokenize(input_str)
for word in tokens:
    print(f"word: {word}, stem: {stemmer.stem(word)}")

word: Existen, stem: exist
word: varios, stem: vari
word: tipos, stem: tip
word: de, stem: de
word: algoritmos, stem: algoritm
word: de, stem: de
word: derivación, stem: deriv
word: ., stem: .


# **Lematización**

In [None]:
# Se utiliza el descargador de NLTK
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


In [None]:
lemmatizer = WordNetLemmatizer()
input_str = "se había hecho idiomas ciudades ratones"
input_str = word_tokenize(input_str)
for word in input_str:
    print(lemmatizer.lemmatize(word))

se
había
hecho
idiomas
ciudades
ratones


Al parecer no le hizo nada al texto y esto es debido a una cruel y triste realidad en muchas herramientas de PNL, están optimizadas para ser usadas en inglés, no es español. Mira lo que pasa cuando ponemos el texto en inglés.

In [None]:
lemmatizer = WordNetLemmatizer()
input_str = "been had done languages cities mice"
input_str = word_tokenize(input_str)
for word in input_str:
    lem = lemmatizer.lemmatize(word, pos="v")
    lem = lemmatizer.lemmatize(lem)
    print(lem)

be
have
do
language
city
mouse


**SPACY**

In [None]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m67.9 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
nlp_en = spacy.load("en_core_web_sm")
nlp_es = spacy.load("es_core_news_sm")

In [None]:
input_str = "been had done languages cities mice"
for token in nlp_en(input_str):
    print(token.lemma_)

be
have
do
language
city
mouse


In [None]:
input_str = "se había hecho idiomas ciudades ratones"
for token in nlp_es(input_str):
    print(token.lemma_)

él
haber
hacer
idioma
ciudad
ratón


# **POS**

In [None]:
import spacy

# Cargar el modelo de spaCy para español
nlp = spacy.load("es_core_news_sm")

# Texto de ejemplo
text = "María juega al fútbol los fines de semana en el parque."

# Procesar el texto con spaCy
doc = nlp(text)

# Mostrar tokens, etiquetas POS y sus descripciones
print("Etiquetado POS:")
for token in doc:
    print(f"- Palabra: {token.text}")
    print(f"  - Etiqueta POS: {token.pos_} ({spacy.explain(token.pos_)})")
    print(f"  - Etiqueta detallada: {token.tag_} ({spacy.explain(token.tag_)})")


Etiquetado POS:
- Palabra: María
  - Etiqueta POS: PROPN (proper noun)
  - Etiqueta detallada: PROPN (proper noun)
- Palabra: juega
  - Etiqueta POS: VERB (verb)
  - Etiqueta detallada: VERB (verb)
- Palabra: al
  - Etiqueta POS: ADP (adposition)
  - Etiqueta detallada: ADP (adposition)
- Palabra: fútbol
  - Etiqueta POS: NOUN (noun)
  - Etiqueta detallada: NOUN (noun)
- Palabra: los
  - Etiqueta POS: DET (determiner)
  - Etiqueta detallada: DET (determiner)
- Palabra: fines
  - Etiqueta POS: NOUN (noun)
  - Etiqueta detallada: NOUN (noun)
- Palabra: de
  - Etiqueta POS: ADP (adposition)
  - Etiqueta detallada: ADP (adposition)
- Palabra: semana
  - Etiqueta POS: NOUN (noun)
  - Etiqueta detallada: NOUN (noun)
- Palabra: en
  - Etiqueta POS: ADP (adposition)
  - Etiqueta detallada: ADP (adposition)
- Palabra: el
  - Etiqueta POS: DET (determiner)
  - Etiqueta detallada: DET (determiner)
- Palabra: parque
  - Etiqueta POS: NOUN (noun)
  - Etiqueta detallada: NOUN (noun)
- Palabra: .
  -

# **Chunking**

In [None]:
import spacy

# Cargar el modelo de spaCy para español
nlp = spacy.load("es_core_news_sm")

# Texto de ejemplo
text = """
El perro grande está corriendo rápidamente en el parque cerca del lago.
María juega al ajedrez con su hermano los fines de semana.
"""

# Procesar el texto con spaCy
doc = nlp(text)

# 1. Frases nominales (Noun Chunks)
print("Frases nominales (Noun Chunks):")
for chunk in doc.noun_chunks:
    print(f"- {chunk.text} (Raíz: {chunk.root.text}, Etiqueta POS: {chunk.root.pos_})")

# 2. Identificación de frases verbales y preposicionales
print("\nFrases verbales y preposicionales:")
for token in doc:
    # Frases verbales
    if token.pos_ == "VERB":
        print(f"- Verbo: {token.text} (Hijos: {[child.text for child in token.children]})")
    # Frases preposicionales
    if token.pos_ == "ADP":
        prep_phrase = " ".join([token.text] + [child.text for child in token.children])
        print(f"- Frase preposicional: {prep_phrase}")

# 3. Representación gráfica de dependencias
print("\nDependencias gramaticales:")
spacy.displacy.render(doc, style="dep", jupyter=True, options={"compact": True, "distance": 100})


Frases nominales (Noun Chunks):
- El perro grande (Raíz: perro, Etiqueta POS: PROPN)
- el parque (Raíz: parque, Etiqueta POS: NOUN)
- lago (Raíz: lago, Etiqueta POS: NOUN)
- María (Raíz: María, Etiqueta POS: PROPN)
- ajedrez (Raíz: ajedrez, Etiqueta POS: NOUN)
- su hermano (Raíz: hermano, Etiqueta POS: NOUN)
- los fines (Raíz: fines, Etiqueta POS: NOUN)
- semana (Raíz: semana, Etiqueta POS: NOUN)

Frases verbales y preposicionales:
- Verbo: corriendo (Hijos: ['perro', 'está', 'rápidamente', 'parque', 'cerca', '.'])
- Frase preposicional: en
- Frase preposicional: del
- Verbo: juega (Hijos: ['María', 'ajedrez', 'hermano', 'fines', '.'])
- Frase preposicional: al
- Frase preposicional: con
- Frase preposicional: de

Dependencias gramaticales:


# **NER - Named Entity Recognition**

In [None]:
!python -m spacy download es_core_news_sm
import spacy

Collecting es-core-news-sm==3.7.0
  Using cached https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [None]:
# Cargar el modelo de spaCy para español
nlp = spacy.load("es_core_news_sm")

# Texto de ejemplo
text = """
Lionel Messi, nacido el 24 de junio de 1987 en Rosario, Argentina, es considerado uno de los mejores futbolistas de la historia.
Actualmente juega en el Inter Miami y ha ganado 7 Balones de Oro.
El Mundial de Fútbol 2022 fue su mayor logro, donde lideró a Argentina a la victoria.
"""

# Procesar el texto con spaCy
doc = nlp(text)

# Identificar entidades nombradas
print("Entidades nombradas encontradas:")
for ent in doc.ents:
    print(f"- Texto: {ent.text}")
    print(f"  - Tipo: {ent.label_} ({spacy.explain(ent.label_)})")


Entidades nombradas encontradas:
- Texto: Lionel Messi
  - Tipo: PER (Named person or family.)
- Texto: Rosario
  - Tipo: LOC (Non-GPE locations, mountain ranges, bodies of water)
- Texto: Argentina
  - Tipo: LOC (Non-GPE locations, mountain ranges, bodies of water)
- Texto: Actualmente
  - Tipo: ORG (Companies, agencies, institutions, etc.)
- Texto: Inter Miami
  - Tipo: ORG (Companies, agencies, institutions, etc.)
- Texto: 7 Balones de Oro
  - Tipo: MISC (Miscellaneous entities, e.g. events, nationalities, products or works of art)
- Texto: El Mundial de Fútbol 2022
  - Tipo: MISC (Miscellaneous entities, e.g. events, nationalities, products or works of art)
- Texto: lideró
  - Tipo: PER (Named person or family.)
- Texto: Argentina
  - Tipo: LOC (Non-GPE locations, mountain ranges, bodies of water)


In [None]:
from spacy import displacy
# Visualizar entidades nombradas en Jupyter Notebook
displacy.render(doc, style="ent", jupyter=True)