1. Contar el número de palabras en un texto simple


In [None]:
texto = "Este es un ejemplo simple de texto para contar palabras."
palabras = texto.split()
print(f'Número de palabras: {len(palabras)}')


2. Manipular cadenas: convertir texto a minúsculas y eliminar signos de puntuación


In [None]:
import string

texto = "Hola! ¿Cómo estás? Este es un ejemplo de texto."
texto = texto.lower()  # Convertir a minúsculas
texto = texto.translate(str.maketrans('', '', string.punctuation))  # Eliminar puntuación
print(texto)


3. Usar listas y diccionarios para contar frecuencias de palabras


In [None]:
from collections import Counter

texto = "manzana manzana pera manzana naranja pera"
palabras = texto.split()
frecuencia = Counter(palabras)
print(frecuencia)


4. Instalar NLTK y descargar recursos



In [None]:
!pip install nltk
import nltk
nltk.download('punkt')
nltk.download('gutenberg')
nltk.download('stopwords')


5. Tokenización básica usando nltk.word_tokenize


In [None]:
from nltk.tokenize import word_tokenize

texto = "Natural Language Processing is fun!"
tokens = word_tokenize(texto)
print(tokens)


6. Leer un corpus desde nltk.gutenberg

In [None]:
from nltk.corpus import gutenberg

texto = gutenberg.raw('austen-emma.txt')
print(texto[:500])  # Muestra las primeras 500 letras


7. Contar palabras únicas y su frecuencia en un corpus

In [None]:
from collections import Counter
from nltk.tokenize import word_tokenize

tokens = word_tokenize(texto)
conteo = Counter(tokens)
print(conteo.most_common(10))  # Top 10 palabras más frecuentes


8. Tokenización avanzada con expresiones regulares

In [None]:
import re
from nltk.tokenize import regexp_tokenize

texto = "The price of oil is $123.45 today. U.S.A. stocks fell by 5%..."
pattern = r'''(?x)
              (?:[A-Z]\.)+         # Abreviaciones como U.S.A.
              | \$?\d+(?:\.\d+)?%? # Monedas y porcentajes
              | \w+(?:-\w+)*       # Palabras con guiones
              | \.\.\.             # Elipsis
              | [][.,;"'?():-_`]   # Otros tokens individuales
            '''
tokens = regexp_tokenize(texto, pattern)
print(tokens)


9. Eliminar stopwords

In [None]:
from nltk.corpus import stopwords

stop_words = set(stopwords.words('english'))
tokens_limpios = [word for word in tokens if word.lower() not in stop_words]
print(tokens_limpios)


10. Visualización de frecuencias de palabras


In [None]:
import matplotlib.pyplot as plt
from collections import Counter

frecuencias = Counter(tokens_limpios)
palabras, valores = zip(*frecuencias.most_common(10))

plt.bar(palabras, valores)
plt.title("Top 10 palabras más comunes")
plt.xticks(rotation=45)
plt.show()


11. Buscar patrones de palabras en contexto

In [None]:
from nltk.text import Text
from nltk.tokenize import word_tokenize

text = Text(word_tokenize(texto))
text.concordance("love")  # Busca palabras con "love"


12. Stemming


In [None]:
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()
print(stemmer.stem("running"))  # Resultado: run


13. Lematización (opcional)

In [None]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
print(lemmatizer.lemmatize("running", pos='v'))  # Resultado: run
