Problemática: Leer un archivo, contar la frecuencia de cada palabra y mostrar las 5 más comunes.

Para esto, usaremos la clase Counter del módulo collections de Python, que es ideal para contar frecuencias.

In [1]:
from collections import Counter
import re # Módulo para expresiones regulares (limpieza de texto)

NOMBRE_ARCHIVO_LIBROS_GRANDES = "libro_grande.txt"

# Crear un archivo de ejemplo con texto repetido
texto_ejemplo = """
El perro de San Roque no tiene rabo porque Ramón Ramírez se lo ha robado. 
El perro es muy bueno. Ramón robó el perro, pero el perro robado ya no tiene 
rabo porque Ramón se lo quitó. Perro.
"""
with open(NOMBRE_ARCHIVO_LIBROS_GRANDES, "w") as f:
    f.write(texto_ejemplo)


def contar_palabras_comunes(nombre_archivo, n_comunes=5):
    """
    Lee un archivo, cuenta la frecuencia de las palabras y muestra las N más comunes.
    """
    todas_las_palabras = []
    try:
        with open(nombre_archivo, "r") as archivo:
            contenido = archivo.read().lower() # Leer todo y pasar a minúsculas
            
            # Usar regex para encontrar solo palabras (eliminar puntuación)
            # Encuentra secuencias de letras y números
            palabras = re.findall(r'\b\w+\b', contenido) 
            
            # Filtramos palabras muy cortas que no suelen ser relevantes
            todas_las_palabras = [palabra for palabra in palabras if len(palabra) > 1]
            
    except FileNotFoundError:
        print(f"❌ Error: El archivo '{nombre_archivo}' no fue encontrado.")
        return

    # Usar Counter para contar frecuencias
    conteo_palabras = Counter(todas_las_palabras)
    
    # Obtener las N palabras más comunes
    mas_comunes = conteo_palabras.most_common(n_comunes)
    
    print(f"\n--- Las {n_comunes} Palabras Más Comunes ---")
    if mas_comunes:
        for palabra, frecuencia in mas_comunes:
            print(f"- '{palabra}': {frecuencia} veces")
    else:
        print("El archivo está vacío o no contiene palabras válidas.")

# Ejemplo de uso:
contar_palabras_comunes(NOMBRE_ARCHIVO_LIBROS_GRANDES, 5)


--- Las 5 Palabras Más Comunes ---
- 'perro': 5 veces
- 'el': 4 veces
- 'ramón': 3 veces
- 'no': 2 veces
- 'tiene': 2 veces
