# Contador y ordenador de palabras de un texto.
### Este script procesa un archivo de texto y realiza las siguientes operaciones:
- Cuenta el número total de palabras en el texto.
- Crea un diccionario con la frecuencia de cada palabra.
- Agrupa las palabras según su letra inicial.
- Convierte el resultado en formato JSON para una visualización más organizada.

In [None]:

import re # Permite trabajar con expresiones regulares, se utiliza para limpiar el texto de caracteres especiales.
import json # Permite convertir el resultado en un formato legible como JSON.
from collections import defaultdict # Una variante del diccionario que permite crear diccionarios anidados fácilmente.

def contador_dic():
    nombre_del_archivo= input("Introduzca el nombre del archivo (con extensión): ")
    with open (nombre_del_archivo, 'r', encoding='utf-8') as archivo: # Abre el archivo en modo de lectura ('r') con codificación utf-8 para evitar problemas con caracteres especiales.
        contenido=archivo.read() # Lee todo el contenido del archivo y lo devuelve como una cadena.
    return contenido 

def contador():
    contenido= contador_dic()
    contenido_palabras= re.sub(r'[^\w\s]', '', contenido).lower() # Elimina todo lo que no sea texto alfanumérico o espacios ([^\w\s]).
    palabras=contenido_palabras.split() # Usa split() para dividir el texto en una lista de palabras basándose en los espacios.
    dic_frecuencia={} 
    for palabra in palabras:
        if palabra in dic_frecuencia:
            dic_frecuencia[palabra]+=1  # Incrementa la frecuencia si ya existe.
        else:
            dic_frecuencia[palabra] =1 # Añade la palabra con frecuencia 1.
    palabras_agrupadas_inicial= defaultdict(dict)
    for palabra, frecuencia in sorted(dic_frecuencia.items()):
        letra_inicial=palabra[0] # Obtiene la primera letra utilizando la primera posición del índice.
        palabras_agrupadas_inicial[letra_inicial][palabra] =frecuencia
    
    palabras_agrupadas=dict(palabras_agrupadas_inicial)
    print (F"El texto tiene {len(palabras)} palabras.") # Devuelve la cantidad de palabras que tiene el texto.
    return palabras_agrupadas

resultado= contador()
salida= json.dumps(resultado, indent=2, ensure_ascii=False)
print(salida) # Devuelve el diccionario con las palabras y su frecuencias, ordenadas alfabéticamente.

