# 🧠 Reto 22: Calculadora de Estadísticas de Texto 🧠

## 🏆 Objetivo: 

Desarrollar un programa en Python que analice un archivo de texto y proporcione estadísticas básicas sobre su contenido.  

## 📝 Requisitos:  

1️⃣ Lectura de Archivo: El programa debe solicitar al usuario el nombre de un archivo de texto y leer su contenido.  
2️⃣ Cálculo de Estadísticas:  
🔹 Número total de palabras.  
🔹 Número total de líneas.  
🔹 Longitud promedio de las palabras.  
🔹 Número de veces que aparece cada palabra (frecuencia de palabras).  
3️⃣ Mostrar Resultados: Presentar las estadísticas calculadas de manera clara y ordenada.  
4️⃣ Guardar Resultados (Opcional): Ofrecer al usuario la opción de guardar las estadísticas en un archivo de texto.  

## 📌 Ejemplo de ejecución:

\>>> Ingresa el nombre del archivo de texto: ejemplo.txt  
Cargando datos...  

📊 Estadísticas del archivo 'ejemplo.txt':  
- Número total de líneas: 50  
- Número total de palabras: 1,200  
- Longitud promedio de las palabras: 4.5 caracteres  
- Frecuencia de palabras más comunes:  
  - 'el': 80 veces  
  - 'la': 65 veces  
  - 'y': 60 veces  
  - 'de': 55 veces  
  - 'en': 50 veces  

\>>> ¿Deseas guardar los resultados en un archivo de texto? (s/n): s  
\>>> Ingresa el nombre del archivo de salida: estadisticas.txt  
Guardando datos en 'estadisticas.txt'...  
Proceso completado.  

## 🔍 Pistas:

1️⃣ Utiliza el método split() para dividir el texto en palabras y len() para obtener conteos.  
2️⃣ Puedes emplear un diccionario para llevar el registro de la frecuencia de cada palabra.  
3️⃣ Considera utilizar el módulo collections para facilitar el conteo de palabras.  
4️⃣ Recuerda manejar excepciones para casos como archivos no encontrados o errores de lectura.  

In [10]:
import re
from collections import Counter

def count_words_in_file(file_name):
    """
    Reads a text file and counts the frequency of each word.

    :param file_name: The name of the file (without .txt extension).
    :return: Total word count, word frequency dictionary, and unique word count.
    """
    cleaned_word_list = []
    length_words = []
    lines = 0

    try:
        with open(file_name + '.txt', 'r', encoding='utf-8') as file:
            for line in file:
                lines += 1
                # Tokenize words from the line and clean punctuation
                words = re.findall(r"\b\w+\b", line.lower())  
                cleaned_word_list.extend(words)

        # Count total words and unique words
        total_words = len(cleaned_word_list)
        word_count = Counter(cleaned_word_list)
        unique_words_count = len(word_count)

        for word in word_count.keys():
            length_words.append(len(word))

        average_length_of_words = sum(length_words)/unique_words_count

        return total_words, word_count, unique_words_count, lines, average_length_of_words

    except FileNotFoundError:
        print(f'❌ Error: The file "{file_name}.txt" was not found.')
        return None, None, None, None, None


# Main program loop
while True:
    file_name = input('>>> Enter the file name (without .txt): ').strip()

    total_words, word_count, unique_words_count, lines, average_length_of_words = count_words_in_file(file_name)

    if total_words is None:
        continue  # Ask for a valid file again

    while True:
        num_words_to_show = input('>>> How many most frequent words do you want to see? ').strip()

        if not num_words_to_show.isdigit():
            print('❌ Error: Please enter a valid number.')
            continue
        
        num_words_to_show = int(num_words_to_show)

        print('\n📊 Word Frequency Analysis:')
        print(f'Total lines: {lines}')
        print(f'Total words: {total_words}')
        print(f'Unique words: {unique_words_count}')
        print(f'Average length of words: {round(average_length_of_words, 2)}')
        print(f'\n🔝 Top {num_words_to_show} most frequent words:\n')

        top_words = word_count.most_common(num_words_to_show)

        for word, frequency in top_words:
            print(f'{word:<12} → {frequency:>3} times')

        # Ask if the user wants to save the output to a file
        while True:
            save_to_file = input('>>> Do you want to save the output to a .txt file? (yes/no): ').strip().lower()
            if save_to_file in ['yes', 'no']:
                break
            else:
                print('❌ Error: Please enter "yes" or "no".')

        if save_to_file == 'yes':
            output_file_name = input('>>> Enter the output file name (without .txt): ').strip() + '.txt'
            with open(output_file_name, 'w', encoding='utf-8') as f:
                f.write('📊 Word Frequency Analysis:\n')
                f.write(f'Total lines: {lines}\n')
                f.write(f'Total words: {total_words}\n')
                f.write(f'Unique words: {unique_words_count}\n')
                f.write(f'Average length of words: {round(average_length_of_words, 2)}\n')
                f.write(f'\n🔝 Top {num_words_to_show} most frequent words:\n\n')
                for word, frequency in top_words:
                    f.write(f'{word:<12} → {frequency:>3} times\n')
            print(f'✅ Output saved to {output_file_name}')
        else:
            print('❌ Output not saved.')

        break  # Exit the inner loop
    break  # Exit the main loop

>>> Enter the file name (without .txt):  poema2
>>> How many most frequent words do you want to see?  11



📊 Word Frequency Analysis:
Total lines: 22
Total words: 104
Unique words: 74
Average length of words: 5.18

🔝 Top 11 most frequent words:

te           →   6 times
y            →   6 times
que          →   5 times
tu           →   5 times
a            →   4 times
al           →   3 times
el           →   3 times
codiciada    →   2 times
prohibida    →   2 times
cuerpo       →   2 times
cuando       →   2 times


>>> Do you want to save the output to a .txt file? (yes/no):  yes
>>> Enter the output file name (without .txt):  prueba


✅ Output saved to prueba.txt
