# Problema 2
Procesar el archivo y extraer:

Cantidad de vocales

Cantidad de consonantes

Listado de las 50 palabras que más se repiten

In [3]:
import urllib.request
import re

def procesar_url(url):
    """
    Descarga y procesa un texto desde una URL para extraer:
    - Cantidad de vocales
    - Cantidad de consonantes
    - Las 50 palabras más frecuentes

    Args:
        url (str): URL del texto a descargar y procesar

    Returns:
        dict: Diccionario con los resultados del análisis
    """
    # Definir vocales y caracteres alfabéticos
    vocales = "aeiouáéíóúüAEIOUÁÉÍÓÚÜ"
    alfabeto = "abcdefghijklmnñopqrstuvwxyzáéíóúüABCDEFGHIJKLMNÑOPQRSTUVWXYZÁÉÍÓÚÜ"

    # Contadores
    total_vocales = 0
    total_consonantes = 0
    palabras = {}

    try:
        # Crear un Request con User-Agent para evitar el error 403
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
        req = urllib.request.Request(url, headers=headers)

        # Descargar el contenido de la URL
        response = urllib.request.urlopen(req)
        contenido = response.read().decode('utf-8').lower()

        # Contar vocales y consonantes
        for caracter in contenido:
            if caracter in vocales:
                total_vocales += 1
            elif caracter in alfabeto and caracter not in vocales:
                total_consonantes += 1

        # Dividir en palabras y contar frecuencia
        palabras_lista = re.findall(r'\b[a-zñáéíóúü]+\b', contenido)

        for palabra in palabras_lista:
            if palabra in palabras:
                palabras[palabra] += 1
            else:
                palabras[palabra] = 1

        palabras_mas_frecuentes = sorted(palabras.items(), key=lambda x: x[1], reverse=True)[:50]

        return {
            "vocales": total_vocales,
            "consonantes": total_consonantes,
            "palabras_frecuentes": palabras_mas_frecuentes
        }

    except urllib.error.URLError as e:
        return {"error": "Error al acceder a la URL: " + str(e)}
    except UnicodeDecodeError:
        # Intentar con otra codificación si UTF-8 falla
        try:
            req = urllib.request.Request(url, headers=headers)
            response = urllib.request.urlopen(req)
            contenido = response.read().decode('latin-1').lower()

            # Contar vocales y consonantes
            total_vocales = 0
            total_consonantes = 0
            for caracter in contenido:
                if caracter in vocales:
                    total_vocales += 1
                elif caracter in alfabeto and caracter not in vocales:
                    total_consonantes += 1

            # Dividir en palabras y contar frecuencia
            palabras = {}
            palabras_lista = re.findall(r'\b[a-z]+\b', contenido)

            for palabra in palabras_lista:
                if palabra in palabras:
                    palabras[palabra] += 1
                else:
                    palabras[palabra] = 1

            # Obtener las 50 palabras más frecuentes
            palabras_mas_frecuentes = sorted(palabras.items(), key=lambda x: x[1], reverse=True)[:50]

            return {
                "vocales": total_vocales,
                "consonantes": total_consonantes,
                "palabras_frecuentes": palabras_mas_frecuentes
            }
        except Exception as e:
            return {"error": "Error al procesar el contenido con codificación alternativa: " + str(e)}
    except Exception as e:
        return {"error": "Error general: " + str(e)}

# Función para mostrar los resultados
def mostrar_resultados(resultados):

    if "error" in resultados:
        print(resultados["error"])
    else:
        print("Cantidad de vocales:", resultados["vocales"])
        print("Cantidad de consonantes:", resultados["consonantes"])
        print("\nLas 50 palabras más frecuentes:")
        for i, (palabra, frecuencia) in enumerate(resultados['palabras_frecuentes'], 1):
            print(i, ".", palabra, ":", frecuencia, "veces")

if __name__ == "__main__":
    # URL específica del archivo mbox.txt
    url = "https://www.py4e.com/code3/mbox.txt"

    print("Descargando y procesando texto desde URL:", url)

    # Intenta primero con urllib
    resultados = procesar_url(url)

    # Si hay error, intenta con requests si está disponible
    if "error" in resultados:
        print("Primer método falló:", resultados["error"])
        print("Intentando método alternativo...")
        resultados = procesar_url_con_requests(url)

    mostrar_resultados(resultados)

Descargando y procesando texto desde URL: https://www.py4e.com/code3/mbox.txt
Cantidad de vocales: 1597835
Cantidad de consonantes: 2612121

Las 50 palabras más frecuentes:
1 . edu : 31260 veces
2 . org : 22456 veces
3 . sakaiproject : 21747 veces
4 . from : 21721 veces
5 . by : 18028 veces
6 . collab : 17970 veces
7 . x : 16677 veces
8 . received : 16176 veces
9 . iupui : 14820 veces
10 . umich : 14724 veces
11 . src : 14622 veces
12 . id : 14408 veces
13 . ac : 14260 veces
14 . uk : 13874 veces
15 . source : 13306 veces
16 . with : 12757 veces
17 . uhi : 12579 veces
18 . nakamura : 12571 veces
19 . uits : 12571 veces
20 . content : 12130 veces
21 . java : 11336 veces
22 . branches : 10422 veces
23 . tool : 10030 veces
24 . dec : 9267 veces
25 . sak : 9220 veces
26 . nov : 8988 veces
27 . for : 7715 veces
28 . impl : 7672 veces
29 . mail : 7207 veces
30 . esmtp : 7188 veces
31 . paploo : 7188 veces
32 . dspam : 7188 veces
33 . message : 5507 veces
34 . text : 5423 veces
35 . type : 54