# Problemas de optimización de algoritmos

## Ejercicio 1
### Optimización de código para procesamiento de texto

Se te ha entregado un código de procesamiento de texto que realiza las siguientes operaciones:

1. Convierte todo el texto a minúsculas.
2. Elimina los signos de puntuación.
3. Cuenta la frecuencia de cada palabra.
4. Muestra las 5 palabras mas comunes.

El código funciona, pero es ineficiente y puede optimizarse. Tu tarea es identificar las áreas que pueden ser mejoradas y reescribir esas partes para hacer el código mas eficiente y legible.


In [4]:
import string # Importa el módulo string, que contiene una lista de caracteres de puntuación en string.punctuation.

""" Texto a minuscula """
def process_text(text): # Define una función llamada process_text(text) que tomará un texto como entrada y lo procesará.
    text = text.lower() # Convierte todo el texto a minúsculas usando lower(). Esto asegura que palabras como "The" y "the" se traten como la misma palabra.


    """ Eliminación de puntuaciones """
    for p in string.punctuation:
        text = text.replace(p, "")
    # Recorre todos los caracteres de puntuación en string.punctuation.
    # Usa replace(p, "") para eliminar cada signo de puntuación del texto.
    # Problema: Esto es ineficiente porque crea una nueva cadena en cada iteración.


    """ Split text into words """
    words = text.split()
    # Usa split() para dividir el texto en palabras, creando una lista de palabras.
    # Separa por espacios en blanco automáticamente.


    """ Conteo de frecuencias """
    frequencies = {}
    for w in words:
        if w in frequencies:
            frequencies[w] += 1
        else:
            frequencies[w] = 1
    # Usa un diccionario (frequencies) para contar cuántas veces aparece cada palabra.
    # Si la palabra ya existe en el diccionario, se incrementa el contador.
    # Problema: Se puede hacer de forma más eficiente con Counter.


    """ Ordenar las palabras por frecuencia """
    sorted_frequencies = sorted(frequencies.items(), key = lambda x: x[1], reverse = True)
    # Convierte el diccionario en una lista de tuplas [(palabra, frecuencia)].
    # Usa sorted() para ordenarlas en orden descendente por la frecuencia.
    # Problema: Ordena toda la lista cuando solo necesitamos las 5 más frecuentes.


    """ Obtener las 5 palabras más comunes """
    top_5 = sorted_frequencies[:5]
    # Obtiene las primeras 5 palabras más comunes de la lista ordenada.


    """ Imprime los resultados """
    for w, frequency in top_5:
        print(f"'{w}': {frequency} times")
    # Recorre las 5 palabras más comunes e imprime su conteo.


""" Define un texto de prueba. """
text = """
    In the heart of the city, Emily discovered a quaint little café, hidden away from the bustling streets. 
    The aroma of freshly baked pastries wafted through the air, drawing in passersby. As she sipped on her latte, 
    she noticed an old bookshelf filled with classics, creating a cozy atmosphere that made her lose track of time.
"""


""" Llama a process_text(text) para analizar el texto. """
process_text(text)

'the': 5 times
'of': 3 times
'in': 2 times
'a': 2 times
'she': 2 times


Puntos a optimizar:

1. **Eliminar los signos de puntuación**: Usar `replace`  en un ciclo puede ser ineficiente, especialmente con textos largos. Busca una formas eficiente de eliminar los signos de puntuación.
2. **Contador de frecuencia**: El código verifica la existencia de cada palabra en el diccionario y luego actualiza su cuenta. Esto puede hacerse mas eficientemente con ciertas estructuras de datos en Python.
3. **Ordenar y seleccionar:** Considera si hay una forma mas directa o efectiva de obtener las 5 palabras mas frecuentes sin ordenar todas las palabras.
4. **Modularidad**: Divide el código en funciones mas pequeñas para que cada una puede realizar una tarea específica. Esto no solo optimizará el desempeño, sino también hará el código mas legible y mantenible.

In [3]:
# TODO


import string # Importa string como antes.
from collections import Counter # Importa Counter de collections, que facilita el conteo de palabras.

def clean_text(text): # Función para limpiar el texto
    """Convierte el texto a minúsculas y elimina la puntuación."""
    text = text.lower() # Convierte el texto a minúsculas.
    text = text.translate(str.maketrans('', '', string.punctuation)) #Usa str.translate(str.maketrans('', '', string.punctuation)) para eliminar la puntuación.
    return text

def get_word_frequencies(text): # Función para contar palabras
    """Cuenta la frecuencia de cada palabra en el texto."""
    words = text.split() # Divide el texto en palabras.
    return Counter(words) # Automáticamente crea un diccionario con los conteos.

def print_top_words(frequencies, n=5): # Función para imprimir las palabras más comunes
    """Imprime las N palabras más comunes."""
    for word, count in frequencies.most_common(n): # most_common(n) devuelve las n palabras más frecuentes sin necesidad de ordenar todo.
        print(f"'{word}': {count} times")

def process_text(text): # Función principal
    cleaned_text = clean_text(text) # Llama a clean_text(text) para limpiar el texto.
    frequencies = get_word_frequencies(cleaned_text) # Obtiene las frecuencias de palabras con get_word_frequencies(cleaned_text).
    print_top_words(frequencies) # Imprime las palabras más comunes con print_top_words(frequencies).

# Texto de ejemplo
text = """
    In the heart of the city, Emily discovered a quaint little café, hidden away from the bustling streets. 
    The aroma of freshly baked pastries wafted through the air, drawing in passersby. As she sipped on her latte, 
    she noticed an old bookshelf filled with classics, creating a cozy atmosphere that made her lose track of time.
"""
process_text(text)


# Mejoras del código optimizado:

# ✅ 1. Eliminación eficiente de signos de puntuación:
#     Usa str.translate(str.maketrans('', '', string.punctuation)), lo que elimina todos los signos de puntuación en una sola operación sin usar un for.
#     Esto es mucho más rápido y eficiente.

# ✅ 2. Uso de Counter para contar palabras:
#     Counter(words) automáticamente crea un diccionario con los conteos, eliminando la necesidad de un ciclo for manual.
#     Es más corto y más eficiente.

# ✅ 3. Obtención directa de las palabras más comunes:
#     frequencies.most_common(5) obtiene las 5 palabras más frecuentes directamente sin ordenar todo el diccionario.
#     Reduce la complejidad del código.

# ✅ 4. Código modular y más legible:
#     Se separaron las responsabilidades en funciones (clean_text, get_word_frequencies, print_top_words).
#     Esto facilita la reutilización y mantenimiento del código.

# 🔥 Comparación de Eficiencia
# Función	                    |Código Original	                        |Código Optimizado
# Eliminación de puntuación	    |Usa replace() en un for, lento	            |Usa str.translate(), rápido
# Conteo de palabras	        |Usa dict con if, manual	                |Usa Counter, más eficiente
# Selección de top 5	        |Ordena toda la lista, ineficiente	        |Usa most_common(5), más directo
# Modularidad	                |Todo en una sola función, difícil de leer	|Código dividido en funciones

# 🔥 Resumen
#     La versión optimizada es más rápida, modular y legible.
#     Se usaron estructuras de datos más eficientes como Counter y str.translate().
#     Se eliminó la necesidad de ordenar toda la lista, reduciendo la complejidad.

'the': 5 times
'of': 3 times
'in': 2 times
'a': 2 times
'she': 2 times


## Ejercicio 2
### Optimización de código para procesamiento de listas

Se te ha dado el siguiente código que realiza operaciones en una lista de números para:

1. Filtrar los números pares.
2. Duplicar cada número.
3. Sumar todos los números.
4. Verificar si el resultado es un número primo.

El código entregado logra los objetivos, pero puede ser ineficiente. Tu tarea es identificar y mejorar las partes de ese código para mejorar su eficiencia.

In [3]:
import math #Importa el módulo math, necesario para calcular la raíz cuadrada en is_prime().

def is_prime(n):
    if n <= 1:
        return False
    for i in range(2, int(math.sqrt(n)) + 1):
        if n % i == 0:
            return False
    return True

# 🔹 ¿Qué hace?
#     Si n <= 1, devuelve False, porque los números menores que 2 no son primos.
#     Usa un bucle for para probar la divisibilidad de n desde 2 hasta sqrt(n).
#     Si n es divisible por algún número en ese rango, retorna False.
#     Si no se encontraron divisores, n es primo y retorna True.

# 🔹 Problema:
#     Recorre todos los números desde 2 hasta sqrt(n), incluyendo los pares innecesariamente después del 2.


def process_list(list_): # Define una función que tomará una lista de números y aplicará las transformaciones necesarias.
    filtered_list = []
    for num in list_:
        if num % 2 == 0:
            filtered_list.append(num)        
# 🔹 ¿Qué hace?
#     Crea una lista vacía filtered_list.
#     Recorre list_ y si el número es par (num % 2 == 0), lo agrega a filtered_list.

# 🔹 Problema:
#     Recorre toda la lista manualmente con for, en lugar de usar filter(), que es más eficiente.
 
    
    duplicate_list = []
    for num in filtered_list:
        duplicate_list.append(num * 2)
    # 🔹 ¿Qué hace?
    #     Crea duplicate_list y la llena con cada número par de filtered_list, multiplicado por 2.

    # 🔹 Problema:
    #     Recorre nuevamente la lista con un for, cuando map() puede hacerlo en una sola línea.

        
    sum = 0
    for num in duplicate_list:
        sum += num
    # 🔹 ¿Qué hace?
    #     Inicializa sum en 0.
    #     Recorre duplicate_list y va sumando cada número.

    # 🔹 Problema:
    #     sum() puede hacer esto directamente sin necesidad de un bucle.


    prime = is_prime(sum)
    #  🔹 ¿Qué hace?
    #     Llama a is_prime(sum) para verificar si el resultado final es primo.
   
    return sum, prime
    # 🔹 ¿Qué hace?
    #     Devuelve la suma total y el resultado de is_prime().

list_ = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
result, result_prime = process_list(list_)

print(f"Result: {result}, ¿Prime? {'Yes' if result_prime else 'No'}")

# 🔹 ¿Qué hace?
#     Define la lista list_.
#     Llama a process_list(list_).
#     Imprime el resultado de la suma y si es primo.

Result: 60, ¿Prime? No


Puntos a optimizar:

1. **Filtrar las números**: El código recorre la lista original para filtrar los números pares. Considera una forma mas eficiente de filtrar la lista.
2. **Duplicación**: La lista es atravesada varias veces. ¿Hay alguna manera de hacer esto mas eficientemente?
3. **Suma**: Los números en la lista se suman a traves de un bucle. Python trae incluidas unas funciones que pueden optimizar esto.
4. **Función `is_prime`**: Aunque ésta función es relativamente eficiente, investiga si hay maneras de hacerla aun más rápida.
5. **Modularidad**: Considera dividir el código en funciones más pequeñas, cada una enfocada en una tarea específica.

In [1]:
# TODO

import math # Importa el módulo math, necesario para calcular la raíz cuadrada en is_prime().

def is_prime(n): # Optimización de is_prime()
    """Verifica si un número es primo de manera optimizada."""
    if n < 2:
        return False
    if n % 2 == 0:
        return n == 2  # 2 es primo, otros pares no lo son
    for i in range(3, int(math.sqrt(n)) + 1, 2):  # Solo impares
        if n % i == 0:
            return False
    return True

# Mejoras:
#     Si n < 2, no es primo.
#     Si n es par, retorna True solo si es 2, ya que ningún otro número par puede ser primo.
#     Itera solo por impares después del 2, reduciendo a la mitad las iteraciones.


def process_list(numbers): # Función para procesar la lista. Aplica todas las transformaciones en una sola función.
    """Filtra pares, duplica valores, suma y verifica si es primo."""
    filtered = list(filter(lambda x: x % 2 == 0, numbers))  # Filtrar pares: Usa filter() con lambda para conservar solo los números pares. Es más rápido que un bucle for porque filter() está optimizado.
    doubled = list(map(lambda x: x * 2, filtered))  # Duplicar valores: Usa map() con lambda para duplicar cada número en filtered. Evita la necesidad de un for, optimizando el código.
    total_sum = sum(doubled)  # Sumar elementos: Usa sum() para calcular la suma de doubled de manera eficiente. Elimina el bucle innecesario del código original.
    return total_sum, is_prime(total_sum) # Retorna total_sum y el resultado de is_prime().


# Lista de entrada
numbers = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] # Define la lista numbers.
result, is_result_prime = process_list(numbers) # Llama a process_list(numbers). 
    # ¿Por qué se pueden asignar dos valores a la vez? 
    # Esto se debe a una característica de Python llamada "desempaquetado de tuplas" (tuple unpacking).
    # Cuando una función devuelve múltiples valores, en realidad está devolviendo una tupla.
    # return 10, 20 es equivalente a return (10, 20), ya que Python automáticamente crea una tupla cuando hay múltiples valores separados por comas.
    # result obtiene la suma total de los números procesados.
    # is_result_prime almacena True o False, indicando si result es un número primo.
print(f"Result: {result}, ¿Prime? {'Yes' if is_result_prime else 'No'}") # Imprime la suma total y si es primo.


# 🔥 versión optimizada del código que mejora la eficiencia y la legibilidad:
#     Usa filter() y lambda para filtrar los números pares de manera más eficiente.
#     Usa map() para duplicar los valores en una sola operación.
#     Usa sum() en lugar de un bucle para sumar la lista.
#     Optimiza is_prime() verificando primero divisibilidad por 2 y luego probando solo números impares.
#     Divide el código en funciones más pequeñas para mejorar la modularidad.


# 🔥 Mejoras Aplicadas
# ✅ Filtrado eficiente con filter(lambda x: x % 2 == 0, numbers).
# ✅ Duplicación directa con map(lambda x: x * 2, filtered).
# ✅ Suma optimizada con sum(doubled), eliminando el bucle.
# ✅ Optimización de is_prime() al:
    # Descartar los pares inmediatamente.
    # Iterar solo por números impares hasta la raíz cuadrada de n.
# ✅ Código modular con funciones claras y reutilizables.


# 🔥 Comparación Final
# Aspecto	        |Código Original	                        |Código Optimizado
# Filtrado	        |for con append()	                        |filter()
# Duplicación	    |for con append()	                        |map()
# Suma	            |for con +=	                                |sum()
# is_prime()	    |Itera por todos los números hasta sqrt(n)	|Omite pares y revisa solo impares
# Modularidad	    |Todo en una función	                    |Funciones separadas


# 🔥 Conclusión
#    El código optimizado es más rápido, modular y legible.
#    Reduce la cantidad de iteraciones innecesarias y aprovecha funciones nativas de Python.
#    Se mejora is_prime() eliminando chequeos innecesarios.

Result: 60, ¿Prime? No


Ambos ejercicios  ayudarán a mejorar tu habilidad de optimizar el desempeño del código y te darán un mejor entendimiento de como las diferentes estructuras de datos y técnicas de programación pueden afectar la eficiencia de tu código.