# Problemas de optimización de algoritmos

## Ejercicio 1
### Optimización de código para procesamiento de texto

Se te ha entregado un código de procesamiento de texto que realiza las siguientes operaciones:

1. Convierte todo el texto a minúsculas.
2. Elimina los signos de puntuación.
3. Cuenta la frecuencia de cada palabra.
4. Muestra las 5 palabras mas comunes.

El código funciona, pero es ineficiente y puede optimizarse. Tu tarea es identificar las áreas que pueden ser mejoradas y reescribir esas partes para hacer el código mas eficiente y legible.


In [1]:
import string
import time # Medimos el tiempo de ejecución del código


def process_text(text):
    # Texto a minuscula
    text = text.lower()

    # Eliminación de puntuaciones
    for p in string.punctuation:
        text = text.replace(p, "")

    # Split text into words
    words = text.split()

    # Conteo de frecuencias
    frequencies = {}
    for w in words:
        if w in frequencies:
            frequencies[w] += 1
        else:
            frequencies[w] = 1

    sorted_frequencies = sorted(frequencies.items(), key = lambda x: x[1], reverse = True)

    # Obtener las 5 palabras más comunes
    top_5 = sorted_frequencies[:5]
    
    for w, frequency in top_5:
        print(f"'{w}': {frequency} times")

text = """
    In the heart of the city, Emily discovered a quaint little café, hidden away from the bustling streets. 
    The aroma of freshly baked pastries wafted through the air, drawing in passersby. As she sipped on her latte, 
    she noticed an old bookshelf filled with classics, creating a cozy atmosphere that made her lose track of time.
"""
process_text(text)

tiempo_inicial = time.time()
process_text(text)
tiempo_final = time.time()

tiempo_total = tiempo_final - tiempo_inicial
print(' ')
print(f'EL CÓDIGO ANTERIOR TOMÓ: {tiempo_total:.4f} SEGUNDOS EN EJECUTARSE')


'the': 5 times
'of': 3 times
'in': 2 times
'a': 2 times
'she': 2 times
'the': 5 times
'of': 3 times
'in': 2 times
'a': 2 times
'she': 2 times
 
EL CÓDIGO ANTERIOR TOMÓ: 0.0003 SEGUNDOS EN EJECUTARSE


Puntos a optimizar:

1. **Eliminar los signos de puntuación**: Usar `replace`  en un ciclo puede ser ineficiente, especialmente con textos largos. Busca una formas eficiente de eliminar los signos de puntuación.
2. **Contador de frecuencia**: El código verifica la existencia de cada palabra en el diccionario y luego actualiza su cuenta. Esto puede hacerse mas eficientemente con ciertas estructuras de datos en Python.
3. **Ordenar y seleccionar:** Considera si hay una forma mas directa o efectiva de obtener las 5 palabras mas frecuentes sin ordenar todas las palabras.
4. **Modularidad**: Divide el código en funciones mas pequeñas para que cada una puede realizar una tarea específica. Esto no solo optimizará el desempeño, sino también hará el código mas legible y mantenible.

In [2]:
# TODO
import re
import time
from collections import Counter
import heapq

def preprocess_text(text):
    """
    Convierte el texto a minúsculas y elimina los signos de puntuación de forma optimizada usando regex.
    """
    # Convertimos a minúsculas y eliminamos puntuaciones con regex
    return re.sub(r'[^\w\s]', '', text.lower())

def get_word_frequencies(words):
    """
    Genera un contador de frecuencias de palabras de forma eficiente.
    """
    # Utilizamos Counter directamente para contar las palabras de forma óptima
    return Counter(words)

def get_top_n_words(frequencies, n=5):
    """
    Obtiene las n palabras más frecuentes sin necesidad de ordenar completamente.
    """
    # Utilizamos heapq para obtener las palabras más frecuentes sin ordenar toda la lista
    return heapq.nlargest(n, frequencies.items(), key=lambda x: x[1])

def process_text(text):
    """
    Procesa el texto completo: lo limpia, cuenta frecuencias, y muestra las palabras más comunes.
    """
    # Preprocesamos el texto para quitar puntuaciones y convertirlo en minúsculas
    clean_text = preprocess_text(text)
    
    # Obtenemos las palabras
    words = clean_text.split()
    
    # Contamos las frecuencias de las palabras
    frequencies = get_word_frequencies(words)
    
    # Seleccionamos las 5 palabras más frecuentes
    top_words = get_top_n_words(frequencies)
    
    # Mostramos el resultado
    for word, frequency in top_words:
        print(f"'{word}': {frequency} times")

# Texto de prueba
text = """
    In the heart of the city, Emily discovered a quaint little café, hidden away from the bustling streets. 
    The aroma of freshly baked pastries wafted through the air, drawing in passersby. As she sipped on her latte, 
    she noticed an old bookshelf filled with classics, creating a cozy atmosphere that made her lose track of time.
"""

# Medición del tiempo de ejecución
tiempo_inicial = time.time()
process_text(text)
preprocess_text(text)
get_word_frequencies(text)
tiempo_final = time.time()

tiempo_total = tiempo_final - tiempo_inicial
print(' ')
print(f'EL CÓDIGO ANTERIOR TOMÓ: {tiempo_total:.4f} SEGUNDOS EN EJECUTARSE')

'the': 5 times
'of': 3 times
'in': 2 times
'a': 2 times
'she': 2 times
 
EL CÓDIGO ANTERIOR TOMÓ: 0.0086 SEGUNDOS EN EJECUTARSE


## Ejercicio 2
### Optimización de código para procesamiento de listas

Se te ha dado el siguiente código que realiza operaciones en una lista de números para:

1. Filtrar los números pares.
2. Duplicar cada número.
3. Sumar todos los números.
4. Verificar si el resultado es un número primo.

El código entregado logra los objetivos, pero puede ser ineficiente. Tu tarea es identificar y mejorar las partes de ese código para mejorar su eficiencia.

In [3]:
import math

def is_prime(n):
    if n <= 1:
        return False
    for i in range(2, int(math.sqrt(n)) + 1):
        if n % i == 0:
            return False
    return True

def process_list(list_):
    filtered_list = []
    for num in list_:
        if num % 2 == 0:
            filtered_list.append(num)
    
    duplicate_list = []
    for num in filtered_list:
        duplicate_list.append(num * 2)
        
    sum = 0
    for num in duplicate_list:
        sum += num

    prime = is_prime(sum)
    
    return sum, prime

list_ = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
result, result_prime = process_list(list_)
print(f"Result: {result}, ¿Prime? {'Yes' if result_prime else 'No'}")
tiempo_inicial = time.time()
process_list(list_)
tiempo_final = time.time()
tiempo_total = tiempo_final - tiempo_inicial
print(' ')
print(f'EL CÓDIGO ANTERIOR TOMÓ: {tiempo_total:.4f} EN EJECUTARSE')

Result: 60, ¿Prime? No
 
EL CÓDIGO ANTERIOR TOMÓ: 0.0000 EN EJECUTARSE


Puntos a optimizar:

1. **Filtrar las números**: El código recorre la lista original para filtrar los números pares. Considera una forma mas eficiente de filtrar la lista.
2. **Duplicación**: La lista es atravesada varias veces. ¿Hay alguna manera de hacer esto mas eficientemente?
3. **Suma**: Los números en la lista se suman a traves de un bucle. Python trae incluidas unas funciones que pueden optimizar esto.
4. **Función `is_prime`**: Aunque ésta función es relativamente eficiente, investiga si hay maneras de hacerla aun más rápida.
5. **Modularidad**: Considera dividir el código en funciones más pequeñas, cada una enfocada en una tarea específica.

In [5]:
# TODO
import math

def is_prime(n):
    """Verifica si un número es primo de forma optimizada."""
    if n <= 1:
        return False
    if n <= 3:
        return True
    if n % 2 == 0 or n % 3 == 0:
        return False
    # Usamos un paso de 6 para minimizar divisores
    for i in range(5, int(math.sqrt(n)) + 1, 6):
        if n % i == 0 or n % (i + 2) == 0:
            return False
    return True

def process_list(list_):
    """Filtra, duplica, suma y verifica si la suma es un número primo, todo en una sola pasada."""
    # Filtrar pares, duplicar y sumar en una sola línea
    total_sum = sum(num * 2 for num in list_ if num % 2 == 0)
    
    # Verificamos si la suma es un número primo
    prime = is_prime(total_sum)
    
    return total_sum, prime

# Ejemplo de uso
list_ = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
result, result_prime = process_list(list_)
print(f"EL RESULTADO ES: {result}, ¿ES NÚMERO PRIMO? {'Yes' if result_prime else 'No'}")
tiempo_inicial = time.time()
process_list(list_)
tiempo_final = time.time()
tiempo_total = tiempo_final - tiempo_inicial
print(f'EL CODIGO ANTERIOR TOMÓ: {tiempo_total:.4f} SEGUNDOS EN EJECUTARSE')

EL RESULTADO ES: 60, ¿ES NÚMERO PRIMO? No
EL CODIGO ANTERIOR TOMÓ: 0.0000 SEGUNDOS EN EJECUTARSE


Ambos ejercicios  ayudarán a mejorar tu habilidad de optimizar el desempeño del código y te darán un mejor entendimiento de como las diferentes estructuras de datos y técnicas de programación pueden afectar la eficiencia de tu código.