# Problemas de optimización de algoritmos

## Ejercicio 1
### Optimización de código para procesamiento de texto

Se te ha entregado un código de procesamiento de texto que realiza las siguientes operaciones:

1. Convierte todo el texto a minúsculas.
2. Elimina los signos de puntuación.
3. Cuenta la frecuencia de cada palabra.
4. Muestra las 5 palabras mas comunes.

El código funciona, pero es ineficiente y puede optimizarse. Tu tarea es identificar las áreas que pueden ser mejoradas y reescribir esas partes para hacer el código mas eficiente y legible.


In [4]:
import string

def process_text(text):
    # Texto a minuscula
    text = text.lower()

    # Eliminación de puntuaciones
    for p in string.punctuation:
        text = text.replace(p, "")

    # Split text into words
    words = text.split()

    # Conteo de frecuencias
    frequencies = {}
    for w in words:
        if w in frequencies:
            frequencies[w] += 1
        else:
            frequencies[w] = 1

    sorted_frequencies = sorted(frequencies.items(), key = lambda x: x[1], reverse = True)

    # Obtener las 5 palabras más comunes
    top_5 = sorted_frequencies[:5]
    
    for w, frequency in top_5:
        print(f"'{w}': {frequency} times")

text = """
    In the heart of the city, Emily discovered a quaint little café, hidden away from the bustling streets. 
    The aroma of freshly baked pastries wafted through the air, drawing in passersby. As she sipped on her latte, 
    she noticed an old bookshelf filled with classics, creating a cozy atmosphere that made her lose track of time.
"""
process_text(text)

'the': 5 times
'of': 3 times
'in': 2 times
'a': 2 times
'she': 2 times


Puntos a optimizar:

1. **Eliminar los signos de puntuación**: Usar `replace`  en un ciclo puede ser ineficiente, especialmente con textos largos. Busca una formas eficiente de eliminar los signos de puntuación.
2. **Contador de frecuencia**: El código verifica la existencia de cada palabra en el diccionario y luego actualiza su cuenta. Esto puede hacerse mas eficientemente con ciertas estructuras de datos en Python.
3. **Ordenar y seleccionar:** Considera si hay una forma mas directa o efectiva de obtener las 5 palabras mas frecuentes sin ordenar todas las palabras.
4. **Modularidad**: Divide el código en funciones mas pequeñas para que cada una puede realizar una tarea específica. Esto no solo optimizará el desempeño, sino también hará el código mas legible y mantenible.

In [5]:
#PASO 0: Importar las librerías, esto nos surgió tras analizar las funciones que usaremos; desde el paso 2, 3, y 4; volví para crear el paso 0.
import re
import string
from collections import Counter

In [6]:
#PASO 1: Colocar el texto que debemos procesar como valor, la llamamos "texto".
# Colocamos 3 pares de comillas al inicio y al final ("""), porque son 3 filas de texto, y queremos mantenerlas así. No que se junten en una sola fila.
texto="""In the heart of the city, Emily discovered a quaint little café, hidden away from the bustling streets. 
    The aroma of freshly baked pastries wafted through the air, drawing in passersby. As she sipped on her latte, 
    she noticed an old bookshelf filled with classics, creating a cozy atmosphere that made her lose track of time."""
#PASO 2: Para que podamos contar la frecuencias de las palabras enteras, deben estar en minúsculas, lo cual es lo 1° que piden.
# lower() -> nos ayudará a pasar todo en minúscula
texto_minusculas=texto.lower()
print(texto_minusculas)

in the heart of the city, emily discovered a quaint little café, hidden away from the bustling streets. 
    the aroma of freshly baked pastries wafted through the air, drawing in passersby. as she sipped on her latte, 
    she noticed an old bookshelf filled with classics, creating a cozy atmosphere that made her lose track of time.


In [7]:
# PASO 3: Para contar la frecuancia de las palabras, tampoco deben tener signos de puntuación. Es lo 2° que nos piden.
# re.sub -> busca caracteres similares en el texto, para reemplazarlos en otra cadena.
# re.escape -> ayuda a que los caracteres especiales escapen y puedan coincidir con la expresión regular (la original,que esta como "texto")
# string.punctuation -> nos ayudó a decirle a (re.escape), qué cosas queremos que se escapen, en este caso los signos de puntuación más comunes en inglés.
texto_sin_puntuacion = re.sub(f"[{re.escape(string.punctuation)}]", "", texto_minusculas)
print(texto_sin_puntuacion)

in the heart of the city emily discovered a quaint little café hidden away from the bustling streets 
    the aroma of freshly baked pastries wafted through the air drawing in passersby as she sipped on her latte 
    she noticed an old bookshelf filled with classics creating a cozy atmosphere that made her lose track of time


In [8]:
#PASO 4: Importado de la librería Collections en la celda 0
# Counter -> Contamos la frecuencia de las palabras. Es lo 3°que nos piden.
frecuencia_palabras = Counter(texto_sin_puntuacion.split())
print(frecuencia_palabras)

Counter({'the': 5, 'of': 3, 'in': 2, 'a': 2, 'she': 2, 'her': 2, 'heart': 1, 'city': 1, 'emily': 1, 'discovered': 1, 'quaint': 1, 'little': 1, 'café': 1, 'hidden': 1, 'away': 1, 'from': 1, 'bustling': 1, 'streets': 1, 'aroma': 1, 'freshly': 1, 'baked': 1, 'pastries': 1, 'wafted': 1, 'through': 1, 'air': 1, 'drawing': 1, 'passersby': 1, 'as': 1, 'sipped': 1, 'on': 1, 'latte': 1, 'noticed': 1, 'an': 1, 'old': 1, 'bookshelf': 1, 'filled': 1, 'with': 1, 'classics': 1, 'creating': 1, 'cozy': 1, 'atmosphere': 1, 'that': 1, 'made': 1, 'lose': 1, 'track': 1, 'time': 1})


In [9]:
#PASO 5: Es lo 4° y último que nos piden, mostrar las 5 palabras más comunes
# .most_common(x) -> Mostrar las x palabras mas comunes.
palabras_mas_comunes = frecuencia_palabras.most_common(5)
print("Las 5 palabras más comunes son:",palabras_mas_comunes)

Las 5 palabras más comunes son: [('the', 5), ('of', 3), ('in', 2), ('a', 2), ('she', 2)]


In [10]:
#PASO 6: Unimos todo el código en una sola celda. Armar la estructura, con todas las partes que hicimos individualmente.
import re
import string
from collections import Counter
texto="""In the heart of the city, Emily discovered a quaint little café, hidden away from the bustling streets. 
    The aroma of freshly baked pastries wafted through the air, drawing in passersby. As she sipped on her latte, 
    she noticed an old bookshelf filled with classics, creating a cozy atmosphere that made her lose track of time."""
texto_minusculas=texto.lower()
texto_sin_puntuacion = re.sub(f"[{re.escape(string.punctuation)}]", "", texto_minusculas)
frecuencia_palabras = Counter(texto_sin_puntuacion.split())
palabras_mas_comunes = frecuencia_palabras.most_common(5)
print("Las 5 palabras más comunes son:",palabras_mas_comunes)

Las 5 palabras más comunes son: [('the', 5), ('of', 3), ('in', 2), ('a', 2), ('she', 2)]


CONCLUSIONES:

-Se optimizó el código, de 18 a 9 líneas.

-Las variables y valores van al inicio de un código, por ello, pasó del final a la primera parte el texto que debiamos procesar.

-Los métodos re.sub / re.escape / string.punctuation, han agilizado el proceso; así, ya no se repite el código, una y otra vez.

-El método Counter, es más eficiente que sumar +1 a cada cuenta dentro de un bucle, dentro de una función. Y sólo hizo falta, importarlo de la librería Collections.

-Imprimir las palabras mas comunes con most.common, es más rápido que ordenar de mayor a menor la frecuencia de las palabras, para después imprimir las primeras.

C.G.W.

## Ejercicio 2
### Optimización de código para procesamiento de listas

Se te ha dado el siguiente código que realiza operaciones en una lista de números para:

1. Filtrar los números pares.
2. Duplicar cada número.
3. Sumar todos los números.
4. Verificar si el resultado es un número primo.

El código entregado logra los objetivos, pero puede ser ineficiente. Tu tarea es identificar y mejorar las partes de ese código para mejorar su eficiencia.

In [11]:
import math

def is_prime(n):
    if n <= 1:
        return False
    for i in range(2, int(math.sqrt(n)) + 1):
        if n % i == 0:
            return False
    return True

def process_list(list_):
    filtered_list = []
    for num in list_:
        if num % 2 == 0:
            filtered_list.append(num)
    
    duplicate_list = []
    for num in filtered_list:
        duplicate_list.append(num * 2)
        
    sum = 0
    for num in duplicate_list:
        sum += num

    prime = is_prime(sum)
    
    return sum, prime

list_ = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
result, result_prime = process_list(list_)
print(f"Result: {result}, ¿Prime? {'Yes' if result_prime else 'No'}")

Result: 60, ¿Prime? No


Puntos a optimizar:

1. **Filtrar las números**: El código recorre la lista original para filtrar los números pares. Considera una forma mas eficiente de filtrar la lista.
2. **Duplicación**: La lista es atravesada varias veces. ¿Hay alguna manera de hacer esto mas eficientemente?
3. **Suma**: Los números en la lista se suman a traves de un bucle. Python trae incluidas unas funciones que pueden optimizar esto.
4. **Función `is_prime`**: Aunque ésta función es relativamente eficiente, investiga si hay maneras de hacerla aun más rápida.
5. **Modularidad**: Considera dividir el código en funciones más pequeñas, cada una enfocada en una tarea específica.

In [12]:
#PASO 0: No hizo falta importar nada, en este ejercicio.

In [13]:
#PASO 1: Colocar la lista que debemos procesar como valor, la llamamos "lista".
lista = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
#PASO 2: Debemos obtener sólo los numeros pares de la lista, es lo 1° que piden.
# numero for numero-> para iterar através de los elementos de la lista.
def numeros_pares (lista):
    return [numero for numero in lista if numero % 2 == 0]
print(numeros_pares(lista))

[2, 4, 6, 8, 10]


In [14]:
# PASO 3: Duplicar los números pares que obtuvimos. Es lo 2° que nos piden.
# numero * 2 for numero -> nos ayuda a iterar y a la vez multiplicar los elementos de la lista (de numeros pares).
lista_duplicados= [numero * 2 for numero in numeros_pares(lista)]
print(lista_duplicados)

[4, 8, 12, 16, 20]


In [15]:
#PASO 4: Sumar los elementos de la lista de valores duplicados. Lo 3° que nos piden.
# Con el operador sum de python lo hacemos sencillamente.
suma_lista=sum(lista_duplicados)
print(suma_lista)

60


In [16]:
#PASO 5: Verificar si es primo o no el resultado. Lo 4° y último que nos piden.
# Definimos la función "numero_primo" (es el nombre que le quisimos dar), del valor de la suma total ("suma_lista").
# Usamos el condicional if para eliminar los valores negativos, ya que no pueden ser primos, tampoco, el 0 y/o 1.
# Usamos el bucle for para iterar para ver si el valor es primo o no.
def numero_primo (suma_lista):
    if suma_lista <= 1:
        return (f"{suma_lista} no es un numero primo")
    for i in range (2, int(suma_lista **0.5) + 1):
        if suma_lista % i == 0 :
            return (f"{suma_lista} no es un numero primo")
    return "Es un número primo"
print(numero_primo(suma_lista))


60 no es un numero primo


CONCLUSIONES:

-24 líneas se reducen 13 líneas de código._

-Usar fórmulas complejas, al estilo matemático, no es eficiente, ni codigicando, ni al procesar el código._

-Usar el "numero for numero" agiliza codificar y procesar los datos. Es mucho más simple, y además es más útil, porque sólo tendríamos que cambiar, quitar, o añadir valores a la lista._

-Usamos una funcion, ya que al usar el bucle if, necesitabamos iterar._

-Se analizan bien las condiciones que usamos, para hacerla más universal (Sin contar ningún negativo), así no tener que editarlo todo el tiempo al cambiar los valores de la lista, ya que pueden ser miles, y no es viable hayar primos 1x1._

C.G.W.

Ambos ejercicios  ayudarán a mejorar tu habilidad de optimizar el desempeño del código y te darán un mejor entendimiento de como las diferentes estructuras de datos y técnicas de programación pueden afectar la eficiencia de tu código.