## Programación Concurrente
# Segundo Parcial

Contesta según se te indique. En caso de que la pregunta sea teórica, escribe el texto con la respuesta correcta.

Al finalizar, descarga el archivo en formato **.ipynb** y cárgalo en Blackboard. Tienes máximo una hora para entregarlo, contando desde que entres al espacio en Blackboard.

Son 10 preguntas.



1. Crea una implementación, usando `threading`, del siguiente problema:

a) Si tu ID es par, que tu programa cree dos listas: una que incluya los números pares entre 50 y 100 (inclusive), y otra que guarde los números impares.

b) Si tu ID es impar, que tu programa cree dos listas: una que incluya los primeros 10 números divisibles entre 3, y otra que guarde los primeros 10 números divisibles entre 5.

In [3]:
import threading

def num_pares():
    even_numbers = [i for i in range(50, 101) if i % 2 == 0]
    print("Números pares entre 50 y 100:", even_numbers)

def num_nones():
    odd_numbers = [i for i in range(50, 101) if i % 2 != 0]
    print("Números impares entre 50 y 100:", odd_numbers)

# Crear hilos para cada función
par_hilo = threading.Thread(target=num_pares)
non_hilo = threading.Thread(target=num_nones)

# Iniciar los hilos
par_hilo.start()
non_hilo.start()

# Esperar a que los hilos terminen
par_hilo.join()
non_hilo.join()

Números pares entre 50 y 100: [50, 52, 54, 56, 58, 60, 62, 64, 66, 68, 70, 72, 74, 76, 78, 80, 82, 84, 86, 88, 90, 92, 94, 96, 98, 100]
Números impares entre 50 y 100: [51, 53, 55, 57, 59, 61, 63, 65, 67, 69, 71, 73, 75, 77, 79, 81, 83, 85, 87, 89, 91, 93, 95, 97, 99]


2. Para el problema que te tocó anteriormente, crea una implementación usando `multiprocessing`, definiendo manualmente los procesos.

In [4]:
import multiprocessing

def num_pares():
    even_numbers = [i for i in range(50, 101) if i % 2 == 0]
    print("Números pares entre 50 y 100:", even_numbers)

def num_nones():
    odd_numbers = [i for i in range(50, 101) if i % 2 != 0]
    print("Números impares entre 50 y 100:", odd_numbers)

if __name__ == "__main__":
    # Crear procesos para cada función
    par_proceso = multiprocessing.Process(target=num_pares)
    non_proceso = multiprocessing.Process(target=num_nones)

    # Iniciar los procesos
    par_proceso.start()
    non_proceso.start()

    # Esperar a que los procesos terminen
    par_proceso.join()
    non_proceso.join()

Por más que lo modifique no corre el resultado 


3. Para el mismo problema, crea una implementación usando un `pool` de `multiprocessing`.

Tardó mucho en correr y no mas no acaba y trabo mi jupyter

In [None]:
import multiprocessing

def num_pares():
    even_numbers = [i for i in range(50, 101) if i % 2 == 0]
    print("Números pares entre 50 y 100:", even_numbers)

def num_nones():
    odd_numbers = [i for i in range(50, 101) if i % 2 != 0]
    print("Números impares entre 50 y 100:", odd_numbers)

if __name__ == "__main__":
    # Crear un pool de procesos
    with multiprocessing.Pool() as pool:
        # Ejecutar las funciones en el pool de procesos
        pool.apply_async(num_pares)
        pool.apply_async(num_nones)

        # Esperar a que todos los procesos terminen
        pool.close()
        pool.join()

4. Define, en tus propias palabras, el concepto de Deadlock en Programación Concurrente.

Es cuando dos o más procesos o hilos quedan bloqueados esperando a que otros liberen los recursos, haciendo que ninguno puedo continuar con la tarea. Esto provoca que se queden detenidos de forma indefinidada ya que necesitan los recursos pero alguno otro lo retiene

5. Escribe, en tus propias palabras, por qué no vale tanto la pena usar multi hilos para programar de manera concurrente en Python.

Usar multihilos no siempre llegar ser muy eficaz debido a la existencia del GIL (Global Interpreter Lock), ya que este bloqueo genera que los hilos no se puedan ejecutar simultaneamente durante el proceso, aunque si se crean correctamente se terminan ejecutando secuencialmente. En algunas ocasiones si llega a ser más rápido el multihilos pero de manera general provoca más problemas

6. ¿Qué concepto está ejemplificado en la siguiente imagen?

![Dibujo](https://miro.medium.com/v2/resize:fit:1284/1*k5-2pI7op4jd0whsPmWbLA.jpeg)



Es el MapReduce

7. Corrige el siguiente código para que ejecute correctamente. Tip, sólo hay que cambiar una única línea, relacionada al uso correcto de la librería `threading`

In [3]:
import time
import requests
import threading

# Crea una lista de URLs
urls = ['https://myanimelist.net/anime/{}'.format(i) for i in range(1, 21)]

# Función usando Multithreading
def download_all_urls_multithreading(urls):
    contents = []
    threads = []

    # Descarga el contenido de cada página web
    def download_thread(url):
        content = download_url(url)
        contents.append(content)

    # Crea un hilo distinto para cada descarga
    for url in urls:
        #thread = threading.Thread(target=download_thread, args=url)
        ##El cambio se realizó en la parte del args, ahora cada hilo recibe correctamente un solo argumento url como una tupla
        thread = threading.Thread(target=download_thread, args=(url,))
        threads.append(thread)
        thread.start()

    # Espera a que todos los hilos terminen
    for thread in threads:
        thread.join()

    return contents


contents_multithreading = download_all_urls_multithreading(urls)

Exception in thread Thread-45 (download_thread):
Traceback (most recent call last):
  File "C:\ProgramData\anaconda3\Lib\threading.py", line 1038, in _bootstrap_inner
Exception in thread Thread-46 (download_thread):
Traceback (most recent call last):
  File "C:\ProgramData\anaconda3\Lib\threading.py", line 1038, in _bootstrap_inner
Exception in thread Thread-47 (download_thread):
Traceback (most recent call last):
  File "C:\ProgramData\anaconda3\Lib\threading.py", line 1038, in _bootstrap_inner
    self.run()
  File "C:\ProgramData\anaconda3\Lib\threading.py", line 975, in run
Exception in thread Thread-48 (download_thread):
Traceback (most recent call last):
  File "C:\ProgramData\anaconda3\Lib\threading.py", line 1038, in _bootstrap_inner
Exception in thread Thread-49 (download_thread):
Traceback (most recent call last):
  File "C:\ProgramData\anaconda3\Lib\threading.py", line 1038, in _bootstrap_inner
    self.run()
  File "C:\ProgramData\anaconda3\Lib\threading.py", line 975, in r

8. Si tu código ejecutó correctamente, la implementación con threading fue mucho más rápida. (puedes ejecutar la siguiente celda para verificarlo, quizá tengas que ejecutarla más de una vez).

Eso, quizá, pueda contradecir una respuesta que diste a una pregunta anterior. Responde: ¿Qué hay de diferente en este ejemplo?

In [6]:
# Función para descargar urls Secuenciallemte.
def download_url(url):
    response = requests.get(url)
    if response.status_code == 200:
        return response.text
    else:
        return None

# Método Secuencial
def download_all_urls(urls):
    contents = []
    for url in urls:
        content = download_url(url)
        contents.append(content)
    return contents

# Medir el Tiempo Secuencial
start_time = time.time()
contents_normal = download_all_urls(urls)
end_time = time.time()
time_normal = end_time - start_time

# Print the time taken by the normal function
print('Tiempo con método Secuencial: {:.2f} seconds'.format(time_normal))

# Medir el Tiempo con Multithreading
start_time = time.time()
contents_multithreading = download_all_urls_multithreading(urls)
end_time = time.time()
time_multithreading = end_time - start_time

# Print the time taken by the multithreading function
print('Tiempo usando multithreading: {:.2f} seconds'.format(time_multithreading))
#plt.show()

Tiempo con método Secuencial: 11.29 seconds
Tiempo usando multithreading: 1.16 seconds


La principal diferencia en porqué en estos casos funciona mejor la manera con multihilos es en que se realizan solicitudes de red y no de CPU que es donde aparece el problema del GIL
Es decir en la parte donde se hace la solicitud de la url es donde mejora ya que utilizando multihilos un hilo mientras está esperando una respuesta, otro ya estaría realizando la solicitud y así con los demás hilos, en cambio cuando la manera secuencia debe esperar a que el programa termine un solicitud para poder proceder o iniciar la siguiente y así consecutivamente haciendo que el proceso sea más lento
Por lo tanto, el multihilos mejora el tiempo de descarga ya que puede generar multiples solicitudes y si puede realizar correctasmente la concurrencia.

9. Explica, en tus propias palabras, ¿qué es la *Lazy Execution* de Spark?

Es una característica que optimiza el procesamiento de datos antes de ejecutar alguna acción o tarea, o sea, no se ejecuta inmediatamente cada operación sino que espera algun acción específica para evaluar y ejecutarlas

10. Contesta según tu primer apellido (paterno, normalmente):

a) Si tu primer apellido empieza con las letras A-M (alfabéticamente):
- Explica qué hace un Worker Node dentro de la arquitectura de Spark.


b) Si tu primer apellido empieza con las letras N-Z (alfabéticamente):
- Explica por qué es importante definir *SparkSession* al empezar a trabajar en Spark.

En donde se realizan todas las operaciones que fueron dirigidas por un driver y esta a su vez lo reparte en executers los cuales realizan la tarea de manera paralela. Este hace las operaciones con respecto a los datos disponibles 