# Paralelizar loops en Python

Cuando paralelizamos un proceso, le estamos diciendo a nuestro ordenador que use todos o un cierto número especificado de los núcleos de los que dispone. Así que, en principio, va a acelerar notablemente nuestros procesos.

Esto puede tener a veces alguna contrapartida, ya que el proceso de paralelizar es costoso al principio, ya que debe distribuir toda la información entre núcleos y puede no valer la pena para procesos pequeños o para ordenadores sin muchos núcleos. 

Aun así, vale la pena añadir esta posibilidad a nuestra caja de herramientas para poder usarla en caso de que sea necesario.

In [2]:
import pandas as pd 
import numpy as np 
from joblib import Parallel, delayed # Hace procesos en paralelo

df = pd.read_csv('base_datos_2008.csv',nrows=100000)

### Crear un subset

In [3]:
df_sub = df[['CarrierDelay','WeatherDelay','NASDelay','SecurityDelay','LateAircraftDelay']]
df_sub.head(10)

Unnamed: 0,CarrierDelay,WeatherDelay,NASDelay,SecurityDelay,LateAircraftDelay
0,,,,,
1,,,,,
2,,,,,
3,,,,,
4,2.0,0.0,0.0,0.0,32.0
5,,,,,
6,10.0,0.0,0.0,0.0,47.0
7,,,,,
8,,,,,
9,,,,,


### Definir la funcion que se va a implementar

In [4]:
def retraso_maximo(fila):
    ''' función que se va a aplicar sobre cada una de las filas de esta base de datos que vemos en pantalla, y va a servir para calcular dentro de cada una de estas filas en las que se pueda buscar cuál es el retraso máximo en caso de que se pueda.
    '''
    if not np.isnan(fila).any(): # Buscar si hay na en la fila
        names = ['CarrierDelay','WeatherDelay','NASDelay','SecurityDelay','LateAircraftDelay'] # Definir nombres de columna
        return names[fila.index(max(fila))] # Retorna el nombre dentro de todos los valores de la fila, suposicion que haya tomado un valor maximo
    else:
        return "None" # Devuelve ninguno en caso contrario

In [5]:
# Implementacion en un bucle clasico
results = []
for fila in df_sub.values.tolist():
    results.append(retraso_maximo(fila))

In [6]:
results # Devuelve una lista con None en caso de que en toda la fila haya NaN

['None',
 'None',
 'None',
 'None',
 'LateAircraftDelay',
 'None',
 'LateAircraftDelay',
 'None',
 'None',
 'None',
 'None',
 'LateAircraftDelay',
 'None',
 'None',
 'None',
 'None',
 'LateAircraftDelay',
 'None',
 'LateAircraftDelay',
 'LateAircraftDelay',
 'None',
 'LateAircraftDelay',
 'None',
 'None',
 'None',
 'None',
 'CarrierDelay',
 'None',
 'None',
 'None',
 'LateAircraftDelay',
 'None',
 'None',
 'None',
 'None',
 'None',
 'None',
 'LateAircraftDelay',
 'None',
 'None',
 'LateAircraftDelay',
 'None',
 'None',
 'None',
 'None',
 'None',
 'None',
 'None',
 'LateAircraftDelay',
 'CarrierDelay',
 'None',
 'None',
 'CarrierDelay',
 'LateAircraftDelay',
 'NASDelay',
 'None',
 'LateAircraftDelay',
 'CarrierDelay',
 'LateAircraftDelay',
 'None',
 'None',
 'None',
 'None',
 'None',
 'None',
 'None',
 'None',
 'None',
 'None',
 'None',
 'LateAircraftDelay',
 'None',
 'None',
 'None',
 'LateAircraftDelay',
 'None',
 'None',
 'LateAircraftDelay',
 'None',
 'LateAircraftDelay',
 'None',
 

### Paralelizando el proceso

In [6]:
result = Parallel(n_jobs=2, backend="multiprocessing")(
    map(delayed(retraso_maximo), df_sub.values.tolist())) # n_jobs es el numero de nucleos que se desea utilizar, generalmente es uno

# Se especifica la funcion map (funcion que se deseae aplicar, donde se quiere aplicar)

In [1]:
result

NameError: name 'result' is not defined