# Formas de multi-processing com python

## Joblib

In [19]:
import requests
import time
import os
import pandas as pd

tempo_inicial = time.time()

## Google Colab
#arquivos = os.listdir("/content")

##Jupyter
arquivos = os.listdir()

tabela_final = pd.DataFrame()
for arquivo in arquivos:
    if "xlsx" in arquivo:
        tabela = pd.read_excel(arquivo)
        faturamento = tabela["Valor Final"].sum()
        print(f"Faturamento da Loja {arquivo.replace('.xlsx', '')} foi de R${faturamento:,.2f}")
        
print(f"Tempo de execução: {time.time() - tempo_inicial}")

Faturamento da Loja Norte Shopping foi de R$101,491.00
Faturamento da Loja Shopping Iguatemi Fortaleza foi de R$124,182.00
Faturamento da Loja Novo Shopping Ribeirão Preto foi de R$99,703.00
Faturamento da Loja Shopping Eldorado foi de R$124,339.00
Faturamento da Loja Shopping Recife foi de R$131,871.00
Faturamento da Loja Shopping SP Market foi de R$110,833.00
Faturamento da Loja Rio Mar Shopping Fortaleza foi de R$127,890.00
Faturamento da Loja Shopping Vila Velha foi de R$115,896.00
Faturamento da Loja Shopping Morumbi foi de R$117,936.00
Faturamento da Loja Rio Mar Recife foi de R$139,869.00
Faturamento da Loja Ribeirão Shopping foi de R$112,936.00
Faturamento da Loja Iguatemi Esplanada foi de R$103,342.00
Faturamento da Loja Parque Dom Pedro Shopping foi de R$122,055.00
Faturamento da Loja Shopping Center Interlagos foi de R$103,821.00
Faturamento da Loja Palladium Shopping Curitiba foi de R$120,621.00
Faturamento da Loja Shopping União de Osasco foi de R$116,032.00
Faturamento da

### Utilizano o joblib, vamos paralelizar o processo de scrapping as tabelas excel


Para utilizar o Parallel, é necessário algumas alterações, como o caso o laço de repetição, onde o transformamos em uma função, no qual seu parâmetro será a variável o laço:
```python
for arquivo in arquivos:
```
```python
def calcular_faturamento(arquivo):
```



Mantemos todo o código  que estava entro o laço de repetição entro da função:

```python
def calcular_faturamento(arquivo):
    if "xlsx" in arquivo:
        tabela = pd.read_excel(arquivo)
        faturamento = tabela["Valor Final"].sum()
        print(f"Faturamento da Loja {arquivo.replace('.xlsx', '')} foi de R${faturamento:,.2f}")
```

Outro ponto é que os prints não funcionam quando rodamos um processo em paralelo, precisamos substituir os prints por um return:

Nossa função será o processo rodao em paralelo
```python
def calcular_faturamento(arquivo):
    if "xlsx" in arquivo:
        tabela = pd.read_excel(arquivo)
        faturamento = tabela["Valor Final"].sum()
        return f"Faturamento da Loja {arquivo.replace('.xlsx', '')} foi de R${faturamento:,.2f}"

```
Com isso não perdemos a informação que desejamos

Criamos uma variavel resultados para armazenas as informações retornadas a função e só apois o processo finalizado printamos a variável resultado

``` python
def calcular_faturamento(arquivo):
    if "xlsx" in arquivo:
        tabela = pd.read_excel(arquivo)
        faturamento = tabela["Valor Final"].sum()
        return f"Faturamento da Loja {arquivo.replace('.xlsx', '')} foi de R${faturamento:,.2f}"

resultado = 
print(resultado)
```

Na variável resultado, vamos aplicar o parallel, ele será responsável por, pegar toda a lista de arquivos, rodar ela em paralelo e armazenar o resultado de cada execução dentro da variável resultado, transformando assim a mesmo em uma lista com todos os resultados para cada um dos arquivos

``` python
def calcular_faturamento(arquivo):
    if "xlsx" in arquivo:
        tabela = pd.read_excel(arquivo)
        faturamento = tabela["Valor Final"].sum()
        return f"Faturamento da Loja {arquivo.replace('.xlsx', '')} foi de R${faturamento:,.2f}"

resultado = Parallel
print(resultado)
```

no parallel, vamos definir duas informações

```python
resultado = Parallel()()
```
 No primeiro parênteses vamos passar o parâmetro n_jobs, sendo ele o número de processo em paralelo que queremos rodar, lembrando que cada máquina tem sua limitação de threads, consulte antes.

 - Info: No n_jobs, ao passar -1 definimos que queremos o máximo de processos rodando em paralelo que a máquina suportar.

 Por precaução foi definido apenas 2 threads

```python
resultado = Parallel(n_jobs=2)()
```

A segunda informação necessária é o delayed, o mesmo necessita de duas informações assim como o parallel, sendo a primeira informação/parêntese a função criada, já no sengundo parâmentro passaremos o arquivo. Arquivo esse usado no laço de repetição que posteriormente foi substituido pela função.

```python
resultado = Parallel(n_jobs=2)(delayed(calcular_faturamento)(arquivo))
```

Definido os parâmetros, é preciso informar de onde vem o paramêtro arquivo passado para o delayed. Dessa forma passando o list comprehension dele.

Basicamente criamos um laço de repetição em uma única linha de comando 

```python
resultado = Parallel(n_jobs=2)(delayed(calcular_faturamento)(arquivo) for arquivo in arquivos)
```

Interpretano o código: delayed passa a função, passa a variável que é parâmetro da função também, assim passando um list comprehension para definir quem é essa variável, no qual temos, para cada arquivo dentro da minha lista de arquivos, vou passar o arquivo(variável arquivo) como referência para minha função calcular_faturamento e assim rodando em paralelo de dois em dois

In [3]:
from joblib import Parallel, delayed

tempo_inicial = time.time()


## Google Colab
#arquivos = os.listdir("/content")

##Jupyter
arquivos = os.listdir()

tabela_final = pd.DataFrame()
def calcular_faturamento(arquivo):
    if "xlsx" in arquivo:
        tabela = pd.read_excel(arquivo)
        faturamento = tabela["Valor Final"].sum()
        return f"Faturamento da Loja {arquivo.replace('.xlsx', '')} foi de R${faturamento:,.2f}"

resultado = Parallel(n_jobs=2)(delayed(calcular_faturamento)(arquivo) for arquivo in arquivos)

resultado = list(filter(lambda item: item is not None, resultado))

print(*resultado, sep = '\n')
        
print(f"Demorou: {time.time() - tempo_inicial}")

Faturamento da Loja Norte Shopping foi de R$101,491.00
Faturamento da Loja Shopping Iguatemi Fortaleza foi de R$124,182.00
Faturamento da Loja Novo Shopping Ribeirão Preto foi de R$99,703.00
Faturamento da Loja Shopping Eldorado foi de R$124,339.00
Faturamento da Loja Shopping Recife foi de R$131,871.00
Faturamento da Loja Shopping SP Market foi de R$110,833.00
Faturamento da Loja Rio Mar Shopping Fortaleza foi de R$127,890.00
Faturamento da Loja Shopping Vila Velha foi de R$115,896.00
Faturamento da Loja Shopping Morumbi foi de R$117,936.00
Faturamento da Loja Rio Mar Recife foi de R$139,869.00
Faturamento da Loja Ribeirão Shopping foi de R$112,936.00
Faturamento da Loja Iguatemi Esplanada foi de R$103,342.00
Faturamento da Loja Parque Dom Pedro Shopping foi de R$122,055.00
Faturamento da Loja Shopping Center Interlagos foi de R$103,821.00
Faturamento da Loja Palladium Shopping Curitiba foi de R$120,621.00
Faturamento da Loja Shopping União de Osasco foi de R$116,032.00
Faturamento da

### conclusão

Ao analisar o mesmo código rodando em sequencial e em paralelo, nota-se que o custo computacional para o sequencial foi menor ao se comparar com o paralelo, isso ocoreu devido ao fato de que o processo de paralelizar códigos não deve ser feito para qualquer código, ele vem como um recurso de melhoria de desempenho, dito isso, é necessário analisar se compensa ou não a utilização de multi-processing. 

Em situações no qual o código demora um tempo ínfimo, não há necessidade, pois o foco está em otimizar códigos com uma duração substancialmente grande.

OBS: Rode o código mais de uma vez e observe o tempo dde execução.

## Threading

### Código sequêncial

In [4]:
def tarefa_1():
	x = 0
	while x < 10:
		print(f"tarefa 1 count: {x}")
		x+=1

def tarefa_2():
	y = 0
	while y < 10:
		print(f"tarefa 2 count: {y}")
		y+=1

tarefa_1()
tarefa_2()

tarefa 1 count: 0
tarefa 1 count: 1
tarefa 1 count: 2
tarefa 1 count: 3
tarefa 1 count: 4
tarefa 1 count: 5
tarefa 1 count: 6
tarefa 1 count: 7
tarefa 1 count: 8
tarefa 1 count: 9
tarefa 2 count: 0
tarefa 2 count: 1
tarefa 2 count: 2
tarefa 2 count: 3
tarefa 2 count: 4
tarefa 2 count: 5
tarefa 2 count: 6
tarefa 2 count: 7
tarefa 2 count: 8
tarefa 2 count: 9


### Código parallelo

In [6]:
import threading

def tarefa_1():
	x = 0
	while x < 10:
		print(f"tarefa 1 count: {x}")
		x+=1

def tarefa_2():
	y = 0
	while y < 10:
		print(f"tarefa 2 count: {y}")
		y+=1

threading.Thread(target=tarefa_1).start()
tarefa_2()

tarefa 1 count: 0
tarefa 1 count: 1
tarefa 1 count: 2
tarefa 1 count: 3
tarefa 1 count: 4
tarefa 1 count: 5
tarefa 1 count: 6
tarefa 1 count: 7
tarefa 1 count: 8
tarefa 1 count: 9
tarefa 2 count: 0
tarefa 2 count: 1
tarefa 2 count: 2
tarefa 2 count: 3
tarefa 2 count: 4
tarefa 2 count: 5
tarefa 2 count: 6
tarefa 2 count: 7
tarefa 2 count: 8
tarefa 2 count: 9


## Método ThreadPool

In [8]:
from random import randint
from time import sleep, time
from multiprocessing.pool import ThreadPool
from multiprocessing.process import current_process
import os

def print_names(name):
    sleep(2)
    print('Meu nome é: {}'.format(name))

runtime = []
threads = []
names = ['Adson', 'Gabriel', 'Siqueira', 'Ronaldo', 'Gleilson',
         'Emerson', 'Joselito', 'Piloto', 'Kleber', 'Mauricio']

pool = ThreadPool(processes=4)
start = time()

## method apply
for name in names:
    async_result = pool.apply(print_names, (name,))
    threads.append(async_result)
    processo = current_process()

end = time()
print('process: tempo de execução da tradução: {}'.format(end - start))

## method map
start = time()

for name in names:
    async_result = pool.map(print_names, (name,))
    threads.append(async_result)

end = time()
print('tempo de execução da tradução: {}'.format(end - start))

## method apply async
start = time()

for name in names:
    async_result = pool.apply_async(print_names, (name,))
    threads.append(async_result)

letters_list = [result.get(timeout=120) for result in threads]

end = time()
print('tempo de execução da tradução: {}'.format(end - start))

## method map async
start = time()

for name in names:
    async_result = pool.map_async(print_names, (name,))
    threads.append(async_result)

letters_list = [result.get() for result in threads]

end = time()
print('tempo de execução da tradução: {}'.format(end - start))

Meu nome é: Adson
Meu nome é: Gabriel
Meu nome é: Siqueira
Meu nome é: Ronaldo
Meu nome é: Gleilson
Meu nome é: Emerson
Meu nome é: Joselito
Meu nome é: Piloto
Meu nome é: Kleber
Meu nome é: Mauricio
process: tempo de execução da tradução: 20.049009561538696
Meu nome é: Adson
Meu nome é: Gabriel
Meu nome é: Siqueira
Meu nome é: Ronaldo
Meu nome é: Gleilson
Meu nome é: Emerson
Meu nome é: Joselito
Meu nome é: Piloto
Meu nome é: Kleber
Meu nome é: Mauricio
tempo de execução da tradução: 20.04682731628418
