În acest turorial o să învățăm cum să rulăm cod în paralel utilizând partea de 'multi processing'

 Întrebarea este de ce să utilizăm partea de 'multiprocessing'. Acest concept se poate utiliza când dorim să îmbunătățim drastic viteza scriptului. Această îmbunătățire de viteză provine de la rularea unui task în paralel.

O să începem prin a utiliza modulul 'time', iar din acesta o să ne folosim de metoda '.sleep()'. În acest fel o să ne dăm seama cum anume funcționează partea de rulare de cod în paralel utilizând 'multiprocessing', iar la final o să creem și un program care utilizează aceste noțiuni pentru a procesa imagini de mare rezoluție aflate pe mașina pe care lucrăm.

In [2]:
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
do_something()

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 1 second....
Done sleeping...
Finished in 1.0 second(s)


În cadrul codului de mai sus am importat modulul 'time'. Funcția 'do_something()' ne afișează că programul nostru o să doarmă pentru 1 secundă, după care o să afișeze că această așteptare s-a terminat. La final, se afișează în cât timp s-a rulat codul

În outputul rulării codului se poate observa în momentul în care se apelează funcția 'do_something()' că se printează prima parte ('Sleeping for 1 second....') după care se așteaptă timp de 1 secundă, apoi se afișează 'Done sleeping...'

La final ni se spune că scriptul a rulat în 1 secundă (cât timp s-a specificat în cadrul metodei 'time.sleep()')

În situtația în care se apelează funcția 'do_something()' de 2 ori, atunci programul nostru o să mai aștepte încă 1 secundă în plus. De fiecare dată când se apelează funcția respectivă, timpul de rulare al scriptului se lungește cu 1 secundă.

In [3]:
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
do_something()
do_something()

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
Finished in 2.01 second(s)


Acest procedeu prin care se rulează o funcție, se așteaptă să se termine de rulat funcția respectivă (în cazul de față se așteaptă o secundă) după care începe să se ruleze altă funcție, poartă denumire de rulare în mod sincron. Dacă avem anumite task-uri care nu trebuie rulate în mod sincron, atunci putem utilza modulul de 'multiprocessing' pentru a împărți aceste task-uri la alte CPU-uri și pentru a le rula în același timp.

Pentru a putea utiliza conceptul de 'multiprocessing' trebuie să importăm modulul 'multiprocessing'. Acest modul vine preinstalat cu Python, nu este nevoie de instalarea adițională pentru a fi utilizat

In [4]:
import multiprocessing

O să aruncăm o privire inițial peste procedeul vechi prin care se realizează acest concept de 'multiprocessing', după care o să aruncăm o privire și peste metoda mai nouă (mai rapidă și mai eficientă)

În loc să rulăm funcția 'do_something()' de 2 ori, o să creem 2 procese, câte un proces pentru ficare apelare a funcției.

In [5]:
p1 = multiprocessing.Process(target=do_something)

În codul de mai sus am creat un Proces pentru funcția 'do_something()'. Din modulul 'multiprocessing' am apelat metoda 'Process'. Acesteia trebuie să îi oferim ca și parametru, un tagert, iar acest target reprezintă funcția care dorim să ruleze. De observat însă faptul că acestă funcție se trece ca și argument simplu, nu se apelează

După cum spuneam este necesar să creem 2 procese, unul pentru fiecare apelare a funcției

In [6]:
p1 = multiprocessing.Process(target=do_something)
p2 = multiprocessing.Process(target=do_something)

In [7]:
import multiprocessing
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
p1 = multiprocessing.Process(target=do_something)
p2 = multiprocessing.Process(target=do_something)

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Finished in 0.0 second(s)


În acest moment am creat 2 procese, însă nu am rulat codul (funcțiile) din cadrul proceselor. După cum se poate observa după output-ul de mai sus, script-ul nostru s-a rulat în 0 (zero) secunde, iar funcția 'do_something()' nu a fost apelată deloc. Pentru a le spune proceselor să ruleze, trebuie să utilizăm metoda '.start()' pentru fiecare dintre procesele create

In [8]:
p1.start()
p2.start()

Sleeping for 1 second....Sleeping for 1 second....

Done sleeping...Done sleeping...



Dacă punem aceste linii de cod în cadrul scriptului, programul nu o să ruleze în modul în care ne-am aștepta

In [9]:
import multiprocessing
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
p1 = multiprocessing.Process(target=do_something)
p2 = multiprocessing.Process(target=do_something)

p1.start()
p2.start()

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Finished in 0.02 second(s)
Sleeping for 1 second....
Sleeping for 1 second....
Done sleeping...
Done sleeping...


Cum se poate observa din output, se afișează că programul s-a rulat în aproximativ 0 (zero) secunde (acest print trebuia să apară la final, după ce s-au rulat cele 2 procese în care s-a apelat funcția 'do_something()'), iar abia după cele 2 procese sunt rulate

Motivul pentru care se afișează că scriptul s-a terminat în 0 (zero) secunde este faptul că în momentul în care s-au creat procesele, pentru procese durează puțin mai mult ca și thread-urile până ce pornesc, scriptul s-a continuat și a ajuns la partea în care se calculează cât timp a durat până ce s-a rulat tot scriptul, iar abia după aceasta cele 2 procese au început să ruleze.

Pentru a aștepta ca procesele să se termine de rulat, înainte să continue cu script-ul, trebuie să utilizăm metoda '.join()' pentru fiecare dintre procese, asta după ce procesele s-au pornit

In [10]:
p1.join()
p2.join()

In [11]:
import multiprocessing
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
p1 = multiprocessing.Process(target=do_something)
p2 = multiprocessing.Process(target=do_something)

p1.start()
p2.start()

p1.join()
p2.join()

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Sleeping for 1 second....Sleeping for 1 second....

Done sleeping...Done sleeping...

Finished in 1.05 second(s)


După ce am utilizat și metoda '.join()' pentru cele 2 procese, putem să vedem acuma că inițial cele 2 procese s-au pornit, s-a așteptat să se termine de rulat cele 2 procese, iar abia după s-a trecut la partea în care s-a afișat timpul total de rulare pentru script

Tot din output se poate observa că deși s-a apelat funcția 'do_something()' de 2 ori, programul tot a rulat într-o singură secundă, acesta fiind rezultatul utilizării proceselor multiple

În cazul în care se dorește să se apeleze funcția respectivă de 10 ori, atunci în cazul acesta, putem ghici că scriptului o să îi ia undeva la un pic peste 10 secunde să ruleze (fără a utiliza procese). Dacă se creează 10 procese diferite, atunci scriptul o să ruleze undeva tot în aproximativ 1 secundă, deoarece aceste funcții sunt acum rulate în paralel

În loc să creem 10 procese diferite pentru fiecare apelare, o să utilizăm o buclă for pentru a le crea

In [12]:
import multiprocessing
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')

for _ in range(10):
    p = multiprocessing.Process(target=do_something)
    p.start()

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....Finished in 0.12 second(s)

Sleeping for 1 second....
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...


În cadrul codului de mai sus, în acea buclă for am creat și am pornit procesele, însă nu putem să facem și join la procese pentru că o să facă join la proces înainte să parcurgă bucla și să creeze și să pornească toate procesele

Pentru a rezolva această problemă, este necesar să avem o bluclă în care să creem și să pornim procesele (ceea ce tocmai am făcut) și altă buclă care să conțină toate procesele, să le parcurgem pe toate din nou cu o buclă și să le facem '.join()'. Pentru acesta o să creem o listă care o să conțină toate aceste procese create și pornite după care o să parcurgem lista de procese și o să le dăm '.join()' la toate

In [13]:
import multiprocessing
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
    
processes = []
for _ in range(10):
    p = multiprocessing.Process(target=do_something)
    p.start()
    processes.append(p)
    
for process in processes:
    process.join() 

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Finished in 1.14 second(s)


După adăugările aduse script-ului, putem observa că acuma acesta lucrează într-un mod corect. S-au creat 10 procese separate care au apelat aceeași funcție, fiecare funcție utilizând sintaxa 'time.sleep(1)' care îi spune programului să aștepte 1 secundă. Deși s-a apelat funcția de 10 ori (rularea programului într-un mod sincron ar dura 10 secunde) se poate observa că utilizând partea de 'multiprocessing' (crearea unui proces separat pentru fiecare apelare a funcției în parte) programul s-a terminat în aproximativ 1 secundă (puțin peste 1 secundă)

Deși mașina nu are 10 core-uri (un core poate rula un proces), acesta are modalități de a schimba core-urile în momentul în care unul dintre ele nu este foarte ocupat. Chiar dacă am avut mai multe procese decât core-uri, script-ul tot a rulat în un pic peste 1 secundă doar.

În acest moment se rulează o funcție care nu acceptă niciun argument. În continuare o să modificăm funcția 'do_something()' pentru ca aceasta să necesite un argument în momentul în care se apelează.

In [14]:
def do_something(seconds):
    print(f'Sleeping for {seconds} second(s) ...')
    time.sleep(seconds)
    print('Done sleeping...')

După aceste modificări, acuma funcția 'do_something()' primește ca și argument un număr de secunde pe care să le aștepte programul. Pentru a putea specifica argumente pentru funcția ce rulează în cadrul unui proces, acestea trebuie trecute ca și o listă de elemente pentru un argument ce poartă denumirea de args (args = []). Acest lucru se întâmplă deoare în momentul în care specificăm care este target-ul pentru procesul creat, funcția respectivă nu este apelată, prin urmare nu se pot trece argumentele în cadrul apelării funcției, de aceea acestea sunt specificate în cadrul argumentului 'args'

In [15]:
p = multiprocessing.Process(target=do_something, args=[2])

Spre deosebire de thread-uri, pentru a putea specifica argumente utilizând multi-processing, argumentele trebuie să permită să fie serializate (serialized) utilizând conceptul de pickle. Serializând ceva utilizând metoda pickel, înseamnă că convertim obiecte Python într-un format care poate fi deconstruit și reconstruit în alt script de Python. 

In [16]:
import multiprocessing
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s) ...')
    time.sleep(seconds)
    print('Done sleeping...')
    
    
processes = []
for _ in range(10):
    p = multiprocessing.Process(target=do_something, args=[2])
    p.start()
    processes.append(p)
    
for process in processes:
    process.join() 

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Sleeping for 2 second(s) ...
Sleeping for 2 second(s) ...
Sleeping for 2 second(s) ...
Sleeping for 2 second(s) ...
Sleeping for 2 second(s) ...
Sleeping for 2 second(s) ...
Sleeping for 2 second(s) ...
Sleeping for 2 second(s) ...
Sleeping for 2 second(s) ...
Sleeping for 2 second(s) ...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Finished in 2.14 second(s)


În outputul de mai sus se poate observa că argumentul ce a fost introdus pentru proces a fost trecut ca și argument pentru funcția 'do_something()', acesta așteptând acuma câte secunde au fost trecute ca și argument (2 secunde în cazul de față)

După cum spuneam la început, o să ne uităm inițial peste metoda veche de a crea procese. Metoda descrisă mai sus este aceea metodă

Începând cu Python 3.2, s-a adăugat o noțiune care poartă denumire de 'process pool executor', iar în majoritatea cazurilor acesta o să fie o metodă mai rapidă și mai eficientă de a crea și rula procese și de asemenea permite schimarea rapidă de la 'multithreading' la 'multiprocessing'.

Acest 'process pool executor' nu se găsește în modulul de 'multiprocessing', ci se găsește în modulul 'concurrent futures'

In [17]:
import concurrent.futures

Când se utilizează acest 'process pool executor' este recomandat să se utilizeze împreună cu un context manager (with)

In [18]:
with concurrent.futures.ProcessPoolExecutor() as executor:
    pass

În cadrul 'process pool executor' există mai multe metode care se pot utiliza. Dacă dorim să executăm câte o funcție pe rând, se paote utiliza metoda '.submit()'. Metoda '.submit()' programează o metodă să fie executată și returnează un future object

In [19]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s) ...')
    time.sleep(seconds)
    print('Done sleeping...')
    
    
with concurrent.futures.ProcessPoolExecutor() as executor:
    p1 = executor.submit(do_something, 2)

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Sleeping for 2 second(s) ...
Done sleeping...
Finished in 2.03 second(s)


Din nou, metoda '.submit()' programează o funcție să fie executată și returnează un future object. Un future object, practic encapsulează execuția funcției și ne permite să o verificăm după ce a fost programată. Putem verifica dacă rulează, dacă s-a terminat de rulat și de asemenea putem verifica și rezultatul. Dacă verificăm rezultatul, acesta o să ne ofere partea de return a funcției. În momentul de față funcția nu returnează nimic, dar o să o modificăm ca acesta să returneze un string

In [20]:
def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return 'Done sleeping...'


Funcția 'do_something()' a fost modificată pentru a returna string-ul de 'Done sleeping' în loc de a îl printa doar. Acum, acest string poate fi extras utilizând metoda '.result()'

In [21]:
with concurrent.futures.ProcessPoolExecutor() as executor:
    p1 = executor.submit(do_something, 2)
    print(p1.result())
    

Sleeping for 2 second(s)...
Done sleeping...


În momentul în care se rulează metoda '.result()' o să aștepte până în momentul în care funcția este rulată.

In [22]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return 'Done sleeping...'
    
with concurrent.futures.ProcessPoolExecutor() as executor:
    p1 = executor.submit(do_something, 2)
    print(p1.result())
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 2 second(s)...
Done sleeping...
Finished in 2.04 second(s)


 Dacă dorim să rulăm de mai multe ori, atunci putem apela metoda '.submit()' de mai multe ori

In [23]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return 'Done sleeping...'
    
with concurrent.futures.ProcessPoolExecutor() as executor:
    p1 = executor.submit(do_something, 2)
    p2 = executor.submit(do_something, 2)
    
    print(p1.result())
    print(p2.result())
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 2 second(s)...
Sleeping for 2 second(s)...
Done sleeping...
Done sleeping...
Finished in 2.05 second(s)


Dacă se dorește să ruleze funcția de mai multe ori (de 10 ori de exemplu, ca și în cazul de sus), atunci este recomandat din nou să se utilizeze o buclă for. Am văzut mai sus cum se poate utiliza o buclă for pentru a rula o funcție utilizând procese de 10 ori, iar de aceea în acest moment o să utilizăm list comprehension pentru a apela metoda submit de 10 ori

In [24]:
with concurrent.futures.ProcessPoolExecutor() as executor:
    result = [executor.submit(do_something, 1.5) for _ in range(10)] 

Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...





Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...


Pentru a extrage rezultatul pentru fiecare funcție putem utiliza altă metodă, aceasta fiind '.as_completed()'. Funcția respectivă returnează un iterator pe care îl putem parcurge și care o să returneze (yield) rezultatul funcție pe măsură ce funcția s-a terminat de rulat.

In [25]:
with concurrent.futures.ProcessPoolExecutor() as executor:
    result = [executor.submit(do_something, 1.5) for _ in range(10)] 



Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...




Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...


In [26]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return 'Done sleeping...'
    
with concurrent.futures.ProcessPoolExecutor() as executor:
    results = [executor.submit(do_something, 1.5) for _ in range(10)] 
    
    for f in concurrent.futures.as_completed(results):
        print(f.result())
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...Sleeping for 1.5 second(s)...




Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Finished in 3.07 second(s)


Se poate observa că programul a rulat funcția respectivă de 10 ori, însă tot programul a rulat în 3 secunde. Aceasta se întâmplă deoarece 'ProcessPoolExecutor' a luat o decizie bazată pe hardware-ul ce îl avem să nu permită să utilizeze 10 procese. 

Pentru a dovedi că metoda '.as_completed()' returnează valorile în momentul în care funcția s-a rulat, o să utilizăm un set de intervale de secunde diferite în momentul apelării funcției. O să creem o listă de secunde (o listă ce o să conțină valori care reprezintă numărul de secunde pe care să îl aștepte funcția 'do_something()')

In [27]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return f'Done sleeping for {seconds} second(s)'
    
with concurrent.futures.ProcessPoolExecutor() as executor:
    secs = [5, 4, 3, 2, 1]
    results = [executor.submit(do_something, sec) for sec in secs] 
    
    for f in concurrent.futures.as_completed(results):
        print(f.result())
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Sleeping for 5 second(s)...
Sleeping for 4 second(s)...
Sleeping for 3 second(s)...
Sleeping for 2 second(s)...Sleeping for 1 second(s)...

Done sleeping for 1 second(s)
Done sleeping for 2 second(s)
Done sleeping for 3 second(s)
Done sleeping for 4 second(s)
Done sleeping for 5 second(s)
Finished in 5.04 second(s)


După cum se poate vedea în output, prima dată s-a rulat funcția 'do_something()' cu argumentul de 5 secunde, apoi de 4, 3, 2 și la final 1 secundă, însă prima dată s-a terminat de rulat funcția în care s-a oferit ca și argument 1 secundă, iar rezultatul acesta este returnat și afișat primul.

În cadrul codului de mai sus, cu ajutorul list comprehension reușim să apelăm o funcție cu argumente diferite în momentul în care parcurgem lista respectivă (cea de argument). Python ne oferă o metodă specifică care face acest lucru, care mapează o funcție la un set de argumente (acestă funcție poartă denumirea de 'map()'). Această funcție există și în cadrul unui 'ProcessPoolExecutor' și se poate apela

Diferența dintre '.submit()' și '.map()' este că pentru '.map()', rezultatul funcțiilor este returnat în funcție de ordinea în care s-au apelat funcțiile respective, nu se returnează în momentul în care se termină de rulat funcția

In [28]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return f'Done sleeping for {seconds} second(s)'
    
with concurrent.futures.ProcessPoolExecutor() as executor:
    secs = [5, 4, 3, 2, 1]
    results = executor.map(do_something, secs) 
    
    for result in results:
        print(result)
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')

Sleeping for 5 second(s)...
Sleeping for 4 second(s)...
Sleeping for 3 second(s)...
Sleeping for 2 second(s)...
Sleeping for 1 second(s)...
Done sleeping for 5 second(s)
Done sleeping for 4 second(s)
Done sleeping for 3 second(s)
Done sleeping for 2 second(s)
Done sleeping for 1 second(s)
Finished in 5.05 second(s)


Când am utilizat metoda '.submit()', acesta returna un future object, iar metoda '.map()' returnează rezultatul, de aceea putem să parcurgem lista de rezultate și să printăm fiecare rezultat în parte

    for result in results:
        
        print(result)

 Acum că ne-am uitat peste un exemplu în care am utilizat 'time.sleep()' pentru a vedea cum anume funcționează partea de 'multiprocessing', în continuare o să ne utilzăm de un exemplu concludent în care s-ar putea utiliza acestă parte pentru a ne îmbunătăți viteza în care rulează script-ul

În codul de mai jos este un script care procesează un set de imagini de mare rezoluție din folderul curent. Cum anume funcționează acest script?

Acesta are o listă de nume de imagini în care fiecare dintre acestea reprezintă imaginea pe care dorim să o procesăm. Fiecare imagine se procesează în parte în acest fel

    1. Se deschide imaginea respectivă
    
    2. Se aplică un filtru pentru imaginea respectivă
    
    3. Se face resize la imagine utilizând ca și argument variabila denumită size
    
    4. Se salvează imaginea nou procesată într-un folder separat din folderul curent (processed este folderul în care se salvează)
    
Acest procedeu este urmat pentru fiecare imagine în parte

In [31]:
import time
from PIL import Image, ImageFilter

img_names = [
    'photo-1516117172878-fd2c41f4a759.jpg',
    'photo-1532009324734-20a7a5813719.jpg',
    'photo-1524429656589-6633a470097c.jpg',
    'photo-1530224264768-7ff8c1789d79.jpg',
    'photo-1564135624576-c5c88640f235.jpg',
    'photo-1541698444083-023c97d3f4b6.jpg',
    'photo-1522364723953-452d3431c267.jpg',
    'photo-1513938709626-033611b8cc03.jpg',
    'photo-1507143550189-fed454f93097.jpg',
    'photo-1493976040374-85c8e12f0c0e.jpg',
    'photo-1504198453319-5ce911bafcde.jpg',
    'photo-1530122037265-a5f1f91d3b99.jpg',
    'photo-1516972810927-80185027ca84.jpg',
    'photo-1550439062-609e1531270e.jpg',
    'photo-1549692520-acc6669e2f0c.jpg'
]

t1 = time.perf_counter()

size = (1200, 1200)


for img_name in img_names:
    img = Image.open(img_name)

    img = img.filter(ImageFilter.GaussianBlur(15))

    img.thumbnail(size)
    img.save(f'processed/{img_name}')
    print(f'{img_name} was processed...')

t2 = time.perf_counter()

print(f'Finished in {t2-t1} seconds')

photo-1516117172878-fd2c41f4a759.jpg was processed...
photo-1532009324734-20a7a5813719.jpg was processed...
photo-1524429656589-6633a470097c.jpg was processed...
photo-1530224264768-7ff8c1789d79.jpg was processed...
photo-1564135624576-c5c88640f235.jpg was processed...
photo-1541698444083-023c97d3f4b6.jpg was processed...
photo-1522364723953-452d3431c267.jpg was processed...
photo-1513938709626-033611b8cc03.jpg was processed...
photo-1507143550189-fed454f93097.jpg was processed...
photo-1493976040374-85c8e12f0c0e.jpg was processed...
photo-1504198453319-5ce911bafcde.jpg was processed...
photo-1530122037265-a5f1f91d3b99.jpg was processed...
photo-1516972810927-80185027ca84.jpg was processed...
photo-1550439062-609e1531270e.jpg was processed...
photo-1549692520-acc6669e2f0c.jpg was processed...
Finished in 53.756795494999096 seconds


Pentru un numă de 15 imagini care trebuie procesate, scriptul se pare că are neovoie de peste 50 de secunde pentru a procesa aceste imagini. Procesarea imaginilor reprezintă un CPU bound, deoarece se utilizează memoria CPU pentru a realiza această procesare. Acesta este un caz în care se poate utiliza partea de 'multiprocessing'. Chiar dacă nu toate operațiile din cadrul acestui script nu sunt de tipul CPU bound (spre exemplu, partea de deschidere a imaginii reprezintă un I/O bound), conceptul de 'multiprocessing' poate fi utilizat și pentru partea de I/O bounds fără probleme.

După cum se spunea, acest script ia o anumită imagine și o procesează. Pentru a putea modifica acest cod ca să utilizeze 'multiprocessing', trebuie să creem o funcție care procesează această imagine. Funcția respectivă trebuie după mapată pentru fiecare url din lista care conține aceste nume de imagini ce trebuie procesate. Acest procedeu este asemănător cu maparea funcției 'do_something()' pentru valori diferite (funcția care îi spune programului să aștepte un număr de secunde).

Pentru început o să creem funcția care se ocupă de partea de procesare. Pentru a crea funcția care procesează o imagine, tot ce trebuie făcut este să modificăm lina de cod 'for img_name in img_names:' cu 'def process_image(img_name):'

In [None]:
def process_image(img_name):
    img = Image.open(img_name)

    img = img.filter(ImageFilter.GaussianBlur(15))

    img.thumbnail(size)
    img.save(f'processed/{img_name}')
    print(f'{img_name} was processed...')

După ce s-a creat funcția respectivă, se importă modulul 'concurrent.futures' de unde se creează un 'ProcessPoolExector', după care utilizând metoda '.map()' din cadrul executorului se mapează funcția pentru fiecare imagine

In [32]:
import time
import concurrent.futures
from PIL import Image, ImageFilter

img_names = [
    'photo-1516117172878-fd2c41f4a759.jpg',
    'photo-1532009324734-20a7a5813719.jpg',
    'photo-1524429656589-6633a470097c.jpg',
    'photo-1530224264768-7ff8c1789d79.jpg',
    'photo-1564135624576-c5c88640f235.jpg',
    'photo-1541698444083-023c97d3f4b6.jpg',
    'photo-1522364723953-452d3431c267.jpg',
    'photo-1513938709626-033611b8cc03.jpg',
    'photo-1507143550189-fed454f93097.jpg',
    'photo-1493976040374-85c8e12f0c0e.jpg',
    'photo-1504198453319-5ce911bafcde.jpg',
    'photo-1530122037265-a5f1f91d3b99.jpg',
    'photo-1516972810927-80185027ca84.jpg',
    'photo-1550439062-609e1531270e.jpg',
    'photo-1549692520-acc6669e2f0c.jpg'
]

t1 = time.perf_counter()

size = (1200, 1200)


def process_image(img_name):
    img = Image.open(img_name)

    img = img.filter(ImageFilter.GaussianBlur(15))

    img.thumbnail(size)
    img.save(f'processed/{img_name}')
    print(f'{img_name} was processed...')
    
with concurrent.futures.ProcessPoolExecutor() as executor:
    executor.map(process_image, img_names)

t2 = time.perf_counter()

print(f'Finished in {t2-t1} seconds')

photo-1516117172878-fd2c41f4a759.jpg was processed...
photo-1507143550189-fed454f93097.jpg was processed...
photo-1524429656589-6633a470097c.jpg was processed...
photo-1522364723953-452d3431c267.jpg was processed...
photo-1530224264768-7ff8c1789d79.jpg was processed...
photo-1564135624576-c5c88640f235.jpg was processed...
photo-1532009324734-20a7a5813719.jpg was processed...
photo-1513938709626-033611b8cc03.jpg was processed...
photo-1541698444083-023c97d3f4b6.jpg was processed...
photo-1516972810927-80185027ca84.jpg was processed...
photo-1530122037265-a5f1f91d3b99.jpg was processed...
photo-1549692520-acc6669e2f0c.jpg was processed...
photo-1550439062-609e1531270e.jpg was processed...
photo-1504198453319-5ce911bafcde.jpg was processed...
photo-1493976040374-85c8e12f0c0e.jpg was processed...
Finished in 15.5788872109988 seconds


În acest moment, codul rulează în paralel, imaginile se procesează mai rapid (se poate vedea îmbunătățirea, de la 53 de secunde cât a luat să proceseze fiecare imagine în parte, până la 15 secunde cât a durat scriptul să proceseze toate imaginile utilizând conceptul de 'multiprocessing')   