În acest tutorial o să învățîm cum să rulăm cod simultan utilizând partea de 'threading module'

De ce să utilizăm modulul de Threading? Acest modul se utilizează când dorim să ne îmbunătățim viteza de rulare a codului într-un mod vizibil. Acestă îmbunătățire provine din rularea anumitor task-uri (metode, funcții) simultan. Acestă îmbunătățire nu este neapărat garantată, depinde foarte mult de ce anume se realizează în codul respectiv.

O să începem prin a utiliza modulul 'time' pentru a utiliza partea de 'sleep'. În acest fel o să ne dăm seama cum anume funcționează partea de rulare de cod simnultan utilizând 'multithreading', iar la final o să creem și un program care utilizează aceste noțiuni pentru a descărca imagini de mare rezoluție de pe internet

In [1]:
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
do_something()

finish = time.perf_counter()

print(f'FInished in {round(finish-start, 2)} second(s)')


Sleeping for 1 second....
Done sleeping...
FInished in 1.0 second(s)


În cadrul codului de mai sus am importat modulul 'time'. Funcția 'do_something()' ne afișează că programul nostru o să doarmă pentru 1 secundă, după care o să afișeze că această așteptare s-a terminat. La final, se afișează în cât timp s-a rulat codul

În outputul rulării codului se poate observa în momentul în care se apelează funcția 'do_something()' că se printează prima parte (Sleeping for 1 second....) după care se așteaptă timp de 1 secundă, apoi se afișează 'Done sleeping...'

La final ni se spune că scriptul a rulat în 1 secundă (cât timp s-a specificat în cadrul metodei 'time.sleep()')

În situtația în care se apelează funcția 'do_something()' de 2 ori, atunci programul nostru o să mai aștepte încă 1 secundă în plus. De fiecare dată când se apelează funcția respectivă, timpul de rulare al scriptului se lungește cu 1 secundă.

In [2]:
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
do_something()
do_something()

finish = time.perf_counter()

print(f'FInished in {round(finish-start, 2)} second(s)')


Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
FInished in 2.0 second(s)


După cum se observă, s-a mai adăugat o secundă la timpul total al programului, însă acestă secundă este doar de așteptare, prgramul nu realizează nimic. Acesta ar fi un bun indiciu de rulare de cod simultan. Există 2 categorii:

    1. CPU bounds = acestea utilizează foarte multe numere și foarte mult din CPU
    
    2. I/O bounds = lucruri care doar așteaptă operațiuni de input și output să fie terminate și nu utilizează CPU-ul (citirea și scrierea în fișiere, descărcarea de date din online)

În ceea ce privește partea de threading, o să se utilizeze acest concept pentru partea de I/O bounds, când o să avem mult de așteptat pentru operații de input sau output.

În situația în care codul utilizează mult CPU, atunci partea de Threading nu ne este de folos, ba mai mult, acest procedeu de multe ori o să îngreuneze programul. Pentru partea în care se utilizează mult CPU, atunci este recomandat să se utilizeze conceptul de 'multiprocessing' și să se ruleze cod în paralel

Multithreading = rulearea codului simultan

Multiprocessing = rularea codului în paralel

Când se utilizează 'multithreading' de fapt nu se rulează cod în paralel, doar ne oferă iluza că acest cod este rulat în paralel

În continuare o să modificăm scriptul pentru a utiliza thread-uri. Pentru acesta o să importăm modulul 'threading' (este bulit-in în Python, nu este nevoie de instalare).

Pentru început o să utilizăm o metodă veche pentru a înțelege mai bine ce anume se întâmplă în momentul în care se utilizează thread-uri, iar apoi o să trecem și la o metodă mai nouă.

În loc să rulăm funcția 'do_something()' 2 de ori, o să creem 2 thread-uri pentru acestă funcție.

In [4]:
import threading

t1 = threading.Thread(target=do_something)


În codul de mai sus am creat un Thread pentru funcția 'do_something()'. Din modulul 'threading' am apelat metoda Thread. Acesteia trebuie să îi oferim ca și parametru un tagert, iar acest target reprezintă funcția care dorim să ruleze. De observat însă faptul că acestă funcție se trece ca și argument simplu, nu se apelează

După cum spuneam, este necesar să creem 2 thread-uri, fiecare dintre acesta să aibă ca și target funcția 'do_something()'

In [5]:
t1 = threading.Thread(target=do_something)
t2 = threading.Thread(target=do_something)


În acest moment am creat cele 2 obiecte thread, însă codul nu o să ruleze simultan încă. Dacă rulăm codul așa cum este acuma, codul o să se termine imediat deoarece funțiile respective nu sunt rulate deloc

In [7]:
import threading
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
    
t1 = threading.Thread(target=do_something)
t2 = threading.Thread(target=do_something)

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Finished in 0.0 second(s)


După cum se observă în outputul din codul de mai sus, programul a rulat în 0 (zero) secunde. Pentru a rula funcția trecută ca și argument pentru target din cadrul thread-ului, trebuie să pornim aceste thread-uri. Pentru a le porni se utilizează metoda '.start()'. Aceste modificări s-ar putea să nu ne ofere rezultatul la care ne-am așteptat

In [10]:
import threading
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
    
t1 = threading.Thread(target=do_something)
t2 = threading.Thread(target=do_something)

t1.start()
t2.start()

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 1 second....
Sleeping for 1 second....
Finished in 0.0 second(s)
Done sleeping...
Done sleeping...


În cadrul outputului codului de mai sus, acum se poate observa că funcția a fost rulată. Se printează de 2 ori (pentru că sunt 2 tread-uri, adică se apelează funcția 'do_something()' de 2 ori) partea de 'Sleeping for 1 second....' (odată pentru fiecare thread), iar după se afișează că tot programul s-a rulat în 0 (zero) secunde, deși codul a avut nevoie de aproximativ 1 secundă pentru a rula

Motivul pentru care ne zice că programul a rulat în 0 (zero) secunde este pentru că a pornit ambele thread-uri, iar în timp ce acele thread-uri așteptaul pentru 1 secundă (time.sleep(1)), scriptul nostru a rulat simultan și a continuat cu restul codului din script și imediat a mers la partea în care se calculează în cât timp s-a rulat codul.

Pentru ca thread-urile să ruleze, iar abia după să calculeze în cât timp s-a rulat codul, trebuie să utilizăm metod '.join()'. Această metotă se asigură că funcția din cadrul thread-urilor este rulată, iar abia apoi se trece la partea în care se calculează timpul total de execuție al scriptului. Metoda '.join()' se apelează pentru fiecare thread în parte și se trece după ce acestea au fost pornite ('.start()')

In [11]:
import threading
import time

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
    
t1 = threading.Thread(target=do_something)
t2 = threading.Thread(target=do_something)

t1.start()
t2.start()

t1.join()
t2.join()

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 1 second....
Sleeping for 1 second....
Done sleeping...
Done sleeping...
Finished in 1.01 second(s)


În momentul de față, îmbunătățirea vitezei nu este una foarte vizibilă. Fără a crea thread-uri, scriptul rula în 2 secunde, iar în acest moment rulează în 1 secundă (cu thread-uri), însă acest lucru se întâmplă deoarece în cadrul funcției 'do_something()' se așteaptă doar 1 secundă, iar funcția este apelată de 2 ori. Dacă se dorește să se apeleze acestă funcție de 10 ori fără a se utiliza thread-uri, atunci programul o să ruleze în 10 secunde. În cazul în care însă se utilizează thread-uri pentru toate cele 10 apelări a funcției, codul o să ruleze tot în aproximativ 1 secundă.

Decât să creem manual aceste thread-uri (10 la număr), o să creem aceste thread-uri și o să le pornim în cadrul unei bucle.

In [12]:
import threading
import time 

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    
    
for _ in range(10):
    
    t = threading.Thread(target=do_something())
    t.start()
    

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
Sleeping for 1 second....
Done sleeping...
Finished in 10.03 second(s)


În acest moment avem bucla necesară, iar thread-urile noastre sunt pornite, însă nu putem realiza și partea de join ('t.join()') în cadrul buclei respective  deoarece o să facă join pe un thread înainte de a parcurge, a crea și a porni următorul thread, prin urmare este la fel ca și rularea codului fără a utiliza thread-uri (după cum se poate observa și în output)

Trebuie să găsim o modalitate să pornim toate aceste thread-uri, apoi să parcurgem iar aceste thread-uri încă odată pentru a le face join la toate. Putem să adăugăm fiecare thread pe care l-am creat și l-am pornit la o listă de thred-uri, după care să parcurgem lista respectivă și să apelăm metoda '.join()' pentru fiecare thread creat din listă

In [15]:
import threading
import time 

start = time.perf_counter()

def do_something():
    print('Sleeping for 1 second....')
    time.sleep(1)
    print('Done sleeping...')
    

threads = []
for _ in range(10):
    
    t = threading.Thread(target=do_something)
    t.start()
    threads.append(t)
    

for thread in threads:
    thread.join()

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Sleeping for 1 second....
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Finished in 1.02 second(s)


După cum se poate observa în partea de output, toate cele 10 thread-uri au fost pornite se pare în același timp, iar în acest fel am reușit să facem un program care în mod normal durează 10 secunde să se termine în aproximativ 1 secundă

În continuare o să aruncăm o privire la modul în care putem să introducem argumente în cadrul funcției care este rulată utilizând thread-uri.

O să modificăm funcția 'do_something()' în așa fel încât acesta să primească un argument în momentul în care se apelează

In [16]:
def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    print('Done sleeping...')
    

În acest moment, funcția respectivă necesită un argument în momentul în care se apelează. În momentul creeri unui thread, când se specifică funcția care este ca și target, acesta nu se apelează, doar se specifică, prin urmare nu se poate trece acest argument între paranteze (cum se face în mod normal în momentul în care se apelează o funcție). Pentru a putea specifica un argument în cadrul thread-urilor se utilizează 'args'. Acesta necesită o listă de valori care să fie trecute ca și argumente. În cazul de față se utilizează doar un argument, prin urmare o să fie o listă formată dintr-un singur element

In [17]:
import threading
import time 

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    print('Done sleeping...')
    

threads = []
for _ in range(10):
    
    t = threading.Thread(target=do_something, args=[1.5])
    t.start()
    threads.append(t)
    

for thread in threads:
    thread.join()

finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Finished in 1.52 second(s)


În cadrul codului de mai sus ('t = threading.Thread(target=do_something, args=[1.5]') s-a specificat ca și argument pentru funcția 'do_something()' valoarea de 1.5, ceea ce înseamnă că funcția o să aștepte pentru 1.5 secunde. Dacă se rula funcția de 10 ori fără a se utiliza thread-uri, atunci ar fi fost nevoie de 15 secunde pentru a se rula, însă cu ajutorul conceptului de 'multhithreading', codul respectiv s-a rulat în aproximativ 1.5 secunde (cu 10 thread-uri)

După cum spuneam la început, o să ne uităm inițial peste metoda veche de a crea thread-uri. Metoda descrisă mai sus este aceea metodă

Începând cu Python 3.2, s-a adăugat o noțiune care poartă denumire de 'thread pool executor', iar în majoritatea cazurilor acesta o să fie o metodă mai rapidă și mai eficientă de a crea și rula thread-uri și de asemenea permite schimarea rapidă de la 'multithreading' la 'multiprocessing'.

Acest thread pool executor nu se găsește în modulul de 'threading', ci se găsește în modulul 'concurrent.futures'

In [18]:
import concurrent.futures


Când se utilizează acest 'thread pool executor' este recomandat să se utilizeze împreună cu un context manager (with)

In [20]:
with concurrent.futures.ThreadPoolExecutor() as executor:
    pass


În cadrul 'thread pool executor' există mai multe metode care se pot utiliza. Dacă dorim să executăm câte o funcție pe rând, se paote utiliza metoda '.submit()'. Metoda programează o metodă să fie executată și returnează un future object

In [22]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    print('Done sleeping...')
    
with concurrent.futures.ThreadPoolExecutor() as executor:
    f1 = executor.submit(do_something, 1.5)
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 1.5 second(s)...
Done sleeping...
Finished in 1.5 second(s)


Din nou, metoda '.submit()' programează o funcție să fie executată și returnează un future object. Un future object, practic encapsulează execuția funcției și ne permite să o verificăm după ce a fost programată. Putem verifica dacă rulează, dacă s-a terminat de rulat și de asemenea putem verifica și rezultatul. Dacă verificăm rezultatul, acesta o să ne ofere partea de 'return' a funcției. În momentul de față funcția nu returnează nimic, dar o să o modificăm ca acesta să returneze un string

In [23]:
def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return 'Done sleeping...'


Funcția 'do_something()' a fost modificată pentru a returna string-ul de 'Done sleeping...' în loc de a îl printa doar. Acum, acest string poate fi extras utilizând metoda '.result()'

In [24]:
with concurrent.futures.ThreadPoolExecutor() as executor:
    f1 = executor.submit(do_something, 1.5)
    print(f1.result())
    

Sleeping for 1.5 second(s)...
Done sleeping...


În momentul în care se rulează metoda '.result()' o să aștepte până în momentul în care funcția este rulată.

In [25]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return 'Done sleeping...'
    
with concurrent.futures.ThreadPoolExecutor() as executor:
    f1 = executor.submit(do_something, 1.5)
    print(f1.result())
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 1.5 second(s)...
Done sleeping...
Finished in 1.51 second(s)


 Dacă dorim să rulăm de mai multe ori, atunci putem apela metoda '.submit()' de mai multe ori

In [26]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return 'Done sleeping...'
    
with concurrent.futures.ThreadPoolExecutor() as executor:
    f1 = executor.submit(do_something, 1.5)
    f2 = executor.submit(do_something, 1.5)
    
    print(f1.result())
    print(f2.result())
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Done sleeping...
Done sleeping...
Finished in 1.51 second(s)


Dacă se dorește să ruleze funcția de mai multe ori (de 10 ori de exemplu, ca și în cazul de sus), atunci este recomandat din nou să se utilizeze o buclă for. Am văzut mai sus cum se poate utiliza o buclă for pentru a rula o funcție utilizând tread-uri de 10 ori, iar de aceea în acest moment o să utilizăm list comprehension pentru a apela metoda submit de 10 ori

In [27]:
with concurrent.futures.ThreadPoolExecutor() as executor:
    result = [executor.submit(do_something, 1.5) for _ in range(10)] 

Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...


Pentru a extrage rezultatul pentru fiecare funcție putem utiliza altă metodă, aceasta fiind 'as_completed()'. Funcția respectivă returnează un iterator pe care îl putem parcurge și care o să returneze (yield) rezultatul funcție pe măsură ce funcția s-a terminat de rulat.

In [29]:
with concurrent.futures.ThreadPoolExecutor() as executor:
    results = [executor.submit(do_something, 1.5) for _ in range(10)] 
    
    for f in concurrent.futures.as_completed(results):
        print(f.result())
        

Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...


In [30]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return 'Done sleeping...'
    
with concurrent.futures.ThreadPoolExecutor() as executor:
    results = [executor.submit(do_something, 1.5) for _ in range(10)] 
    
    for f in concurrent.futures.as_completed(results):
        print(f.result())
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Sleeping for 1.5 second(s)...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Done sleeping...
Finished in 1.52 second(s)


Pentru a dovedi că metoda 'as_completed()' returnează valorile în momentul în care funcția s-a rulat, o să utilizăm un set de intervale de secunde diferite în momentul apelării funcției. O să creem o listă de secunde (o listă ce o să conțină valori care reprezintă numărul de secunde pe care să îl aștepte funcția 'do_something()')

In [31]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return f'Done sleeping for {seconds} second(s)'
    
with concurrent.futures.ThreadPoolExecutor() as executor:
    secs = [5, 4, 3, 2, 1]
    results = [executor.submit(do_something, sec) for sec in secs] 
    
    for f in concurrent.futures.as_completed(results):
        print(f.result())
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 5 second(s)...
Sleeping for 4 second(s)...
Sleeping for 3 second(s)...
Sleeping for 2 second(s)...
Sleeping for 1 second(s)...
Done sleeping for 1 second(s)
Done sleeping for 2 second(s)
Done sleeping for 3 second(s)
Done sleeping for 4 second(s)
Done sleeping for 5 second(s)
Finished in 5.01 second(s)


După cum se poate vedea în output, prima dată s-a rulat funcția 'do_something()' cu argumentul de 5 secunde, apoi de 4, 3, 2 și la final 1 secundă, însă prima dată s-a terminat de rulat funcția în care s-a oferit ca și argument 1 secundă, iar rezultatul acesta este returnat și afișat primul.

În cadrul codului de mai sus, cu ajutorul list comprehension reușim să apelăm o funcție cu argumente diferite în momentul în care parcurgem lista respectivă (cea de argument). Python ne oferă o metodă specifică care face acest lucru, care mapează o funcție la un set de argumente (acestă funcție poartă denumirea de 'map()'). Această funcție există și în cadrul unui 'ThreadPoolExecutor' și se poate apela

Diferența dintre '.submit()' și '.map()' este că pentru '.map()', rezultatul funcțiilor este returnat în funcție de ordinea în care s-au apelat funcțiile respective, nu se returnează în momentul în care se termină de rulat funcția

In [32]:
import concurrent.futures
import time

start = time.perf_counter()

def do_something(seconds):
    print(f'Sleeping for {seconds} second(s)...')
    time.sleep(seconds)
    return f'Done sleeping for {seconds} second(s)'
    
with concurrent.futures.ThreadPoolExecutor() as executor:
    secs = [5, 4, 3, 2, 1]
    results = executor.map(do_something, secs) 
    
    for result in results:
        print(result)
    
finish = time.perf_counter()

print(f'Finished in {round(finish-start, 2)} second(s)')


Sleeping for 5 second(s)...
Sleeping for 4 second(s)...
Sleeping for 3 second(s)...
Sleeping for 2 second(s)...
Sleeping for 1 second(s)...
Done sleeping for 5 second(s)
Done sleeping for 4 second(s)
Done sleeping for 3 second(s)
Done sleeping for 2 second(s)
Done sleeping for 1 second(s)
Finished in 5.01 second(s)


Când am utilizat metoda '.submit()', aceasta returna un future object, iar metoda '.map()' returnează rezultatul, de aceea putem să parcurgem lista de rezultate și să printăm fiecare rezultat în parte

    for result in results:
        
        print(result)

Acum că ne-am uitat peste un exemplu în care am utilizat 'time.sleep()' pentru a vedea cum anume funcționează partea de 'multithreading', în continuare o să ne utilzăm de un exemplu concludent în care s-ar putea utiliza acestă parte pentru a ne îmbunătăți viteza în care rulează script-ul

În codul de mai jos este un script care downloadează imagini de mare rezoluție de pe unsplash. Cum anume funcționează acest script?

Acesta are o listă de url-uri în care fiecare dintre acestea reprezintă un link către imaginea pe care dorim să o descărcăm. Fiecare url se procesează în parte în acest fel

    1. Folosind modulul 'requests', facem un 'request' de tip 'get' către url pentru a ne returna datele
    
    2. Pentru fiecare imagine se preia numele imaginii respective
    
    3. Se creează un string ce conține numele imaginii plus extensia de tip .png
    
    4. Se deschide un fișier în formatul 'wb' (write bytes) prin intermediul căreia se descarcă imaginea respectivă în folderul curent
    
Acest procedeu este urmat pentru fiecare imagine în parte, pentru fiecare url

In [33]:
import requests
import time

img_urls = [
    'https://images.unsplash.com/photo-1516117172878-fd2c41f4a759',
    'https://images.unsplash.com/photo-1532009324734-20a7a5813719',
    'https://images.unsplash.com/photo-1524429656589-6633a470097c',
    'https://images.unsplash.com/photo-1530224264768-7ff8c1789d79',
    'https://images.unsplash.com/photo-1564135624576-c5c88640f235',
    'https://images.unsplash.com/photo-1541698444083-023c97d3f4b6',
    'https://images.unsplash.com/photo-1522364723953-452d3431c267',
    'https://images.unsplash.com/photo-1513938709626-033611b8cc03',
    'https://images.unsplash.com/photo-1507143550189-fed454f93097',
    'https://images.unsplash.com/photo-1493976040374-85c8e12f0c0e',
    'https://images.unsplash.com/photo-1504198453319-5ce911bafcde',
    'https://images.unsplash.com/photo-1530122037265-a5f1f91d3b99',
    'https://images.unsplash.com/photo-1516972810927-80185027ca84',
    'https://images.unsplash.com/photo-1550439062-609e1531270e',
    'https://images.unsplash.com/photo-1549692520-acc6669e2f0c'
]

t1 = time.perf_counter()


for img_url in img_urls:
    img_bytes = requests.get(img_url).content
    img_name = img_url.split('/')[3]
    img_name = f'{img_name}.jpg'
    with open(img_name, 'wb') as img_file:
        img_file.write(img_bytes)
        print(f'{img_name} was downloaded...')


t2 = time.perf_counter()

print(f'Finished in {t2-t1} seconds')


photo-1516117172878-fd2c41f4a759.jpg was downloaded...
photo-1532009324734-20a7a5813719.jpg was downloaded...
photo-1524429656589-6633a470097c.jpg was downloaded...
photo-1530224264768-7ff8c1789d79.jpg was downloaded...
photo-1564135624576-c5c88640f235.jpg was downloaded...
photo-1541698444083-023c97d3f4b6.jpg was downloaded...
photo-1522364723953-452d3431c267.jpg was downloaded...
photo-1513938709626-033611b8cc03.jpg was downloaded...
photo-1507143550189-fed454f93097.jpg was downloaded...
photo-1493976040374-85c8e12f0c0e.jpg was downloaded...
photo-1504198453319-5ce911bafcde.jpg was downloaded...
photo-1530122037265-a5f1f91d3b99.jpg was downloaded...
photo-1516972810927-80185027ca84.jpg was downloaded...
photo-1550439062-609e1531270e.jpg was downloaded...
photo-1549692520-acc6669e2f0c.jpg was downloaded...
Finished in 20.911605334000342 seconds


Cu un număr de 15 imagini care trebuie downloade, script-ul respectiv rulează în aproximativ 20 de secunde. Acest script ia primul url, începe descărcarea imaginii, iar în timp ce imaginea se descarcă, scriptul așteaptă până ce se termină de descărcat pentru a putea trece la următorul url pentru a fi procesat. Această așteptare (descărcare imaginii sau a anumitor lucrui de pe internet) reprezintă un caz de I/O bounds, prin umrare reprezintă un bun candidat de a rula codul simultan utilizând multithreading

După cum se spunea, acest script ia un anumit url și îl procesează. Pentru a putea modifica acest cod ca să utilizeze 'multithreading', trebuie să creem o listă care procesează acest link. Funcția respectivă trebuie după mapată pentru fiecare url din lista care conține aceste url-uri. Acest procedeu este asemănător cu maparea funcției 'do_something()' pentru valori diferite (funcția care îi spune programului să aștepte un număr de secunde).

Pentru început o să creem funcția care se ocupă de partea de procesare. Pentru a crea funcția care procesează un url, tot ce trebuie făcut este să modificăm lina de cod 'for img_url in img_urls:' cu 'def download_image(img_url):'

In [None]:
def download_image(img_url)
    img_bytes = requests.get(img_url).content
    img_name = img_url.split('/')[3]
    img_name = f'{img_name}.jpg'
    with open(img_name, 'wb') as img_file:
        img_file.write(img_bytes)
        print(f'{img_name} was downloaded...')
        

După ce s-a creat funcția respectivă, se importă modului 'concurrent.futures' de unde se creează un 'ThreadPoolExector()', după care utilizând metoda '.map()' din cadrul executorului se mapează funcția pentru fiecare url

In [40]:
import requests
import time
import concurrent.futures

img_urls = [
    'https://images.unsplash.com/photo-1516117172878-fd2c41f4a759',
    'https://images.unsplash.com/photo-1532009324734-20a7a5813719',
    'https://images.unsplash.com/photo-1524429656589-6633a470097c',
    'https://images.unsplash.com/photo-1530224264768-7ff8c1789d79',
    'https://images.unsplash.com/photo-1564135624576-c5c88640f235',
    'https://images.unsplash.com/photo-1541698444083-023c97d3f4b6',
    'https://images.unsplash.com/photo-1522364723953-452d3431c267',
    'https://images.unsplash.com/photo-1513938709626-033611b8cc03',
    'https://images.unsplash.com/photo-1507143550189-fed454f93097',
    'https://images.unsplash.com/photo-1493976040374-85c8e12f0c0e',
    'https://images.unsplash.com/photo-1504198453319-5ce911bafcde',
    'https://images.unsplash.com/photo-1530122037265-a5f1f91d3b99',
    'https://images.unsplash.com/photo-1516972810927-80185027ca84',
    'https://images.unsplash.com/photo-1550439062-609e1531270e',
    'https://images.unsplash.com/photo-1549692520-acc6669e2f0c'
]

t1 = time.perf_counter()


def download_image(img_url):
    img_bytes = requests.get(img_url).content
    img_name = img_url.split('/')[3]
    img_name = f'{img_name}.jpg'
    with open(img_name, 'wb') as img_file:
        img_file.write(img_bytes)
        print(f'{img_name} was downloaded...')

with concurrent.futures.ThreadPoolExecutor() as executor:
    executor.map(download_image, img_urls)

t2 = time.perf_counter()

print(f'Finished in {t2-t1} seconds')


photo-1516117172878-fd2c41f4a759.jpg was downloaded...
photo-1516972810927-80185027ca84.jpg was downloaded...
photo-1550439062-609e1531270e.jpg was downloaded...
photo-1549692520-acc6669e2f0c.jpg was downloaded...
photo-1507143550189-fed454f93097.jpg was downloaded...
photo-1504198453319-5ce911bafcde.jpg was downloaded...
photo-1530224264768-7ff8c1789d79.jpg was downloaded...
photo-1564135624576-c5c88640f235.jpg was downloaded...
photo-1524429656589-6633a470097c.jpg was downloaded...
photo-1513938709626-033611b8cc03.jpg was downloaded...
photo-1522364723953-452d3431c267.jpg was downloaded...
photo-1530122037265-a5f1f91d3b99.jpg was downloaded...
photo-1493976040374-85c8e12f0c0e.jpg was downloaded...
photo-1541698444083-023c97d3f4b6.jpg was downloaded...
photo-1532009324734-20a7a5813719.jpg was downloaded...
Finished in 21.962286068999674 seconds


În acest moment, codul rulează asincron, imaginile se descarcă mai rapid (timpul este același deoarece acest aspect ține și de conexiunea de internet)   

În cazul în care nu se utilizează un I/O bounds, ci un CPU bounds, unde scriptul folosește computații de calcul (precum preocesarea acestor imagini) atunci utilizarea de multithreading ar încetit acest proces. Pentru partea de procesare a imaginilor descărcate, o variantă de îmbunătățire a codului îl reprezintă utilizarea conceptului de 'multiprocessing'