# üü£ Concurrence et Asyncio

**Badge:** üü£ Expert | ‚è± 60 min | üîë **Concepts cl√©s :** threading, multiprocessing, GIL, asyncio

## Objectifs

- Comprendre la diff√©rence entre concurrence et parall√©lisme
- Ma√Ætriser le GIL (Global Interpreter Lock) et son impact
- Utiliser `threading` pour les t√¢ches I/O bound
- Utiliser `multiprocessing` pour les t√¢ches CPU bound
- D√©couvrir la programmation asynchrone avec `asyncio`
- Choisir la bonne approche selon le cas d'usage

## Pr√©requis

- Compr√©hension des processus et threads
- Bases de Python (fonctions, d√©corateurs)
- Notion de latence r√©seau et I/O

## 1. Concurrence vs Parall√©lisme

### D√©finitions

**Concurrence** : G√©rer plusieurs t√¢ches en m√™me temps (switching rapide)  
- Une seule t√¢che s'ex√©cute √† un instant T
- Utile quand les t√¢ches attendent (I/O, r√©seau)
- Exemple : serveur web qui g√®re 1000 requ√™tes

**Parall√©lisme** : Ex√©cuter plusieurs t√¢ches simultan√©ment (vraiment en parall√®le)  
- Plusieurs t√¢ches s'ex√©cutent en m√™me temps
- N√©cessite plusieurs CPU cores
- Exemple : traiter 4 images en m√™me temps sur 4 cores

```
Concurrence (1 CPU):
Task A: ‚ñà‚ñà‚ñà‚ñà‚ñë‚ñë‚ñë‚ñë‚ñà‚ñà‚ñà‚ñà‚ñë‚ñë‚ñë‚ñë
Task B: ‚ñë‚ñë‚ñë‚ñë‚ñà‚ñà‚ñà‚ñà‚ñë‚ñë‚ñë‚ñë‚ñà‚ñà‚ñà‚ñà

Parall√©lisme (2 CPUs):
Task A: ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
Task B: ‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà
```

## 2. Le GIL (Global Interpreter Lock)

### Qu'est-ce que le GIL ?

Le **GIL** est un verrou qui emp√™che plusieurs threads Python d'ex√©cuter du bytecode Python en m√™me temps.

**Cons√©quences** :
- ‚úÖ Threading fonctionne bien pour I/O bound (attente r√©seau/disque)
- ‚ùå Threading ne parall√©lise PAS les calculs CPU
- ‚úÖ Multiprocessing contourne le GIL (processus s√©par√©s)

**Note** : Python 3.13+ introduit une option "free-threaded" (pas de GIL), mais exp√©rimental.

In [None]:
import time
import threading

# D√©monstration du GIL
def cpu_intensive():
    """Calcul intensif (CPU bound)"""
    count = 0
    for _ in range(10_000_000):
        count += 1
    return count

# Version s√©quentielle
start = time.time()
cpu_intensive()
cpu_intensive()
sequential_time = time.time() - start
print(f"S√©quentiel : {sequential_time:.3f}s")

# Version threading (ne gagne rien √† cause du GIL)
start = time.time()
t1 = threading.Thread(target=cpu_intensive)
t2 = threading.Thread(target=cpu_intensive)
t1.start()
t2.start()
t1.join()
t2.join()
threading_time = time.time() - start
print(f"Threading : {threading_time:.3f}s")

print(f"\n‚ö†Ô∏è Threading est {threading_time/sequential_time:.1f}x plus lent (√† cause du GIL)")
print("Pour CPU bound, utilisez multiprocessing !")

## 3. Threading : Pour les t√¢ches I/O bound

### Cas d'usage
- T√©l√©chargements HTTP
- Lecture/√©criture de fichiers
- Requ√™tes base de donn√©es
- Tout ce qui attend des ressources externes

In [None]:
import threading
import time
import random

# Simuler un appel API lent
def fetch_data(api_id):
    """Simule un appel API avec latence r√©seau"""
    print(f"[Thread {threading.current_thread().name}] Fetch API {api_id}...")
    time.sleep(random.uniform(0.5, 2))  # Simulation latence r√©seau
    print(f"[Thread {threading.current_thread().name}] API {api_id} done")
    return f"Data from API {api_id}"

# Version s√©quentielle
print("=== VERSION S√âQUENTIELLE ===")
start = time.time()
results = []
for i in range(5):
    results.append(fetch_data(i))
seq_time = time.time() - start
print(f"Temps total : {seq_time:.2f}s\n")

# Version threading
print("=== VERSION THREADING ===")
start = time.time()
threads = []
results_threaded = []

for i in range(5):
    thread = threading.Thread(target=lambda x: results_threaded.append(fetch_data(x)), args=(i,))
    threads.append(thread)
    thread.start()

# Attendre que tous les threads se terminent
for thread in threads:
    thread.join()

thread_time = time.time() - start
print(f"Temps total : {thread_time:.2f}s")
print(f"\n‚úì Gain : {seq_time/thread_time:.1f}x plus rapide avec threading")

### ThreadPoolExecutor : Interface moderne

In [None]:
from concurrent.futures import ThreadPoolExecutor, as_completed

# Simuler le scraping de plusieurs URLs
def scrape_url(url):
    """Simule le scraping d'une URL"""
    time.sleep(random.uniform(0.3, 1))
    return {"url": url, "status": 200, "content_length": random.randint(1000, 50000)}

urls = [
    "https://api.example.com/products/1",
    "https://api.example.com/products/2",
    "https://api.example.com/products/3",
    "https://api.example.com/products/4",
    "https://api.example.com/products/5",
    "https://api.example.com/products/6",
]

print("Scraping avec ThreadPoolExecutor...\n")
start = time.time()

# max_workers : nombre de threads dans le pool
with ThreadPoolExecutor(max_workers=3) as executor:
    # Soumettre toutes les t√¢ches
    futures = {executor.submit(scrape_url, url): url for url in urls}
    
    # Traiter les r√©sultats au fur et √† mesure
    for future in as_completed(futures):
        url = futures[future]
        try:
            result = future.result()
            print(f"‚úì {url}: {result['content_length']} bytes")
        except Exception as e:
            print(f"‚ùå {url}: {e}")

print(f"\nTemps total : {time.time() - start:.2f}s")
print(f"Avec {len(urls)} URLs et 3 workers")

## 4. Multiprocessing : Pour les t√¢ches CPU bound

### Cas d'usage
- Calculs math√©matiques lourds
- Traitement d'images
- Machine learning (training)
- Parsing de gros fichiers

Multiprocessing cr√©e de **vrais processus** s√©par√©s, chacun avec son propre GIL.

In [None]:
import multiprocessing as mp
import os

def heavy_computation(n):
    """Calcul intensif : somme des carr√©s"""
    print(f"[Process {os.getpid()}] Calcul pour n={n}")
    result = sum(i*i for i in range(n))
    return result

# Version s√©quentielle
print("=== VERSION S√âQUENTIELLE ===")
numbers = [5_000_000, 6_000_000, 7_000_000, 8_000_000]

start = time.time()
results_seq = [heavy_computation(n) for n in numbers]
seq_time = time.time() - start
print(f"Temps : {seq_time:.2f}s\n")

# Version multiprocessing
print("=== VERSION MULTIPROCESSING ===")
start = time.time()

# Pool de processus
with mp.Pool(processes=4) as pool:
    results_mp = pool.map(heavy_computation, numbers)

mp_time = time.time() - start
print(f"Temps : {mp_time:.2f}s")
print(f"\n‚úì Gain : {seq_time/mp_time:.1f}x plus rapide avec multiprocessing")
print(f"CPUs disponibles : {mp.cpu_count()}")

### ProcessPoolExecutor : Interface moderne

In [None]:
from concurrent.futures import ProcessPoolExecutor
import numpy as np

def process_chunk(data_chunk):
    """Traite un chunk de donn√©es (simule un calcul lourd)"""
    # Calculs statistiques
    result = {
        'mean': np.mean(data_chunk),
        'std': np.std(data_chunk),
        'sum': np.sum(data_chunk),
        'size': len(data_chunk)
    }
    return result

# Cr√©er un gros dataset
full_data = np.random.randn(10_000_000)

# Diviser en chunks
num_chunks = 4
chunks = np.array_split(full_data, num_chunks)

print(f"Dataset : {len(full_data):,} valeurs")
print(f"Chunks : {num_chunks} de ~{len(chunks[0]):,} valeurs\n")

# Traitement parall√®le
start = time.time()
with ProcessPoolExecutor(max_workers=4) as executor:
    results = list(executor.map(process_chunk, chunks))

print("R√©sultats par chunk :")
for i, res in enumerate(results):
    print(f"  Chunk {i}: mean={res['mean']:.4f}, std={res['std']:.4f}")

print(f"\nTemps : {time.time() - start:.2f}s")

## 5. Asyncio : Programmation asynchrone

### Concepts cl√©s

- **async def** : d√©finit une coroutine (fonction asynchrone)
- **await** : attend qu'une coroutine se termine
- **Event loop** : orchestre l'ex√©cution des coroutines
- **asyncio.gather()** : ex√©cute plusieurs coroutines en parall√®le

**Avantages** :
- Tr√®s efficace pour I/O bound (milliers de connexions)
- Moins de overhead que threading
- Code plus lisible (pas de callbacks)

**Inconv√©nients** :
- N√©cessite des biblioth√®ques async (aiohttp, asyncpg, etc.)
- Courbe d'apprentissage
- Ne r√©sout PAS les probl√®mes CPU bound

In [None]:
import asyncio

# D√©finir une coroutine
async def fetch_data_async(api_id):
    """Simule un appel API asynchrone"""
    print(f"[Coroutine] Fetch API {api_id}...")
    await asyncio.sleep(random.uniform(0.5, 1.5))  # await au lieu de time.sleep
    print(f"[Coroutine] API {api_id} done")
    return f"Data from API {api_id}"

# Ex√©cuter plusieurs coroutines en parall√®le
async def main():
    print("=== VERSION ASYNCIO ===")
    start = time.time()
    
    # Cr√©er des t√¢ches
    tasks = [fetch_data_async(i) for i in range(5)]
    
    # Ex√©cuter en parall√®le avec gather
    results = await asyncio.gather(*tasks)
    
    print(f"\nTemps total : {time.time() - start:.2f}s")
    print(f"R√©sultats : {len(results)} APIs fetched")
    return results

# Ex√©cuter l'event loop
results = await main()  # Dans Jupyter, utilisez 'await' directement

### Asyncio avec aiohttp : Requ√™tes HTTP asynchrones

In [None]:
# Installation : pip install aiohttp
# import aiohttp

# Exemple (n√©cessite aiohttp install√©)
async def fetch_url_async(session, url):
    """Fetch une URL de mani√®re asynchrone"""
    # async with session.get(url) as response:
    #     return await response.text()
    
    # Simulation sans aiohttp
    await asyncio.sleep(0.5)
    return f"Content from {url}"

async def download_all(urls):
    """T√©l√©charge plusieurs URLs en parall√®le"""
    # async with aiohttp.ClientSession() as session:
    #     tasks = [fetch_url_async(session, url) for url in urls]
    #     return await asyncio.gather(*tasks)
    
    # Simulation
    tasks = [fetch_url_async(None, url) for url in urls]
    return await asyncio.gather(*tasks)

# Test
urls = [
    "https://api.example.com/endpoint1",
    "https://api.example.com/endpoint2",
    "https://api.example.com/endpoint3",
]

start = time.time()
results = await download_all(urls)
print(f"‚úì {len(results)} URLs t√©l√©charg√©es en {time.time() - start:.2f}s")

print("\nüí° Installer aiohttp pour de vraies requ√™tes HTTP async")

## 6. Comparaison : Quand utiliser quoi ?

| Type de t√¢che | Recommandation | Raison |
|---------------|----------------|--------|
| **I/O bound** (r√©seau, API, fichiers) | `asyncio` ou `threading` | Peu d'overhead, GIL n'est pas un probl√®me |
| **CPU bound** (calculs, parsing) | `multiprocessing` | Contourne le GIL, utilise tous les cores |
| **I/O + CPU mixte** | `multiprocessing` + `asyncio` | Processus parall√®les avec I/O async dans chacun |
| **Scraping web simple** | `threading` + `requests` | Simple, efficace |
| **Scraping web massif** | `asyncio` + `aiohttp` | Milliers de connexions simultan√©es |
| **Data processing** | `multiprocessing` + `pandas` | Traiter des chunks en parall√®le |

### R√®gle simple

```python
if tache_attend_beaucoup:  # I/O, r√©seau
    use(asyncio)  # ou threading
elif tache_calcule_beaucoup:  # CPU
    use(multiprocessing)
```

## 7. Cas data engineering : Traitement parall√®le de fichiers

In [None]:
import pandas as pd
from concurrent.futures import ProcessPoolExecutor
from pathlib import Path

# Cr√©er plusieurs fichiers CSV √† traiter
def create_sample_files(num_files=4):
    """Cr√©e des fichiers CSV de test"""
    Path('data').mkdir(exist_ok=True)
    
    for i in range(num_files):
        df = pd.DataFrame({
            'order_id': range(i*1000, (i+1)*1000),
            'amount': np.random.uniform(10, 1000, 1000),
            'customer_id': np.random.randint(1, 100, 1000),
            'date': pd.date_range('2024-01-01', periods=1000, freq='H')
        })
        df.to_csv(f'data/orders_{i}.csv', index=False)
    
    print(f"‚úì {num_files} fichiers cr√©√©s dans ./data/")

def process_file(filepath):
    """Traite un fichier CSV (calculs statistiques)"""
    df = pd.read_csv(filepath)
    
    # Simule un traitement
    summary = {
        'file': filepath.name,
        'rows': len(df),
        'total_amount': df['amount'].sum(),
        'avg_amount': df['amount'].mean(),
        'unique_customers': df['customer_id'].nunique()
    }
    
    print(f"  Processed: {filepath.name}")
    return summary

# Cr√©er les fichiers
create_sample_files(4)

# Traiter en parall√®le
files = list(Path('data').glob('orders_*.csv'))
print(f"\nTraitement de {len(files)} fichiers en parall√®le...")

start = time.time()
with ProcessPoolExecutor(max_workers=4) as executor:
    results = list(executor.map(process_file, files))

# Consolider les r√©sultats
df_summary = pd.DataFrame(results)
print(f"\n‚úì Traitement termin√© en {time.time() - start:.2f}s")
print("\nR√©sum√© :")
print(df_summary)

print(f"\nTotal : {df_summary['total_amount'].sum():.2f}‚Ç¨")
print(f"Clients uniques : {df_summary['unique_customers'].sum()}")

## 8. Pattern avanc√© : Producteur-Consommateur avec Queue

In [None]:
import queue
import threading

# Queue thread-safe pour communication entre threads
task_queue = queue.Queue()
result_queue = queue.Queue()

def producer(n_tasks):
    """Producteur : g√©n√®re des t√¢ches"""
    print(f"[Producer] G√©n√©ration de {n_tasks} t√¢ches")
    for i in range(n_tasks):
        task_queue.put(i)
        time.sleep(0.1)
    
    # Signal de fin
    task_queue.put(None)
    print("[Producer] Termin√©")

def consumer(consumer_id):
    """Consommateur : traite les t√¢ches"""
    while True:
        task = task_queue.get()
        
        if task is None:
            task_queue.put(None)  # Propager le signal aux autres consommateurs
            break
        
        # Traiter la t√¢che
        result = task * task
        result_queue.put((task, result))
        print(f"[Consumer {consumer_id}] Task {task} ‚Üí {result}")
        time.sleep(0.2)
        
        task_queue.task_done()
    
    print(f"[Consumer {consumer_id}] Termin√©")

# Lancer producteur et consommateurs
producer_thread = threading.Thread(target=producer, args=(10,))
consumer_threads = [
    threading.Thread(target=consumer, args=(i,))
    for i in range(3)
]

producer_thread.start()
for ct in consumer_threads:
    ct.start()

# Attendre la fin
producer_thread.join()
for ct in consumer_threads:
    ct.join()

# R√©cup√©rer les r√©sultats
results = []
while not result_queue.empty():
    results.append(result_queue.get())

print(f"\n‚úì {len(results)} r√©sultats collect√©s")

## Pi√®ges courants

### 1. Race conditions (acc√®s concurrent √† une variable)

In [None]:
# ‚ùå Race condition
counter = 0

def increment_unsafe():
    global counter
    for _ in range(100000):
        counter += 1  # Non atomique !

threads = [threading.Thread(target=increment_unsafe) for _ in range(5)]
for t in threads:
    t.start()
for t in threads:
    t.join()

print(f"Counter (unsafe) : {counter} (devrait √™tre 500000)")

# ‚úÖ Solution : Lock
counter_safe = 0
lock = threading.Lock()

def increment_safe():
    global counter_safe
    for _ in range(100000):
        with lock:  # Section critique
            counter_safe += 1

threads = [threading.Thread(target=increment_safe) for _ in range(5)]
for t in threads:
    t.start()
for t in threads:
    t.join()

print(f"Counter (safe) : {counter_safe} ‚úì")

### 2. Deadlock (interblocage)

In [None]:
# ‚ùå Deadlock potentiel
lock1 = threading.Lock()
lock2 = threading.Lock()

def task_a():
    with lock1:
        time.sleep(0.1)
        # with lock2:  # D√©commenter pour deadlock
        #     pass
        pass

def task_b():
    with lock2:
        time.sleep(0.1)
        # with lock1:  # D√©commenter pour deadlock
        #     pass
        pass

# ‚úÖ Solution : toujours acqu√©rir les locks dans le m√™me ordre
print("‚úì Pour √©viter deadlock : ordre fixe des locks")

### 3. Confondre async et threading

In [None]:
# ‚ùå time.sleep() dans une coroutine async bloque l'event loop
async def bad_async():
    # time.sleep(1)  # ‚ùå Bloque TOUT
    await asyncio.sleep(1)  # ‚úÖ Lib√®re l'event loop

print("‚úì Dans async : utilisez await asyncio.sleep(), pas time.sleep()")

### 4. Croire que async acc√©l√®re le CPU

In [None]:
# ‚ùå Async ne r√©sout PAS les probl√®mes CPU bound
async def cpu_task():
    result = sum(i*i for i in range(10_000_000))
    return result

# M√™me avec asyncio.gather, c'est s√©quentiel (GIL)
# Pour CPU bound ‚Üí multiprocessing !

print("‚úì Async = I/O bound uniquement")
print("‚úì CPU bound = multiprocessing")

## Mini-exercices

### Exercice 1 : T√©l√©chargement parall√®le

Simulez le t√©l√©chargement de 10 fichiers (sleep random 0.5-2s).  
Comparez le temps s√©quentiel vs threading vs asyncio.

In [None]:
# Votre code ici


### Exercice 2 : Traitement CPU avec multiprocessing

Cr√©ez une fonction qui calcule la somme des carr√©s jusqu'√† N.  
Traitez [1M, 2M, 3M, 4M, 5M] avec multiprocessing et comparez avec s√©quentiel.

In [None]:
# Votre code ici


### Exercice 3 : Pipeline ETL parall√®le

Cr√©ez 5 fichiers CSV avec des donn√©es al√©atoires.  
Traitez-les en parall√®le avec ProcessPoolExecutor :  
- Lisez chaque fichier  
- Appliquez une transformation (ex: multiplier une colonne par 2)  
- Sauvegardez dans un nouveau fichier  
Mesurez le temps.

In [None]:
# Votre code ici


## Solutions des exercices

In [None]:
# Solution Exercice 1
def download_file(file_id):
    time.sleep(random.uniform(0.5, 2))
    return f"file_{file_id}.dat"

async def download_file_async(file_id):
    await asyncio.sleep(random.uniform(0.5, 2))
    return f"file_{file_id}.dat"

file_ids = list(range(10))

# S√©quentiel
print("=== S√âQUENTIEL ===")
start = time.time()
results_seq = [download_file(fid) for fid in file_ids]
seq_time = time.time() - start
print(f"Temps : {seq_time:.2f}s\n")

# Threading
print("=== THREADING ===")
start = time.time()
with ThreadPoolExecutor(max_workers=5) as executor:
    results_thread = list(executor.map(download_file, file_ids))
thread_time = time.time() - start
print(f"Temps : {thread_time:.2f}s\n")

# Asyncio
print("=== ASYNCIO ===")
start = time.time()
results_async = await asyncio.gather(*[download_file_async(fid) for fid in file_ids])
async_time = time.time() - start
print(f"Temps : {async_time:.2f}s\n")

print("COMPARAISON :")
print(f"  S√©quentiel : {seq_time:.2f}s (baseline)")
print(f"  Threading  : {thread_time:.2f}s (gain {seq_time/thread_time:.1f}x)")
print(f"  Asyncio    : {async_time:.2f}s (gain {seq_time/async_time:.1f}x)")

In [None]:
# Solution Exercice 2
def sum_of_squares(n):
    return sum(i*i for i in range(n))

numbers = [1_000_000, 2_000_000, 3_000_000, 4_000_000, 5_000_000]

# S√©quentiel
print("=== S√âQUENTIEL ===")
start = time.time()
results_seq = [sum_of_squares(n) for n in numbers]
seq_time = time.time() - start
print(f"Temps : {seq_time:.2f}s\n")

# Multiprocessing
print("=== MULTIPROCESSING ===")
start = time.time()
with ProcessPoolExecutor(max_workers=5) as executor:
    results_mp = list(executor.map(sum_of_squares, numbers))
mp_time = time.time() - start
print(f"Temps : {mp_time:.2f}s\n")

print(f"‚úì Gain : {seq_time/mp_time:.1f}x plus rapide avec multiprocessing")
print(f"CPU cores : {mp.cpu_count()}")

In [None]:
# Solution Exercice 3
# 1. Cr√©er fichiers
Path('input').mkdir(exist_ok=True)
Path('output').mkdir(exist_ok=True)

for i in range(5):
    df = pd.DataFrame({
        'id': range(i*100, (i+1)*100),
        'value': np.random.randn(100),
        'category': np.random.choice(['A', 'B', 'C'], 100)
    })
    df.to_csv(f'input/data_{i}.csv', index=False)

print("‚úì 5 fichiers cr√©√©s")

# 2. Fonction de traitement
def transform_file(input_path):
    df = pd.read_csv(input_path)
    
    # Transformation
    df['value'] = df['value'] * 2
    df['processed'] = True
    
    # Sauvegarder
    output_path = Path('output') / input_path.name
    df.to_csv(output_path, index=False)
    
    return output_path.name

# 3. Traiter en parall√®le
input_files = list(Path('input').glob('data_*.csv'))

print(f"\nTraitement de {len(input_files)} fichiers...")
start = time.time()

with ProcessPoolExecutor(max_workers=3) as executor:
    output_files = list(executor.map(transform_file, input_files))

print(f"‚úì Traitement termin√© en {time.time() - start:.2f}s")
print(f"Fichiers g√©n√©r√©s : {output_files}")

## R√©sum√©

### Points cl√©s

1. **Concurrence** : g√©rer plusieurs t√¢ches (switching) vs **Parall√©lisme** : ex√©cuter simultan√©ment
2. **GIL** : emp√™che le vrai parall√©lisme des threads Python pour CPU bound
3. **threading** : id√©al pour I/O bound (r√©seau, fichiers, API)
4. **multiprocessing** : obligatoire pour CPU bound (calculs, traitement)
5. **asyncio** : tr√®s efficace pour I/O bound avec milliers de connexions
6. **ThreadPoolExecutor / ProcessPoolExecutor** : interfaces modernes et simples
7. **Race conditions** : utilisez des Lock pour prot√©ger les ressources partag√©es

### Table de d√©cision

| T√¢che | Solution | Biblioth√®que |
|-------|----------|-------------|
| T√©l√©chargement API | asyncio + aiohttp | aiohttp |
| Scraping simple | threading + requests | requests |
| Calculs lourds | multiprocessing | concurrent.futures |
| Traitement fichiers | multiprocessing + pandas | pandas |
| Serveur web | asyncio | FastAPI, aiohttp |

### Prochaines √©tapes

- Notebook suivant : **Formats de donn√©es**
- Approfondir : asyncio patterns, distributed computing (Celery, Ray)