# √âchantillonnage Stratifi√© Hybride pour Grands Ensembles de Donn√©es

Ce notebook d√©montre une approche d'**√©chantillonnage stratifi√© hybride** pour traiter de grands fichiers parquet. La technique combine une stratification **temporelle** et **spatiale** pour garantir des √©chantillons repr√©sentatifs tout en maintenant la qualit√© des donn√©es.

## üìä Qu'est-ce que l'√âchantillonnage Stratifi√© ?

L'√©chantillonnage stratifi√© divise la population en sous-groupes homog√®nes (strates) et √©chantillonne proportionnellement dans chacun. Cela garantit :
- **Meilleure repr√©sentation** des √©v√©nements rares
- **R√©duction du biais d'√©chantillonnage**
- **Am√©lioration de la validit√© statistique**

## üéØ Notre Approche

Nous utilisons une **stratification √† 3 niveaux** :
1. **Temporelle** : Heure de prise en charge (0-23)
2. **Spatiale** : Fr√©quence de localisation (zones rares/moyennes/fr√©quentes)
3. **Combin√©e** : Produit crois√© temps √ó espace

---

## üì¶ √âtape 1 : Importer les Biblioth√®ques Requises

Nous avons besoin de :
- `pandas` : Manipulation de donn√©es
- `numpy` : Op√©rations num√©riques
- `psutil` : Surveillance des ressources syst√®me
- `threading` : Surveillance en arri√®re-plan
- `glob` : Correspondance de motifs de fichiers

In [1]:
import pandas as pd
import time
import psutil
import os
import threading
import glob
import numpy as np

## üìà √âtape 2 : Configuration du Monitoring en Temps R√©el

Ce syst√®me de surveillance suit :
- **Utilisation CPU** (%)
- **Consommation RAM** (MB)
- **Progression** (%)
- **ETA** (temps restant estim√©)

La surveillance s'ex√©cute dans un **thread en arri√®re-plan** et se met √† jour toutes les 2 secondes.

In [2]:
# Suivi global de la progression
progress = {
    'operation': 'D√©marrage',
    'completed': 0.0,
    'start_time': time.time(),
    'eta': float('inf')
}
monitoring = True

def monitor_resources(interval=2):
    """Thread en arri√®re-plan qui surveille l'utilisation CPU et RAM"""
    process = psutil.Process(os.getpid())
    while monitoring:
        mem = process.memory_info().rss / 1024**2  # Convertir en MB
        cpu = psutil.cpu_percent()
        print(
            f"[{progress['operation']}] "
            f"{progress['completed']*100:.1f}% | "
            f"CPU: {cpu:.1f}% | "
            f"RAM: {mem:.1f} MB | "
            f"ETA: {progress['eta']:.1f}s"
        )
        time.sleep(interval)

# D√©marrer la surveillance en arri√®re-plan
threading.Thread(target=monitor_resources, daemon=True).start()

[D√©marrage] 0.0% | CPU: 54.0% | RAM: 106.1 MB | ETA: infs


## ‚öôÔ∏è √âtape 3 : Configuration des Param√®tres

### üîß **PERSONNALISEZ CES PARAM√àTRES**

| Param√®tre | Description | D√©faut | Comment le Modifier |
|-----------|-------------|--------|---------------------|
| `SAMPLE_FRAC` | Fraction de donn√©es √† √©chantillonner (0.0-1.0) | `0.01` (1%) | Augmenter pour des √©chantillons plus grands (ex: `0.05` = 5%) |
| `RANDOM_STATE` | Graine al√©atoire pour la reproductibilit√© | `42` | Changer pour tout entier pour diff√©rents √©chantillons al√©atoires |
| `FILE_PATTERN` | Motif glob pour les fichiers d'entr√©e | `"Data_as_paquets/yellow_tripdata_*.parquet"` | Modifier le chemin/motif pour correspondre √† vos fichiers |
| `OUTPUT_FILE` | Nom du fichier CSV de sortie | `"yellowtaxisample1pct_hybrid_stratified.csv"` | Changer pour le nom de sortie souhait√© |
| `ZONE_BINS` | Seuils pour la stratification spatiale | `[0, 0.01, 0.05, 1.0]` | Ajuster pour changer les d√©finitions rare/moyen/fr√©quent |

### üìù Exemples :
```python
# Pour un √©chantillon de 5% :
SAMPLE_FRAC = 0.05

# Et pour un √©chantillon de 1% :
SAMPLE_FRAC = 0.01

# Pour une stratification spatiale diff√©rente (plus granulaire) :
ZONE_BINS = [0, 0.005, 0.02, 0.1, 1.0]
ZONE_LABELS = ['tres_rare', 'rare', 'moyen', 'frequent']
```

In [3]:
# ========================================
# PARAM√àTRES - MODIFIEZ-LES SELON VOS BESOINS
# ========================================

SAMPLE_FRAC = 0.01          # √âchantillonner 1% des donn√©es de chaque strate
RANDOM_STATE = 42           # Pour des r√©sultats reproductibles
FILE_PATTERN = "Data_as_paquets/yellow_tripdata_*.parquet"
OUTPUT_FILE = "yellowtaxisample1pct_hybrid_stratified.csv"

# Bins de stratification spatiale
ZONE_BINS = [0, 0.01, 0.05, 1.0]
ZONE_LABELS = ['rare', 'moyen', 'frequent']

# ========================================

# Trouver tous les fichiers correspondants
files = sorted(glob.glob(FILE_PATTERN))
n_files = len(files)

print(f"Trouv√© {n_files} fichiers √† traiter")
print(f"Fraction d'√©chantillonnage : {SAMPLE_FRAC*100}%")
print(f"Fichier de sortie : {OUTPUT_FILE}")

Trouv√© 36 fichiers √† traiter
Fraction d'√©chantillonnage : 1.0%
Fichier de sortie : yellowtaxisample1pct_hybrid_stratified.csv


## üîÑ √âtape 4 : Boucle d'√âchantillonnage Stratifi√© Hybride

### Aper√ßu du Processus :

Pour chaque fichier parquet :

1. **Charger les donn√©es** dans un DataFrame pandas
2. **Extraire la caract√©ristique temporelle** : Heure de la datetime de prise en charge (0-23)
3. **Calculer les fr√©quences spatiales** : Fr√©quence d'apparition de chaque lieu de prise en charge
4. **Classifier les zones** en rare/moyen/fr√©quent selon la fr√©quence
5. **Cr√©er des strates combin√©es** : ex. "14_rare" = heure 14 + zone rare
6. **√âchantillonner proportionnellement** de chaque strate
7. **Nettoyer** les colonnes temporaires
8. **Mettre √† jour la progression** et l'ETA

### Pourquoi Cela Fonctionne :

- **Les zones rares** (< 1% de fr√©quence) sont pr√©serv√©es dans l'√©chantillon
- **Les heures de pointe** maintiennent leurs motifs temporels
- **L'√©chantillonnage proportionnel** garantit la validit√© statistique

In [4]:
sample_parts = []
start_time = time.time()
progress['operation'] = '√âchantillonnage stratifi√© hybride'

for i, file in enumerate(files):
    # Charger le fichier parquet
    df = pd.read_parquet(file)
    
    # ========================================
    # 1Ô∏è‚É£ STRATIFICATION TEMPORELLE
    # ========================================
    # Extraire l'heure de la datetime de prise en charge (0-23)
    df['pickup_hour'] = pd.to_datetime(
        df['tpep_pickup_datetime']
    ).dt.hour
    
    # ========================================
    # 2Ô∏è‚É£ STRATIFICATION PAR FR√âQUENCE SPATIALE
    # ========================================
    # Calculer la fr√©quence normalis√©e de chaque lieu de prise en charge
    zone_freq = df['PULocationID'].value_counts(normalize=True)
    
    # Classifier les zones selon la fr√©quence
    df['zone_class'] = pd.cut(
        df['PULocationID'].map(zone_freq),
        bins=ZONE_BINS,
        labels=ZONE_LABELS
    )
    
    # ========================================
    # 3Ô∏è‚É£ √âTIQUETTE DE STRATE COMBIN√âE
    # ========================================
    # Cr√©er un identifiant unique : "heure_classezone"
    # Exemple : "14_rare" = prise en charge √† 14h dans une zone rare
    df['stratum'] = (
        df['pickup_hour'].astype(str) + "_" +
        df['zone_class'].astype(str)
    )
    
    # ========================================
    # 4Ô∏è‚É£ √âCHANTILLONNAGE STRATIFI√â PROPORTIONNEL
    # ========================================
    # √âchantillonner SAMPLE_FRAC de chaque strate
    df_sample = (
        df
        .groupby('stratum', group_keys=False)
        .apply(lambda x: x.sample(
            frac=SAMPLE_FRAC,
            random_state=RANDOM_STATE
        ))
    )
    
    # ========================================
    # 5Ô∏è‚É£ NETTOYAGE
    # ========================================
    # Supprimer les colonnes temporaires de stratification
    df_sample.drop(
        columns=['pickup_hour', 'zone_class', 'stratum'],
        inplace=True
    )
    
    sample_parts.append(df_sample)
    
    # ========================================
    # 6Ô∏è‚É£ MISE √Ä JOUR DE LA PROGRESSION
    # ========================================
    progress['completed'] = (i + 1) / n_files
    elapsed = time.time() - start_time
    progress['eta'] = elapsed / progress['completed'] * (1 - progress['completed'])

print(f"\nTrait√© {len(sample_parts)} fichiers")

[√âchantillonnage stratifi√© hybride] 0.0% | CPU: 61.5% | RAM: 905.0 MB | ETA: infs
[√âchantillonnage stratifi√© hybride] 0.0% | CPU: 66.7% | RAM: 1179.9 MB | ETA: infs


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 2.8% | CPU: 57.5% | RAM: 873.8 MB | ETA: 171.1s
[√âchantillonnage stratifi√© hybride] 2.8% | CPU: 57.6% | RAM: 881.8 MB | ETA: 171.1s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 5.6% | CPU: 57.9% | RAM: 776.7 MB | ETA: 181.2s
[√âchantillonnage stratifi√© hybride] 5.6% | CPU: 56.8% | RAM: 1295.6 MB | ETA: 181.2s
[√âchantillonnage stratifi√© hybride] 5.6% | CPU: 61.9% | RAM: 1072.2 MB | ETA: 181.2s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 8.3% | CPU: 62.9% | RAM: 1611.8 MB | ETA: 187.2s
[√âchantillonnage stratifi√© hybride] 8.3% | CPU: 61.9% | RAM: 1050.1 MB | ETA: 187.2s
[√âchantillonnage stratifi√© hybride] 8.3% | CPU: 53.0% | RAM: 1090.1 MB | ETA: 187.2s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 11.1% | CPU: 66.9% | RAM: 816.6 MB | ETA: 182.5s
[√âchantillonnage stratifi√© hybride] 11.1% | CPU: 64.1% | RAM: 1312.4 MB | ETA: 182.5s
[√âchantillonnage stratifi√© hybride] 11.1% | CPU: 54.1% | RAM: 1076.9 MB | ETA: 182.5s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 13.9% | CPU: 78.7% | RAM: 1765.1 MB | ETA: 183.7s
[√âchantillonnage stratifi√© hybride] 13.9% | CPU: 52.6% | RAM: 1313.1 MB | ETA: 183.7s
[√âchantillonnage stratifi√© hybride] 13.9% | CPU: 57.4% | RAM: 1110.4 MB | ETA: 183.7s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 16.7% | CPU: 61.8% | RAM: 1470.1 MB | ETA: 181.2s
[√âchantillonnage stratifi√© hybride] 16.7% | CPU: 67.8% | RAM: 989.4 MB | ETA: 181.2s
[√âchantillonnage stratifi√© hybride] 16.7% | CPU: 55.1% | RAM: 1029.7 MB | ETA: 181.2s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 19.4% | CPU: 69.4% | RAM: 1903.1 MB | ETA: 176.0s
[√âchantillonnage stratifi√© hybride] 19.4% | CPU: 58.8% | RAM: 1210.0 MB | ETA: 176.0s
[√âchantillonnage stratifi√© hybride] 19.4% | CPU: 58.0% | RAM: 1050.9 MB | ETA: 176.0s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 22.2% | CPU: 62.3% | RAM: 788.4 MB | ETA: 170.3s
[√âchantillonnage stratifi√© hybride] 22.2% | CPU: 70.4% | RAM: 1022.2 MB | ETA: 170.3s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 25.0% | CPU: 52.7% | RAM: 1156.7 MB | ETA: 160.1s
[√âchantillonnage stratifi√© hybride] 25.0% | CPU: 70.6% | RAM: 1122.8 MB | ETA: 160.1s
[√âchantillonnage stratifi√© hybride] 25.0% | CPU: 60.0% | RAM: 1172.3 MB | ETA: 160.1s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 27.8% | CPU: 61.2% | RAM: 1165.8 MB | ETA: 157.9s
[√âchantillonnage stratifi√© hybride] 27.8% | CPU: 62.3% | RAM: 1037.7 MB | ETA: 157.9s
[√âchantillonnage stratifi√© hybride] 27.8% | CPU: 63.3% | RAM: 1061.3 MB | ETA: 157.9s
[√âchantillonnage stratifi√© hybride] 27.8% | CPU: 56.7% | RAM: 1139.5 MB | ETA: 157.9s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 30.6% | CPU: 65.2% | RAM: 1074.7 MB | ETA: 154.5s
[√âchantillonnage stratifi√© hybride] 30.6% | CPU: 61.7% | RAM: 1127.3 MB | ETA: 154.5s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 33.3% | CPU: 62.7% | RAM: 1503.0 MB | ETA: 149.6s
[√âchantillonnage stratifi√© hybride] 33.3% | CPU: 65.4% | RAM: 1006.9 MB | ETA: 149.6s
[√âchantillonnage stratifi√© hybride] 33.3% | CPU: 58.3% | RAM: 1076.3 MB | ETA: 149.6s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 36.1% | CPU: 62.2% | RAM: 1772.9 MB | ETA: 143.6s
[√âchantillonnage stratifi√© hybride] 36.1% | CPU: 55.9% | RAM: 1191.5 MB | ETA: 143.6s
[√âchantillonnage stratifi√© hybride] 36.1% | CPU: 64.8% | RAM: 1117.3 MB | ETA: 143.6s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 38.9% | CPU: 70.3% | RAM: 933.6 MB | ETA: 136.8s
[√âchantillonnage stratifi√© hybride] 38.9% | CPU: 70.7% | RAM: 1317.1 MB | ETA: 136.8s
[√âchantillonnage stratifi√© hybride] 38.9% | CPU: 57.9% | RAM: 1786.4 MB | ETA: 136.8s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 41.7% | CPU: 62.7% | RAM: 1143.8 MB | ETA: 130.6s
[√âchantillonnage stratifi√© hybride] 41.7% | CPU: 64.7% | RAM: 1177.8 MB | ETA: 130.6s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 44.4% | CPU: 74.4% | RAM: 1586.5 MB | ETA: 124.2s
[√âchantillonnage stratifi√© hybride] 44.4% | CPU: 72.7% | RAM: 1204.4 MB | ETA: 124.2s
[√âchantillonnage stratifi√© hybride] 44.4% | CPU: 66.8% | RAM: 1267.1 MB | ETA: 124.2s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 47.2% | CPU: 70.9% | RAM: 1870.8 MB | ETA: 118.3s
[√âchantillonnage stratifi√© hybride] 47.2% | CPU: 71.1% | RAM: 1423.4 MB | ETA: 118.3s
[√âchantillonnage stratifi√© hybride] 47.2% | CPU: 67.8% | RAM: 1233.9 MB | ETA: 118.3s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 50.0% | CPU: 61.3% | RAM: 1606.0 MB | ETA: 113.0s
[√âchantillonnage stratifi√© hybride] 50.0% | CPU: 64.4% | RAM: 1125.7 MB | ETA: 113.0s
[√âchantillonnage stratifi√© hybride] 50.0% | CPU: 59.2% | RAM: 1204.6 MB | ETA: 113.0s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 52.8% | CPU: 77.0% | RAM: 1145.2 MB | ETA: 106.6s
[√âchantillonnage stratifi√© hybride] 52.8% | CPU: 60.5% | RAM: 1351.6 MB | ETA: 106.6s
[√âchantillonnage stratifi√© hybride] 52.8% | CPU: 67.8% | RAM: 1533.2 MB | ETA: 106.6s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 55.6% | CPU: 59.1% | RAM: 1216.2 MB | ETA: 100.0s
[√âchantillonnage stratifi√© hybride] 55.6% | CPU: 44.5% | RAM: 1633.6 MB | ETA: 100.0s
[√âchantillonnage stratifi√© hybride] 55.6% | CPU: 61.9% | RAM: 1895.6 MB | ETA: 100.0s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 58.3% | CPU: 58.2% | RAM: 1571.8 MB | ETA: 93.2s
[√âchantillonnage stratifi√© hybride] 58.3% | CPU: 60.9% | RAM: 2057.2 MB | ETA: 93.2s
[√âchantillonnage stratifi√© hybride] 58.3% | CPU: 53.3% | RAM: 2239.0 MB | ETA: 93.2s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 61.1% | CPU: 57.6% | RAM: 1547.1 MB | ETA: 87.7s
[√âchantillonnage stratifi√© hybride] 61.1% | CPU: 48.2% | RAM: 1624.2 MB | ETA: 87.7s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 63.9% | CPU: 71.1% | RAM: 1360.8 MB | ETA: 81.4s
[√âchantillonnage stratifi√© hybride] 63.9% | CPU: 56.8% | RAM: 1796.5 MB | ETA: 81.4s
[√âchantillonnage stratifi√© hybride] 63.9% | CPU: 64.6% | RAM: 1648.1 MB | ETA: 81.4s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 66.7% | CPU: 65.9% | RAM: 1315.9 MB | ETA: 75.3s
[√âchantillonnage stratifi√© hybride] 66.7% | CPU: 62.9% | RAM: 1624.8 MB | ETA: 75.3s
[√âchantillonnage stratifi√© hybride] 66.7% | CPU: 53.6% | RAM: 1604.1 MB | ETA: 75.3s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 69.4% | CPU: 59.3% | RAM: 1499.4 MB | ETA: 68.7s
[√âchantillonnage stratifi√© hybride] 69.4% | CPU: 54.4% | RAM: 1771.9 MB | ETA: 68.7s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 72.2% | CPU: 63.7% | RAM: 1425.7 MB | ETA: 62.1s
[√âchantillonnage stratifi√© hybride] 72.2% | CPU: 48.3% | RAM: 1921.7 MB | ETA: 62.1s
[√âchantillonnage stratifi√© hybride] 72.2% | CPU: 55.1% | RAM: 1707.4 MB | ETA: 62.1s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 75.0% | CPU: 56.4% | RAM: 1735.8 MB | ETA: 56.1s
[√âchantillonnage stratifi√© hybride] 75.0% | CPU: 55.4% | RAM: 1641.7 MB | ETA: 56.1s
[√âchantillonnage stratifi√© hybride] 75.0% | CPU: 65.0% | RAM: 1696.4 MB | ETA: 56.1s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 77.8% | CPU: 64.9% | RAM: 1760.9 MB | ETA: 50.1s
[√âchantillonnage stratifi√© hybride] 77.8% | CPU: 68.0% | RAM: 1739.7 MB | ETA: 50.1s
[√âchantillonnage stratifi√© hybride] 77.8% | CPU: 62.7% | RAM: 1796.1 MB | ETA: 50.1s
[√âchantillonnage stratifi√© hybride] 77.8% | CPU: 64.9% | RAM: 1881.4 MB | ETA: 50.1s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 80.6% | CPU: 54.7% | RAM: 1709.2 MB | ETA: 44.1s
[√âchantillonnage stratifi√© hybride] 80.6% | CPU: 63.3% | RAM: 1808.9 MB | ETA: 44.1s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 83.3% | CPU: 57.3% | RAM: 1452.7 MB | ETA: 37.9s
[√âchantillonnage stratifi√© hybride] 83.3% | CPU: 56.9% | RAM: 1679.3 MB | ETA: 37.9s
[√âchantillonnage stratifi√© hybride] 83.3% | CPU: 56.5% | RAM: 1715.7 MB | ETA: 37.9s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 86.1% | CPU: 66.1% | RAM: 1447.6 MB | ETA: 31.6s
[√âchantillonnage stratifi√© hybride] 86.1% | CPU: 58.1% | RAM: 1874.4 MB | ETA: 31.6s
[√âchantillonnage stratifi√© hybride] 86.1% | CPU: 55.7% | RAM: 1769.2 MB | ETA: 31.6s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 88.9% | CPU: 61.9% | RAM: 1546.8 MB | ETA: 25.2s
[√âchantillonnage stratifi√© hybride] 88.9% | CPU: 61.6% | RAM: 1992.3 MB | ETA: 25.2s
[√âchantillonnage stratifi√© hybride] 88.9% | CPU: 50.0% | RAM: 1836.0 MB | ETA: 25.2s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 88.9% | CPU: 66.8% | RAM: 1810.1 MB | ETA: 25.2s
[√âchantillonnage stratifi√© hybride] 91.7% | CPU: 76.1% | RAM: 2101.7 MB | ETA: 19.0s
[√âchantillonnage stratifi√© hybride] 91.7% | CPU: 67.3% | RAM: 1994.8 MB | ETA: 19.0s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 94.4% | CPU: 69.4% | RAM: 2369.1 MB | ETA: 12.6s
[√âchantillonnage stratifi√© hybride] 94.4% | CPU: 51.1% | RAM: 1806.9 MB | ETA: 12.6s
[√âchantillonnage stratifi√© hybride] 94.4% | CPU: 62.0% | RAM: 1916.4 MB | ETA: 12.6s


  .apply(lambda x: x.sample(


[√âchantillonnage stratifi√© hybride] 97.2% | CPU: 60.2% | RAM: 1936.9 MB | ETA: 6.3s
[√âchantillonnage stratifi√© hybride] 97.2% | CPU: 55.5% | RAM: 1816.7 MB | ETA: 6.3s
[√âchantillonnage stratifi√© hybride] 97.2% | CPU: 56.4% | RAM: 1884.3 MB | ETA: 6.3s

Trait√© 36 fichiers


  .apply(lambda x: x.sample(


## üíæ √âtape 5 : Combiner et Sauvegarder les R√©sultats

Maintenant nous :
1. **Concat√©nons** toutes les parties √©chantillonn√©es en un seul DataFrame
2. **Sauvegardons** au format CSV
3. **Arr√™tons** le thread de surveillance
4. **Affichons les statistiques**

In [5]:
progress['operation'] = 'Sauvegarde CSV'

# Combiner tous les √©chantillons
df_final = pd.concat(sample_parts, ignore_index=True)

# Sauvegarder en CSV
df_final.to_csv(OUTPUT_FILE, index=False)

# Arr√™ter la surveillance
monitoring = False

# Calculer les statistiques finales
elapsed = time.time() - start_time

print("\n" + "="*50)
print("‚úÖ √âchantillonnage Stratifi√© Hybride Termin√©")
print("="*50)
print(f"Taille finale de l'√©chantillon : {len(df_final):,} lignes")
print(f"Temps d'ex√©cution total : {elapsed:.2f} secondes")
print(f"Sortie sauvegard√©e dans : {OUTPUT_FILE}")
print("="*50)

[Sauvegarde CSV] 100.0% | CPU: 51.2% | RAM: 2052.0 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 67.1% | RAM: 2069.5 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 67.1% | RAM: 2069.5 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 77.6% | RAM: 2069.4 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 70.4% | RAM: 2071.3 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 75.6% | RAM: 2069.4 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 73.4% | RAM: 2069.4 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 78.5% | RAM: 2069.4 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 77.5% | RAM: 2069.4 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 83.5% | RAM: 2069.4 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 82.7% | RAM: 2074.3 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 83.8% | RAM: 2069.4 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 94.6% | RAM: 2074.3 MB | ETA: 0.0s
[Sauvegarde CSV] 100.0% | CPU: 92.7% | RAM: 1928.6 MB | ETA: 0.0s

‚úÖ √âchantillonnage Stratifi√© Hybride Termin√©
Taille finale de l'√©chant

## üìä √âtape 6 : V√©rifier la Qualit√© de l'√âchantillon (Optionnel)

V√©rifions la distribution de notre √©chantillon pour s'assurer que la stratification a fonctionn√© correctement.

In [6]:
# Afficher les statistiques de base
print("Aper√ßu de l'√©chantillon :")
print(df_final.info())

print("\nPremi√®res lignes :")
print(df_final.head())

# V√©rifier la distribution temporelle
if 'tpep_pickup_datetime' in df_final.columns:
    df_final['hour'] = pd.to_datetime(df_final['tpep_pickup_datetime']).dt.hour
    print("\nDistribution horaire :")
    print(df_final['hour'].value_counts().sort_index())
    
# V√©rifier la distribution spatiale
if 'PULocationID' in df_final.columns:
    print("\nTop 10 des lieux de prise en charge :")
    print(df_final['PULocationID'].value_counts().head(10))

Aper√ßu de l'√©chantillon :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1191357 entries, 0 to 1191356
Data columns (total 20 columns):
 #   Column                 Non-Null Count    Dtype         
---  ------                 --------------    -----         
 0   VendorID               1191357 non-null  int64         
 1   tpep_pickup_datetime   1191357 non-null  datetime64[us]
 2   tpep_dropoff_datetime  1191357 non-null  datetime64[us]
 3   passenger_count        1124628 non-null  float64       
 4   trip_distance          1191357 non-null  float64       
 5   RatecodeID             1124628 non-null  float64       
 6   store_and_fwd_flag     1124628 non-null  object        
 7   PULocationID           1191357 non-null  int64         
 8   DOLocationID           1191357 non-null  int64         
 9   payment_type           1191357 non-null  int64         
 10  fare_amount            1191357 non-null  float64       
 11  extra                  1191357 non-null  float64       
 12  

---


---

## üìö Ressources Suppl√©mentaires

- [√âchantillonnage Stratifi√© Pandas](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sample.html)
- [Th√©orie de l'√âchantillonnage Stratifi√©](https://fr.wikipedia.org/wiki/%C3%89chantillonnage_stratifi%C3%A9)
- [Documentation Dataset NYC Taxi](https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page)