# üìì POC Data Lakehouse Binance avec MinIO, DuckDB, Polars et Iceberg

## 1. Introduction & Objectifs

Dans ce notebook, nous construisons un **pipeline de donn√©es moderne (Lakehouse)** en utilisant :

- **MinIO** (S3-compatible) pour le stockage objet  
- **Polars** pour le traitement des fichiers CSV  
- **DuckDB** pour la transformation et l‚Äô√©criture en Parquet partitionn√©  

### Architecture du pipeline

- **bronze** : stockage brut (`.zip` tels que t√©l√©charg√©s depuis Binance)  
- **silver** : donn√©es raffin√©es au format **Parquet**, partitionn√©es par `year/month/day`  
- **gold** : tables **Iceberg**, ajoutant les m√©tadonn√©es pour time travel, gouvernance et gestion des snapshots  

---

---

## 2. Configuration MinIO
### D√©marrer ou red√©marrer MinIO

- sudo systemctl start minio   # pour lancer
- sudo systemctl restart minio # si d√©j√† lanc√© mais bloqu√©
- sudo systemctl status minio  # v√©rifier que √ßa tourne

### Supprimer un bucket et son contenu :
- mc rb --force myminio/nom_du_bucket




Nous partons du principe que **MinIO tourne en mode standalone**.  
Exemple de lancement :

```bash
minio server /media/giujorge/Stockage/DATA/minio-data --console-address ":9001"
```

---

### commandes utiles Minio
- mc rm --recursive --force minio/bronze

- mc alias list

- mc ls minio


---


In [1]:
from minio import Minio
import os

# Config MinIO
MINIO_ENDPOINT = "localhost:9000"
MINIO_ACCESS_KEY = os.getenv("MINIO_ROOT_USER", "minioadm")
MINIO_SECRET_KEY = os.getenv("MINIO_ROOT_PASSWORD", "minioadm")

client = Minio(
    MINIO_ENDPOINT,
    access_key=MINIO_ACCESS_KEY,
    secret_key=MINIO_SECRET_KEY,
    secure=False
)


---

## 3. Cr√©ation des buckets (zones du data lake)

Nous cr√©ons trois buckets suivant les bonnes pratiques :

- **bronze** : fichiers bruts  
- **silver** : Parquet partitionn√©s  
- **gold** : tables Iceberg  

---


In [2]:
for bucket in ["bronze", "silver", "gold"]:
    if not client.bucket_exists(bucket):
        client.make_bucket(bucket)
        print(f"Bucket {bucket} cr√©√© ‚úÖ")
    else:
        print(f"Bucket {bucket} d√©j√† existant")


Bucket bronze cr√©√© ‚úÖ
Bucket silver cr√©√© ‚úÖ
Bucket gold cr√©√© ‚úÖ


### v√©rifiaction cr√©ation fichiers

- ```mc alias set minio http://127.0.0.1:9000 ton_access_key ton_secret_key```
- ```mc ls minio```

---

## 4. Sauvegarde raffin√©e en *bronze* (Parquet partitionn√©)

Nous utilisons **DuckDB** pour √©crire en Parquet partitionn√© (`year/month/day`) dans le bucket *bronze*.  

---

## üöÄ Version Optimis√©e - Pipeline de Traitement des Donn√©es

Cette version r√©√©crite pr√©sente plusieurs am√©liorations :

### ‚ú® **Am√©liorations apport√©es**

1. **Architecture orient√©e objet** : Code structur√© avec la classe `BinanceDataProcessor`
2. **Gestion d'erreurs robuste** : Meilleure gestion des exceptions et nettoyage automatique
3. **D√©tection automatique des timestamps** : Identification automatique des unit√©s (s/ms/¬µs)
4. **Code modulaire** : Chaque √©tape est dans une m√©thode s√©par√©e pour faciliter la maintenance
5. **Configuration centralis√©e** : Tous les param√®tres dans un dictionnaire
6. **Rapport d√©taill√©** : R√©sum√© complet avec statistiques et erreurs

### üîß **Fonctionnalit√©s**

- **Traitement par batch** : Traite tous les fichiers ZIP automatiquement
- **Partitionnement intelligent** : Partitionnement par `year/month/day`
- **Nettoyage automatique** : Suppression des objets temporaires DuckDB
- **Logging d√©taill√©** : Affichage du progr√®s et des erreurs
- **Validation des donn√©es** : V√©rification des fen√™tres temporelles

### üìä **Utilisation**

Le code s'ex√©cute automatiquement avec la configuration par d√©faut. Pour personnaliser, modifiez le dictionnaire `config`.

---

In [12]:
# Version corrig√©e avec gestion de l'√©crasement
import zipfile
import datetime
import os
from pathlib import Path
import duckdb
import polars as pl

class BinanceDataProcessorV2:
    """Version corrig√©e avec option OVERWRITE_OR_IGNORE"""
    
    def __init__(self, config: dict):
        self.config = config
        self.csv_columns = [
            "open_time", "open", "high", "low", "close", "volume", "close_time",
            "quote_asset_volume", "number_of_trades", "taker_buy_base_volume",
            "taker_buy_quote_volume", "ignore"
        ]
        self.errors = []
        self.processed_files = 0
    
    def setup_duckdb_connection(self):
        """Configure la connexion DuckDB avec les param√®tres S3"""
        con = duckdb.connect(database=":memory:")
        con.execute(f"""
            SET s3_access_key_id='{self.config["minio_access_key"]}';
            SET s3_secret_access_key='{self.config["minio_secret_key"]}';
            SET s3_endpoint='{self.config["minio_endpoint"]}';
            SET s3_url_style='path';
            SET s3_use_ssl='false';
        """)
        return con
    
    def process_file(self, zip_path: Path, con: duckdb.DuckDBPyConnection, output_path: str):
        """Traite un seul fichier de bout en bout"""
        try:
            print(f"üìÅ Traitement: {zip_path.name}")
            
            # 1. Lecture du ZIP
            with zipfile.ZipFile(str(zip_path)) as z:
                csv_candidates = [n for n in z.namelist() if n.lower().endswith('.csv')]
                csv_name = csv_candidates[0]
                with z.open(csv_name) as f:
                    df = pl.read_csv(f, has_header=False, new_columns=self.csv_columns)
            
            # 2. Traitement des donn√©es
            df = df.with_columns([
                pl.col("open_time").cast(pl.Int64, strict=False),
                pl.col("close_time").cast(pl.Int64, strict=False),
            ])
            
            # 3. D√©tection et conversion timestamp
            first_ts = df.select(pl.col("open_time").first()).item()
            if first_ts > 10_000_000_000_000:  # microsecondes
                ts_col = (pl.col("open_time") // 1000).cast(pl.Datetime("ms"))
            elif first_ts > 10_000_000_000:   # millisecondes
                ts_col = pl.col("open_time").cast(pl.Datetime("ms"))
            else:  # secondes
                ts_col = (pl.col("open_time") * 1000).cast(pl.Datetime("ms"))
            
            # 4. Ajout des colonnes finales
            ingest_id = datetime.datetime.utcnow().strftime("%Y%m%dT%H%M%SZ")
            df = df.with_columns([
                ts_col.alias("datetime"),
                pl.lit(ingest_id).alias("ingest_id"),
            ]).with_columns([
                pl.col("datetime").dt.year().alias("year"),
                pl.col("datetime").dt.month().alias("month"),
                pl.col("datetime").dt.day().alias("day"),
            ])
            
            # 5. Affichage des informations
            min_max = df.select([
                pl.col("datetime").min().alias("min_dt"),
                pl.col("datetime").max().alias("max_dt"),
            ]).to_dicts()[0]
            print(f"   üìä {df.height} lignes | {min_max['min_dt']} ‚Üí {min_max['max_dt']}")
            
            # 6. Sauvegarde avec gestion de l'√©crasement
            try:
                con.execute("DROP VIEW IF EXISTS tmp_data")
            except:
                pass
            
            con.register("tmp_data", df.to_arrow())
            
            # COPY avec option OVERWRITE_OR_IGNORE
            sql = f"""
                COPY tmp_data
                TO '{output_path}'
                WITH (FORMAT PARQUET, PARTITION_BY (year, month, day), OVERWRITE_OR_IGNORE TRUE)
            """
            con.execute(sql)
            print(f"   ‚úÖ Sauvegard√© dans bronze")
            
            self.processed_files += 1
            
        except Exception as e:
            print(f"   ‚ùå Erreur: {str(e)}")
            self.errors.append({"file": zip_path.name, "error": str(e)})
        
        finally:
            try:
                con.execute("DROP VIEW IF EXISTS tmp_data")
            except:
                pass
    
    def run(self):
        """Ex√©cute le traitement complet"""
        # Chemins
        base_path = Path(
            f"/media/giujorge/Stockage/DATA/raw/{self.config['provider']}/"
            f"{self.config['market']}/{self.config['data_frequency']}/"
            f"{self.config['data_category']}/{self.config['symbol']}/{self.config['interval']}"
        )
        
        output_path = (
            f"s3://bronze/{self.config['provider']}/{self.config['data_type']}/"
            f"{self.config['market']}/{self.config['data_frequency']}/{self.config['data_category']}/"
            f"{self.config['symbol']}/{self.config['interval']}/"
        )
        
        zip_files = sorted(base_path.glob("*.zip"))
        print(f"üöÄ D√©but du traitement de {len(zip_files)} fichiers")
        print(f"üéØ Destination: {output_path}\n")
        
        # Connexion DuckDB
        con = self.setup_duckdb_connection()
        
        try:
            for zip_file in zip_files:
                self.process_file(zip_file, con, output_path)
        finally:
            con.close()
        
        # R√©sum√©
        print(f"\n{'='*50}")
        print(f"‚úÖ Fichiers trait√©s: {self.processed_files}")
        print(f"‚ùå Erreurs: {len(self.errors)}")
        if self.errors:
            for error in self.errors[:5]:  # Premi√®re 5 erreurs seulement
                print(f"   ‚Ä¢ {error['file']}: {error['error']}")

# Configuration et ex√©cution
config = {
    "provider": "binance",
    "data_type": "data", 
    "market": "spot",
    "data_frequency": "monthly",
    "data_category": "klines",
    "symbol": "BTCUSDT",
    "interval": "4h",
    "minio_access_key": os.getenv("MINIO_ROOT_USER", "minioadm"),
    "minio_secret_key": os.getenv("MINIO_ROOT_PASSWORD", "minioadm"),
    "minio_endpoint": os.getenv("MINIO_ENDPOINT", "127.0.0.1:9000"),
}

# D√©marrage
processor = BinanceDataProcessorV2(config)
processor.run()

üöÄ D√©but du traitement de 97 fichiers
üéØ Destination: s3://bronze/binance/data/spot/monthly/klines/BTCUSDT/4h/

üìÅ Traitement: BTCUSDT-4h-2017-08.zip
   üìä 89 lignes | 2017-08-17 04:00:00 ‚Üí 2017-08-31 20:00:00
   ‚úÖ Sauvegard√© dans bronze
üìÅ Traitement: BTCUSDT-4h-2017-09.zip
   üìä 179 lignes | 2017-09-01 00:00:00 ‚Üí 2017-09-30 20:00:00
   ‚úÖ Sauvegard√© dans bronze
üìÅ Traitement: BTCUSDT-4h-2017-10.zip
   üìä 186 lignes | 2017-10-01 00:00:00 ‚Üí 2017-10-31 20:00:00
   ‚úÖ Sauvegard√© dans bronze
üìÅ Traitement: BTCUSDT-4h-2017-11.zip
   üìä 180 lignes | 2017-11-01 00:00:00 ‚Üí 2017-11-30 20:00:00
   ‚úÖ Sauvegard√© dans bronze
üìÅ Traitement: BTCUSDT-4h-2017-12.zip
   üìä 186 lignes | 2017-12-01 00:00:00 ‚Üí 2017-12-31 20:00:00
   ‚úÖ Sauvegard√© dans bronze
üìÅ Traitement: BTCUSDT-4h-2018-01.zip
   üìä 186 lignes | 2018-01-01 00:00:00 ‚Üí 2018-01-31 20:00:00
   ‚úÖ Sauvegard√© dans bronze
üìÅ Traitement: BTCUSDT-4h-2018-02.zip
   üìä 161 lignes | 2018-02

---

## üìã Workflow Complet pour Nouveaux Fichiers ZIP

### **√âtape 1 : Pr√©paration**
1. **T√©l√©chargez** vos nouveaux fichiers ZIP dans le r√©pertoire source :
   ```
   /media/giujorge/Stockage/DATA/raw/binance/spot/monthly/klines/BTCUSDT/4h/
   ```

2. **V√©rifiez** que MinIO est d√©marr√© :
   ```bash
   sudo systemctl status minio
   ```

### **√âtape 2 : Traitement (Choisissez une option)**

#### ü§ñ **Option A : Automatique (Recommand√©)**
```python
# Traite automatiquement tous les nouveaux fichiers
incremental_processor.process_new_files_only()
```

#### üéØ **Option B : Sp√©cifique**
```python
# Traite uniquement les fichiers que vous sp√©cifiez
nouveaux_fichiers = ["BTCUSDT-4h-2025-09.zip", "BTCUSDT-4h-2025-10.zip"]
incremental_processor.process_new_files_only(nouveaux_fichiers)
```

#### üß™ **Option C : Simulation d'abord**
```python
# Voir quels fichiers seraient trait√©s (sans les traiter)
simulate_incremental_processing()
```

### **√âtape 3 : V√©rification**

Apr√®s traitement, vous pouvez v√©rifier que les donn√©es sont bien ajout√©es :

```python
# V√©rifier avec DuckDB
con = duckdb.connect()
con.execute("SET s3_endpoint='127.0.0.1:9000'")  # Config MinIO
result = con.execute("""
    SELECT 
        COUNT(*) as total_records,
        MIN(datetime) as earliest_date,
        MAX(datetime) as latest_date
    FROM read_parquet('s3://bronze/binance/data/spot/monthly/klines/BTCUSDT/4h/**/*.parquet')
""").fetchone()
print(f"üìä Total: {result[0]} enregistrements | {result[1]} ‚Üí {result[2]}")
```

### **üîÑ Processus R√©current**

Pour automatiser l'ajout de nouveaux fichiers, vous pouvez :

1. **Script automatis√©** : Cr√©er un script Python qui ex√©cute `process_new_files_only()`
2. **CRON job** : Programmer l'ex√©cution automatique (quotidienne/hebdomadaire)
3. **Workflow CI/CD** : Int√©grer dans votre pipeline de donn√©es


---

‚úÖ **Votre data lakehouse est maintenant pr√™t pour l'ajout incr√©mental de nouvelles donn√©es !**

---

### ‚ú® **Avantages du Processeur Incr√©mental**

- **üöÄ Rapidit√©** : Ne traite que les nouveaux fichiers
- **üõ°Ô∏è S√©curit√©** : √âvite de retraiter les donn√©es existantes  
- **üìä Tra√ßabilit√©** : Chaque fichier est identifi√© dans les m√©tadonn√©es
- **üîÑ Idempotent** : Peut √™tre relanc√© sans risque
- **‚ö° Efficace** : Utilise les partitions existantes

---

### üóìÔ∏è **Cas d'Usage Typiques**

1. **Donn√©es mensuelles** : Ajout automatique du fichier du mois en cours
2. **Backfill historique** : Ajout de donn√©es manquantes sp√©cifiques
3. **Mise √† jour r√©guli√®re** : Traitement automatique dans un CRON job
4. **Tests** : Traitement de fichiers de test sans impacter la production

---

In [1]:
"""
Guide pour ajouter de nouveaux fichiers ZIP au Data Lakehouse
"""

# 1. M√âTHODE RECOMMAND√âE : Traitement incr√©mental
# Utilisez cette approche pour traiter uniquement les nouveaux fichiers

import zipfile
import datetime
import os
from pathlib import Path
import duckdb
import polars as pl

class IncrementalProcessor:
    """Processeur incr√©mental pour nouveaux fichiers uniquement"""
    
    def __init__(self, config: dict):
        self.config = config
        self.csv_columns = [
            "open_time", "open", "high", "low", "close", "volume", "close_time",
            "quote_asset_volume", "number_of_trades", "taker_buy_base_volume",
            "taker_buy_quote_volume", "ignore"
        ]
    
    def setup_duckdb_connection(self):
        """Configure DuckDB pour S3/MinIO"""
        con = duckdb.connect(database=":memory:")
        con.execute(f"""
            SET s3_access_key_id='{self.config["minio_access_key"]}';
            SET s3_secret_access_key='{self.config["minio_secret_key"]}';
            SET s3_endpoint='{self.config["minio_endpoint"]}';
            SET s3_url_style='path';
            SET s3_use_ssl='false';
        """)
        return con
    
    def get_processed_files_list(self, con):
        """R√©cup√®re la liste des fichiers d√©j√† trait√©s depuis les m√©tadonn√©es"""
        output_path = (
            f"s3://bronze/{self.config['provider']}/{self.config['data_type']}/"
            f"{self.config['market']}/{self.config['data_frequency']}/{self.config['data_category']}/"
            f"{self.config['symbol']}/{self.config['interval']}/**/*.parquet"
        )
        
        try:
            # Lire les m√©tadonn√©es pour identifier les fichiers sources d√©j√† trait√©s
            # Note: Cette approche n√©cessite que ingest_id contienne l'info du fichier source
            result = con.execute(f"""
                SELECT DISTINCT 
                    split_part(ingest_id, '_', -1) as source_file
                FROM read_parquet('{output_path}')
                WHERE ingest_id IS NOT NULL
            """).fetchall()
            return [row[0] for row in result] if result else []
        except Exception as e:
            print(f"‚ö†Ô∏è Impossible de lire les m√©tadonn√©es existantes: {e}")
            return []
    
    def process_new_files_only(self, specific_files=None):
        """Traite uniquement les nouveaux fichiers"""
        # Chemins
        base_path = Path(
            f"/media/giujorge/Stockage/DATA/raw/{self.config['provider']}/"
            f"{self.config['market']}/{self.config['data_frequency']}/"
            f"{self.config['data_category']}/{self.config['symbol']}/{self.config['interval']}"
        )
        
        output_path = (
            f"s3://bronze/{self.config['provider']}/{self.config['data_type']}/"
            f"{self.config['market']}/{self.config['data_frequency']}/{self.config['data_category']}/"
            f"{self.config['symbol']}/{self.config['interval']}/"
        )
        
        # Connexion DuckDB
        con = self.setup_duckdb_connection()
        
        try:
            # Option 1: Traiter des fichiers sp√©cifiques
            if specific_files:
                files_to_process = [base_path / f for f in specific_files if (base_path / f).exists()]
                print(f"üéØ Traitement de fichiers sp√©cifiques: {specific_files}")
            else:
                # Option 2: Traitement automatique des nouveaux fichiers
                all_files = list(base_path.glob("*.zip"))
                processed_files = self.get_processed_files_list(con)
                
                files_to_process = [
                    f for f in all_files 
                    if f.name not in processed_files
                ]
                print(f"üìÅ {len(all_files)} fichiers totaux, {len(processed_files)} d√©j√† trait√©s")
                print(f"üÜï {len(files_to_process)} nouveaux fichiers √† traiter")
            
            if not files_to_process:
                print("‚úÖ Aucun nouveau fichier √† traiter!")
                return
            
            # Traitement
            processed_count = 0
            for zip_file in files_to_process:
                print(f"\nüìÅ Traitement: {zip_file.name}")
                success = self.process_single_file(zip_file, con, output_path)
                if success:
                    processed_count += 1
            
            print(f"\nüéâ Traitement termin√©: {processed_count}/{len(files_to_process)} fichiers")
            
        finally:
            con.close()
    
    def process_single_file(self, zip_path: Path, con, output_path: str) -> bool:
        """Traite un seul fichier ZIP"""
        try:
            # 1. Lecture
            with zipfile.ZipFile(str(zip_path)) as z:
                csv_name = [n for n in z.namelist() if n.lower().endswith('.csv')][0]
                with z.open(csv_name) as f:
                    df = pl.read_csv(f, has_header=False, new_columns=self.csv_columns)
            
            # 2. Transformation
            df = df.with_columns([
                pl.col("open_time").cast(pl.Int64, strict=False),
                pl.col("close_time").cast(pl.Int64, strict=False),
            ])
            
            # 3. Timestamp conversion
            first_ts = df.select(pl.col("open_time").first()).item()
            if first_ts > 10_000_000_000_000:
                ts_col = (pl.col("open_time") // 1000).cast(pl.Datetime("ms"))
            elif first_ts > 10_000_000_000:
                ts_col = pl.col("open_time").cast(pl.Datetime("ms"))
            else:
                ts_col = (pl.col("open_time") * 1000).cast(pl.Datetime("ms"))
            
            # 4. M√©tadonn√©es avec r√©f√©rence au fichier source
            ingest_id = f"{datetime.datetime.utcnow().strftime('%Y%m%dT%H%M%SZ')}_{zip_path.name}"
            
            df = df.with_columns([
                ts_col.alias("datetime"),
                pl.lit(ingest_id).alias("ingest_id"),
            ]).with_columns([
                pl.col("datetime").dt.year().alias("year"),
                pl.col("datetime").dt.month().alias("month"),
                pl.col("datetime").dt.day().alias("day"),
            ])
            
            # 5. Sauvegarde
            try:
                con.execute("DROP VIEW IF EXISTS tmp_new_data")
            except:
                pass
            
            con.register("tmp_new_data", df.to_arrow())
            
            sql = f"""
                COPY tmp_new_data
                TO '{output_path}'
                WITH (FORMAT PARQUET, PARTITION_BY (year, month, day), OVERWRITE_OR_IGNORE TRUE)
            """
            con.execute(sql)
            
            min_max = df.select([
                pl.col("datetime").min().alias("min_dt"),
                pl.col("datetime").max().alias("max_dt"),
            ]).to_dicts()[0]
            
            print(f"   ‚úÖ {df.height} lignes | {min_max['min_dt']} ‚Üí {min_max['max_dt']}")
            return True
            
        except Exception as e:
            print(f"   ‚ùå Erreur: {str(e)}")
            return False
        finally:
            try:
                con.execute("DROP VIEW IF EXISTS tmp_new_data")
            except:
                pass

# Configuration (m√™me que pr√©c√©demment)
config = {
    "provider": "binance",
    "data_type": "data",
    "market": "spot", 
    "data_frequency": "monthly",
    "data_category": "klines",
    "symbol": "BTCUSDT",
    "interval": "4h",
    "minio_access_key": os.getenv("MINIO_ROOT_USER", "minioadm"),
    "minio_secret_key": os.getenv("MINIO_ROOT_PASSWORD", "minioadm"),
    "minio_endpoint": os.getenv("MINIO_ENDPOINT", "127.0.0.1:9000"),
}

# Instanciation du processeur incr√©mental
incremental_processor = IncrementalProcessor(config)

print("üîÑ PROCESSEUR INCR√âMENTAL PR√äT")
print("Utilisez les m√©thodes suivantes selon vos besoins:")
print("1. incremental_processor.process_new_files_only()  # Auto-d√©tection")
print("2. incremental_processor.process_new_files_only(['nouveau_fichier.zip'])  # Fichiers sp√©cifiques")

üîÑ PROCESSEUR INCR√âMENTAL PR√äT
Utilisez les m√©thodes suivantes selon vos besoins:
1. incremental_processor.process_new_files_only()  # Auto-d√©tection
2. incremental_processor.process_new_files_only(['nouveau_fichier.zip'])  # Fichiers sp√©cifiques


---

## üîÑ Processus pour Ajouter de Nouveaux Fichiers ZIP

Maintenant que votre data lakehouse est configur√©, voici **3 approches** pour ajouter de nouveaux fichiers :

### üéØ **Option 1 : Traitement Automatique (Recommand√©)**
```python
# D√©tecte automatiquement les nouveaux fichiers et les traite
incremental_processor.process_new_files_only()
```

### üìÇ **Option 2 : Fichiers Sp√©cifiques**
```python
# Traite uniquement les fichiers que vous sp√©cifiez
nouveaux_fichiers = ["BTCUSDT-4h-2025-09.zip", "BTCUSDT-4h-2025-10.zip"]
incremental_processor.process_new_files_only(nouveaux_fichiers)
```

### üîß **Option 3 : Workflow Manuel**
1. **T√©l√©chargez** vos nouveaux fichiers ZIP dans le r√©pertoire source
2. **Ex√©cutez** une des commandes ci-dessus
3. **V√©rifiez** que les donn√©es sont bien ajout√©es dans MinIO

In [13]:
# üß™ EXEMPLE DE TEST - Traitement incr√©mental
# D√©commentez et ex√©cutez pour tester

# Exemple 1: Traitement automatique de tous les nouveaux fichiers
# incremental_processor.process_new_files_only()

# Exemple 2: Traitement de fichiers sp√©cifiques (remplacez par vos vrais fichiers)
# nouveaux_fichiers = ["BTCUSDT-4h-2025-09.zip"]  # Vos nouveaux fichiers
# incremental_processor.process_new_files_only(nouveaux_fichiers)

# Exemple 3: Simulation - v√©rifier quels fichiers seraient trait√©s
def simulate_incremental_processing():
    """Simule le traitement pour voir quels fichiers seraient trait√©s"""
    base_path = Path(
        f"/media/giujorge/Stockage/DATA/raw/{config['provider']}/"
        f"{config['market']}/{config['data_frequency']}/"
        f"{config['data_category']}/{config['symbol']}/{config['interval']}"
    )
    
    all_files = list(base_path.glob("*.zip"))
    print(f"üìÅ Fichiers trouv√©s dans le r√©pertoire source:")
    for i, f in enumerate(sorted(all_files)[:10], 1):  # Afficher les 10 premiers
        print(f"   {i:2d}. {f.name}")
    
    if len(all_files) > 10:
        print(f"   ... et {len(all_files) - 10} autres fichiers")
    
    print(f"\nüîç Pour identifier les nouveaux fichiers, le processeur va:")
    print(f"   1. Lire les m√©tadonn√©es depuis MinIO")
    print(f"   2. Comparer avec les fichiers locaux")
    print(f"   3. Traiter uniquement les diff√©rences")
    
    return len(all_files)

# Lancez cette simulation pour voir l'√©tat actuel
total_files = simulate_incremental_processing()
print(f"\nüí° Pr√™t √† traiter jusqu'√† {total_files} fichiers si n√©cessaire!")

üìÅ Fichiers trouv√©s dans le r√©pertoire source:
    1. BTCUSDT-4h-2017-08.zip
    2. BTCUSDT-4h-2017-09.zip
    3. BTCUSDT-4h-2017-10.zip
    4. BTCUSDT-4h-2017-11.zip
    5. BTCUSDT-4h-2017-12.zip
    6. BTCUSDT-4h-2018-01.zip
    7. BTCUSDT-4h-2018-02.zip
    8. BTCUSDT-4h-2018-03.zip
    9. BTCUSDT-4h-2018-04.zip
   10. BTCUSDT-4h-2018-05.zip
   ... et 87 autres fichiers

üîç Pour identifier les nouveaux fichiers, le processeur va:
   1. Lire les m√©tadonn√©es depuis MinIO
   2. Comparer avec les fichiers locaux
   3. Traiter uniquement les diff√©rences

üí° Pr√™t √† traiter jusqu'√† 97 fichiers si n√©cessaire!
