# üöÄ Mode D√©mo Extract_Depot_Sh via Jupyter

Ce notebook ex√©cute le mode d√©mo du script MCP dans Jupyter (contourne les restrictions d'entreprise)

**‚úÖ Avantage :** Fonctionne m√™me si Python n'est pas accessible en ligne de commande


In [1]:
# üîß Configuration et imports (sans MCP pour √©viter les restrictions d'entreprise)
import os
import shutil
import json
from datetime import datetime, timedelta
from dataclasses import dataclass
from typing import Dict, List, Any, Optional

print("‚úÖ Imports de base r√©ussis")
print(f"üìÅ R√©pertoire actuel: {os.getcwd()}")

# Configuration identique au script MCP
@dataclass
class ExtractConfig:
    """Configuration pour l'extraction de fichiers"""
    base_dir: str = os.path.abspath(r"C:\Users\jcbouquin\AI\GenAI\company_process")
    source_path: str = ""
    depot_path: str = ""
    days_limit: int = 365  # Fichiers de moins d'un an
    size_threshold_kb: int = 500  # Taille minimum en KB
    extensions: List[str] = None
    
    def __post_init__(self):
        if not self.source_path:
            self.source_path = os.path.join(self.base_dir, "ProcessEx")
        if not self.depot_path:
            self.depot_path = os.path.join(self.base_dir, "Depots")
        if self.extensions is None:
            self.extensions = [".ppt", ".pptx"]

# Initialisation
config = ExtractConfig()

print(f"üìã Configuration:")
print(f"   Source: {config.source_path}")
print(f"   Depot: {config.depot_path}")
print(f"   Seuil: {config.size_threshold_kb} KB")


‚úÖ Imports de base r√©ussis
üìÅ R√©pertoire actuel: c:\Users\jcbouquin\AI\GenAI\company_process
üìã Configuration:
   Source: C:\Users\jcbouquin\AI\GenAI\company_process\ProcessEx
   Depot: C:\Users\jcbouquin\AI\GenAI\company_process\Depots
   Seuil: 500 KB


In [5]:
# üîç Fonction de recherche et filtrage (copi√©e du script MCP)
def search_and_filter_files(
    source_path: str = None,
    size_threshold_kb: int = None,
    days_limit: int = None,
    extensions: List[str] = None,
    show_rejected: bool = False
) -> Dict[str, Any]:
    """Recherche et filtre les fichiers selon les crit√®res sp√©cifi√©s"""
    
             # Utiliser la config par d√©faut si param√®tres non fournis (correction du bug)
    source_path = source_path if source_path is not None else config.source_path
    size_threshold_kb = size_threshold_kb if size_threshold_kb is not None else config.size_threshold_kb
    days_limit = days_limit if days_limit is not None else config.days_limit
    extensions = extensions if extensions is not None else config.extensions
    
    # Conversion des param√®tres
    size_threshold_bytes = size_threshold_kb * 1024
    date_limit = datetime.now() - timedelta(days=days_limit)
    
    if not os.path.exists(source_path):
        return {
            'success': False,
            'error': f"Chemin source introuvable: {source_path}",
            'acceptes': [],
            'rejetes': [],
            'stats': {}
        }
    
    print(f"üîç RECHERCHE ET FILTRAGE...")
    print(f"üìÅ Source: {source_path}")
    print(f"üìè Taille minimum: {size_threshold_kb} KB")
    print(f"üìÖ Date limite: {date_limit.strftime('%d/%m/%Y')}")
    print(f"üìã Extensions: {', '.join(extensions)}")
    print("-" * 50)
    
    fichiers_acceptes = []
    fichiers_rejetes = []
    stats = {
        "total_examines": 0,
        "rejetes_extension": 0,
        "rejetes_taille": 0,
        "rejetes_date": 0,
        "rejetes_acces": 0,
        "acceptes": 0,
    }
    dossiers_stats = {}
    
    # Parcours des dossiers
    for item in os.listdir(source_path):
        item_path = os.path.join(source_path, item)
        if not os.path.isdir(item_path):
            continue
            
        print(f"üìÇ Analyse: {item}")
        count_dossier = 0
        
        for root, dirs, files in os.walk(item_path):
            for file in files:
                file_path = os.path.join(root, file)
                stats["total_examines"] += 1
                
                # V√©rification extension
                if not any(file.lower().endswith(ext) for ext in extensions):
                    stats["rejetes_extension"] += 1
                    fichiers_rejetes.append({
                        "chemin": file_path,
                        "nom": file,
                        "raison": "Extension non support√©e",
                        "dossier": item
                    })
                    continue
                
                try:
                    # M√©tadonn√©es fichier
                    taille = os.path.getsize(file_path)
                    date_mod = datetime.fromtimestamp(os.path.getmtime(file_path))
                    
                    # Filtrage par taille
                    if taille < size_threshold_bytes:
                        stats["rejetes_taille"] += 1
                        fichiers_rejetes.append({
                            "chemin": file_path,
                            "nom": file,
                            "raison": f"Taille insuffisante ({round(taille/1024, 1)} KB < {size_threshold_kb} KB)",
                            "taille": taille,
                            "date_modification": date_mod,
                            "dossier": item
                        })
                        continue
                    
                    # Fichier accept√©
                    fichier_info = {
                        "chemin": file_path,
                        "nom": file,
                        "taille": taille,
                        "date_modification": date_mod,
                        "taille_mb": round(taille / (1024 * 1024), 2),
                        "taille_kb": round(taille / 1024, 1),
                        "age_jours": (datetime.now() - date_mod).days,
                        "dossier": item,
                        "classification_ok": True
                    }
                    
                    fichiers_acceptes.append(fichier_info)
                    count_dossier += 1
                    stats["acceptes"] += 1
                    
                except (OSError, PermissionError) as e:
                    stats["rejetes_acces"] += 1
                    fichiers_rejetes.append({
                        "chemin": file_path,
                        "nom": file,
                        "raison": f"Erreur d'acc√®s: {str(e)}",
                        "dossier": item
                    })
        
        dossiers_stats[item] = count_dossier
        print(f"   ‚úÖ {count_dossier} fichier(s) retenu(s)")
    
    # Affichage des statistiques
    print(f"\\nüìä STATISTIQUES:")
    print(f"   üìã Examin√©s: {stats['total_examines']}")
    print(f"   ‚ùå Rejet√©s - extension: {stats['rejetes_extension']}")
    print(f"   ‚ùå Rejet√©s - taille: {stats['rejetes_taille']}")
    print(f"   ‚ùå Rejet√©s - date: {stats['rejetes_date']}")
    print(f"   ‚ùå Rejet√©s - acc√®s: {stats['rejetes_acces']}")
    print(f"   ‚úÖ ACCEPT√âS: {stats['acceptes']}")
    
    if show_rejected and fichiers_rejetes:
        print(f"\\n‚ùå D√âTAIL REJETS ({min(len(fichiers_rejetes), 10)} premiers):")
        for fichier in fichiers_rejetes[:10]:
            print(f"   ‚Ä¢ {fichier['nom']} - {fichier['raison']} [{fichier['dossier']}]")
        if len(fichiers_rejetes) > 10:
            print(f"   ‚Ä¢ ... et {len(fichiers_rejetes) - 10} autres")
    
    return {
        'success': True,
        'acceptes': fichiers_acceptes,
        'rejetes': fichiers_rejetes,
        'stats': {
            'filtrage': stats,
            'dossiers': dossiers_stats,
            'total_rejetes': len(fichiers_rejetes),
            'total_acceptes': len(fichiers_acceptes)
        }
    }

print("‚úÖ Fonction search_and_filter_files d√©finie")


‚úÖ Fonction search_and_filter_files d√©finie


In [7]:
# üìã Fonction de copie (copi√©e du script MCP)
def copy_files_to_depot(
    fichiers_acceptes: List[Dict],
    fichiers_rejetes: List[Dict] = None,
    depot_path: str = None,
    copy_rejected: bool = True,
    create_sel_files: bool = True
) -> Dict[str, Any]:
    """Copie les fichiers vers le dossier Depots avec organisation"""
    
    depot_path = depot_path or config.depot_path
    fichiers_rejetes = fichiers_rejetes or []
    
    print(f"\\nüìã COPIE VERS DEPOTS...")
    print(f"üìÅ Destination: {depot_path}")
    print("-" * 50)
    
    # Cr√©er dossier principal
    os.makedirs(depot_path, exist_ok=True)
    
    # Cr√©er Sel_Files si demand√©
    sel_files_path = None
    if create_sel_files:
        sel_files_path = os.path.join(depot_path, "Sel_Files")
        os.makedirs(sel_files_path, exist_ok=True)
        print(f"‚úÖ Dossier Sel_Files cr√©√©")
    
    # Copie des fichiers accept√©s
    copied_acceptes = 0
    taille_acceptes = 0
    errors_acceptes = []
    
    print(f"\\nüü¢ Copie des fichiers accept√©s...")
    for fichier in fichiers_acceptes:
        try:
            file_path = fichier["chemin"]
            file_name = fichier["nom"]
            
            # Destination selon configuration
            if create_sel_files:
                destination = os.path.join(sel_files_path, file_name)
            else:
                destination = os.path.join(depot_path, file_name)
            
            # √âviter les doublons
            if os.path.exists(destination):
                base, ext = os.path.splitext(file_name)
                counter = 1
                while os.path.exists(destination):
                    new_name = f"{base}_{counter}{ext}"
                    destination = os.path.join(os.path.dirname(destination), new_name)
                    counter += 1
            
            shutil.copy(file_path, destination)
            copied_acceptes += 1
            taille_acceptes += fichier["taille"]
            
        except Exception as e:
            error_msg = f"Erreur copie {file_name}: {e}"
            print(f"‚ùå {error_msg}")
            errors_acceptes.append(error_msg)
    
    print(f"‚úÖ {copied_acceptes}/{len(fichiers_acceptes)} fichiers accept√©s copi√©s")
    
    # Copie des fichiers rejet√©s
    copied_rejetes = 0
    taille_rejetes = 0
    errors_rejetes = []
    
    if copy_rejected and fichiers_rejetes:
        print(f"\\nüî∂ Copie des fichiers rejet√©s...")
        
        autre_path = os.path.join(depot_path, "Autre")
        os.makedirs(autre_path, exist_ok=True)
        
        # Grouper par raison
        rejetes_par_raison = {}
        for fichier in fichiers_rejetes:
            raison = fichier['raison'].split(':')[0].split('(')[0].strip()
            raison_clean = raison.replace(' ', '_').replace('√©', 'e').lower()
            
            if raison_clean not in rejetes_par_raison:
                rejetes_par_raison[raison_clean] = []
            rejetes_par_raison[raison_clean].append(fichier)
        
        for raison, fichiers in rejetes_par_raison.items():
            sous_dossier = os.path.join(autre_path, raison)
            os.makedirs(sous_dossier, exist_ok=True)
            
            for fichier in fichiers:
                try:
                    file_path = fichier["chemin"]
                    file_name = fichier["nom"]
                    destination = os.path.join(sous_dossier, file_name)
                    
                    # √âviter doublons
                    if os.path.exists(destination):
                        base, ext = os.path.splitext(file_name)
                        counter = 1
                        while os.path.exists(destination):
                            new_name = f"{base}_{counter}{ext}"
                            destination = os.path.join(sous_dossier, new_name)
                            counter += 1
                    
                    shutil.copy(file_path, destination)
                    copied_rejetes += 1
                    if 'taille' in fichier:
                        taille_rejetes += fichier['taille']
                        
                except Exception as e:
                    error_msg = f"Erreur copie rejet√© {fichier['nom']}: {e}"
                    errors_rejetes.append(error_msg)
        
        print(f"‚úÖ {copied_rejetes}/{len(fichiers_rejetes)} fichiers rejet√©s copi√©s")
    
    # R√©sum√©
    print(f"\\nüìä R√âSUM√â COPIE:")
    print(f"   üü¢ Accept√©s: {copied_acceptes} ({taille_acceptes/(1024*1024):.1f} MB)")
    if copy_rejected:
        print(f"   üî∂ Rejet√©s: {copied_rejetes} ({taille_rejetes/(1024*1024):.1f} MB)")
    print(f"   üì¶ Total: {(taille_acceptes + taille_rejetes)/(1024*1024):.1f} MB")
    
    return {
        'success': True,
        'copied_acceptes': copied_acceptes,
        'copied_rejetes': copied_rejetes,
        'taille_acceptes': taille_acceptes,
        'taille_rejetes': taille_rejetes,
        'errors': errors_acceptes + errors_rejetes,
        'sel_files_created': create_sel_files,
        'depot_path': depot_path
    }

print("‚úÖ Fonction copy_files_to_depot d√©finie")


‚úÖ Fonction copy_files_to_depot d√©finie


In [8]:
# üéØ EX√âCUTION DU MODE D√âMO (identique au notebook original)
print("üéØ MODE D√âMO : Reproduction du workflow Extract_Depot_Sh.ipynb")
print("=" * 70)

# V√©rification pr√©alable
print(f"üìÅ V√©rification des chemins:")
print(f"   Source: {config.source_path}")
print(f"   Depot: {config.depot_path}")

if not os.path.exists(config.source_path):
    print(f"‚ùå ERREUR: Dossier source non trouv√©!")
    print(f"üí° Cr√©ez le dossier {config.source_path} ou modifiez config.source_path")
else:
    print(f"‚úÖ Dossier source trouv√©")
    
    try:
        # PHASE 1: Recherche et filtrage (comme cellule 4 du notebook)
        print(f"\\nüîç PHASE 1: Recherche et filtrage des fichiers...")
        resultat_recherche = search_and_filter_files(show_rejected=True)
        
        if not resultat_recherche['success']:
            print(f"‚ùå Erreur lors de la recherche: {resultat_recherche.get('error', 'Erreur inconnue')}")
        else:
            fichiers_acceptes = resultat_recherche['acceptes']
            fichiers_rejetes = resultat_recherche['rejetes']
            stats = resultat_recherche['stats']
            
            print(f"\\nüìä R√âSUM√â RECHERCHE:")
            print(f"   ‚úÖ Fichiers accept√©s: {len(fichiers_acceptes)}")
            print(f"   ‚ùå Fichiers rejet√©s: {len(fichiers_rejetes)}")
            if len(fichiers_acceptes) + len(fichiers_rejetes) > 0:
                taux = len(fichiers_acceptes) / (len(fichiers_acceptes) + len(fichiers_rejetes)) * 100
                print(f"   üìà Taux d'acceptation: {taux:.1f}%")
            
            if len(fichiers_acceptes) == 0:
                print("‚ö†Ô∏è Aucun fichier accept√© trouv√©. Workflow termin√©.")
            else:
                # PHASE 2: Copie vers Depots (comme cellule 7 du notebook)
                print(f"\\nüìã PHASE 2: Copie vers Depots...")
                resultat_copie = copy_files_to_depot(
                    fichiers_acceptes=fichiers_acceptes,
                    fichiers_rejetes=fichiers_rejetes,
                    copy_rejected=True,      # Comme dans le notebook
                    create_sel_files=True    # Comme dans le notebook
                )
                
                if not resultat_copie['success']:
                    print(f"‚ùå Erreur lors de la copie")
                else:
                    # R√âSUM√â FINAL (comme dans le notebook)
                    print(f"\\nüéâ PROCESSUS TERMIN√â !")
                    print(f"   üìÅ Dossier Depots: {config.depot_path}")
                    if resultat_copie['sel_files_created']:
                        print(f"   üìÇ Sel_Files: {os.path.join(config.depot_path, 'Sel_Files')}  ‚Üê Fichiers accept√©s")
                    if resultat_copie['copied_rejetes'] > 0:
                        print(f"   üìÇ Autre: {os.path.join(config.depot_path, 'Autre')}  ‚Üê Fichiers rejet√©s")
                        
                    print(f"\\nüìä BILAN FINAL:")
                    print(f"   üü¢ {resultat_copie['copied_acceptes']} fichiers accept√©s ({resultat_copie['taille_acceptes']/(1024*1024):.1f} MB)")
                    if resultat_copie['copied_rejetes'] > 0:
                        print(f"   üî∂ {resultat_copie['copied_rejetes']} fichiers rejet√©s ({resultat_copie['taille_rejetes']/(1024*1024):.1f} MB)")
                    print(f"   üì¶ TOTAL: {(resultat_copie['taille_acceptes'] + resultat_copie['taille_rejetes'])/(1024*1024):.1f} MB")
                    
                    print(f"\\n‚úÖ STRUCTURE CR√â√âE (identique au notebook):")
                    print(f"   üìÇ Depots/ contient {2 if resultat_copie['copied_rejetes'] > 0 else 1} dossier(s)")
                    if resultat_copie['sel_files_created']:
                        print(f"   ‚îú‚îÄ‚îÄ Sel_Files/ ‚Üí {resultat_copie['copied_acceptes']} fichiers accept√©s")
                    if resultat_copie['copied_rejetes'] > 0:
                        print(f"   ‚îî‚îÄ‚îÄ Autre/ ‚Üí {resultat_copie['copied_rejetes']} fichiers rejet√©s")
        
    except Exception as e:
        print(f"‚ùå Erreur dans le workflow: {e}")
        import traceback
        traceback.print_exc()


üéØ MODE D√âMO : Reproduction du workflow Extract_Depot_Sh.ipynb
üìÅ V√©rification des chemins:
   Source: C:\Users\jcbouquin\AI\GenAI\company_process\ProcessEx
   Depot: C:\Users\jcbouquin\AI\GenAI\company_process\Depots
‚úÖ Dossier source trouv√©
\nüîç PHASE 1: Recherche et filtrage des fichiers...
üîç RECHERCHE ET FILTRAGE...
üìÅ Source: C:\Users\jcbouquin\AI\GenAI\company_process\ProcessEx
üìè Taille minimum: 500 KB
üìÖ Date limite: 12/09/2024
üìã Extensions: .ppt, .pptx
--------------------------------------------------
üìÇ Analyse: DEVIS B 2025
   ‚úÖ 62 fichier(s) retenu(s)
\nüìä STATISTIQUES:
   üìã Examin√©s: 1109
   ‚ùå Rejet√©s - extension: 1017
   ‚ùå Rejet√©s - taille: 30
   ‚ùå Rejet√©s - date: 0
   ‚ùå Rejet√©s - acc√®s: 0
   ‚úÖ ACCEPT√âS: 62
\n‚ùå D√âTAIL REJETS (10 premiers):
   ‚Ä¢ 3250861_IQVIA pour Bailleul__Ciblage des MG et dermatologues.pdf - Extension non support√©e [DEVIS B 2025]
   ‚Ä¢ Thumbs.db - Extension non support√©e [DEVIS B 2025]
   ‚Ä¢ ~$32

## üéâ Notebook de d√©mo termin√© !

### ‚úÖ Ce que fait ce notebook :

- **Reproduit exactement** le comportement de votre notebook `Extract_Depot_Sh.ipynb`
- **Contourne les restrictions d'entreprise** (pas de d√©pendance MCP)
- **Fonctionne avec Jupyter** qui est d√©j√† autoris√© dans votre environnement

### üöÄ Pour utiliser :

1. **Ex√©cutez toutes les cellules** dans l'ordre (Cell ‚Üí Run All)
2. **V√©rifiez les chemins** dans la cellule de configuration si n√©cessaire
3. **Les r√©sultats** appara√Ætront dans la derni√®re cellule

### üìÅ R√©sultat attendu :

- Dossier `Depots/` cr√©√© avec la m√™me structure que votre notebook original
- `Sel_Files/` avec les fichiers accept√©s
- `Autre/` avec les fichiers rejet√©s par cat√©gorie

### üí° Si √ßa ne fonctionne pas :

- V√©rifiez que le dossier `ProcessEx` existe
- Modifiez `config.source_path` dans la cellule 1 si n√©cessaire
- Les messages d'erreur vous guideront

### üéØ Avantages de cette solution :

- ‚úÖ **Aucune installation** suppl√©mentaire requise
- ‚úÖ **Fonctionne dans l'environnement d'entreprise**
- ‚úÖ **R√©sultat identique** au notebook original
- ‚úÖ **Contourne les restrictions** Azure/Git Bash
