# 🚀 YT-Whisper-Scribe — Configuration Colab CORRIGÉE

**Version sans erreur de syntaxe, testée pour Google Colab**

## ✅ Prérequis
1. **Activez le GPU** : `Runtime` → `Change runtime type` → `Hardware accelerator: GPU`
2. **Exécutez la cellule de configuration** ci-dessous
3. **Utilisez transcribe_video()** pour transcription immédiate

In [None]:
# 🚀 CONFIGURATION AUTOMATIQUE CORRIGÉE
# Cette cellule télécharge et exécute la version corrigée sans erreur

import subprocess
import os

print("🔥 YT-WHISPER-SCRIBE - SETUP CORRIGÉ")
print("=" * 50)

# Téléchargement de la version corrigée
if not os.path.exists('/content/colab_setup_fixed.py'):
    print("📥 Téléchargement du configurateur corrigé...")
    try:
        # Essai avec la version GitHub corrigée
        subprocess.run([
            'wget', '-q', 
            'https://raw.githubusercontent.com/Jojo4911/yt-whisper-scribe/main/examples/colab_setup_fixed.py',
            '-O', '/content/colab_setup_fixed.py'
        ], check=True)
        print("✅ Version corrigée téléchargée")
    except:
        # Fallback : création manuelle du configurateur
        print("🔧 Création du configurateur local...")
        
        # Configuration manuelle directe
        !git clone https://github.com/Jojo4911/yt-whisper-scribe.git /content/yt-whisper-scribe
        %cd /content/yt-whisper-scribe
        !pip install -r requirements.txt --quiet
        !apt-get update -qq && apt-get install -y ffmpeg
        
        print("✅ Configuration manuelle terminée")
        
        # Définition des fonctions essentielles
        def transcribe_video(url, model="turbo", output_format="srt", language="en"):
            import subprocess
            cmd = ["python", "scripts/transcribe.py", url, "--model", model, "--output_format", output_format, "--language", language, "--verbose"]
            result = subprocess.run(cmd)
            if result.returncode == 0:
                from pathlib import Path
                data_dir = Path("data")
                files = list(data_dir.glob(f"*.{output_format}"))
                if files:
                    latest = max(files, key=lambda p: p.stat().st_mtime)
                    print(f"📁 Fichier généré: {latest}")
                    return str(latest)
            return None
        
        print("\n🎉 CONFIGURATION TERMINÉE (mode manuel)!")
        print("📖 Utilisez: transcribe_video('URL_YOUTUBE')")

# Import et exécution de la version corrigée si téléchargée
if os.path.exists('/content/colab_setup_fixed.py'):
    print("📤 Chargement du configurateur...")
    exec(open('/content/colab_setup_fixed.py').read())
    print("\n🎉 CONFIGURATION TERMINÉE!")
    print("📖 Utilisez: transcribe_video('URL_YOUTUBE')")
else:
    print("✅ Configuration manuelle active")

## 🎬 Test Rapide

Testez immédiatement avec une URL :

In [None]:
# 🎬 TEST RAPIDE
# Remplacez par votre URL YouTube

url = "https://youtube.com/watch?v=VOTRE_VIDEO_ID"

# Transcription simple
fichier = transcribe_video(url)

if fichier:
    print(f"✅ Succès! Fichier: {fichier}")
    
    # Aperçu du contenu
    with open(fichier, 'r', encoding='utf-8') as f:
        content = f.read()
        preview = content[:500] + "..." if len(content) > 500 else content
        print("\n📄 APERÇU:")
        print("-" * 30)
        print(preview)
        print("-" * 30)
else:
    print("❌ Erreur de transcription")

## 🔧 Transcription Avancée

Options personnalisées :

In [None]:
# 🔧 TRANSCRIPTION AVANCÉE

url = "https://youtube.com/watch?v=VOTRE_VIDEO_ID"

fichier = transcribe_video(
    url=url,
    model="medium",              # Modèle plus précis
    output_format="srt",        # Format sous-titres
    use_swood_glossary=True,     # Corrections SWOOD
    language="en",               # Langue anglaise
    device="auto",               # GPU si disponible
    verbose=True                 # Logs détaillés
)

print(f"📁 Résultat: {fichier}")

## 🍪 Configuration des Cookies

Pour les vidéos restreintes :

In [None]:
# 🍪 NETTOYAGE AUTOMATIQUE DES COOKIES
# 1. Uploadez votre cookies.txt via l'interface Colab (panneau fichiers à gauche)
# 2. Exécutez cette cellule

try:
    clean_cookies_interactive()
except NameError:
    print("⚠️  Fonction non disponible - Rechargez la configuration")
    print("📋 Pour configurer manuellement:")
    print("   1. Uploadez cookies_youtube.txt via l'interface Colab")
    print("   2. Le système le détectera automatiquement")

In [None]:
# 🍪 GOOGLE DRIVE (pour persistance)
from google.colab import drive
import os

drive.mount('/content/drive')

# Création du dossier privé
private_dir = "/content/drive/MyDrive/yt-whisper-private"
os.makedirs(private_dir, exist_ok=True)

print(f"📁 Dossier privé créé: {private_dir}")
print("💡 Copiez votre cookies_youtube.txt nettoyé dans ce dossier")
print("🔄 Relancez la configuration pour détecter automatiquement")

# Vérification
cookies_path = f"{private_dir}/cookies_youtube.txt"
if os.path.exists(cookies_path):
    print(f"✅ Cookies détectés: {cookies_path}")
    os.environ['YT_COOKIES_FILE'] = cookies_path
else:
    print("⚠️  Cookies non trouvés - Uploadez le fichier d'abord")

## 🔍 Utilitaires de Diagnostic

In [None]:
# 🔍 VÉRIFICATION DU SYSTÈME

import os
import subprocess
from pathlib import Path

print("🔍 DIAGNOSTIC DU SYSTÈME")
print("=" * 40)

# Vérification GPU
try:
    import torch
    if torch.cuda.is_available():
        gpu_name = torch.cuda.get_device_name(0)
        print(f"✅ GPU: {gpu_name}")
    else:
        print("⚠️  GPU: Non disponible")
except:
    print("❌ PyTorch: Non installé")

# Vérification ffmpeg
try:
    result = subprocess.run(["ffmpeg", "-version"], capture_output=True)
    if result.returncode == 0:
        print("✅ ffmpeg: Installé")
    else:
        print("❌ ffmpeg: Erreur")
except:
    print("❌ ffmpeg: Non trouvé")

# Vérification projet
project_path = "/content/yt-whisper-scribe"
if os.path.exists(project_path):
    print(f"✅ Projet: {project_path}")
    
    # Fichiers importants
    important_files = [
        "scripts/transcribe.py",
        "SWOOD_Glossary.json", 
        "requirements.txt"
    ]
    
    for file_path in important_files:
        full_path = os.path.join(project_path, file_path)
        if os.path.exists(full_path):
            print(f"  ✅ {file_path}")
        else:
            print(f"  ❌ {file_path}")
else:
    print(f"❌ Projet: Non trouvé à {project_path}")

# Vérification cookies
cookies_paths = [
    "/content/drive/MyDrive/yt-whisper-private/cookies_youtube.txt",
    "/content/cookies_youtube.txt",
    "/content/cookies.txt"
]

print("\n🍪 COOKIES:")
found_cookies = False
for path in cookies_paths:
    if os.path.exists(path):
        print(f"  ✅ {path}")
        found_cookies = True
        
if not found_cookies:
    print("  ⚠️  Aucun cookie détecté")

print("\n📁 FICHIERS GÉNÉRÉS:")
data_dir = Path(f"{project_path}/data")
if data_dir.exists():
    files = list(data_dir.glob("*"))
    if files:
        for f in sorted(files, key=os.path.getmtime, reverse=True)[:5]:
            size = f.stat().st_size / 1024
            print(f"  📄 {f.name} ({size:.1f} KB)")
    else:
        print("  ⚠️  Aucun fichier généré")
else:
    print("  ❌ Dossier data/ non trouvé")

## 🆘 En Cas de Problème

Configuration manuelle de secours :

In [None]:
# 🆘 CONFIGURATION MANUELLE DE SECOURS
# Utilisez seulement si la configuration automatique échoue

import subprocess
import os

print("🆘 CONFIGURATION MANUELLE DE SECOURS")
print("=" * 50)

try:
    # Nettoyage
    if os.path.exists('/content/yt-whisper-scribe'):
        !rm -rf /content/yt-whisper-scribe
    
    # Clone
    print("📥 Clonage du projet...")
    !git clone https://github.com/Jojo4911/yt-whisper-scribe.git /content/yt-whisper-scribe
    
    # Changement de dossier
    %cd /content/yt-whisper-scribe
    
    # Installation système
    print("📦 Installation ffmpeg...")
    !apt-get update -qq
    !apt-get install -y ffmpeg
    
    # Installation Python
    print("🐍 Installation des dépendances Python...")
    !pip install -r requirements.txt --quiet
    
    # PyTorch avec CUDA
    print("🔥 Installation PyTorch CUDA...")
    !pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 --quiet
    
    # Définition fonction simple
    def transcribe_simple(url, model="turbo"):
        """Fonction de transcription simplifiée."""
        cmd = ["python", "scripts/transcribe.py", url, "--model", model, "--verbose"]
        result = subprocess.run(cmd)
        return result.returncode == 0
    
    print("\n✅ CONFIGURATION MANUELLE TERMINÉE!")
    print("📖 Utilisez: transcribe_simple('URL_YOUTUBE')")
    print("📁 Fichiers générés dans: /content/yt-whisper-scribe/data/")
    
except Exception as e:
    print(f"❌ Erreur: {e}")
    print("🔧 Vérifiez votre connexion réseau et réessayez")

## 📖 Guide de Dépannage

### Erreurs Courantes

**1. Erreur de syntaxe** 
- ✅ Cette version corrigée évite le problème
- 🔄 Redémarrez le runtime si nécessaire

**2. GPU non détecté**
- 🎮 Runtime → Change runtime type → GPU
- 🔄 Redémarrez après changement

**3. Vidéo inaccessible**
- 🍪 Configurez vos cookies YouTube
- 🧹 Utilisez clean_cookies_interactive()

**4. Mémoire insuffisante**
- 📊 model="base" ou "tiny" pour modèles plus petits
- 💻 device="cpu" pour forcer l'usage CPU

### Commandes de Diagnostic
```python
# Vérification complète du système
# (voir cellule diagnostic ci-dessus)

# Test simple
transcribe_video("https://youtube.com/watch?v=dQw4w9WgXcQ", model="tiny")

# Informations projet
show_project_info()  # si disponible
```