# Traitement des exercices LaTeX avec IA

Ce notebook utilise le module `latex_analysis.py` pour traiter des exercices LaTeX avec l'API Gemini afin de générer :
1. Des métadonnées détaillées (compétences, difficulté, etc.)
2. Des résumés synthétiques des exercices

Vous pouvez exécuter ces processus séparément ou ensemble.

In [1]:
# Import du module d'analyse LaTeX
from latex_analysis import extract_metadata, extract_resume, process_all, merge_results

## Configuration

Définissez les paramètres de traitement ici.

In [2]:
# Paramètres généraux
SOURCE_DIR = "../src/latex/amscc"             # Répertoire contenant les fichiers LaTeX
METADATA_DIR = "../metadata/amscc-v2"         # Répertoire pour les métadonnées
RESUME_DIR = "../metadata/amscc-resume"       # Répertoire pour les résumés
MERGED_DIR = "../metadata/amscc-complet"      # Répertoire pour la fusion des deux

# Paramètres d'exécution
MODEL_NAME = "gemini-2.0-flash"              # Modèle Gemini à utiliser
API_DELAY = 5.0                              # Délai entre les appels API (secondes)
FORCE_REPROCESS = False                      # Retraiter les fichiers déjà analysés
DEBUG = False                                # Afficher des informations de débogage
MAX_FILES = None                             # Nombre max de fichiers à traiter (None = tous)

## Option 1 : Extraction des métadonnées uniquement

Cette option génère uniquement les métadonnées détaillées pour chaque exercice.

In [3]:
# Décommentez pour exécuter
# metadata_results = extract_metadata(
#     source_dir=SOURCE_DIR,
#     output_dir=METADATA_DIR,
#     model_name=MODEL_NAME,
#     max_files=MAX_FILES,
#     api_delay=API_DELAY,
#     force_reprocess=FORCE_REPROCESS,
#     debug=DEBUG
# )

## Option 2 : Extraction des résumés uniquement

Cette option génère uniquement les résumés synthétiques pour chaque exercice.

In [4]:
# Décommentez pour exécuter
# resume_results = extract_resume(
#     source_dir=SOURCE_DIR,
#     output_dir=RESUME_DIR,
#     model_name=MODEL_NAME,
#     max_files=MAX_FILES,
#     api_delay=API_DELAY,
#     force_reprocess=FORCE_REPROCESS,
#     debug=DEBUG
# )

## Option 3 : Traitement complet (métadonnées + résumés)

Cette option génère à la fois les métadonnées et les résumés pour chaque exercice.

In [5]:
# Décommentez pour exécuter
# all_results = process_all(
#     source_dir=SOURCE_DIR,
#     metadata_dir=METADATA_DIR,
#     resume_dir=RESUME_DIR,
#     model_name=MODEL_NAME,
#     max_files=MAX_FILES,
#     api_delay=API_DELAY,
#     force_reprocess=FORCE_REPROCESS,
#     debug=DEBUG
# )

## Option 4 : Fusion des résultats existants

Cette option fusionne les métadonnées et résumés déjà générés dans un seul ensemble de fichiers.

In [6]:
# Décommentez pour exécuter
# merged_results = merge_results(
#     metadata_dir=METADATA_DIR,
#     resume_dir=RESUME_DIR,
#     output_dir=MERGED_DIR
# )

## Test avec un nombre limité de fichiers

Cette section permet de tester le traitement sur un petit nombre de fichiers.

In [7]:
# Décommentez pour exécuter un test limité
# test_results = process_all(
#     source_dir=SOURCE_DIR,
#     metadata_dir=METADATA_DIR + "_test",
#     resume_dir=RESUME_DIR + "_test",
#     model_name=MODEL_NAME,
#     max_files=5,                      # Test avec seulement 5 fichiers
#     api_delay=API_DELAY,
#     force_reprocess=True,             # Forcer le retraitement pour le test
#     debug=True                        # Activer le débogage pour le test
# )
#
# # Fusion des résultats de test
# test_merged = merge_results(
#     metadata_dir=METADATA_DIR + "_test",
#     resume_dir=RESUME_DIR + "_test",
#     output_dir=MERGED_DIR + "_test"
# )

## Exemple d'utilisation concrète

Voici un exemple typique d'utilisation pour traiter tous les exercices et générer des fichiers fusionnés.

In [8]:
# Exemple de flux de travail complet

# 1. Traiter tous les exercices pour générer métadonnées et résumés
# ----------------------------------------------------------------
all_results = process_all(
    source_dir="../src/latex/amscc",
    metadata_dir="../metadata/amscc-v2",
    resume_dir="../metadata/amscc-resume",
    model_name="gemini-2.0-flash",
    api_delay=5.0,
    force_reprocess=False,  # Ne retraite pas les fichiers déjà générés
    debug=False
)

# 2. Fusionner les résultats en un seul ensemble de fichiers
# ---------------------------------------------------------
merged_results = merge_results(
    metadata_dir="../metadata/amscc-v2",
    resume_dir="../metadata/amscc-resume",
    output_dir="../metadata/amscc-complet"
)