# 3 - D√©tection des Op√©rations Juridiques

Dans cet atelier, vous allez d√©tecter automatiquement des **op√©rations juridiques** dans un arr√™t√© pr√©fectoral √† l'aide d'un **LLM (Large Language Model)**.

## Contexte

Un arr√™t√© pr√©fectoral peut **modifier**, **abroger** ou **compl√©ter** une partie d'un arr√™t√© ant√©rieur, ainsi que l'arr√™t√© entier. Par exemple :
- **Abrogation** : "L'arr√™t√© du 2023-05-10 est abrog√©".
- **Modification** : "L'article 2.1 de l'arr√™t√© du 2023-05-10 est remplac√© par les dispositions suivantes..."
- **Ajout** : "Il est ajout√© √† l'arr√™t√© du 2023-05-10 un article 5 ainsi r√©dig√©..."

L'objectif est d'**extraire automatiquement** ces op√©rations sous forme structur√©e pour pouvoir ensuite reconstituer l'√©tat consolid√© d'un permis.

## Plan du TP

0. **Exercice d√©couverte** : d√©tecter des op√©rations avec un prompt libre
1. **D√©finir la classe `Operation`** : structure de donn√©es pour repr√©senter une op√©ration
2. **Prompt Engineering** : concevoir un prompt structur√© pour d√©tecter les op√©rations
3. **Subtarget Parsing** : identifier pr√©cis√©ment quelle partie d'un article est modifi√©e

---

## 0. Exercice d√©couverte : d√©tecter des op√©rations juridiques

Avant de d√©finir des structures de donn√©es, commen√ßons par **comprendre le probl√®me**.

Vous allez recevoir des extraits d'arr√™t√©s pr√©fectoraux qui modifient des arr√™t√©s ant√©rieurs. Votre mission : √©crire un prompt pour qu'un LLM d√©tecte automatiquement ces modifications.

### 0.1 Exemples d'arr√™t√©s

Voici 4 extraits d'arr√™t√©s modificateurs :

In [3]:
# Exemple 1 : ABROGATION compl√®te
exemple_1 = """
Extrait de l'arr√™t√© du 8 janvier 2024 :
<section data-spec="section" data-number="1">
    <h2>Article 1</h2>
    <p>L'arr√™t√© pr√©fectoral du 5 oct. 2023 est abrog√©.</p>
</section>
"""

# Exemple 2 : MODIFICATION d'un article
exemple_2 = """
Extrait de l'arr√™t√© du 12 septembre 2024 :
<section data-spec="section" data-number="1">
    <h2>Article 1</h2>
    <p>Les dispositions de l'article 2.1 de l'arr√™t√© du 5 octobre 2023 sont abrog√©es et remplac√©es par le contenu suivant :</p>
    <p>Le d√©bit maximal de pr√©l√®vement d'eau est fix√© √† 150 m¬≥/h.</p>
</section>
"""

# Exemple 3 : AJOUT d'un nouvel article
exemple_3 = """
Extrait de l'arr√™t√© du 23/01/2023 :
<section data-spec="section" data-number="2">
    <h2>Article 2</h2>
    <p>Il est ajout√© √† l'arr√™t√© du 2022-12-15 un article 4.3 ainsi r√©dig√© :</p>
    <p>L'exploitant doit installer un dispositif de mesure du d√©bit avant le 31 d√©cembre 2026.</p>
</section>
"""

# Exemple 4 : MODIFICATION d'une partie sp√©cifique
exemple_4 = """
Extrait de l'arr√™t√© du 12 septembre 2024 :
<section data-spec="section" data-number="1">
    <h2>Article 1</h2>
    <p>Le tableau de l'article 3 de l'arr√™t√© du 5 octobre 2023 est remplac√© par le tableau suivant :</p>
    <table>
        <tr><th>Param√®tre</th><th>Valeur limite</th></tr>
        <tr><td>pH</td><td>6.5 - 8.5</td></tr>
        <tr><td>DCO</td><td>125 mg/L</td></tr>
    </table>
</section>
"""


# Exemple 5 : Plusieurs op√©rations dans un extrait 
exemple_5 = """
Extrait de l'arr√™t√© du 4 mars 2025 :
<section data-spec="section" data-number="1">
    <h2>Article 4</h2>
    <p>Les dispositions suivantes de l'arr√™t√© du 12 septembre 2024 sont abrog√©es :</p>
    <ul>
        <li> - la premi√®re ligne de l' article 5.3.3; </li>
        <li> - l'article 6.7 intitul√© ¬´D√©chets produits par l'√©tablissement ¬ª; </li>
        <li> - la colonne n¬∞1 du tableau de l'article 3.4. </li>
    </ul>
</section>
"""

print("5 exemples charg√©s")

5 exemples charg√©s


### 0.2 Exercice : √âcrire un prompt libre

**Votre mission :** √âcrivez un prompt qui demande au LLM de d√©tecter les op√©rations juridiques dans ces extraits.

**Pour l'instant, ne vous pr√©occupez pas du format de sortie** - √©crivez simplement ce qui vous semble naturel.

In [4]:
def mon_premier_prompt(html_content: str) -> str:
    """
    Votre prompt libre pour d√©tecter les op√©rations.
    """
    # TODO : √âcrivez votre prompt ici
    prompt = f"""
Voici un extrait d'arr√™t√© :
{html_content}
D√©tecte moi les op√©rations juridiques d√©finies dans cet extrait. 
"""
    return prompt

# Testez sur l'exemple 1
print(mon_premier_prompt(exemple_1))


Voici un extrait d'arr√™t√© :

Extrait de l'arr√™t√© du 8 janvier 2024 :
<section data-spec="section" data-number="1">
    <h2>Article 1</h2>
    <p>L'arr√™t√© pr√©fectoral du 5 oct. 2023 est abrog√©.</p>
</section>

D√©tecte moi les op√©rations juridiques d√©finies dans cet extrait. 



### 0.3 Tester avec le LLM

Maintenant, testons votre prompt avec un vrai LLM (Mistral AI).

**Configuration :** Assurez-vous d'avoir une cl√© API dans un fichier `.env` :
```
MISTRAL_API_KEY=votre_cl√©_ici
```

In [5]:
import os
from dotenv import load_dotenv
from mistralai import Mistral

load_dotenv()
if os.getenv("MISTRAL_API_KEY"):
    client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))
    print("‚úì LLM configur√©")


def call_llm(prompt: str, model: str = "mistral-large-latest") -> str:
    """Appelle l'API Mistral."""
    response = client.chat.complete(
        model=model,
        messages=[{"role": "user", "content": prompt, "temperature": 0}],
    )
    return response.choices[0].message.content

‚úì LLM configur√©


In [6]:
# Testez votre prompt sur les 4 exemples
print("=" * 60)
print("EXEMPLE 1 - Abrogation")
print("=" * 60)
response_1 = call_llm(mon_premier_prompt(exemple_1))
print(response_1)

print("\n" + "=" * 60)
print("EXEMPLE 2 - Modification")
print("=" * 60)
response_2 = call_llm(mon_premier_prompt(exemple_2))
print(response_2)

print("\n" + "=" * 60)
print("EXEMPLE 3 - Ajout")
print("=" * 60)
response_3 = call_llm(mon_premier_prompt(exemple_3))
print(response_3)

print("\n" + "=" * 60)
print("EXEMPLE 4 - Modification tableau")
print("=" * 60)
response_4 = call_llm(mon_premier_prompt(exemple_4))
print(response_4)

print("\n" + "=" * 60)
print("EXEMPLE 4 - Modification tableau")
print("=" * 60)
response_5 = call_llm(mon_premier_prompt(exemple_5))
print(response_5)

EXEMPLE 1 - Abrogation
Dans cet extrait de l'arr√™t√© du 8 janvier 2024, l'**op√©ration juridique** principale est une **abrogation**.

### D√©tails de l'op√©ration juridique :
1. **Abrogation** :
   - L'**article 1** de l'arr√™t√© du 8 janvier 2024 **abroge** (supprime) l'arr√™t√© pr√©fectoral du 5 octobre 2023.
   - L'abrogation est une op√©ration juridique qui met fin √† l'application d'un texte ant√©rieur, sans effet r√©troactif (contrairement √† l'annulation). Elle prend effet √† compter de la date de publication du nouvel arr√™t√© (ici, le 8 janvier 2024).

### Autres √©l√©ments √† noter :
- **Nature de l'acte** : Il s'agit d'un acte administratif unilat√©ral (arr√™t√© pr√©fectoral) modifiant l'ordonnancement juridique en supprimant un texte ant√©rieur.
- **Effet** : L'arr√™t√© du 5 octobre 2023 cesse de produire ses effets pour l'avenir, mais les actes pris en application de ce dernier avant son abrogation peuvent rester valables (sauf disposition contraire).

Aucune autre op√©r

### 0.4 Constat

**Observez les r√©sultats :** Les r√©ponses du LLM sont probablement :
- ‚úì Correctes sur le fond
- ‚úó **Diff√©rentes en format** (phrases, listes, structures variables)
- ‚úó **Difficiles √† parser automatiquement** dans un programme

**Probl√®me :** Pour traiter automatiquement ces op√©rations (par exemple, appliquer les modifications pour reconstituer l'arr√™t√© consolid√©), on a besoin d'un **format structur√© et pr√©visible**.

**Solution :** D√©finir des objets Python (classes) qui repr√©sentent ces op√©rations, puis imposer au LLM de respecter ce format (JSON).

---

## 1. D√©finition de la classe `Operation`

Une op√©ration juridique contient plusieurs informations :
- **Type** : ADD, REMOVE, REPLACE
- **Source** : l'article de l'arr√™t√© modificateur qui contient l'op√©ration
- **Target** : l'arr√™t√© et l'article √† modifier
- **Operand** : le nouveau contenu (pour ADD et REPLACE)
- **SubTarget** : la partie pr√©cise √† modifier (ex: "premi√®re phrase", "le tableau")

### Exercice 1.1 : D√©finir les types d'op√©rations

Cr√©ez une √©num√©ration `OperationType` avec les valeurs : `ADD`, `REMOVE`, `REPLACE`

### Exercice 1.2 : D√©finir la classe `NodeId`

Un `NodeId` identifie de mani√®re unique un article dans un arr√™t√©. Il contient :
- `arrete_id` : la date de l'arr√™t√© au format "YYYY-MM-DD" (ex: "2023-05-10")
- `article_id` : le num√©ro de l'article (ex: "2.1.3", "ALL", "NEW:3.4")

NB : Les cas "ALL" et "NEW:" correspondent respectivement au cas o√π une op√©ration concerne tous les articles d'un arr√™t√© (pour une abrogation de l'arr√™t√© entier par exemple), et le cas o√π l'article cible n'existe pas encore (lors de la cr√©ation d'un article). 

Compl√©tez la classe ci-dessous :

Utilisez la cellule suivante pour tester directement votre code.

In [16]:
try: 
    node_invalid = NodeId(arrete_id="2023-15-10", article_id="deux")  # Doit lever une erreur de format
except ValueError as e:
    print(f"Erreur attendue captur√©e : {e}")

Erreur attendue captur√©e : 2 validation errors for NodeId
arrete_id
  Value error, Date invalide dans arrete_id: '2023-15-10' [type=value_error, input_value='2023-15-10', input_type=str]
    For further information visit https://errors.pydantic.dev/2.12/v/value_error
article_id
  Value error, article_id doit √™tre au format num√©rique (ex: '1.2', '3.1.4'), ALL ou NEW:X re√ßu: 'deux' [type=value_error, input_value='deux', input_type=str]
    For further information visit https://errors.pydantic.dev/2.12/v/value_error


### Exercice 1.3 : D√©finir la classe `Operation`

A partir de la d√©finition de l'op√©ration ci-dessus et en utilisant les types OperationType et NodeId cr√©√©s ci-dessus,

compl√©tez la classe ci-dessous en ajoutant tous les champs n√©cessaires :

Utilisez la cellule suivante pour tester directement votre code.

In [20]:
operation = Operation(
     id="op_004",
     source_id=NodeId(arrete_id="2024-09-12", article_id="3.1"),
     target_id=NodeId(arrete_id="2023-05-10", article_id="2.1"),
     operation_type=OperationType.REPLACE,
     operand="<table> <tr><th>Param√®tre</th><th>Valeur limite</th></tr><tr><td>pH</td><td>6.5 - 8.5</td></tr><tr><td>DCO</td><td>125 mg/L</td></tr> </table>",
     sub_target="le tableau"
)
print(operation.model_dump_json(indent=2))

{
  "id": "op_004",
  "source_id": {
    "arrete_id": "2024-09-12",
    "article_id": "3.1"
  },
  "target_id": {
    "arrete_id": "2023-05-10",
    "article_id": "2.1"
  },
  "operation_type": "REPLACE",
  "operand": "<table> <tr><th>Param√®tre</th><th>Valeur limite</th></tr><tr><td>pH</td><td>6.5 - 8.5</td></tr><tr><td>DCO</td><td>125 mg/L</td></tr> </table>",
  "sub_target": "le tableau"
}


In [21]:
# Vos r√©ponses ici
reponses = {
    "operation_type": "REPLACE",  # √Ä compl√©ter
    "source_article": "1",
    "target_arrete": "2023-10-05",
    "target_article": "2.1",
    "operand": "<p>Le d√©bit maximal de pr√©l√®vement d'eau est fix√© √† 150 m¬≥/h.</p>"
}

print(reponses)

{'operation_type': 'REPLACE', 'source_article': '1', 'target_arrete': '2023-10-05', 'target_article': '2.1', 'operand': "<p>Le d√©bit maximal de pr√©l√®vement d'eau est fix√© √† 150 m¬≥/h.</p>"}


In [None]:
def create_detection_prompt(html_content: str) -> str:
    """
    Cr√©e un prompt pour d√©tecter les op√©rations juridiques dans un extrait HTML.
    
    Args:
        html_content: Le contenu HTML de l'arr√™t√©
        
    Returns:
        Le prompt complet √† envoyer au LLM
    """
    prompt = f"""
Voici un extrait HTML d'arr√™t√© pr√©fectoral :
\"\"\"{html_content}\"\"\"

Ta t√¢che : identifier toutes les op√©rations juridiques (modifications, ajouts, abrogations).

# TODO : Compl√©ter le prompt avec :
# - Instructions claires
# - Format JSON attendu
# - Exemples pour chaque type d'op√©ration
# - Consignes sur les cas limites

R√©ponds avec une liste JSON uniquement.
"""
    return prompt

# Test du prompt
prompt = create_detection_prompt(exemple_html)
print(prompt[:500] + "...")



Voici un extrait HTML d'arr√™t√© pr√©fectoral :
"""
<section data-spec="section" data-number="1">
    <h2>Article 1</h2>
    <p>L'article 2.1 de l'arr√™t√© du 2023-05-10 est modifi√© comme suit :</p>
    <p>Le d√©bit maximal autoris√© est port√© √† 150 m¬≥/h.</p>
</section>
"""

Ta t√¢che : identifier toutes les op√©rations juridiques (modifications, ajouts, abrogations).

# TODO : Compl√©ter le prompt avec :
# - Instructions claires
# - Format JSON attendu
# - Exemples pour chaque type d'op√©ration
# - Consi...


In [9]:
import os
from dotenv import load_dotenv
from mistralai import Mistral
import json

# Charger les variables d'environnement
load_dotenv()

# Initialiser le client Mistral
client = Mistral(api_key=os.getenv("MISTRAL_API_KEY"))

def call_llm(prompt: str, model: str = "mistral-large-latest") -> str:
    """
    Appelle l'API Mistral avec le prompt donn√©.
    
    Args:
        prompt: Le prompt √† envoyer
        model: Le mod√®le √† utiliser
        
    Returns:
        La r√©ponse du LLM
    """
    response = client.chat.complete(
        model=model,
        messages=[{"role": "user", "content": prompt}]
    )
    return response.choices[0].message.content

# Test
try:
    prompt = create_detection_prompt(exemple_html)
    response = call_llm(prompt)
    print("R√©ponse du LLM :")
    print(response)
    
    # Parser le JSON
    operations = json.loads(response)
    print(f"\n‚úì {len(operations)} op√©ration(s) d√©tect√©e(s)")
    
except Exception as e:
    print(f"Erreur : {e}")


Erreur : [WinError 10061] Aucune connexion n‚Äôa pu √™tre √©tablie car l‚Äôordinateur cible l‚Äôa express√©ment refus√©e


In [None]:
import json

# Sorties attendues pour validation
expected_outputs = {
    "exemple_1": [
        {
            "operation_type": "REMOVE",
            "source_arrete": "2024-01-08",
            "source_article": "1",
            "target_arrete": "2023-05-10",
            "target_article": "ALL"
        }
    ],
    "exemple_2": [
        {
            "operation_type": "REPLACE",
            "source_arrete": "2024-09-12",
            "source_article": "1",
            "target_arrete": "2023-05-10",
            "target_article": "2.1",
            "operand" : "<p>Le d√©bit maximal de pr√©l√®vement d'eau est fix√© √† 150 m¬≥/h.</p>", 
        }
    ],
    "exemple_3": [
        {
            "operation_type": "ADD",
            "source_arrete": "2023-01-23",
            "source_article": "2",
            "target_arrete": "2022-12-15",
            "target_article": "NEW:4.3",
            "operand": "<p>L'exploitant doit installer un dispositif de mesure du d√©bit avant le 31 d√©cembre 2026.</p>"
        }
    ],
    "exemple_4": [
        {
            "operation_type": "REPLACE",
            "source_arrete": "2024-09-12",
            "source_article": "1",
            "target_arrete": "2023-05-10",
            "target_article": "3",
            "sub_target": "le tableau",
            "operand": "<table> <tr><th>Param√®tre</th><th>Valeur limite</th></tr> <tr><td>pH</td><td>6.5 - 8.5</td></tr> <tr><td>DCO</td><td>125 mg/L</td></tr>  </table>",
        }
    ]
}

print("‚úì Sorties attendues charg√©es")

In [None]:
# Validation automatique des r√©sultats
def valider_detection(resultats, expected):
    """Compare les r√©sultats avec les sorties attendues."""
    score = 0
    total = len(expected)
    
    for nom, expected_ops in expected.items():
        if nom not in resultats:
            print(f"‚úó {nom} : non test√©")
            continue
            
        result_ops = resultats[nom]
        
        if len(result_ops) != len(expected_ops):
            print(f"‚úó {nom} : {len(result_ops)} op√©ration(s) au lieu de {len(expected_ops)}")
            continue
        
        # V√©rifier les champs essentiels
        op_result = result_ops[0]
        op_expected = expected_ops[0]
        
        checks = {
            "operation_type": op_result.get("operation_type") == op_expected["operation_type"],
            "target_arrete": op_result.get("target_arrete") == op_expected["target_arrete"],
            "target_article": op_result.get("target_article") == op_expected["target_article"],
        }
        
        if all(checks.values()):
            print(f"‚úì {nom} : correct")
            score += 1
        else:
            errors = [k for k, v in checks.items() if not v]
            print(f"‚úó {nom} : erreurs dans {errors}")
    
    print(f"\n{'='*60}")
    print(f"Score : {score}/{total}")
    if score == total:
        print("üéâ Parfait ! Votre prompt d√©tecte correctement toutes les op√©rations.")
    elif score >= total * 0.75:
        print("üëç Bon travail ! Quelques ajustements √† faire.")
    else:
        print("üí° Continuez √† am√©liorer votre prompt.")
    
    return score == total

valider_detection(resultats, expected_outputs)

## 3. Subtarget Parsing

Le **subtarget** permet d'identifier pr√©cis√©ment **quelle partie** d'un article doit √™tre modifi√©e.

Exemples :
- "la premi√®re phrase"
- "le tableau"
- "le deuxi√®me alin√©a"
- "la colonne N¬∞2 du tableau"


### 3.1 D√©finir les types de subtargets


### Exercice 3.1 : Parser un subtarget avec regex

Cr√©ez une fonction qui parse des descriptions simples de subtargets.

**Exemples √† g√©rer :**
- "premi√®re phrase" ‚Üí PHRASE, position=1
- "le tableau" ‚Üí TABLEAU
- "deuxi√®me alin√©a" ‚Üí ALINEA, position=2
- "derni√®re ligne du tableau" ‚Üí LIGNE_TABLEAU, position=0


### 3.2 Int√©gration avec le prompt

Maintenant, int√©grez la d√©tection de subtarget dans le prompt. Le LLM doit retourner un champ `sub_target` avec la description.

Modifiez votre prompt pour inclure des exemples de subtargets :

---

## 5. Pipeline complet

Assemblons tous les √©l√©ments pour cr√©er le pipeline complet de d√©tection d'op√©rations.

---

## 6. Exercices avanc√©s

### 6.1 Gestion des erreurs

Am√©liorez le pipeline pour g√©rer :
- Les r√©ponses JSON malform√©es du LLM
- Les marqueurs non trouv√©s
- Les formats de date invalides
- Les articles inexistants

### 6.2 M√©triques et validation

Cr√©ez des fonctions pour :
- Valider le format d'une op√©ration
- Calculer des m√©triques (pr√©cision, rappel)
- Comparer avec des annotations manuelles

### 6.3 Optimisation du prompt

Testez diff√©rentes variations du prompt et comparez :
- Temp√©rature du LLM
- Longueur du prompt
- Nombre d'exemples
- Format des instructions

Cr√©ez un notebook de comparaison :

In [None]:
# TODO : Exp√©rimentations sur le prompt

---

## Conclusion

Vous avez maintenant un pipeline complet pour :
1. ‚úì D√©finir une structure de donn√©es pour les op√©rations
2. ‚úì Utiliser un LLM pour d√©tecter les op√©rations
3. ‚úì Parser les subtargets avec des regex
4. ‚úì Extraire les operands avec des marqueurs

**Prochaines √©tapes :**
- Am√©liorer la robustesse (gestion d'erreurs)
- Optimiser le prompt (exp√©rimentations)
- Valider avec des donn√©es r√©elles
- Int√©grer dans le pipeline de consolidation complet

Bon travail ! üéâ