In [None]:
# Python 3.12
!uv pip install "outlines==1.1.1" "transformers==4.54.0" "accelerate==1.9.0" "torch==2.7.1" pydantic datasets

In [None]:
from pydantic import BaseModel, Field
from typing import List, Optional, Any

class DonneesAccordsHeuresSupp(BaseModel):
    """Données structurées des accords d'heures supp"""
    base_legale_hebdomadaire: Optional[str] = Field(
        default=None, description="Base légale hebdomadaire, 35 heures"
    )    
    duree_annuel_heures: Optional[str] = Field(
        default=None, description="Durée annuelle d'heures de travail, 1607 heures"
    )    
    contingent_annuel_heures_supplementaires: Optional[str] = Field(
        default=None, description="Nombre d'heures au contingent annuel d'heures supplémentaires"
    )
    nombre_taux_majoration_differents: Optional[str] = Field(
        default=None, description="Nombre de taux de majoration différents des heures supplémentaires en heures supplémentaires payées (hors contrepartie obligatoire en repos et repos compensateur de remplacement)"
    )
    liste_taux_majoration: Optional[List[str]] = Field(
        default=None, description="Liste des taux de majoration"
    )
    presence_repos_compensateur_remplacement: Optional[bool] = Field(
        default=None, description="Mention à un repos compensateur de remplacement (RCR)"
    )
    taux_majoration_contrepartie_obligatoire_en_repos: Optional[str] = Field(
        default=None, description="Taux de majoration de la contrepartie obligatoire en repos (COR)"
    )
    delai_prevenance: Optional[str] = Field(
        default=None, description="Délai de prévenance des heures supplémentaires"
    )

In [None]:
import outlines
from transformers import AutoModelForCausalLM, AutoTokenizer
from typing import List

model_name = "microsoft/Phi-3-mini-4k-instruct"

model = outlines.from_transformers(
    AutoModelForCausalLM.from_pretrained(model_name),
    AutoTokenizer.from_pretrained(model_name)
)


In [None]:
example_text = """
Le contingent annuel d’heures supplémentaires est fixé à 220 heures. Le premier taux de majoration est de 25% et s’applique de la 36e à la 43e heure.
"""


In [None]:
prompt = f"À partir du texte suivant, extrait les données d'accord des heures supplémentaires en format JSON :\n\n{example_text}\n\nFormat JSON :"

result = model(prompt, output_type=DonneesAccordsHeuresSupp)
print(result)
#print(DonneesAccordsHeuresSupp.model_validate_json(result))