In [4]:
import re
from datetime import datetime

# Liste des mois en français pour le format avec mois en lettres
MOIS_FR = {
    "janvier": "01", "février": "02", "mars": "03", "avril": "04",
    "mai": "05", "juin": "06", "juillet": "07", "août": "08",
    "septembre": "09", "octobre": "10", "novembre": "11", "décembre": "12"
}

def extraire_premiere_date(chaine):
    """
    Extrait la première date trouvée dans une chaîne et la renvoie au format datetime.
    Formats reconnus : "14 janvier 2022", "14/01/2022" et "1er août 2022".
    """
    # Expression régulière pour les dates en format numérique (14/01/2022)
    regex_numerique = r"\b(\d{1,2})/(\d{1,2})/(\d{4})\b"
    # Expression régulière pour les dates avec mois en lettres (14 janvier 2022, 1er août 2022)
    regex_lettres = r"\b(\d{1,2}(?:er)?)\s+([a-zéûîô]+)\s+(\d{4})\b"
    
    # Chercher une date numérique
    match_numerique = re.search(regex_numerique, chaine)
    if match_numerique:
        jour, mois, annee = match_numerique.groups()
        return datetime.strptime(f"{jour}/{mois}/{annee}", "%d/%m/%Y").strftime("%Y-%m-%d")
    
    # Chercher une date avec mois en lettres
    match_lettres = re.search(regex_lettres, chaine, re.IGNORECASE)
    if match_lettres:
        jour, mois_lettres, annee = match_lettres.groups()
        # Gérer le cas "1er" en enlevant "er"
        jour = jour.replace("er", "")
        mois = MOIS_FR.get(mois_lettres.lower())
        if mois:  # Si le mois a été trouvé
            return datetime.strptime(f"{jour}/{mois}/{annee}", "%d/%m/%Y").strftime("%Y-%m-%d")
    
    # Si aucune date n'est trouvée
    return None

In [7]:
# Test avec exemple fictif
texte = "Arrêté du 1er avril 2003 modifiant l'arrêté du 11 septemnre 1997 relatif à blabla."
resultat = extraire_premiere_date(texte)
print("Date extraite 1 :", resultat)

texte_bis= "CAA de BORDEAUX, Juge des Référés, 12/12/2024, 14BXjfyf, Inédit."
resultat_bis = extraire_premiere_date(texte_bis)
print("Date extraite 2 :", resultat_bis)

texte_ter= "Arthur Bidel et Wiwi Olivier énormes boss"
resultat_ter = extraire_premiere_date(texte_ter)
print("Date extraite 3 :", resultat_ter)

Date extraite 1 : 2003-04-01
Date extraite 2 : 2024-12-12
Date extraite 3 : None
