Ici on récupère les données via PISTE l'API permettant d'avoir accès aux données de Légifrance, le code de connexion OAuth est donné sur le Gitlab de Piste à cette [adresse](https://gitlab.com/piste_lab/oauth_connectors/-/blob/master/Python/Oauth2ClientCredentialsTest.py?ref_type=heads). Il est tout de même nécessaire d'installer les modules du code suivant.

# Code pour récupérer les données de Légifrance via l'API Piste


Ce notebook contient les différents codes qui nous ont permis d'accéder aux données disponibles grâce à l'API Piste de Légifrance.

Sur l'API de Légifrance les requêtes doivent être faites sur un fonds, soit un filtre correspondant à une catégorie spécifique de la base de données de Légifrance. Les différents fonds incluent notamment LODA , qui regroupe les lois, les ordonnances, les décrets et les arrêtés, mais il y a aussi CODE pour les documents relatifs aux différents codes et ALL qui permet de faire une requête sur tous les fonds. 

Au début de notre récupération des données nos requêtes ont été effectuées sur le fond LODA, ensuite CODE et enfin ALL, avant de revenir sur LODA. Cet ordre n'est dû qu'à l'absence de documentation claire, au faible nombre de projets présents sur internet utilisant l'API de Légifrance et d'erreurs que l'on n'arrive pas à expliquer et qui nous empêchent d'avoir accès à l'intégralité des fonds. 

En fait, lorsqu'on effectue une requête, l'API ne nous renvoie qu'un nombre limité de résultats (100 maximum), donc il faut faire une boucle pour récupérer tous les documents. Les requêtes supérieures au 10001e éléments renvoient une erreur 503, soit une erreur du serveur. Malgré des recherches et des mails envoyés au support et à des personnes travaillant à l'AIFE (Agence pour l'Informatique Financière de l'État) sur l'API de Légifrance nous n'avons pas trouvé de solution à cela. 

Ainsi, pour l'avancement du projet, nous avons pris la décision de ne récupérer que les données du fond LODA, car ce fond est d'après nous le plus pertinent - les modifications des codes étant plus difficiles à étudier sous l'angle quantitatif par rapport aux lois, car il s'agit en partie de modification de vocabulaire employé.

### Sommaire 

* [Installations des données sur le fond LODA](#section1)


### Récupération des données avec le fond LODA <a class="anchor" id="section1"></a>

In [1]:
%pip install python-dotenv
%pip install requests-oauthlib


Collecting python-dotenv
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Downloading python_dotenv-1.0.1-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.0.1
Note: you may need to restart the kernel to use updated packages.
Collecting requests-oauthlib
  Downloading requests_oauthlib-2.0.0-py2.py3-none-any.whl.metadata (11 kB)
Collecting oauthlib>=3.0.0 (from requests-oauthlib)
  Downloading oauthlib-3.2.2-py3-none-any.whl.metadata (7.5 kB)
Downloading requests_oauthlib-2.0.0-py2.py3-none-any.whl (24 kB)
Downloading oauthlib-3.2.2-py3-none-any.whl (151 kB)
Installing collected packages: oauthlib, requests-oauthlib
Successfully installed oauthlib-3.2.2 requests-oauthlib-2.0.0
Note: you may need to restart the kernel to use updated packages.


In [2]:
import os
from dotenv import load_dotenv
import requests
from requests_oauthlib import OAuth2Session
import requests
import pandas as pd
import math
import json
from datetime import datetime, timedelta
from threading import Thread
import zipfile
import numpy as np 

In [3]:
API_HOST = "https://api.piste.gouv.fr/dila/legifrance/lf-engine-app"

In [4]:
def get_client():
    """
    Récupère un client OAuth2Session configuré avec un token d'accès depuis le serveur OAuth. 


    :return: Un objet OAuth2Session prêt à être utilisé pour des requêtes API.
    """
    TOKEN_URL = "https://oauth.piste.gouv.fr/api/oauth/token"

    # Charger les identifiants client depuis le fichier .env
    load_dotenv()
    client_id = os.getenv("CLIENT_ID")
    client_secret = os.getenv("CLIENT_SECRET")

    # Requête pour obtenir le token
    res = requests.post(
        TOKEN_URL,
        data={
            "grant_type": "client_credentials",
            "client_id": client_id,
            "client_secret": client_secret,
            "scope": "openid"
        }
    )

    res.raise_for_status()  # Lever une erreur si la requête échoue

    token = res.json()

    # Retourner un client OAuth2Session configuré
    return OAuth2Session(client_id, token=token)

In [5]:
def save_results_to_file(results, file_name, current_page):
    """
    Sauvegarde les résultats dans un fichier JSON. Si le fichier existe, ajoute les nouvelles données.

    :param results: Liste des résultats à sauvegarder.
    :param file_name: Nom du fichier JSON.
    :param current_page: La page actuelle traitée.
    """
    try:
        # Charger les données existantes si le fichier existe
        with open(file_name, "r", encoding="utf-8") as file:
            existing_data = json.load(file)
            if not isinstance(existing_data, dict):
                raise ValueError("Le fichier de sauvegarde n'est pas correctement structuré.")
            existing_results = existing_data.get("results", [])
            start_page = existing_data.get("current_page", 1)
    except (FileNotFoundError, ValueError):
        existing_results = []
        start_page = 1

    # Ajouter les nouveaux résultats
    existing_results.extend(results)

    # Sauvegarder les résultats mis à jour avec la page actuelle
    with open(file_name, "w", encoding="utf-8") as file:
        json.dump({"results": existing_results, "current_page": current_page}, file, ensure_ascii=False, indent=4)

In [None]:
def collect_all_results(api_host, code):
    ''' 
    Récupère tous les résultats relatifs à une requête API. 

    :param api_host: addresse à laquelle envoyer la requête avec le endpoint correspondant 
    :param code: code permettant de faire la requête correspondante à nos recherches, 
    pour l'utilisation de la fonction on mettra de fait 
    collect_all_results(api_host, json = code)
    '''

    
    # Nom unique pour le fichier de sauvegarde
    file_name = "results.json"

    # Charger la page de démarrage depuis le fichier de sauvegarde s'il existe comme il faut 
    try:
        with open(file_name, "r", encoding="utf-8") as file:
            saved_data = json.load(file)
            if not isinstance(saved_data, dict):
                raise ValueError("Le fichier de sauvegarde n'est pas correctement structuré.")
            start_page = saved_data.get("current_page", 1)
    except (FileNotFoundError, ValueError):
        print(f"Fichier {file_name} introuvable ou mal structuré. Démarrage depuis la première page.")
        start_page = 1

    # Initialiser le client OAuth2Session 
    client = get_client()

    # On fixe un temps d'expiration à 55 min car le token dure 60 min
    expires_in = 55*60
    token_expiry = datetime.now() + timedelta(seconds=expires_in) 

    # Récupérer le total de résultats et calculer le nombre de pages
    response = client.post(api_host, json=code).json()
    total_results = response.get("totalResultNumber", 0)
    page_size = code["recherche"]["pageSize"]
    total_pages = math.ceil(total_results / page_size)

    print(f"Total de résultats : {total_results}")
    print(f"Nombre de pages à récupérer : {total_pages}")
    print(f"Reprise à partir de la page {start_page}")

    # Liste pour stocker les résultats courants
    all_results = []

    # On boucle sur le nombre de pages
    for page_number in range(start_page, total_pages + 1):

        # Vérifier si le token doit être renouvelé
        if datetime.now() >= token_expiry:
            print("Renouvellement du client OAuth...")
            client = get_client()
            token_expiry = datetime.now() + timedelta(seconds=expires_in)
        
        # Récupère le bon numéro de page et lance la requête
        print(f"Récupération de la page {page_number}/{total_pages}...")
        code["recherche"]["pageNumber"] = page_number
        response = client.post(api_host, json=code).json()
        page_results = response.get("results", [])

        # Teste si une erreur 503 arrive et arrête la boucle si tel est le cas
        if response.get("error") == 503:
            print(response)
            break

        # Affiche une requête toutes les 10 pour du contrôle 
        if page_number % 10 == 0: 
            print(response)

        # Ajouter les résultats de la page courante
        all_results.extend(page_results)

        # Sauvegarder les résultats toutes les 20 pages ou à la dernière page
        if page_number % 20 == 0 or page_number == total_pages:
            print(f"Ajout des pages jusqu'à la page {page_number} dans {file_name}...")
            save_results_to_file(all_results, file_name, page_number)

            # Réinitialiser la liste des résultats sauvegardés
            all_results = []

    print(f"Récupération terminée. Dernière page sauvegardée : {total_pages}")
    return total_pages


In [15]:
code_api_LODA = {
    "recherche": {
        "filtres": [{"dates": {"start": "1996-01-01", "end": "2022-08-31"}, "facette": "DATE_SIGNATURE"}],
        "sort": "SIGNATURE_DATE_DESC",
        "fromAdvancedRecherche": True,
        "champs": [
            {
                "typeChamp": "ALL",
                "criteres": [
                    {"typeRecherche": "UN_DES_MOTS", "valeur": mot, "operateur": "OU"} for mot in [
                        "délinquance", "crime", "délit", "Homicides", "Vols", "Stupéfiants", "Escroquerie",
                        "Contrefaçon", "Sequestrations", "Recels", "Proxénétisme", "Menaces", "Cambriolages",
                        "infraction", "Attentats", "dégradations", "Outrages"
                    ]
                ],
                "operateur": "OU"
            }
        ],
        "pageSize": 100,
        "pageNumber": 1,
        "operateur": "ET",
        "typePagination": "DEFAUT"
    },
    "fond": "LODA_DATE"
}


In [None]:
code_api = {
    "recherche": {
        "champs": [
            {
                "typeChamp": "ALL",
                "criteres": [
                    {"typeRecherche": "UN_DES_MOTS", "valeur": mot, "operateur": "OU"} for mot in [
                        "délinquance", "crime", "délit", "Homicides", "Vols", "Stupéfiants", "Escroquerie",
                        "Contrefaçon", "Sequestrations", "Recels", "Proxénétisme", "Menaces", "Cambriolages",
                        "infraction", "Attentats", "dégradations", "Outrages"
                    ]
                ],
                "operateur": "OU"
            }
        ],
        "pageNumber": 1,
        "pageSize": 1,
        "operateur": "ET",
        "sort": "DATE",
        "typePagination": "DEFAUT"
    },
    "fond": "ALL"
}


In [16]:
results = collect_all_results(API_HOST+"/search", code_api_LODA)

Fichier results.json introuvable ou mal structuré. Démarrage depuis la première page.
Total de résultats : 14872
Nombre de pages à récupérer : 149
Reprise à partir de la page 1
Récupération de la page 1/149...
Récupération de la page 2/149...
Récupération de la page 3/149...
Récupération de la page 4/149...
Récupération de la page 5/149...
Récupération de la page 6/149...
Récupération de la page 7/149...
Récupération de la page 8/149...
Récupération de la page 9/149...
Récupération de la page 10/149...
{'executionTime': 5482, 'results': [{'titles': [{'id': 'LEGITEXT000042540591_21-11-2020', 'cid': 'JORFTEXT000042538667', 'title': 'Arrêté du 16 novembre 2020 relatif au concours externe sur épreuves de recrutement dans le corps des commissaires des armées', 'legalStatus': None, 'startDate': None, 'endDate': None, 'nature': None}], 'text': None, 'type': '_doc', 'nature': 'ARRETE', 'origin': 'LEGI', 'etat': 'VIGUEUR', 'date': '2020-11-21T00:00:00.000+0000', 'sections': [{'id': 'JORFSCTA000

In [None]:
def zipper_fichier(fichier, zip_nom):
    """
    Crée un fichier ZIP contenant le fichier spécifié et supprime le fichier d'origine

    :param fichier: Chemin du fichier à zipper.
    :param zip_nom: Nom du fichier ZIP de sortie.
    """
    with zipfile.ZipFile(zip_nom, 'w') as zipf:
        zipf.write(fichier, arcname=fichier.split('/')[-1]) 
        os.remove(fichier)

In [None]:
def extraire_json_du_zip(fichier_zip, fichier_sortie):
    """
    Extrait un fichier JSON contenu dans une archive ZIP et le sauvegarde.

    :param fichier_zip: Chemin de l'archive ZIP contenant le fichier JSON.
    :param fichier_sortie: Chemin du fichier JSON extrait.
    """
    with zipfile.ZipFile(fichier_zip, 'r') as zipf:
        json_fichier = zipf.namelist()[0]  
        with zipf.open(json_fichier) as file:
            data = json.load(file)
        with open(fichier_sortie, 'w', encoding='utf-8') as json_file:
            json.dump(data, json_file, indent=4)

In [None]:
zipper_fichier('/home/onyxia/work/Python-pour-la-data-science-2A/data/results.json', 'results')

In [None]:
extraire_json_du_zip('/home/onyxia/work/Python-pour-la-data-science-2A/data/results.zip', '/home/onyxia/work/Python-pour-la-data-science-2A/data/results.json')

In [None]:
def remaining_page_number():
    api_host = API_HOST+"/search"
    client = get_client()
    response = client.post(api_host, json=code_api).json()
    total_results = response.get("totalResultNumber", 0)
    try:
        # Charger les données existantes si le fichier existe
        with open("results.json", "r", encoding="utf-8") as file:
            existing_data = json.load(file)
            if not isinstance(existing_data, dict):
                raise ValueError("Le fichier de sauvegarde n'est pas correctement structuré.")
            start_page = existing_data.get("current_page", 1)
    except (FileNotFoundError, ValueError):
        start_page = 0
    remaining_page = total_results-start_page
    return remaining_page    

In [None]:
def collect_all_results_between(api_host, code, page_to_start, page_to_end, thread_number):
    client = get_client()
    expires_in = 55*60
    token_expiry = datetime.now() + timedelta(seconds=expires_in)

    file_name = str(thread_number)+"results.json"


    all_results = []

    for page_number in range(page_to_start, page_to_end + 1):
        # Vérifier si le token doit être renouvelé
        if datetime.now() >= token_expiry:
            print("Renouvellement du client OAuth...")
            client = get_client()
            token_expiry = datetime.now() + timedelta(seconds=expires_in)

        print(f"Récupération de la page {page_number}/{page_to_end - page_to_start +1}...")
        code["recherche"]["pageNumber"] = page_number
        response = client.post(api_host, json=code).json()
        page_results = response.get("results", [])

        if response.get("error") == 503:
            print(response)
            break

        if page_number % 10 == 0: 
            print(response)

        # Ajouter les résultats de la page courante
        all_results.extend(page_results)

        # Sauvegarder les résultats toutes les 20 pages ou à la dernière page
        if page_number % 20 == 0 or page_number == page_to_end:
            print(f"Ajout des pages jusqu'à la page {page_number} dans {file_name}...")
            save_results_to_file(all_results, file_name, page_number)

            # Réinitialiser la liste des résultats sauvegardés
            all_results = []


In [None]:
def generate_functions(n):
        api_host = API_HOST+"/search"
        client = get_client()
        remaining_page = remaining_page_number()
        functions = {}
        response = client.post(API_HOST+"/search", json=code_api).json()
        total_results = response.get("totalResultNumber", 0)
        try:
            with open("results.json", "r", encoding="utf-8") as file:
                existing_data = json.load(file)
                if not isinstance(existing_data, dict):
                    raise ValueError("Le fichier de sauvegarde n'est pas correctement structuré.")
                start_page = existing_data.get("current_page", 1)
        except (FileNotFoundError, ValueError):
            start_page = 1

        page_state = [start_page, start_page]

        for i in range(1, n + 1):
            if i != n : 
                    page_to_end = [int(np.floor(remaining_page*i/n)+ page_state[1])]
            else : 
                    page_to_end = [total_results]

            thread_number = i

            def func_template(idx=i, start=page_state[0], end=page_to_end[0], thread_nbr= thread_number):
                collect_all_results_between(API_HOST+"/search", code_api, start, end, thread_nbr)

            page_state[0]= page_to_end[0] + 1
                
            functions[f"f_{i}"] = func_template
        return functions

In [None]:
def functions_to_thread(n):
    generated_functions = generate_functions(n)
    functions = [(generated_functions[f"f_{i}"], [], {}) for i in range(1, n+1) ]
    return functions

In [None]:
r = functions_to_thread(4)
r

In [None]:
k = generate_functions(4)
print(k)
k[f"f_{3}"]

In [None]:
def run_in_threads(functions):
    """
    Lance un ensemble de fonctions dans des threads séparés.

    :param functions: Liste de tuples (fonction, args, kwargs) où :
                      - `fonction` est la fonction à exécuter
                      - `args` est une liste des arguments positionnels
                      - `kwargs` est un dictionnaire des arguments nommés
    """
    threads = []

    for func, args, kwargs in functions:
        thread = Thread(target=func, args=args, kwargs=kwargs)
        threads.append(thread)
        thread.start()

    # Attendre la fin de tous les threads
    for thread in threads:
        thread.join()

In [None]:
l = run_in_threads(functions_to_thread(8))

In [None]:
def segmenter_json_par_parties(fichier_json, dossier_sortie, nombre_parties):
    """
    Segmente un fichier JSON en un nombre spécifique de parties.

    :param fichier_json: Chemin du fichier JSON à segmenter.
    :param dossier_sortie: Dossier où les segments seront sauvegardés.
    :param nombre_parties: Nombre de parties dans lesquelles le fichier sera segmenté.
    """
    # Lire le contenu du fichier JSON
    with open(fichier_json, 'r', encoding='utf-8') as file:
        data = json.load(file)

    # Calculer la taille approximative de chaque partie
    taille_segment = math.ceil(len(data) / nombre_parties)

    # Créer le dossier de sortie s'il n'existe pas
    os.makedirs(dossier_sortie, exist_ok=True)

    # Segmenter les données
    for i in range(0, len(data), taille_segment):
        segment = data[i:i + taille_segment]
        segment_path = os.path.join(dossier_sortie, f'segment_{i // taille_segment + 1}.json')
        
        # Écrire chaque segment dans un fichier
        with open(segment_path, 'w', encoding='utf-8') as segment_file:
            json.dump(segment, segment_file, indent=4)
    
    print(f"Fichier JSON segmenté en {nombre_parties} parties dans le dossier '{dossier_sortie}'.")


In [None]:
segmenter_json_par_parties("/home/onyxia/work/Python-pour-la-data-science-2A/data/results.json", "data", 3 )

In [None]:
def assembler_json(dossier_segments, fichier_sortie):
    """
    Assemble plusieurs fichiers JSON en un seul fichier et supprime les segments.

    :param dossier_segments: Dossier contenant les segments JSON.
    :param fichier_sortie: Chemin du fichier JSON de sortie.
    """
    fichiers = sorted(os.listdir(dossier_segments))  # Trier les segments par nom
    data_combinee = []

    for fichier in fichiers:
        segment_path = os.path.join(dossier_segments, fichier)
        with open(segment_path, 'r', encoding='utf-8') as segment_file:
            data_combinee.extend(json.load(segment_file))

    # Écrire les données combinées dans un seul fichier JSON
    with open(fichier_sortie, 'w', encoding='utf-8') as output_file:
        json.dump(data_combinee, output_file, indent=4)
    
    print(f"Segments JSON assemblés dans '{fichier_sortie}', et les segments supprimés.")

Pour pour envoyer des requêtes à l'API nous devons d'abord obtenir un token, après s'être inscrit sur le [site de PISTE](https://piste.gouv.fr/). Ce token est obtenu en envoyant une requête contenant mon identifiant client et mon code de client au site d'autorisation. Nous avons ensuite une autorisation d'une heure avec ce token pour exploiter l'API de Légifrance. 

Maintenant en utilisant le lien d'exploitation de l'API auquel on rajoute l'endpoints qui permet d'accéder à ce que l'on veut faire nous récupérons les données. La liste des endpoints pour l'API de Légifrance est disponible [ici](https://piste.gouv.fr/index.php?option=com_apiportal&view=apitester&usage=api&apitab=tests&apiName=L%C3%A9gifrance&apiId=7e5a0e1d-ffcc-40be-a405-a1a5c1afe950&managerId=3&type=rest&apiVersion=2.4.2&Itemid=179&swaggerVersion=2.0&lang=fr).

Le code ci-dessous permet de récupérer un ensemble de documents appartenant à l'ensemble des lois, ordonnance, décrets et arrêtés de Légifrance entre le premier janvier 1996 et le 31 août 2022 qui contiennent au moins un des mots d'une liste définie. Cette liste comprend les termes des taux de délinquances détaillés [ici](database_délinquance.ipynb#Calcul-des-taux-de-délinquance). Ce code est un json et sera envoyé par une méthode post à l'API, elle nous renverra un nombre de résultats limités (100 ici). Ce code est très inspiré de celui disponible sur le [site de l'API](https://piste.gouv.fr/index.php?option=com_apiportal&view=apitester&usage=api&apitab=tests&apiName=L%C3%A9gifrance&apiId=7e5a0e1d-ffcc-40be-a405-a1a5c1afe950&managerId=3&type=rest&apiVersion=2.4.2&Itemid=179&swaggerVersion=2.0&lang=fr) à l'endpoint /search.

On définit une fonction qui nous permet de récupérer tous les documents de notre recherche, car chaque recherche est limitée à une page de 100 éléments.

In [None]:

import pandas as pd

def results_to_dataframe(json_data):
    data = []
    
    # Accéder à la liste des résultats
    results = json_data.get("results", [])
    
    for result in results:
        
        # Extraire les informations requises
        titles = result.get("titles")
        title_info = titles[0] if isinstance(titles, list) and titles else {}
        
        title = title_info.get("title")
        id = title_info.get("id")
        date = result.get("date")
        nature = result.get("nature")
        etat = result.get("etat")
        origin = result.get("origin")
        date_publication = result.get("datePublication")
        
        # Ajouter les données dans la liste
        data.append({
            "Titre": title,
            "ID": id,
            "Date": date,
            "Nature": nature,
            "Etat": etat,
            "Origine": origin,
            "Date Publication": date_publication
        })
    
    # Créer et retourner un DataFrame
    return pd.DataFrame(data)


In [None]:
import pandas as pd

def results_to_dataframe(json_data):
    data = []
    
    # Accéder à la liste des résultats
    results = json_data.get("results", [])
    
    if not isinstance(results, list):
        raise ValueError("La clé 'results' doit contenir une liste.")
    
    for result in results:
        if not isinstance(result, dict):
            continue  # Ignorer les éléments non dictionnaires
        
        # Extraire les informations requises
        titles = result.get("titles")
        title_info = titles[0] if isinstance(titles, list) and titles else {}
        
        if not isinstance(title_info, dict):
            title_info = {}
        
        title = title_info.get("title")
        id = title_info.get("id")
        date = result.get("date")
        nature = result.get("nature")
        etat = result.get("etat")
        origin = result.get("origin")
        date_publication = result.get("datePublication")
        
        # Ajouter les données dans la liste
        data.append({
            "Titre": title,
            "ID": id,
            "Date": date,
            "Nature": nature,
            "Etat": etat,
            "Origine": origin,
            "Date Publication": date_publication
        })
    
    # Créer et retourner un DataFrame
    return pd.DataFrame(data)

# Exemple d'utilisation
# results_to_dataframe(votre_json_data)


In [None]:
with open("results_LODA.json", "r", encoding="utf-8") as file:
    json_data = json.load(file)
df_LODA = results_to_dataframe(json_data)

In [None]:
df_LODA = df_LODA.drop_duplicates()
df_LODA.to_csv("resultats_legifrance_loda.csv", index=False)