# Réalisation de l'OCR, création des chunks et tokenisation

### Lancement de l'OCR

In [1]:
import os
from mistralai import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)

In [2]:
files_id = {file.filename[3:7]:file.id for file in client.files.list().data}
files_link = {year:client.files.get_signed_url(file_id=file_id).url for year, file_id in files_id.items()}

In [3]:
print(files_link)

{'2024': 'https://mistralaifilesapiprodswe.blob.core.windows.net/fine-tune/be3813d6-6d95-4101-b138-03210f366e52/7ebab484-cb34-4fe3-8510-a84b67422c23/9a378ab3b2cd4795b6e66f5a66d1a0b0.pdf?se=2025-08-11T12%3A14%3A38Z&sp=r&sv=2025-07-05&sr=b&sig=nT/XuA0y%2BABznqQ74nuyXYQqsecQvuZTx3EUPbgLpLA%3D', '2023': 'https://mistralaifilesapiprodswe.blob.core.windows.net/fine-tune/be3813d6-6d95-4101-b138-03210f366e52/7ebab484-cb34-4fe3-8510-a84b67422c23/1d091d91ed854e5d8a1917bfb3cf9fd3.pdf?se=2025-08-11T12%3A14%3A38Z&sp=r&sv=2025-07-05&sr=b&sig=wgbOVt6s92w3DyrR0h%2BQyMTXQFEXqIm/htEeMVZNhK0%3D', '2022': 'https://mistralaifilesapiprodswe.blob.core.windows.net/fine-tune/be3813d6-6d95-4101-b138-03210f366e52/7ebab484-cb34-4fe3-8510-a84b67422c23/0cc0a2412a38450c97d0207712d6e55a.pdf?se=2025-08-11T12%3A14%3A38Z&sp=r&sv=2025-07-05&sr=b&sig=8O4Oot7E3v9nB4yQemzBmbLopuxN9/glx7xz8J%2BFodA%3D', '2021': 'https://mistralaifilesapiprodswe.blob.core.windows.net/fine-tune/be3813d6-6d95-4101-b138-03210f366e52/7ebab484-cb3

In [4]:
def process_ocr(url):
    return client.ocr.process(
        model="mistral-ocr-latest",
        document={
            "type": "document_url",
            "document_url": url
        },
        include_image_base64=False
    )

In [5]:
from typing import defaultdict
import json

file_path = "../datasets/ocr_raw.json"

# If OCR was already run once, load it
if os.path.exists(file_path):
    with open(file_path) as json_file:
        files_ocr = json.load(json_file)
        
else:
    files_ocr = defaultdict()

    for year, url in files_link.items():
        print(f"OCR on year {year}")
        ocr_result = process_ocr(url)
        # Combining every page so every year has a single str
        files_ocr[year] = "\n".join([ocr_result.pages[i].markdown for i in range(len(ocr_result.pages))])

    with open(file_path, 'w') as json_file:
        json.dump(files_ocr, json_file, indent=4)

### Nettoyage de l'OCR

In [9]:
tmp = files_ocr["2024"]
splitted = tmp.split("\n")
print(splitted)

['![img-0.jpeg](img-0.jpeg)', '', "# RAPPORT D'ACTIVITÉS ", '', '![img-1.jpeg](img-1.jpeg)', '## SOMMAIRE', '', '![img-2.jpeg](img-2.jpeg)', '', '|  DÉVELOPPEMENT ÉCONOMIQUE | 4  |', '| --- | --- |', '|  DÉVELOPPEMENT SOCIAL | 6  |', '|  PETITE ENFANCE | 8  |', '|  SANTÉ | 10  |', '|  CULTURE | 12  |', '|  SPORT | 14  |', '|  ENVIRONNEMENT | 16  |', '|  EAU & ASSAINISSEMENT | 18  |', '|  GESTION DES MILIEUX AQUATIQUES', 'PRÉVENTION DES INONDATIONS | 20  |', '|  AMÉNAGEMENT DU TERRITOIRE | 22  |', '|  BÂTIMENTS, VOIRIES, RÉSEAUX DIVERS | 24  |', '|  FINANCES | 26  |', '|  RESSOURCES HUMAINES | 30  |', '|  COMMANDE PUBLIQUE | 32  |', '|  COMMUNICATION | 34  |', '|  URBANISME | 36  |', "|  SYSTÈMES D'INFORMATION | 38  |", '|  JURIDIQUE | 40  |', '|  LES ÉLUS COMMUNAUTAIRES | 42  |', '|  ORGANIGRAMME DES SERVICES | 44  |', '|  CARTES | 46  |', '', '## LA RICHESSE DU QUOTIDIEN', '', "Rendre compte de son activité est un exercice qui peut apparaître rédhibitoire au premier abord. Aligner des

In [11]:
import re 
splitted = [re.sub(r'\$.*?\$', '', line).replace("*","").replace("**","") for line in splitted if not (line == "" or any(char in line for char in ["![", "|"]))]
print(len(splitted))

645


### Création des chunks

In [106]:
hierarchy = ["" for _ in range(3)]
buffer = []

chunks = {"2024": []}

for line in splitted:
    if line.startswith("#"):
        if len(buffer) != 0:
            chunks["2024"].append((hierarchy[0] if hierarchy[0] != "" else None, " > ".join([h for h in hierarchy if h]) + "\n" + "\n".join(buffer)))
            buffer = []
        
        nb_hashtag = -1
        for char in line:
            if char == "#":
                nb_hashtag += 1
            else:
                break
        
        if nb_hashtag < 3:
            hierarchy[nb_hashtag] = line.replace("#", "").strip()
            for to_clear in range(nb_hashtag+1, 3):
                hierarchy[to_clear] = ""
    else:
        buffer.append(line)

In [107]:
for elem in (chunks["2024"]):
    print(elem)

('SOMMAIRE', "SOMMAIRE > 2023 ANNÉE UTILE ET STRATÉGIQUE\nEn 2023, la Communauté d'agglomération du Val de Fensch a poursuivi sa marche en avant, en conformité avec son projet de territoire.\nVous trouverez au fil des pages de ce document les déclinaisons de notre action au quotidien, parfois loin des lumières de l'actualité, au service de la vie de nos administrés, de nos entreprises et de nos communes.\nL'aide à l'utilisation du numérique, la dématérialisation des permis de construire, le permis de louer, l'accès modernisé et rénové à nos trois déchèteries communautaires, l'accompagnement de nos artisans et commerçants dans leurs actions au service de l'environnement, l'accueil des tous petits grâce à une dixième crèche ouverte à Fameck, etc. ... autant d'opérations souvent peu médiatiques mais appréciées car utiles !\nÀ cela bien entendu, il faut ajouter nos grands chantiers en cours, indispensables au territoire et à la vallée de la Fensch.\nNos zones économiques ont poursuivi leur

### Tokenisation des chunks

In [None]:
# todo

### Sauvegarde des chunks