# Réalisation de l'OCR et création des chunks

### Lancement de l'OCR

In [2]:
import os
from mistralai import Mistral

api_key = os.environ["MISTRAL_API_KEY"]
client = Mistral(api_key=api_key)

Récupération des liens des fichiers sauvegardés

In [3]:
files_id = {file.filename[3:7]:file.id for file in client.files.list().data}
files_link = {year:client.files.get_signed_url(file_id=file_id).url for year, file_id in files_id.items()}

In [4]:
print(files_link)

{'2024': 'https://mistralaifilesapiprodswe.blob.core.windows.net/fine-tune/be3813d6-6d95-4101-b138-03210f366e52/7ebab484-cb34-4fe3-8510-a84b67422c23/9a378ab3b2cd4795b6e66f5a66d1a0b0.pdf?se=2025-08-11T18%3A54%3A54Z&sp=r&sv=2025-07-05&sr=b&sig=Ahno0ncUmhuHIlQwzB0Sp7zx/r11xkfeabXWA/wibUw%3D', '2023': 'https://mistralaifilesapiprodswe.blob.core.windows.net/fine-tune/be3813d6-6d95-4101-b138-03210f366e52/7ebab484-cb34-4fe3-8510-a84b67422c23/1d091d91ed854e5d8a1917bfb3cf9fd3.pdf?se=2025-08-11T18%3A54%3A54Z&sp=r&sv=2025-07-05&sr=b&sig=t0DQDqpfZtJCysTsQN3s2xPHlfiqinQsc8a3gK2aXMU%3D', '2022': 'https://mistralaifilesapiprodswe.blob.core.windows.net/fine-tune/be3813d6-6d95-4101-b138-03210f366e52/7ebab484-cb34-4fe3-8510-a84b67422c23/0cc0a2412a38450c97d0207712d6e55a.pdf?se=2025-08-11T18%3A54%3A54Z&sp=r&sv=2025-07-05&sr=b&sig=uUG33lbJOSU0eKUBqJVn5fHMy6uqgomaqOfpVF9OMW0%3D', '2021': 'https://mistralaifilesapiprodswe.blob.core.windows.net/fine-tune/be3813d6-6d95-4101-b138-03210f366e52/7ebab484-cb34-4fe3

In [5]:
def process_ocr(url):
    return client.ocr.process(
        model="mistral-ocr-latest",
        document={
            "type": "document_url",
            "document_url": url
        },
        include_image_base64=False
    )

In [6]:
from typing import defaultdict
import json

file_path = "../datasets/ocr_raw.json"

# If OCR was already run once, load it
if os.path.exists(file_path):
    with open(file_path) as json_file:
        files_ocr = json.load(json_file)
        
else:
    files_ocr = defaultdict()

    for year, url in files_link.items():
        print(f"OCR on year {year}")
        ocr_result = process_ocr(url)
        files_ocr[year] = [(i, ocr_result.pages[i].markdown) for i in range(len(ocr_result.pages))]

    with open(file_path, 'w') as json_file:
        json.dump(files_ocr, json_file, indent=4)

OCR on year 2024
OCR on year 2023
OCR on year 2022
OCR on year 2021
OCR on year 2020
OCR on year 2019
OCR on year 2018
OCR on year 2017
OCR on year 2016
OCR on year 2015
OCR on year 2014
OCR on year 2013
OCR on year 2012
OCR on year 2011
OCR on year 2010
OCR on year 2009


### Nettoyage de l'OCR

Récupération de toutes les lignes

In [7]:
ocr_splitted = {year:[(raw_page[0], raw_page[1].split("\n")) for raw_page in ocr_raw] for year, ocr_raw in files_ocr.items()}
print(ocr_splitted)

{'2024': [(0, ['![img-0.jpeg](img-0.jpeg)', '', "# RAPPORT D'ACTIVITÉS ", '', '![img-1.jpeg](img-1.jpeg)']), (1, ['## SOMMAIRE', '', '![img-2.jpeg](img-2.jpeg)', '', '|  DÉVELOPPEMENT ÉCONOMIQUE | 4  |', '| --- | --- |', '|  DÉVELOPPEMENT SOCIAL | 6  |', '|  PETITE ENFANCE | 8  |', '|  SANTÉ | 10  |', '|  CULTURE | 12  |', '|  SPORT | 14  |', '|  ENVIRONNEMENT | 16  |', '|  EAU & ASSAINISSEMENT | 18  |', '|  GESTION DES MILIEUX AQUATIQUES', 'PRÉVENTION DES INONDATIONS | 20  |', '|  AMÉNAGEMENT DU TERRITOIRE | 22  |', '|  BÂTIMENTS, VOIRIES, RÉSEAUX DIVERS | 24  |', '|  FINANCES | 26  |', '|  RESSOURCES HUMAINES | 30  |', '|  COMMANDE PUBLIQUE | 32  |', '|  COMMUNICATION | 34  |', '|  URBANISME | 36  |', "|  SYSTÈMES D'INFORMATION | 38  |", '|  JURIDIQUE | 40  |', '|  LES ÉLUS COMMUNAUTAIRES | 42  |', '|  ORGANIGRAMME DES SERVICES | 44  |', '|  CARTES | 46  |', '', '## LA RICHESSE DU QUOTIDIEN', '', "Rendre compte de son activité est un exercice qui peut apparaître rédhibitoire au premi

Règles de filtre (dans l'ordre des opérations ): 
- Suppression des expression regex (tout ce qui est contenu entre deux signes $)
- Suppression du formattage Markdown italique (*) et gras (**)
- Suppression des lignes vides
- Suppression des lignes contant des images ou tableau  

In [8]:
import re

ocr_clean = {
    year:[(splitted_page[0] ,[
                re.sub(r'\$.*?\$', '', line).replace("*","").replace("**","") 
                for line in splitted_page[1]
                if not (line == "" or any(char in line for char in ["![", "|"]))
            ])
            for splitted_page in splitted
        ]
    for year, splitted in ocr_splitted.items()
}

In [9]:
print(ocr_clean)

{'2024': [(0, ["# RAPPORT D'ACTIVITÉS "]), (1, ['## SOMMAIRE', '## LA RICHESSE DU QUOTIDIEN', "Rendre compte de son activité est un exercice qui peut apparaître rédhibitoire au premier abord. Aligner des chiffres, énumérer des actions, rappeler ce qui a été fait et que nous connaissons déjà peut plonger dans l'ennui et le désintérêt.", "J'y vois pourtant une double nécessité pour notre collectivité :", '- Faire connaître son action : sa méconnaissance est autant de possibilité laissée aux faux débats, aux mensonges, qui perturbent nos concitoyens et les détournent encore plus de la chose publique.', "- Reconnaître le travail des agents de la Communauté d'agglomération, depuis les cadres dirigeants jusqu'aux agents, que je félicite pour leur implication et leur action au quotidien en faveur du service public.", "2024 s'inscrit dans la continuité des années précédentes. Nous avons adopté en début de mandat un projet de territoire dont l'exécution se poursuit comme vous le verrez dans ce 

### Création des chunks

`ocr_chunks` est un dictionnaire qui contient pour chaque année une liste de chunks

La liste des chunks est une liste de tuples, ayant pour premier élément la catégorie principale du chunk et pour second élément le texte du chunk.

In [10]:
ocr_chunks = defaultdict(list)

for year, clean_lines in ocr_clean.items():
    hierarchy = ["" for _ in range(3)]
    buffer = []

    tmp_clean_lines = [(line, page[0]) for page in clean_lines for line in page[1]]

    for line, page in tmp_clean_lines:
        if line.startswith("#"):
            if len(buffer) != 0:
                ocr_chunks[year].append((
                    page+1,
                    hierarchy[0] if hierarchy[0] != "" else None,
                    " > ".join([h for h in hierarchy if h]) + "\n" + "\n".join(buffer)
                ))
                buffer = []
            
            nb_hashtag = -1
            for char in line:
                if char == "#":
                    nb_hashtag += 1
                else:
                    break
            
            if nb_hashtag < 3:
                hierarchy[nb_hashtag] = line.replace("#", "").strip()
                for to_clear in range(nb_hashtag+1, 3):
                    hierarchy[to_clear] = ""
        else:
            buffer.append(line)

Exemple de chunk :

In [11]:
print("PAGE DU CHUNK: ", ocr_chunks["2024"][0][0])
print("CATEGORIE PRINCIPALE DU CHUNK: ", ocr_chunks["2024"][0][1])
print("CHUNK: \n", ocr_chunks["2024"][0][2])

PAGE DU CHUNK:  2
CATEGORIE PRINCIPALE DU CHUNK:  RAPPORT D'ACTIVITÉS
CHUNK: 
 RAPPORT D'ACTIVITÉS > LA RICHESSE DU QUOTIDIEN
Rendre compte de son activité est un exercice qui peut apparaître rédhibitoire au premier abord. Aligner des chiffres, énumérer des actions, rappeler ce qui a été fait et que nous connaissons déjà peut plonger dans l'ennui et le désintérêt.
J'y vois pourtant une double nécessité pour notre collectivité :
- Faire connaître son action : sa méconnaissance est autant de possibilité laissée aux faux débats, aux mensonges, qui perturbent nos concitoyens et les détournent encore plus de la chose publique.
- Reconnaître le travail des agents de la Communauté d'agglomération, depuis les cadres dirigeants jusqu'aux agents, que je félicite pour leur implication et leur action au quotidien en faveur du service public.
2024 s'inscrit dans la continuité des années précédentes. Nous avons adopté en début de mandat un projet de territoire dont l'exécution se poursuit comme vous

### Sauvegarde des chunks

In [12]:
df_rows = [
    {"year": year, "page": page, "category": category, "chunk": chunk}
    for year, tuple in ocr_chunks.items()
    for page, category, chunk in tuple
]

In [13]:
print(len(df_rows))

2128


In [14]:
import polars as pl

df = pl.DataFrame(df_rows)
print(df)

shape: (2_128, 4)
┌──────┬──────┬─────────────────────────────────┬─────────────────────────────────┐
│ year ┆ page ┆ category                        ┆ chunk                           │
│ ---  ┆ ---  ┆ ---                             ┆ ---                             │
│ str  ┆ i64  ┆ str                             ┆ str                             │
╞══════╪══════╪═════════════════════════════════╪═════════════════════════════════╡
│ 2024 ┆ 2    ┆ RAPPORT D'ACTIVITÉS             ┆ RAPPORT D'ACTIVITÉS > LA RICHE… │
│ 2024 ┆ 3    ┆ RAPPORT D'ACTIVITÉS             ┆ RAPPORT D'ACTIVITÉS > MICHEL L… │
│ 2024 ┆ 3    ┆ ATTRACTIVITÉ & DÉVELOPPEMENT É… ┆ ATTRACTIVITÉ & DÉVELOPPEMENT É… │
│ 2024 ┆ 3    ┆ ATTRACTIVITÉ & DÉVELOPPEMENT É… ┆ ATTRACTIVITÉ & DÉVELOPPEMENT É… │
│ 2024 ┆ 3    ┆ ATTRACTIVITÉ & DÉVELOPPEMENT É… ┆ ATTRACTIVITÉ & DÉVELOPPEMENT É… │
│ …    ┆ …    ┆ …                               ┆ …                               │
│ 2009 ┆ 36   ┆ Système d'information géograph… ┆ Système 

In [21]:
df.write_csv("../datasets/chunks.csv")