# POC Pascal

## Imports

In [1]:
import init_path

In [558]:
import datetime
import os
import pathlib
import re
import sys
from dataclasses import dataclass
from typing import Dict, List, Tuple, Union

import camelot
import Levenshtein
import networkx as nx
import numpy as np
import pandas as pd
import pymupdf
from pypdf import PdfReader
from PyPDF2 import PdfReader, PdfWriter
from tqdm import tqdm

import backend.ocr
from backend.claude_client import ClaudeClient
from vars import PATH_DOCS_PASCALE, PATH_TMP

## Vars

In [5]:
extrait_path = PATH_DOCS_PASCALE / "1-extrait CR chantier St Amand 1 à 39.pdf"
integrale_path = PATH_DOCS_PASCALE / "intégrale CR chantier Saint Amand.pdf"

## Read pdf 

### Cut pdf

In [12]:
def cut_pdf(path_in, pages : Tuple[int, int]) -> str:
    reader = PdfReader(path_in)
    writer = PdfWriter()
    page_range = range(pages[0], pages[1] + 1)

    for page_num, page in enumerate(reader.pages, 1):
        if page_num in page_range:
            writer.add_page(page)

    output_path = PATH_TMP / "cut_pdf" / f'{os.path.basename(path_in)}_page_{pages[0]}-{pages[1]}.pdf'
    with open(output_path, 'wb') as out:
        writer.write(out)

    return output_path

pdf_path = cut_pdf(integrale_path, (1, 7))
pdf_path

PosixPath('/home/secouss/repos/fh-industrie/notebooks/../tmp/cut_pdf/intégrale CR chantier Saint Amand.pdf_page_1-7.pdf')

### Simple OCR - Teseract

In [48]:
pdf_path = output_path
pdf_path

'/home/secouss/repos/fh-industrie/notebooks/../docs/pascal/intégrale CR chantier Saint Amand.pdf_page_1-7.pdf'

In [None]:
pages = backend.ocr.ocr_pdf(pdf_path, pages=[1])

PDF converted to 7 images.


OCR pages: 100%|██████████| 7/7 [00:04<00:00,  1.49it/s]


In [12]:
print(pages[0])

—

73 rue Martainville - 76000 ROUEN

Chemin de I'Empire - 59 SAINT AMAND LES EAUX

COMMUNAUTE D'AGGLOMERATION
DE LA PORTE DU HAINAUT
Construction d'un centre aquatique
a St Amand Les Eaux (59

Compte Rendu Réunion MOE
Du 15 mars 2011

Chantier Tél:

Date OS : 7 mars 2011
Fax: Délai :

MAITRISE D'OUVRAGE

20 mois hors intempéries

MAITRE D'OUVRAGE

CAPH

(Communauté d'agglomération

de la Porte de Hainaut)

Rue Michel Rondet
BP 59
59135 WALLERS

Sécrétariat
M.Alain
BOCQUET
(Président)

Mme ROBETTE
(gestion marchés)

03 27 09 00 93
03 27 09 05 05

03 27 09 97 58

CAPH Wallers | 99 27 21 09 03

M. DEBAILLEUX | 93 57 g9 91 26 | 06 74 64 02 05 | 03 27 09 91 20
(rspble projet)
M. BAUDOUX

(directeur piscine) | 0827 22 49.45 | 06 82 1521 11 | 03 27 22 49.49

03 27 48 40 90

pdebailleux@aaqglo-
porteduhainaut.fr

f.baudoux@saint-amand-les-

eaux.fr

drobette@aaqqlo-
porteduhainaut.fr

BUREAU DE CONTROLE

VERITAS

Val Park

Parc d’activités de l'aérodrome
Ouest Route d'Herin BP 20005
59220 ROU

### Tabula

In [67]:
import tabula

In [68]:
pdf_path

PosixPath('/home/secouss/repos/fh-industrie/notebooks/../tmp/cut_pdf/intégrale CR chantier Saint Amand.pdf_page_5-5.pdf')

In [70]:
# Read pdf into list of DataFrame
dfs = tabula.read_pdf(pdf_path, pages=[1])

Got stderr: Jul 05, 2025 10:21:04 PM org.apache.pdfbox.pdmodel.font.PDType1Font <init>
Jul 05, 2025 10:21:04 PM org.apache.pdfbox.pdmodel.font.PDType1Font <init>



In [71]:
len(dfs)

9

In [80]:
dfs[4].head(20)

Unnamed: 0,Lot 1 –FONDATIONS PROFONDES SONDEFOR
0,15/03/11 Transmettre au OCTANT OPC les fiches...
1,BC
2,Transmettre les documents selon liste des docu...
3,Organisation de chantier selon directives de l...


In [74]:
dfs[0].iloc[0, 0]

'15/03/11 Emettre des observations sur la FT du DALOT'

In [34]:
# Read remote pdf into list of DataFrame
dfs2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/eu-017.pdf", pages=[2], output_format="json")

Got stderr: Jun 17, 2025 3:50:58 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont <init>
Jun 17, 2025 3:50:59 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont <init>



In [39]:
dfs2[0]

{'extraction_method': 'stream',
 'top': 70.0,
 'left': 130.0,
 'width': 339.0,
 'height': 490.0,
 'right': 469.0,
 'bottom': 560.0,
 'data': [[{'top': 77.63,
    'left': 147.48,
    'width': 303.760009765625,
    'height': 5.590000152587891,
    'text': 'Accuracy of the replies obtained from the survey carried out by'}],
  [{'top': 90.29,
    'left': 186.06,
    'width': 223.85000610351562,
    'height': 5.590000152587891,
    'text': 'CARSA (2006, Total survey population N=6190)'}],
  [{'top': 111.47,
    'left': 285.3,
    'width': 42.08001708984375,
    'height': 4.449999809265137,
    'text': 'Number of'}],
  [{'top': 116.69,
    'left': 217.92,
    'width': 49.27000427246094,
    'height': 4.449999809265137,
    'text': 'Valid replies'}],
  [{'top': 121.85,
    'left': 155.28,
    'width': 306.4700012207031,
    'height': 4.449999809265137,
    'text': 'Country researchers per d (2) Accuracy Level'}],
  [{'top': 127.07,
    'left': 219.6,
    'width': 43.89999008178711,
    'heigh

In [None]:

# convert PDF into CSV file
tabula.convert_into("test.pdf", "output.csv", output_format="csv", pages='all')


### Camelot

In [81]:
pdf_path = PATH_DOCS_PASCALE / "intégrale CR chantier Saint Amand.pdf"

In [7]:
tables = camelot.read_pdf(pdf_path, pages=",".join(["1"]))

In [8]:
tables.export(PATH_TMP / "tmp.csv", f='csv', compress=False)

In [9]:
df = pd.read_csv(PATH_TMP / "tmp-page-4-table-1.csv")

In [10]:
df

Unnamed: 0,I – ORDRE DU JOUR DE LA PROCHAINE REUNION,Unnamed: 1
0,,Prochaine réunion : le 22 Mars 2011 : à la Cap...
1,,- \nOrganisation du chantier / OPC : \n(cid:1...


In [82]:
def camelot_read_pdf(pdf_path, pages : Union[int, List[int]], verbose : bool = True) -> List[pd.DataFrame]:

    if isinstance(pages, int):
        pages = [pages]
    
    log = print if verbose else (lambda *a, **b: None) 

    log("Reading pdf...")
    tables = camelot.read_pdf(pdf_path, pages=",".join([str(page) for page in pages]))
    base_path = PATH_TMP / "camelot"
    
    log("Exporting pdf...")
    tables.export(base_path / "tmp.csv", f='csv', compress=False) # json, excel, html, markdown, sqlite

    log("Reading results...")    
    dfs = []
    for page in pages:
        n = 1
        while True:  
            path = base_path / f"tmp-page-{page}-table-{n}.csv"
            if not path.exists():
                break
            dfs.append(pd.read_csv(path))
            n += 1

    log(f"{len(dfs)} tables has been extracted.")

    return dfs

In [83]:
dfs = camelot_read_pdf(pdf_path, pages=[4])

Reading pdf...
Exporting pdf...
Reading results...
4 tables has been extracted.


In [89]:
dfs[4]

IndexError: list index out of range

### Docling

In [24]:
from docling.document_converter import DocumentConverter

In [35]:
pdf_path

PosixPath('/home/secouss/repos/fh-industrie/notebooks/../tmp/cut_pdf/intégrale CR chantier Saint Amand.pdf_page_4-4.pdf')

In [26]:
converter = DocumentConverter()

In [64]:
result = converter.convert(pdf_path)

In [37]:
len(result.document.tables)

6

In [38]:
result.document.tables

[TableItem(self_ref='#/tables/0', parent=RefItem(cref='#/body'), children=[], content_layer=<ContentLayer.BODY: 'body'>, label=<DocItemLabel.TABLE: 'table'>, prov=[ProvenanceItem(page_no=1, bbox=BoundingBox(l=29.156007766723633, t=744.7177658081055, r=551.0186767578125, b=522.3646545410156, coord_origin=<CoordOrigin.BOTTOMLEFT: 'BOTTOMLEFT'>), charspan=(0, 0))], captions=[], references=[], footnotes=[], image=None, data=TableData(table_cells=[TableCell(bbox=BoundingBox(l=33.96, t=99.62900000000002, r=37.086, b=106.86500000000001, coord_origin=<CoordOrigin.TOPLEFT: 'TOPLEFT'>), row_span=1, col_span=3, start_row_offset_idx=0, end_row_offset_idx=1, start_col_offset_idx=0, end_col_offset_idx=3, text='I - ORDRE DUJOUR DE LA PROCHAINE REUNION', column_header=True, row_header=False, row_section=False), TableCell(bbox=BoundingBox(l=69.36, t=109.34900000000005, r=104.128, b=116.58500000000004, coord_origin=<CoordOrigin.TOPLEFT: 'TOPLEFT'>), row_span=1, col_span=2, start_row_offset_idx=1, end_ro

In [65]:
print(result.document.export_to_text())

Parameter `strict_text` has been deprecated and will be ignored.


## BUREAU DE CONTRÔLE

VERITAS

15/03/11 Emettre des observations sur la FT du DALOT

SPS

DEKRA

SSI

SSICOOR

15/03/11

Transmettre vos dates de disponibilité pour réunion SSI en présence des lots technique

## 6 - OBSERVATIONS PAR CORPS D'ÉTAT

## TOUS CORPS D'ETATS

15/03/11

Serveur FTP JAPAC

Afin de pouvoir vous connecter au serveur, Login FTP

Veuillez trouver votre nom d'utilisateur : 08_102_EAUX_plans octant

et votre mot de passe :   lu310111

Tenir compte des Majuscules et minuscules.

Afin de télécharger les éléments de l'affaire citée référence. en

Notre serveur FTP : ftp.octant-architecture.fr

Vous pouvez utiliser Internet Explorer et placer '' ftp.octant-architecture.fr'' dans la barre d'adresse.

Une fenêtre s'affichera et vous demandera votre nom d'utilisateur et votre mot de passe.

SOJA BET FLUIDES

IDEM PLANS FLUIDE:Les plans fluides sont disponibles sur serveur FTP :

nom d'utilisateur : 08_102_EAUX_plans SOJA

mot de passe : ma220211 Tenir compte des majuscules

In [66]:
with open(PATH_TMP / "test.md", "w") as fw:
    fw.write(result.document.export_to_markdown())

In [40]:
result.input.file

PosixPath('/home/secouss/repos/fh-industrie/notebooks/../tmp/cut_pdf/intégrale CR chantier Saint Amand.pdf_page_4-4.pdf')

In [54]:
idx = 4
for table_ix, table in enumerate(result.document.tables[idx:idx+1]):
    df: pd.DataFrame = table.export_to_dataframe()
    break

In [55]:
df

Unnamed: 0,BET STRUCTURE,BET STRUCTURE.1,SICRE
0,15/03/11,Transmettre au Gros œuvre les plans structure ...,
1,,Transmettre la liste prévisionnelle des plans EXE,
2,,Transmettre la descente de charge de la charpe...,


### Extraction images

In [14]:
pdf_path

'/home/secouss/repos/fh-industrie/notebooks/../docs/pascal/intégrale CR chantier Saint Amand.pdf_page_1-2.pdf'

In [11]:
reader = PdfReader(pdf_path)

page = reader.pages[0]
page.images

<pypdf._page.VirtualListImages at 0x756e44907fb0>

In [15]:
len(page.images)

671

In [None]:
for count, image_file_object in enumerate(page.images):
    with open("images/" + str(count) + image_file_object.name, "wb") as fp:
        fp.write(image_file_object.data)

### Extract CR number

In [6]:
pdf_path = integrale_path

print("Reading pages...")
with pymupdf.open(pdf_path) as doc:  # open document
    text_pages = [page.get_text() for page in doc]

Reading pages...


In [7]:
numbers_cr = {}
for idx, text in tqdm(enumerate(text_pages[:], start=1), total=len(text_pages), desc="Extracting num cr from text page"):
    nums = re.findall(r"CR( [A-Z]{3})? (N° )?(\d\d)", text)
    if len(nums) == 0:
        print(idx, nums)
        continue
    num = nums[0][2]
    if not all(num_iter == num for _, _, num_iter in nums):
        print(idx, nums)
        continue

    numbers_cr[idx] = nums[0][0], int(nums[0][2])

Extracting num cr from text page: 100%|██████████| 898/898 [00:00<00:00, 142056.46it/s]

78 [(' MOE', 'N° ', '09'), ('', '', '08')]
93 []
94 []
99 [(' MOE', 'N° ', '10'), ('', '', '08')]
114 []
120 [(' MOE', 'N° ', '11'), ('', '', '08')]
134 [(' MOE', 'N° ', '12'), ('', '', '08')]
153 [(' MOE', 'N° ', '13'), ('', '', '08')]
165 [(' MOE', 'N° ', '14'), ('', '', '08')]





In [8]:
pd.DataFrame({0 : [e for e, _ in numbers_cr.values()]}).groupby(0).size()

0
          9
 MOE    866
 OPC     14
dtype: int64

In [9]:
cr_begin_end = {}

num_cr = 0
begin = 0
for page, (_, num) in numbers_cr.items():
    if num == num_cr:
        continue
    cr_begin_end[num_cr] = (begin, page - 1)
    begin = page
    num_cr += 1
cr_begin_end.pop(0)
None

In [22]:
df_cr = pd.DataFrame([{"cr" : cr, "page_start" : p1, "page_end" : p2} for cr, (p1, p2) in cr_begin_end.items()])
df_cr

Unnamed: 0,cr,page_start,page_end
0,1,1,7
1,2,8,15
2,3,16,23
3,4,24,31
4,5,32,41
...,...,...,...
85,86,814,828
86,87,829,843
87,88,844,858
88,89,859,872


### Table Extractions

In [13]:
paths = [
    cut_pdf(integrale_path, pages=(begin, end))
    for begin, end in list(cr_begin_end.values())[:3]
]
paths

[PosixPath('/home/secouss/repos/fh-industrie/notebooks/../tmp/cut_pdf/intégrale CR chantier Saint Amand.pdf_page_1-7.pdf'),
 PosixPath('/home/secouss/repos/fh-industrie/notebooks/../tmp/cut_pdf/intégrale CR chantier Saint Amand.pdf_page_8-15.pdf'),
 PosixPath('/home/secouss/repos/fh-industrie/notebooks/../tmp/cut_pdf/intégrale CR chantier Saint Amand.pdf_page_16-23.pdf')]

In [198]:
dfs = camelot_read_pdf(paths[1], pages=[2, 3], verbose=True)

Reading pdf...
Exporting pdf...
Reading results...
2 tables has been extracted.


In [199]:
df = dfs[1]
cols = df.columns.copy()
df.columns = dfs[0].columns

df2 = pd.DataFrame({col : [e] for col, e in zip(df.columns, cols)})
lots2 = pd.concat([dfs[0], df2, df])

In [233]:
cols = ["LOTS N° :"]
lots1

Unnamed: 0,LOTS N° :,ENTREPRISES,Représentant,Téléphone,Portable,Fax,Email,P,C
0,Lot 1 \nFONDATIONS \nPROFONDES,SONDEFOR \nLa Sapinette - BP09 \n86800 SAINT J...,M. PETIT,05.49.56.59.49,06 12 42 75 03,05.49.56.59.83,gregoire.petit@sondefor.fr,,X
1,Lot 2 \nTERRASSEMENT \nFONDATIONS - GO,TOMMASINI \nRue de la Fontaine - BP \n99 \n596...,M. VANDENBORRE,03.27.53.86.00,06 88 05 98 11,03.27.67.35.11,contact-construction@tommasini.fr \nfvandenbor...,,X
2,BET STRUCTURES,,,,,,,,
3,Lot 3 \nTRAITEMENT \nFACADES,TOMMASINI \nRue de la Fontaine - BP \n99 \n596...,M. VANDENBORRE,03.27.53.86.00,06 88 05 98 11,03.27.67.35.11,contact-construction@tommasini.fr \nfvandenbor...,,
4,Lot 4 \nCHARPENTE MIXTE \nLAMELLE COLLE,Bois Sciés \nManufacturés \nRue de l'Energie \...,V. DECARPIGNY \nS. MORGIN,03.20.39.28.28,06 82 75 55,03.20.39.53.51,contact@b-s-m.fr,,
5,Lot 5 \nCOUVERTURE \nETANCHEITE,STEREC NORD \nPICARDIE \nParc d'Activités du G...,C. DEMEURE,03.21.13.65.70,06 09 79 96,03.21.13.65.79 \n01 69 46 16 60,contact@sterec-nord.com \nclaude-demeure@wanad...,,
6,Lot 6 \nMEN. \nEXTERIEURES \nINTERIEURES ALU,,,,,,,,
7,Lot 7 \nPLOMBERIE \nSANITAIRES,,,,,,,,
8,Lot 8 \nTRAITEMENT D'EAU \nANIMATIONS \nAQUATI...,ETDE/IMATEC \n156 Avenue H. \nBOUCHER \nBP 300...,P.PETIT \nA.BULTEL,03 57 63 09 41,06 11 95 48 98,03 80 08 34 81,n.verdier@etde.fr \np.petit@etde.fr,,
9,Lot 9 \nTRAITEMENT D'AIR \nCHAUFFAGE,,,03 57 63 09 41,,03 80 08 34 81,n.verdier@etde.fr \np.petit@etde.fr,,


In [216]:
dfs = camelot_read_pdf(paths[1], pages=[5], verbose=True)

Reading pdf...
Exporting pdf...
Reading results...
5 tables has been extracted.


In [223]:
dfs[4]

Unnamed: 0,Lot 4 – CHARPENTE MIXTE LAMELLE COLLE \nBSM,Unnamed: 1
0,15/03/11,confirmez les hypothèses d’étude de SICRE quan...
1,,Transmettre au OCTANT OPC les fiches techniqu...
2,,Transmettre les documents selon liste des docu...
3,,Organisation de chantier selon directives de l...
4,,


In [234]:
text = text_pages[11]

In [235]:
print(text)

Communauté d’Agglomération des Portes du Hainaut – Construction d’un Centre Aquatique à St Amand Les Eaux – CR MOE N° 02 du   22/03/11 
 Page 5 sur 8 
 
 
BUREAU DE CONTRÔLE 
VERITAS
15/03/11 Emettre des observations sur la FT du DALOT 
22/03/11
Vous êtes invité à la réunion qui se tiendra le  
 
 
 
SPS 
DEKRA
 
 
 
 
 
 
 
SSI 
SSICOOR
15/03/11 Transmettre vos dates de disponibilité pour réunion SSI en présence des lots technique  A FAIRE 
 
 
 
 
 
6 – OBSERVATIONS PAR CORPS D'ÉTAT 
 
TOUS CORPS D’ETATS 
15/03/11 Serveur FTP JAPAC  
Afin de pouvoir vous connecter au serveur, Login FTP 
Veuillez trouver votre nom d'utilisateur : 08_102_EAUX_plans octant   
et votre mot de passe :   lu310111 
Tenir compte des Majuscules et minuscules. 
Afin de télécharger les éléments de l'affaire citée en référence. 
Notre serveur FTP : ftp.octant-architecture.fr 
Vous pouvez utiliser Internet Explorer et placer ‘’ ftp.octant-architecture.fr‘’ dans la barre d’adresse. 
Une fenêtre s’affichera et vous

### Table extraction with text

#### Split CR into tables

In [697]:
def is_line_table_start(line: str) -> bool:
    if line.startswith("Lot"):
        return True

    other_tables = [
        "I – ORDRE DU JOUR DE LA PROCHAINE REUNION",
        "2 – OBSERVATIONS GENERALES",
        "3 – MAITRISE D'OUVRAGE",
        "4 – MAITRISE D'ŒUVRE",
        "OPC",
        "BET STRUCTURE",
        "BET FLUIDES",
        "BET VRD & PAYSAGES",
        "BET ACOUSTIQUE",
        "BUREAU DE CONTRÔLE",
        "SPS",
        "SSI",
        "6 – OBSERVATIONS PAR CORPS D'ÉTAT",
        "TOUS CORPS D’ETATS",
        "VI – ANNEXES"
    ]
    return any(line.startswith(e + " ") for e in other_tables)

In [698]:
tables: List[dict] = []

for _, row in list(df_cr.iterrows())[:]:
    cr, start, end = row["cr"], row["page_start"], row["page_end"]
    lst = []
    save = (None, "")
    
    for page in range(start + 3, end + 1):
        
        text = text_pages[page - 1]
        text = re.sub(pattern=r"Communauté d’Agglomération des Portes du Hainaut.*\n Page \d* sur \d*", repl="", string=text)
        
        for line in [e for e in text.split("\n")]:
            if is_line_table_start(line):
                # store the buffer
                lst.append((save[0], page, save[1]))
                # reset the buffer
                save = (page, line)
            else:
                # fill the buffer
                save = (save[0], save[1] + "\n" + line)

    lst.append((save[0], page, save[1]))
    save = (None, "")

    tables.extend(
        {"cr": cr, "page_table_start": page_start, "page_table_end" : page_end, "text": text}
        for page_start, page_end, text in lst
        if is_line_table_start(text)
    )

In [699]:
df_tables_row = pd.DataFrame(tables)

In [700]:
df_tables_row.groupby("cr").size()

cr
1     40
2     40
3     40
4     40
5     40
      ..
86    40
87    40
88    40
89    40
90    40
Length: 65, dtype: int64

In [701]:
if not (df_tables_row.groupby("cr").size() == 40).all():
    raise Exception("Chaque CR devrait avoir le même numéro de tableau extraits")

Exception: Chaque CR devrait avoir le même numéro de tableau extraits

#### Split tables into cells

In [702]:
def create_action_table_from_raw_text(cr : int, page_start : int, page_end : int, text : str) -> List[dict]:
    lines = text.split("\n")
    title = lines[0].strip(" ")
    company = lines[1]

    cells : List[Tuple[str, str]] = []
    buffer = ""
    date = None

    for line in lines[2:]:
        if line.strip(" ") == "": # double saut de ligne --> deux actions différentes
            
            if buffer.strip(" ") != "":
                cells.append((date, buffer))
            buffer = ""
        
        elif re.match(r"\d\d/\d\d/\d\d( |$)", line): # matcher une date -> fin d'une action et début d'une nouvelle
            # stocker action
            if buffer.strip(" ") != "":
                cells.append((date, buffer))
            
            # extraire la date
            date_str = line[:8]
            date = datetime.date(year=2000 + int(date_str[-2:]), month=int(date_str[3:5]), day=int(date_str[:2]))
            
            # extraire l'action
            text_cell = line[8:].strip(" ")

            # stocker dans le buffer
            buffer = text_cell
        else: # saut à la ligne sans date mais avec du texte --> pas de nouvelles actions

            if len(buffer) > 0 and buffer.strip(" ") != "":
                buffer += "\n"
            
            buffer += line

    return [{"cr" : cr, "page_table_start" : page_start, "page_table_end" : page_end, "title" : title, "company" : company, "date" : date, "cell" : cell} for date, cell in cells]

In [703]:
data = []
for _, row in tqdm(df_tables_row.iterrows(), total=len(df_tables_row)):
    e = create_action_table_from_raw_text(*row)
    data.extend(e)
df_tables = pd.DataFrame(data)

  0%|          | 0/2545 [00:00<?, ?it/s]

100%|██████████| 2545/2545 [00:00<00:00, 14881.65it/s]


In [745]:
print(text_pages[203])

IndexError: list index out of range

In [746]:
df_tables[df_tables["title"] == "BET STRUCTURE"]

Unnamed: 0,cr,page_table_start,page_table_end,title,company,date,cell
11,1,4,4,BET STRUCTURE,SICRE,2011-03-15,Transmettre au Gros œuvre les plans structure ...
12,1,4,4,BET STRUCTURE,SICRE,2011-03-15,Transmettre la liste prévisionnelle des plans ...
13,1,4,4,BET STRUCTURE,SICRE,2011-03-15,Transmettre la descente de charge de la charpe...
107,2,11,11,BET STRUCTURE,SICRE,2011-03-15,Transmettre au Gros œuvre les plans structure ...
108,2,11,11,BET STRUCTURE,SICRE,2011-03-15,Transmettre la liste prévisionnelle des plans ...
...,...,...,...,...,...,...,...
12263,81,743,743,BET STRUCTURE,SICRE,2013-03-21,Pourriez vous nous indiquer pourquoi les châss...
12605,82,758,758,BET STRUCTURE,SICRE,2013-03-21,Pourriez vous nous indiquer pourquoi les châss...
12899,83,772,772,BET STRUCTURE,SICRE,2013-03-21,Pourriez vous nous indiquer pourquoi les châss...
13181,84,787,787,BET STRUCTURE,SICRE,2013-03-21,Pourriez vous nous indiquer pourquoi les châss...


In [747]:
df = df_tables[(df_tables["cr"] == 4) & df_tables["title"].str.startswith("Lot 2 ")]
df

Unnamed: 0,cr,page_table_start,page_table_end,title,company,date,cell
365,4,28,29,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-03-15,Transmettre les documents selon liste des docu...
366,4,28,29,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-03-15,Constat d’huissier des avoisinants à faire ava...
367,4,28,29,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-03-22,Vous annoncez installer la base vie le 2 mai 1...
368,4,28,29,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-04-05,Vous devez les installations électrique selon ...
369,4,28,29,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-04-05,EXTRAIT du CCAP
370,4,28,29,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-04-05,Suite à nos demandes vous fournissez oralement...
371,4,28,29,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-04-05,"Suite à votre proposition, nous refusons les g..."


#### Tables of a project into compressed data

In [749]:
df = df_tables[df_tables["title"].str.startswith("Lot 2 ")]
len(df)

1532

In [751]:
df.head(5)

Unnamed: 0,cr,page_table_start,page_table_end,title,company,date,cell
27,1,5,5,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-03-15,Transmettre au OCTANT OPC les fiches techniqu...
28,1,5,5,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-03-15,Transmettre les documents selon liste des docu...
29,1,5,5,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-03-15,Organisation de chantier selon directives de l...
30,1,5,5,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-03-15,Constat d’huissier des avoisinants à faire ava...
132,2,12,12,Lot 2 – TERRASSEMENTS – FONDATIONS – GROS ŒUVRE,TOMASSINI,2011-03-15,Transmettre au OCTANT OPC les fiches techniqu...


In [752]:
df2 = df.groupby("cell").aggregate({"cr" : "unique", "page_table_start" : "unique"}).reset_index("cell")
df2["len"] = df2.reset_index()["cell"].apply(lambda x : len(str(x))).tolist()
print(len(df2))
df2.set_index("cell")

487


Unnamed: 0_level_0,cr,page_table_start,len
cell,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Mettre en œuvre les réservations pour l’encastrement des douches de ETDE,[25],[293],74
Mettre en œuvre les réservations pour l’encastrement des douches d’ETDE \nA FAIRE,[26],[304],82
: 105 Jours de retards à 500€ / JRS = 52 500€ à retenir sur la prochaine situation,"[21, 22]","[251, 261]",83
: A transmettre au BC pour avis,[24],[284],31
: Annonce transmission sous peu,"[20, 23, 24]","[241, 273, 284]",31
...,...,...,...
traiter CF sur JD étage : ceci est une demande du BC : merci de lui répondre,"[87, 88, 89, 90]","[834, 849, 864, 878]",77
"• \nPlan ST101 A PL HAUT REZ DE JARDIN : ZONE BASSIN SPORTIF 01/07/2011 04/07/2011 OB \nFournir l'avis technique des panneaux préfabriqués fixés sur poutres voiles, pour avis","[17, 18, 19]","[206, 217, 229]",173
"• \nPlan ST222 0 PL HT REZ DE JARDIN ZONE BASSIN LUDIQUE PLAGES \nARMATURES INFERIEURES \n11/07/2011 13/07/2011 OB \nFournir avis technique favorable du CSTB des goujons utilisés, pour avis","[17, 18, 19]","[206, 217, 229]",186
"• \nPlan ST228 0 PL HT REZ DE CHAUSSEE ETAGE : ZONE BASSIN LUDIQUE \nELEVATIONS VOILES \n11/07/2011 13/07/2011 OB \nFournir avis technique favorable du CSTB des goujons utilisés, pour avis","[17, 18, 19]","[206, 217, 229]",185


In [753]:
scores = []
for idx1, cell1 in enumerate(df2["cell"]):
    for idx2, cell2 in enumerate(df2["cell"].iloc[idx1+1:], start=idx1+1):
        score = Levenshtein.distance(cell1, cell2)
        scores.append({'idx1': idx1, 'idx2': idx2, 'score': score})
df_scores = pd.DataFrame(scores)
df_scores

Unnamed: 0,idx1,idx2,score
0,0,1,11
1,0,2,67
2,0,3,59
3,0,4,57
4,0,5,69
...,...,...,...
118336,483,485,87
118337,483,486,110
118338,484,485,37
118339,484,486,124


In [754]:
# make groups of line to merged
df_scores_filtred = df_scores[df_scores["score"] <= 5]
G = nx.from_edgelist(edgelist=zip(df_scores_filtred["idx1"], df_scores_filtred["idx2"]))

print(f"{len(G.nodes)} nodes to merge")
# add thos that are not in the levenshtein distance 
for node in range(len(df2)):
    if node not in G.nodes:
        G.add_node(node)

groups_to_merged = list(nx.connected_components(G))
groups_to_merged

172 nodes to merge


[{20, 21, 22},
 {23, 24},
 {25,
  26,
  27,
  28,
  29,
  30,
  31,
  32,
  33,
  34,
  35,
  36,
  37,
  38,
  39,
  40,
  41,
  42,
  43,
  44,
  45,
  46,
  47,
  48,
  49,
  50,
  51,
  52},
 {53, 54},
 {55, 56},
 {63, 64},
 {72, 73},
 {81, 82},
 {83, 84},
 {86, 87},
 {89, 90},
 {101, 102},
 {105, 106},
 {108, 109},
 {112, 113},
 {119, 120},
 {126, 127},
 {140, 141},
 {143, 145},
 {147, 150},
 {153, 154},
 {161, 162},
 {171, 172},
 {174, 176},
 {181, 182},
 {185, 186},
 {197, 199},
 {207, 208},
 {232,
  233,
  234,
  235,
  236,
  237,
  238,
  239,
  240,
  241,
  242,
  243,
  244,
  245,
  246,
  247},
 {249, 250},
 {251, 252},
 {253, 254},
 {260, 261},
 {269, 270},
 {279, 280},
 {284, 285},
 {288, 289},
 {292, 293, 294},
 {295, 297},
 {301, 302},
 {305, 306},
 {316, 317},
 {326, 329},
 {327, 328},
 {341, 342},
 {349, 350},
 {360, 361},
 {374, 375},
 {377, 378},
 {382, 383, 384, 386},
 {387, 388, 389, 390},
 {394, 395},
 {399, 400},
 {401, 402},
 {410, 411},
 {413, 414},
 {429, 

In [755]:
df2["group"] = None
for id_group, group in enumerate(groups_to_merged):
    df2.loc[list(group), "group"] = id_group

In [756]:
# Define custom aggregation
def custom_agg(series):
    
    if isinstance(series.iloc[0], str) or isinstance(series.iloc[0], np.int64):
        return series.iloc[0]
    
    if isinstance(series.iloc[0], np.ndarray):
            return sum([e.tolist() for e in series], [])
    
    raise Exception(f"Not handled (type:{type(series.iloc[0])})")

# Group and apply aggregation
df_compressed_info = df2.groupby('group').agg(custom_agg)

print(len(df_compressed_info))
df_compressed_info.set_index("cell")

378


Unnamed: 0_level_0,cr,page_table_start,len
cell,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
"Chiffrer la f&p d’un fourreau de fort diamètre, (160 / 200), pour le passage du réseau AEP depuis le parvis jusqu’au local de tri selectifs, \nvous devrez respecter un rayon de courbure homogène pour le passage du PE par NOREADE","[8, 10, 11, 12, 13, 14, 9]","[68, 105, 121, 137, 155, 167, 84]",228
"Chiffrer les gaines maçonnées de TA au sous sol en moins value, IMATEC chiffrera ces gaines en galva","[12, 13, 14, 15, 16, 17]","[137, 155, 167, 178, 190, 206]",101
Communauté d’Agglomération des Portes du Hainaut – Construction d’un Centre Aquatique à St Amand Les Eaux – CR MOE N° 59 \n du 10/01/13,"[59, 60, 61, 63, 64, 66, 67, 68, 69, 70, 71, 7...","[429, 445, 461, 489, 502, 516, 529, 542, 555, ...",135
"Compte tenu que vous avez la charge du gardiennage du chantier durant toute la durée des travaux, veuillez faire le necessaire pour \nsécuriser le site","[59, 60, 61, 62]","[429, 445, 461, 475]",151
"Conformément à votre OS n°10, toute cheminée de coulage non supprimée entrainera la dépose immédiate du voile","[22, 21]","[261, 251]",110
...,...,...,...
traiter CF sur JD étage : ceci est une demande du BC : merci de lui répondre,"[87, 88, 89, 90]","[834, 849, 864, 878]",77
"• \nPlan ST101 A PL HAUT REZ DE JARDIN : ZONE BASSIN SPORTIF 01/07/2011 04/07/2011 OB \nFournir l'avis technique des panneaux préfabriqués fixés sur poutres voiles, pour avis","[17, 18, 19]","[206, 217, 229]",173
"• \nPlan ST222 0 PL HT REZ DE JARDIN ZONE BASSIN LUDIQUE PLAGES \nARMATURES INFERIEURES \n11/07/2011 13/07/2011 OB \nFournir avis technique favorable du CSTB des goujons utilisés, pour avis","[17, 18, 19]","[206, 217, 229]",186
"• \nPlan ST228 0 PL HT REZ DE CHAUSSEE ETAGE : ZONE BASSIN LUDIQUE \nELEVATIONS VOILES \n11/07/2011 13/07/2011 OB \nFournir avis technique favorable du CSTB des goujons utilisés, pour avis","[17, 18, 19]","[206, 217, 229]",185


## RAG

### POC

In [721]:
from sentence_transformers import SentenceTransformer

In [722]:
model : SentenceTransformer = SentenceTransformer("BAAI/bge-m3")

In [723]:
sentences = [
    "That is a happy person",
    "That is a happy dog",
    "That is a very happy person",
    "Today is a sunny day"
]
embeddings = model.encode(sentences)

similarities = model.similarity(embeddings, embeddings)
print(similarities)
# [4, 4]

tensor([[1.0000, 0.8589, 0.9666, 0.7510],
        [0.8589, 1.0000, 0.8252, 0.6802],
        [0.9666, 0.8252, 1.0000, 0.7296],
        [0.7510, 0.6802, 0.7296, 1.0000]])


In [724]:
pdf_path

PosixPath('/home/secouss/repos/fh-industrie/notebooks/../tmp/cut_pdf/intégrale CR chantier Saint Amand.pdf_page_1-7.pdf')

In [725]:
print("Reading pages...")
with pymupdf.open(pdf_path) as doc:  # open document
    text_pages = [page.get_text() for page in doc]

Reading pages...


In [726]:
[len(e) for e in text_pages]

[3242, 3575, 1293, 3751, 4072, 3179, 3216]

In [727]:
chunk_type = "fixed_size"

if chunk_type == "page":
    chunks = text_pages
    embeddings_pages = model.encode(chunks)
elif chunk_type == "fixed_size":
    size = 512
    chunks = [text[size*i:size*(i+1)] for text in text_pages for i in range(len(text) // size + 1)]
    embeddings_fixed_size = model.encode(chunks)

print(f"Chunk type : {chunk_type} ; Number of chunks : {len(chunks)}")

Chunk type : fixed_size ; Number of chunks : 47


In [729]:
print(f"{sum([len(s) for s in chunks])} chars in all the chunks")

22328 chars in all the chunks


In [66]:
embeddings = embeddings_fixed_size

In [68]:
import matplotlib.pyplot as plt

In [67]:
similarities = model.similarity(embeddings, embeddings)
print(similarities)

tensor([[1.0000, 0.6502, 0.6198,  ..., 0.4345, 0.5019, 0.4427],
        [0.6502, 1.0000, 0.7108,  ..., 0.4838, 0.5025, 0.4287],
        [0.6198, 0.7108, 1.0000,  ..., 0.4852, 0.5075, 0.4651],
        ...,
        [0.4345, 0.4838, 0.4852,  ..., 1.0000, 0.7093, 0.4851],
        [0.5019, 0.5025, 0.5075,  ..., 0.7093, 1.0000, 0.4858],
        [0.4427, 0.4287, 0.4651,  ..., 0.4851, 0.4858, 1.0000]])


In [80]:
print(chunks[28])
print("-" * 20)
print("-" * 20)
print("-" * 20)
print(chunks[31])



 
Nous rappelons à l’ensemble des entreprises qu’elles doivent nous remettre leurs réservations dans les meilleurs délais. L’OPC établira un 
planning de remise des documents pendant la phase étude. 
 
Intervention sur site pour réalisation des tâches selon directives de l’OPC 
 
 
 
Lot 1 –FONDATIONS PROFONDES 
SONDEFOR
15/03/11
Transmettre au OCTANT  OPC les fiches technique des matériaux et matériels que vous souhaitez mettre en œuvre pour observation / copie 
BC 
 
Transmettre les documents selon liste
--------------------
--------------------
--------------------
te dernière reçue 
Veuillez nous produire rapidement les différents documents (copie BC), et échantillons demandés lors de la réunion de lancement 
 
Transmettre au OCTANT  OPC les fiches technique des matériaux et matériels que vous souhaitez mettre en œuvre pour observation / copie 
BC 
 
Transmettre les documents selon liste des documents à transmettre par les entreprises 
 
Organisation de chantier selon directives d

In [72]:
import pandas as pd
import numpy as np

corr = pd.DataFrame(similarities)
corr.style.background_gradient(cmap='coolwarm')

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46
0,1.0,0.650217,0.619751,0.489503,0.535902,0.526354,0.42088,0.79988,0.468832,0.534852,0.557294,0.481002,0.512452,0.474274,0.816696,0.503396,0.492551,0.812621,0.441534,0.378252,0.403892,0.591207,0.445086,0.406996,0.421738,0.753732,0.443066,0.436028,0.421178,0.420034,0.437848,0.454574,0.386816,0.804205,0.418605,0.356071,0.402531,0.454948,0.444231,0.321739,0.749899,0.472638,0.417959,0.459358,0.434504,0.501862,0.442657
1,0.650217,1.0,0.710768,0.626787,0.597522,0.573285,0.587491,0.75116,0.498691,0.595054,0.613261,0.565049,0.566999,0.57934,0.709549,0.624379,0.493216,0.639677,0.407245,0.415768,0.42151,0.555154,0.503925,0.449659,0.417117,0.633799,0.53949,0.50338,0.443133,0.461039,0.462017,0.46902,0.440489,0.596503,0.443885,0.443347,0.434782,0.477417,0.473651,0.332,0.634852,0.494921,0.479214,0.483553,0.483788,0.502546,0.428697
2,0.619751,0.710768,1.0,0.724551,0.584888,0.657216,0.578816,0.67392,0.540864,0.610607,0.594208,0.551519,0.606473,0.618383,0.700145,0.670091,0.448216,0.610096,0.490928,0.474768,0.465766,0.509326,0.448474,0.522997,0.4657,0.686743,0.519815,0.515772,0.48829,0.48625,0.481088,0.476916,0.467214,0.577094,0.486921,0.455824,0.45532,0.502034,0.482215,0.374172,0.603266,0.516488,0.463571,0.532534,0.485192,0.50751,0.465096
3,0.489503,0.626787,0.724551,1.0,0.560932,0.673526,0.590407,0.603221,0.57469,0.690491,0.636937,0.620964,0.635373,0.594621,0.625445,0.680597,0.441548,0.473999,0.517387,0.430834,0.372044,0.422658,0.440749,0.517141,0.446436,0.535046,0.439561,0.437142,0.487161,0.434441,0.496596,0.46804,0.479026,0.517725,0.481438,0.504478,0.48396,0.475634,0.459414,0.424424,0.505606,0.481683,0.439113,0.47585,0.435211,0.444948,0.447997
4,0.535902,0.597522,0.584888,0.560932,1.0,0.637445,0.543174,0.581049,0.606224,0.586104,0.590016,0.59984,0.558709,0.588891,0.570254,0.561495,0.434142,0.50909,0.443216,0.412736,0.477486,0.462743,0.610024,0.490827,0.407597,0.476256,0.624624,0.545718,0.556149,0.538612,0.554769,0.557365,0.558868,0.506079,0.542928,0.529123,0.545471,0.588976,0.563904,0.377197,0.588986,0.551524,0.574091,0.568738,0.536188,0.517946,0.441913
5,0.526354,0.573285,0.657216,0.673526,0.637445,1.0,0.601002,0.610135,0.623803,0.62159,0.629556,0.673916,0.644485,0.613224,0.627411,0.663729,0.35878,0.472054,0.491266,0.384326,0.439853,0.450736,0.445983,0.544041,0.499132,0.509323,0.474509,0.453598,0.439345,0.426715,0.467697,0.439728,0.485564,0.617026,0.535272,0.512223,0.529703,0.554158,0.446869,0.389049,0.515538,0.484337,0.443003,0.460428,0.466561,0.461763,0.399934
6,0.42088,0.587491,0.578816,0.590407,0.543174,0.601002,1.0,0.519199,0.517632,0.541782,0.580255,0.630012,0.596913,0.516297,0.562411,0.587828,0.372559,0.389428,0.362382,0.354319,0.395682,0.445458,0.357376,0.423277,0.389896,0.416631,0.402029,0.397738,0.365331,0.351734,0.353036,0.379907,0.324117,0.436062,0.340926,0.379135,0.334889,0.391975,0.369232,0.374003,0.408843,0.383754,0.361841,0.367599,0.396805,0.426924,0.369303
7,0.79988,0.75116,0.67392,0.603221,0.581049,0.610135,0.519199,1.0,0.600537,0.612143,0.659832,0.562562,0.575148,0.586628,0.847728,0.633466,0.472432,0.731897,0.464312,0.437664,0.431051,0.558739,0.471547,0.481215,0.436297,0.769164,0.489649,0.480053,0.519795,0.486739,0.530671,0.496877,0.448357,0.799792,0.476443,0.42279,0.478402,0.524343,0.479894,0.357332,0.760037,0.543176,0.465131,0.516003,0.486627,0.575659,0.432678
8,0.468832,0.498691,0.540864,0.57469,0.606224,0.623803,0.517632,0.600537,1.0,0.625629,0.656611,0.636982,0.580813,0.645158,0.557696,0.583125,0.433674,0.461195,0.537798,0.543138,0.429305,0.472197,0.488019,0.556652,0.433865,0.496855,0.46,0.451847,0.520803,0.554588,0.635609,0.514494,0.483903,0.550667,0.514772,0.508553,0.537574,0.546588,0.49782,0.411683,0.543782,0.540363,0.482628,0.491869,0.496581,0.519782,0.443489
9,0.534852,0.595054,0.610607,0.690491,0.586104,0.62159,0.541782,0.612143,0.625629,1.0,0.697978,0.663813,0.620083,0.609801,0.646622,0.626739,0.444829,0.50591,0.493585,0.456826,0.435112,0.464914,0.482722,0.520233,0.464627,0.526434,0.41161,0.41785,0.461677,0.477698,0.612729,0.548048,0.495964,0.593273,0.504997,0.534513,0.529622,0.531338,0.516379,0.393894,0.574339,0.548995,0.501279,0.527195,0.456343,0.501929,0.463923


In [185]:
question = "Quelles sont tous les numéros de télphone du lot 21 ?"
question = "Quelles sont les représentants du bureau de contrôle ?"
question = "Ou et quand aura lieu la prochaine réunion de chantier ?"
question = "Quelles sont les actions faites du lot 1 FONDATIONS PROFONDES ?"
embeddings_question = model.encode(question)

In [186]:
ss = model.similarity(embeddings, embeddings_question)
lst = list(enumerate([l[0].item() for l in ss], start=0))

In [187]:
print(chunks[28])


 
Nous rappelons à l’ensemble des entreprises qu’elles doivent nous remettre leurs réservations dans les meilleurs délais. L’OPC établira un 
planning de remise des documents pendant la phase étude. 
 
Intervention sur site pour réalisation des tâches selon directives de l’OPC 
 
 
 
Lot 1 –FONDATIONS PROFONDES 
SONDEFOR
15/03/11
Transmettre au OCTANT  OPC les fiches technique des matériaux et matériels que vous souhaitez mettre en œuvre pour observation / copie 
BC 
 
Transmettre les documents selon liste


In [188]:
lst = sorted(lst, key=lambda x : x[1], reverse=True)
print(lst[:10])

best_chunks = [chunks[idx] for idx, _ in lst]

for idx, score in lst[:4]:
    print("-" * 20)
    print(f"Score : {score} ; index : {idx}")
    print(chunks[idx])

[(7, 0.4686364531517029), (28, 0.3671760559082031), (8, 0.35955774784088135), (45, 0.3583976626396179), (33, 0.3577069342136383), (30, 0.3514929413795471), (41, 0.3440454602241516), (10, 0.33296528458595276), (25, 0.3303438723087311), (23, 0.3300146162509918)]
--------------------
Score : 0.4686364531517029 ; index : 7
Communauté d’Agglomération des Portes du Hainaut – Construction d’un Centre Aquatique à St Amand Les Eaux – CR MOE N° 01 du   15/03/11 
 Page 2 sur 7 
 
LOTS N° : 
ENTREPRISES 
Représentant 
Téléphone 
Portable 
Fax 
Email 
P
C
 
Lot 1 
SONDEFOR 
M. PETIT 
05.49.56.59.49 
06 12 42 75 03 
05.49.56.59.83 
gregoire.petit@sondefor.fr 
 
X
 
FONDATIONS 
PROFONDES 
La Sapinette - BP09 
86800 SAINT JULIEN 
L'ARS 
  
  
  
  
  
 
Lot 2 
TOMMASINI 
M. VANDENBORRE 
03.27.53.86.00 
06 88 05 98 11 
03.27.67.35.11 
con
--------------------
Score : 0.3671760559082031 ; index : 28

 
Nous rappelons à l’ensemble des entreprises qu’elles doivent nous remettre leurs réservations dans les

In [189]:
api_key = "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"
claude = ClaudeClient(api_key)

In [191]:
m = f"""Utilisez les informations suivantes :
{'\n\n--------------------\n\n'.join(best_chunks[:3])}

pour répondre à cette question :
{question}
"""
print(m)

Utilisez les informations suivantes :
Communauté d’Agglomération des Portes du Hainaut – Construction d’un Centre Aquatique à St Amand Les Eaux – CR MOE N° 01 du   15/03/11 
 Page 2 sur 7 
 
LOTS N° : 
ENTREPRISES 
Représentant 
Téléphone 
Portable 
Fax 
Email 
P
C
 
Lot 1 
SONDEFOR 
M. PETIT 
05.49.56.59.49 
06 12 42 75 03 
05.49.56.59.83 
gregoire.petit@sondefor.fr 
 
X
 
FONDATIONS 
PROFONDES 
La Sapinette - BP09 
86800 SAINT JULIEN 
L'ARS 
  
  
  
  
  
 
Lot 2 
TOMMASINI 
M. VANDENBORRE 
03.27.53.86.00 
06 88 05 98 11 
03.27.67.35.11 
con

--------------------


 
Nous rappelons à l’ensemble des entreprises qu’elles doivent nous remettre leurs réservations dans les meilleurs délais. L’OPC établira un 
planning de remise des documents pendant la phase étude. 
 
Intervention sur site pour réalisation des tâches selon directives de l’OPC 
 
 
 
Lot 1 –FONDATIONS PROFONDES 
SONDEFOR
15/03/11
Transmettre au OCTANT  OPC les fiches technique des matériaux et matériels que vous souhaitez

In [192]:
messages = [
    {"role": "user", "content": m}
]
result = claude.create_message(messages=messages)

In [193]:
print(result["content"][0]["text"])

D'après les informations fournies, les actions faites du lot 1 FONDATIONS PROFONDES (entreprise SONDEFOR) sont :

1. Transmettre au OCTANT OPC les fiches techniques des matériaux et matériels que l'entreprise souhaite mettre en œuvre pour observation/copie BC.

2. Transmettre les documents selon liste.

Ces actions sont mentionnées dans la section concernant le lot 1 avec la date du 15/03/11.


### On compressed CRs

In [757]:
df = df_compressed_info.copy()
df

Unnamed: 0_level_0,cell,cr,page_table_start,len
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Chiffrer la f&p d’un fourreau de fort diamètre...,"[8, 10, 11, 12, 13, 14, 9]","[68, 105, 121, 137, 155, 167, 84]",228
1,Chiffrer les gaines maçonnées de TA au sous so...,"[12, 13, 14, 15, 16, 17]","[137, 155, 167, 178, 190, 206]",101
2,Communauté d’Agglomération des Portes du Haina...,"[59, 60, 61, 63, 64, 66, 67, 68, 69, 70, 71, 7...","[429, 445, 461, 489, 502, 516, 529, 542, 555, ...",135
3,Compte tenu que vous avez la charge du gardien...,"[59, 60, 61, 62]","[429, 445, 461, 475]",151
4,"Conformément à votre OS n°10, toute cheminée d...","[22, 21]","[261, 251]",110
...,...,...,...,...
373,traiter CF sur JD étage : ceci est une demande...,"[87, 88, 89, 90]","[834, 849, 864, 878]",77
374,• \nPlan ST101 A PL HAUT REZ DE JARDIN : ZONE ...,"[17, 18, 19]","[206, 217, 229]",173
375,• \nPlan ST222 0 PL HT REZ DE JARDIN ZONE BASS...,"[17, 18, 19]","[206, 217, 229]",186
376,• \nPlan ST228 0 PL HT REZ DE CHAUSSEE ETAGE :...,"[17, 18, 19]","[206, 217, 229]",185


In [758]:
df["min_cr"] = df["cr"].apply(min)
df["max_cr"] = df["cr"].apply(max)
df

Unnamed: 0_level_0,cell,cr,page_table_start,len,min_cr,max_cr
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,Chiffrer la f&p d’un fourreau de fort diamètre...,"[8, 10, 11, 12, 13, 14, 9]","[68, 105, 121, 137, 155, 167, 84]",228,8,14
1,Chiffrer les gaines maçonnées de TA au sous so...,"[12, 13, 14, 15, 16, 17]","[137, 155, 167, 178, 190, 206]",101,12,17
2,Communauté d’Agglomération des Portes du Haina...,"[59, 60, 61, 63, 64, 66, 67, 68, 69, 70, 71, 7...","[429, 445, 461, 489, 502, 516, 529, 542, 555, ...",135,59,89
3,Compte tenu que vous avez la charge du gardien...,"[59, 60, 61, 62]","[429, 445, 461, 475]",151,59,62
4,"Conformément à votre OS n°10, toute cheminée d...","[22, 21]","[261, 251]",110,21,22
...,...,...,...,...,...,...
373,traiter CF sur JD étage : ceci est une demande...,"[87, 88, 89, 90]","[834, 849, 864, 878]",77,87,90
374,• \nPlan ST101 A PL HAUT REZ DE JARDIN : ZONE ...,"[17, 18, 19]","[206, 217, 229]",173,17,19
375,• \nPlan ST222 0 PL HT REZ DE JARDIN ZONE BASS...,"[17, 18, 19]","[206, 217, 229]",186,17,19
376,• \nPlan ST228 0 PL HT REZ DE CHAUSSEE ETAGE :...,"[17, 18, 19]","[206, 217, 229]",185,17,19


In [759]:
df[df["max_cr"] <= 20]["cell"].apply(len).sum()

np.int64(15829)

In [762]:
df2 = df[df["max_cr"] <= 20].sort_values(["min_cr", "max_cr"])
df2

Unnamed: 0_level_0,cell,cr,page_table_start,len,min_cr,max_cr
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
47,Transmettre au OCTANT OPC les fiches techniqu...,"[1, 2, 3]","[5, 12, 20]",139,1,3
210,Organisation de chantier selon directives de l...,"[1, 2, 3]","[5, 12, 20]",51,1,3
83,Constat d’huissier des avoisinants à faire ava...,"[1, 2, 3, 4, 5]","[5, 12, 20, 28, 37]",71,1,5
309,Transmettre les documents selon liste des docu...,"[1, 2, 3, 4, 5]","[5, 12, 20, 28, 37]",86,1,5
227,Point élec en présence de FORCLUM,[2],[12],34,2,2
...,...,...,...,...,...,...
87,"Constat est fait ce jour, que bien que vous ay...",[18],[217],242,18,18
292,Supprimer le linteau de la porte n°15 du local...,[18],[217],106,18,18
338,Vous demandez le montant des marchés TCE pour CP,[18],[217],49,18,18
223,Point fait sur les platines de pré scellement ...,"[18, 19]","[217, 229]",104,18,19


In [None]:
chunks = df2["cell"].tolist()
embeddings = model.encode(chunks)

In [766]:
question = "Quels sont les aléas survenus ?"
embeddings_question = model.encode(question)

In [779]:
ss = model.similarity(embeddings, embeddings_question)
lst = list(enumerate([l[0].item() for l in ss], start=0))

In [793]:
lst = sorted(lst, key=lambda x : x[1], reverse=True)
print(lst[:10])

best_chunks = [str(df2.rename(columns={"cell" : "text", "page_table_start" : "page"}).iloc[idx][["text", "cr", "page"]]) for idx, _ in lst]

for idx, score in lst[:10]:
    print("-" * 20)
    print(f"Score : {score} ; index : {idx}")
    print(best_chunks[idx])

[(62, 0.46419066190719604), (55, 0.46142709255218506), (18, 0.4511055648326874), (52, 0.4398530423641205), (28, 0.4359075725078583), (26, 0.4195028245449066), (66, 0.41419634222984314), (47, 0.4122082591056824), (42, 0.41146689653396606), (85, 0.4113301634788513)]
--------------------
Score : 0.46419066190719604 ; index : 62
text    Vous annoncez installer la base vie le 2 mai 1...
cr                                                 [5, 6]
page                                             [37, 47]
Name: 334, dtype: object
--------------------
Score : 0.46142709255218506 ; index : 55
text    Transmettre une coupe sur les ouvrages de plat...
cr                                                    [7]
page                                                 [56]
Name: 315, dtype: object
--------------------
Score : 0.4511055648326874 ; index : 18
text    DEMANDE GO /confirmer par retour si les écarts...
cr                                               [16, 17]
page                                

In [794]:
api_key = "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"
claude = ClaudeClient(api_key)

In [795]:
m = f"""Utilisez les informations suivantes :
{'\n\n--------------------\n\n'.join(best_chunks[:10])}

pour répondre à cette question en précisant bien les sources (numéro de cr et de page) :
{question}
"""
print(m)

Utilisez les informations suivantes :
text    Point pieux/vous constaté des décalages dans l...
cr                                                   [14]
page                                                [167]
Name: 226, dtype: object

--------------------

text    Point pieux/vous constaté des décalages dans l...
cr                                                   [13]
page                                                [155]
Name: 225, dtype: object

--------------------

text    Transmettre PAC des clavetages sur dalle alvéo...
cr                                                    [6]
page                                                 [47]
Name: 296, dtype: object

--------------------

text    Suite à vos demandes nous avons fait déplacer ...
cr                                                   [12]
page                                                [137]
Name: 290, dtype: object

--------------------

text    QUESTION GO : \nSans rentrer dans l'analyse co...
cr              

In [796]:
messages = [
    {"role": "user", "content": m}
]
result = claude.create_message(messages=messages)

In [797]:
print(result["content"][0]["text"])

# Aléas survenus

Selon les informations fournies, plusieurs aléas peuvent être identifiés dans les comptes rendus :

1. **Décalages dans les pieux** [CR 14, page 167] et [CR 13, page 155]
   - Mention de "Point pieux/vous constaté des décalages dans l..."

2. **Problèmes liés aux clavetages sur dalle alvéolaire** [CR 6, page 47]
   - "Transmettre PAC des clavetages sur dalle alvéo..."

3. **Déplacement d'équipements** [CR 12, page 137]
   - "Suite à vos demandes nous avons fait déplacer ..."

4. **Problème nécessitant une analyse** [CR 8, page 68]
   - "QUESTION GO : Sans rentrer dans l'analyse co..."

5. **Constat de matériels** [CR 7-8, pages 56, 68]
   - "Nous établirons ce jour un constat des matérie..."

6. **Problème de quantités à revoir** [CR 11-12, pages 121, 137]
   - "LE 10/05/10 : revoir les quantités de cette pr..."

7. **Constats divers** mentionnés dans [CR 10, page 105] et [CR 18, page 217]
   - Notamment un constat de non-respect d'instructions précédentes [CR 18, pag