# 03b - Parser Benchmark : Tables Complexes

Comparaison **pdfplumber** vs **Mistral OCR** sur des PDFs avec tables complexes
(document pharmaceutique HAS avec cellules multi-lignes, fusions, footnotes).

**PDFs test√©s :** `data/raw/test_tables_complexes/page_9.pdf` et `page_15.pdf`

**Ground truth :** `data/raw/test_tables_complexes/ground_truth/page_9.md` et `page_15.md`

In [1]:
# ruff: noqa: E402
import base64
import json
import os
import sys
from pathlib import Path

import pdfplumber
from dotenv import load_dotenv

# Auto-d√©tecter project_root
current = Path.cwd()
while current != current.parent:
    if (current / "pyproject.toml").exists():
        project_root = current
        break
    current = current.parent

sys.path.insert(0, str(project_root))
load_dotenv(project_root / ".env")

# Paths
TEST_DIR = project_root / "data" / "raw" / "test_tables_complexes"
GT_DIR = TEST_DIR / "ground_truth"

pdf_files = sorted(TEST_DIR.glob("*.pdf"))
print(f"PDFs: {[p.name for p in pdf_files]}")
print(f"Ground truth: {[p.name for p in sorted(GT_DIR.glob('*.md'))]}")

PDFs: ['page_15.pdf', 'page_9.pdf']
Ground truth: ['page_15.md', 'page_9.md']


## Ground Truth

In [2]:
from IPython.display import Markdown, display

ground_truths = {}
for gt_path in sorted(GT_DIR.glob("*.md")):
    name = gt_path.stem
    ground_truths[name] = gt_path.read_text(encoding="utf-8")
    print(f"=== {name} ===")
    display(Markdown(ground_truths[name]))
    print()

=== page_15 ===


|  | Version 4.0 : r√©vision du paragraphe sur l'allocation du risque alpha pour tenir compte de l'analyse interm√©diaire non planifi√©e. |
|---|---|

## R√©sultats :

### Effectifs
Au total, 682 patients ont √©t√© randomis√©s dans l'√©tude : 339 dans le groupe osimertinib et 343 dans le groupe placebo constituant la population FAS.
<br>Parmi eux, 2 patients n'ont pas re√ßu de traitement √† l'√©tude dans le groupe osimertinib (patients randomis√©s √† tort). Tous les autres patients ont re√ßu au moins une dose du traitement allou√© constituant la population d'analyse de tol√©rance.

√Ä la date de l'analyse principale du 17 janvier 2020 :
- Dans le groupe osimertinib, 205 patients (60,8%) poursuivaient le traitement allou√©. 40 (11,9%) l'avaient termin√© (3 ans de traitement comme pr√©vu au protocole) et 92 (27,3%) l'avaient arr√™t√© pr√©matur√©ment, le plus souvent en raison d'un √©v√®nement ind√©sirable (n = 36).
- Dans le groupe placebo, 196 patients (39,7%) poursuivaient le traitement allou√©, 33 (9,6%) l'avaient termin√© et 174 (50,7%) l'avaient arr√™t√© pr√©matur√©ment, le plus souvent en raison de la r√©cidive de la maladie (n = 148).

Il a √©t√© observ√© des d√©viations majeures au protocole : 97 patients (28,6%) dans le groupe osimertinib et 87 (25,4%) patients dans le groupe placebo. Il s'agissait le plus souvent d'un manque de respect du calendrier de r√©alisation des scanners (48 patients (14,2%) et 45 (13,1%) dans les groupes osimertinib et placebo respectivement) et d'un traitement concomitant non autoris√© (42 patients (12,4%) et 22 patients (6,4%) dans les groupes osimertinib et placebo respectivement).

#### Principales caract√©ristiques des patients √† l'inclusion

L'√¢ge m√©dian √©tait de 63 ans, et 70,1% des patients √©taient des femmes. Les patients √©taient de stade ECOG 0 (63,6%) ou 1 (36,4%). Ils avaient principalement une maladie au stade IB pour 31,7%, IIA pour 25,8% et IIIA pour 34,5% des patients selon la 7√®me classification TNM applicable au moment de la mise en place de l'√©tude ADAURA. Presque la totalit√© des patients (95,3%) avaient eu une r√©section par lobectomie. Ces caract√©ristiques √©taient similaires entre les deux groupes de randomisation et sont pr√©sent√©es dans le Tableau 1 ci-dessous.

**Tableau 1. Caract√©ristiques des patients et de la maladie √† l'inclusion dans l'√©tude ADAURA**

|  | **Osimertinib<br><br>**N=339**** | **Placebo**<br><br>**N=343** | **Total**<br><br>**N=682** |
|---|---|---|---|
| **√Çge** |  |  |  |
| M√©dian (Min-Max), ann√©es | 64,0 (30-86) | 62,0 (31-82) | 63,0 (30-86) |
| **Sexe, n (%)** |  |  |  |
| Hommes | 109 (32,2%) | 95 (27,7%) | 204 (29,9%) |
| Femmes | 230 (67,8%) | 248 (72,3%) | 478 (70,1%) |
| **Mutations EGFR, n (%)** |  |  |  |
| D√©l√©tion exon 19 | 185 (54,6) | 188 (54,8) | 373 (54,7) |
| L858R | 153 (45,1) | 155 (45,2) | 308 (45,2) |
| **Stade de la maladie au diagnostic (p TNM), n (%)** |  |  |  |
| Stade IB | 107 (31,6) | 109 (31,8) | 216 (31,7) |
| Stade IIA | 86 (25,4) | 90 (26,2) | 176 (25,8) |
| Stade IIB | 29 (8,6) | 26 (7,6) | 55 (8,1) |
| Stade IIIA | 117 (34,5) | 118 (34,4) | 235 (34,5) |
| **Score de performance ECOG, n (%)** |  |  |  |
| 0 | 216 (63,7) | 218 (63,6) | 434 (63,6) |
| 1 | 123 (36,3) | 125 (36,4) | 248 (36,4) |
| **Statut tabagique, n (%)** |  |  |  |
| Jamais fum√© | 231 (68,1) | 257 (74,9) | 488 (71,6) |

---

HAS - Direction de l'Evaluation et de l'Acc√®s √† l'Innovation 15/28
<br>Avis version d√©finitive



=== page_9 ===


# 06 INFORMATIONS SUR L'INDICATION EVALUEE AU NIVEAU INTERNATIONAL

## AMM aux Etats-Unis

TAGRISSO (osimertinib) dispose d'une AMM aux Etats-Unis avec un libell√© superposable √† celui de l'AMM europ√©enne √† savoir : ¬´ as adjuvant therapy after tumor resection in adult patients with non-small cell lung cancer (NSCLC) whose tumors have epidermal growth factor receptor (EGFR) exon 19 deletions or exon 21 L858R mutations, as detected by an FDA-approved test ¬ª.

## Prise en charge

Selon les informations transmises par le laboratoire √† la date du d√©p√¥t du dossier :

| Pays | **PRISE EN CHARGE**<br>Oui/Non/En cours | **Population(s)**<br>Celle de l'AMM ou restreinte |
|------|----------------------------------------|--------------------------------------------------|
| Royaume-Uni | En cours | - |
| Allemagne | Oui | - |
| Pays-Bas | Non, d√©p√¥t pr√©vu | - |
| Belgique | Non, d√©p√¥t pr√©vu | - |
| Espagne | Non, d√©p√¥t pr√©vu | - |
| Italie | Non, d√©p√¥t pr√©vu | - |

---

# 07 ANALYSE DES DONNEES DISPONIBLES

La demande d'inscription de TAGRISSO (osimertinib) dans son extension d'indication en premi√®re ligne, dans le traitement adjuvant apr√®s r√©section tumorale compl√®te des patients adultes atteints d'un cancer bronchique non √† petites cellules (CBNPC) de stade IB - IIIA avec mutations activatrices du r√©cepteur du facteur de croissance √©pidermique (EGFR) par d√©l√©tion de l'exon 19 ou substitution de l'exon 21 (L858R) repose sur une √©tude de phase III (ADAURA‚Å∂,‚Å∑).

L'√©tude ADAURA est une √©tude de phase III, randomis√©e, en double insu, en 2 groupes parall√®les, ayant √©valu√© l'efficacit√© et la tol√©rance d'osimertinib versus placebo dans le traitement adjuvant des patients atteints d'un CBNPC avec mutation EGFR par d√©l√©tion de l'exon 19 ou substitution de l'exon 21 (L858R) de stade IB, II et IIIA ayant b√©n√©fici√© d'une r√©section chirurgicale compl√®te, suivie ou non d'une chimioth√©rapie post-op√©ratoire.

## 07.1 Efficacit√©

| R√©f√©rence | Phase III, Double-blind, Randomized Study of Osimertinib Versus Placebo in EGFR Mutation-positive Early-stage NSCLC After Complete Surgical Resection |
|-----------|--------------------------------------------------------------------------------------------------------------------------------------------------------|
| Clinicaltrials.gov | N¬∞ d'enregistrement : NCT02511106 |
| Objectif principal de l'√©tude | D√©montrer la sup√©riorit√© de l'osimertinib en monoth√©rapie par rapport au placebo, en termes de survie sans maladie, dans le traitement adjuvant des patients atteints d'un |

‚Å∂ Wu YL, Herbst RS, Mann H et col. ADAURA: Phase III, Double-blind, Randomized Study of Osimertinib Versus Placebo in EGFR Mutation-positive Early-stage NSCLC After Complete Surgical Resection. Clincal Lung Cancer. 2018;19(4):e533-36.

‚Å∑ Wu YL, Tsuboi M, He J et col., ADAURA Investigators. Osimertinib in Resected EGFR-Mutated Non-Small-Cell Lung Cancer. N Engl J Med 2020;383(18):1711-1723.

---

HAS - Direction de l'Evaluation et de l'Acc√®s √† l'Innovation 9/28
<br>Avis version d√©finitive





## 1. Extraction pdfplumber

In [3]:
pdfplumber_results = {}

for pdf_path in pdf_files:
    name = pdf_path.stem
    print(f"\n{'='*80}")
    print(f"=== {name} ===")
    print(f"{'='*80}")

    with pdfplumber.open(pdf_path) as pdf:
        for i, page in enumerate(pdf.pages):
            print(f"\n--- Page {i} ---")

            # Texte brut
            text = page.extract_text()
            print(f"\n[TEXTE BRUT]\n{text}")

            # Tables
            tables = page.extract_tables()
            print(f"\n[TABLES] ({len(tables)} table(s) d√©tect√©e(s))")
            for j, table in enumerate(tables):
                print(f"\n  Table {j} ({len(table)} lignes):")
                for row in table:
                    print(f"    {row}")

    pdfplumber_results[name] = {"text": text, "tables": tables}


=== page_15 ===

--- Page 0 ---

[TEXTE BRUT]
Version 4.0: r√©vision du paragra
R√©sultats:
Effectifs
Au total, 682 patients : 339 dans le groupe osimertinib et 343 dans
le groupe placebo constituant la population FAS.
Parmi eux, 2 patients dans le groupe osimertinib (patients
randomis√©s √† tort). Tous les autres patients ont re√ßu au moins une dose du traitement allou√©
se de tol√©rance.
A la date de du 17 janvier 2020 :
- Dans le groupe osimertinib, 205 patients (60,8%) poursuivaient le traitement allou√©, 40 (11,9%)
- Dans le groupe placebo, 136 patients (39,7%) poursuivaient le traitement allou√©, 33 (9,6%)
r√©cidive de la maladie (n = 148).
Il a √©t√© observ√© des d√©viations majeures au protocole : 97 patients (28,6%) dans le groupe
osimertinib et 87(25,4%)patients dans le
de respect du calendrier de r√©alisation des scanners (48 patients (14,2%) et 45 (13,1%) dans les
groupes osimertinib et placebo respectivement
patients (12,4%) et 22patients (6,4%)dans les groupes osimertini

## 2. Extraction Mistral OCR

In [4]:
from mistralai import Mistral

mistral_api_key = os.getenv("MISTRAL_OCR_API_KEY")
if not mistral_api_key:
    raise ValueError("MISTRAL_OCR_API_KEY non configur√©e dans .env")

client = Mistral(api_key=mistral_api_key)

mistral_results = {}

for pdf_path in pdf_files:
    name = pdf_path.stem
    print(f"\n{'='*80}")
    print(f"=== {name} ===")
    print(f"{'='*80}")

    # Encode PDF en base64
    with open(pdf_path, "rb") as f:
        base64_pdf = base64.b64encode(f.read()).decode("utf-8")

    # Appel API
    response = client.ocr.process(
        model="mistral-ocr-latest",
        document={
            "type": "document_url",
            "document_url": f"data:application/pdf;base64,{base64_pdf}",
        },
    )

    result = json.loads(response.model_dump_json())
    mistral_results[name] = result

    # Afficher le markdown extrait
    for page in result["pages"]:
        print(f"\n--- Page {page['index']} (markdown brut) ---")
        print(page["markdown"])


=== page_15 ===

--- Page 0 (markdown brut) ---
Version 4.0 : r√©vision du paragraphe sur l'allocation du risque alpha pour tenir compte de l'analyse interm√©diaire non planifi√©e.

# R√©sultats :

## Effectifs

Au total, 682 patients ont √©t√© randomis√©s dans l'√©tude : 339 dans le groupe osimertinib et 343 dans le groupe placebo constituant la population FAS.

Parmi eux, 2 patients n'ont pas re√ßu de traitement √† l'√©tude dans le groupe osimertinib (patients randomis√©s √† tort). Tous les autres patients ont re√ßu au moins une dose du traitement allou√© constituant la population d'analyse de tol√©rance.

A la date de l'analyse principale du 17 janvier 2020 :

- Dans le groupe osimertinib, 205 patients (60,8%) poursuivaient le traitement allou√©, 40 (11,9%) l'avaient termin√© (3 ans de traitement comme pr√©vu au protocole) et 92 (27,3%) l'avaient arr√™t√© pr√©matur√©ment, le plus souvent en raison d'un √©v√©nement ind√©sirable (n = 36).
- Dans le groupe placebo, 136 patients (39,7%

## 3. Rendu Mistral OCR (markdown)

Affichage rendu pour voir si les tables sont bien structur√©es.

In [5]:
for name, result in mistral_results.items():
    print(f"=== {name} ===")
    for page in result["pages"]:
        display(Markdown(page["markdown"]))
    print()

=== page_15 ===


Version 4.0 : r√©vision du paragraphe sur l'allocation du risque alpha pour tenir compte de l'analyse interm√©diaire non planifi√©e.

# R√©sultats :

## Effectifs

Au total, 682 patients ont √©t√© randomis√©s dans l'√©tude : 339 dans le groupe osimertinib et 343 dans le groupe placebo constituant la population FAS.

Parmi eux, 2 patients n'ont pas re√ßu de traitement √† l'√©tude dans le groupe osimertinib (patients randomis√©s √† tort). Tous les autres patients ont re√ßu au moins une dose du traitement allou√© constituant la population d'analyse de tol√©rance.

A la date de l'analyse principale du 17 janvier 2020 :

- Dans le groupe osimertinib, 205 patients (60,8%) poursuivaient le traitement allou√©, 40 (11,9%) l'avaient termin√© (3 ans de traitement comme pr√©vu au protocole) et 92 (27,3%) l'avaient arr√™t√© pr√©matur√©ment, le plus souvent en raison d'un √©v√©nement ind√©sirable (n = 36).
- Dans le groupe placebo, 136 patients (39,7%) poursuivaient le traitement allou√©, 33 (9,6%) l'avaient termin√© et 174 (50,7%) l'avaient arr√™t√© pr√©matur√©ment, le plus souvent en raison de la r√©cidive de la maladie (n = 148).

Il a √©t√© observ√© des d√©viations majeures au protocole : 97 patients (28,6%) dans le groupe osimertinib et 87 (25,4%) patients dans le groupe placebo. Il s'agissait le plus souvent d'un manque de respect du calendrier de r√©alisation des scanners (48 patients (14,2%) et 45 (13,1%) dans les groupes osimertinib et placebo respectivement) et d'un traitement concomitant non autoris√© (42 patients (12,4%) et 22 patients (6,4%) dans les groupes osimertinib et placebo respectivement).

## Principales caract√©ristiques des patients √† l'inclusion

L'√¢ge m√©dian √©tait de 63 ans, et 70,1% des patients √©taient des femmes. Les patients √©taient de stade ECOG 0 (63,6%) ou 1 (36,4%). Ils avaient principalement une maladie au stade IB pour 31,7%, IIA pour 25,8% et IIIA pour 34,5% des patients selon la 7√®me classification TNM applicable au moment de la mise en place de l'√©tude ADAURA. Presque la totalit√© des patients (95,3%) avaient eu une r√©section par lobectomie. Ces caract√©ristiques √©taient similaires entre les deux groupes de randomisation et sont pr√©sent√©es dans le Tableau 1 ci-dessous.

Tableau 1. Caract√©ristiques des patients et de la maladie √† l'inclusion dans l'√©tude ADAURA

|   | Osimertinib | Placebo | Total  |
| --- | --- | --- | --- |
|   |  N=339 | N=343 | N=682  |
|  Age  |   |   |   |
|  M√©dian (Min-Max), ann√©es | 64,0 (30-86) | 62,0 (31-82) | 63,0 (30-86)  |
|  Sexe, n (%)  |   |   |   |
|  Hommes | 109 (32,2%) | 95 (27,7%) | 204 (29,9%)  |
|  Femmes | 230 (67,8%) | 248 (72,3%) | 478 (70,1%)  |
|  Mutations EGFR, n (%)  |   |   |   |
|  D√©l√©tion exon 19 | 185 (54,6) | 188 (54,8) | 373 (54,7)  |
|  L858R | 153 (45,1) | 155 (45,2) | 308 (45,2)  |
|  Stade de la maladie au diagnostic (p TNM), n (%)  |   |   |   |
|  Stade IB | 107 (31,6) | 109 (31,8) | 216 (31,7)  |
|  Stade IIA | 86 (25,4) | 90 (26,2) | 176 (25,8)  |
|  Stade IIB | 29 (8,6) | 26 (7,6) | 55 (8,1)  |
|  Stade IIIA | 117 (34,5) | 118 (34,4) | 235 (34,5)  |
|  Score de performance ECOG, n (%)  |   |   |   |
|  0 | 216 (63,7) | 218 (63,6) | 434 (63,6)  |
|  1 | 123 (36,3) | 125 (36,4) | 248 (36,4)  |
|  Statut tabagique, n (%)  |   |   |   |
|  Jamais fum√© | 231 (68,1) | 257 (74,9) | 488 (71,6)  |

HAS - Direction de l'Evaluation et de l'Acc√®s √† l'Innovation
Avis version d√©finitive


=== page_9 ===


06 INFORMATIONS SUR L'INDICATION EVALU√âE AU NIVEAU INTERNATIONAL

## AMM aux Etats-Unis

TAGRISSO (osimertinib) dispose d'une AMM aux Etats-Unis avec un libell√© superposable √† celui de l'AMM europ√©enne √† savoir : ¬´ as adjuvant therapy after tumor resection in adult patients with non-small cell lung cancer (NSCLC) whose tumors have epidermal growth factor receptor (EGFR) exon 19 deletions or exon 21 L858R mutations, as detected by an FDA-approved test ¬ª

## Prise en charge

Selon les informations transmises par le laboratoire √† la date du d√©p√¥t du dossier :

|  Pays | PRISE EN CHARGE  |   |
| --- | --- | --- |
|   |  Oui/Non/En cours | Population(s)
Celle de l'AMM ou restreinte  |
|  Royaume-Uni | En cours | -  |
|  Allemagne | Oui | -  |
|  Pays-Bas | Non, d√©p√¥t pr√©vu | -  |
|  Belgique | Non, d√©p√¥t pr√©vu | -  |
|  Espagne | Non, d√©p√¥t pr√©vu | -  |
|  Italie | Non, d√©p√¥t pr√©vu | -  |

# 07 ANALYSE DES DONN√âES DISPONIBLES

La demande d'inscription de TAGRISSO (osimertinib) dans son extension d'indication en premi√®re ligne, dans le traitement adjuvant apr√®s r√©section tumorale compl√®te des patients adultes atteints d'un cancer bronchique non √† petites cellules (CBNPC) de stade IB ‚Äì IIIA avec mutations activatrices du r√©cepteur du facteur de croissance √©pidermique (EGFR) par d√©l√©tion de l'exon 19 ou substitution de l'exon 21 (L858R) repose sur une √©tude de phase III (ADAURA‚Å∂,‚Å∑).

L'√©tude ADAURA est une √©tude de phase III, randomis√©e, en double insu, en 2 groupes parall√®les, ayant √©valu√© l'efficacit√© et la tol√©rance d'osimertinib versus placebo dans le traitement adjuvant des patients atteints d'un CBNPC avec mutation EGFR par d√©l√©tion de l'exon 19 ou substitution de l'exon 21 (L858R) de stade IB, II et IIIA ayant b√©n√©fici√© d'une r√©section chirurgicale compl√®te, suivie ou non d'une chimioth√©rapie post-op√©ratoire.

# 07.1 Efficacit√©

|  R√©f√©rence | Phase III, Double-blind, Randomized Study of Osimertinib Versus Placebo in EGFR Mutation-positive Early-stage NSCLC After Complete Surgical Resection  |
| --- | --- |
|  Clinicaltrials.gov | N¬∞ d'enregistrement : NCT02511106  |
|  Objectif principal de l'√©tude | D√©montrer la sup√©riorit√© de l'osimertinib en monoth√©rapie par rapport au placebo, en termes de survie sans maladie, dans le traitement adjuvant des patients atteints d'un  |

HAS - Direction de l'Evaluation et de l'Acc√®s √† l'Innovation
Avis version d√©finitive




## 4. Comparaison c√¥te √† c√¥te avec Ground Truth

In [6]:
import difflib


def show_diff(name: str, gt_text: str, extracted_text: str, parser_name: str):
    """Affiche un diff entre ground truth et extraction."""
    gt_lines = gt_text.strip().splitlines()
    ext_lines = extracted_text.strip().splitlines()

    diff = list(difflib.unified_diff(
        gt_lines, ext_lines,
        fromfile=f"{name} (ground truth)",
        tofile=f"{name} ({parser_name})",
        lineterm="",
    ))

    if not diff:
        print(f"  ‚úÖ {parser_name}: IDENTIQUE au ground truth")
    else:
        print(f"  ‚ùå {parser_name}: DIFFERENCES trouv√©es")
        print("\n".join(diff[:50]))  # Limiter l'affichage
        if len(diff) > 50:
            print(f"  ... ({len(diff) - 50} lignes suppl√©mentaires)")


for name in ground_truths:
    print(f"\n{'='*80}")
    print(f"=== {name} ===")
    print(f"{'='*80}")

    gt = ground_truths[name]

    # Mistral OCR : on concat√®ne le markdown de toutes les pages
    if name in mistral_results:
        mistral_md = "\n\n".join(p["markdown"] for p in mistral_results[name]["pages"])
        show_diff(name, gt, mistral_md, "Mistral OCR")
    else:
        print("  ‚ö†Ô∏è Mistral OCR: pas de r√©sultat")

    # pdfplumber : texte brut (pas de markdown structur√©)
    if name in pdfplumber_results:
        plumber_text = pdfplumber_results[name]["text"] or ""
        show_diff(name, gt, plumber_text, "pdfplumber")
    else:
        print("  ‚ö†Ô∏è pdfplumber: pas de r√©sultat")


=== page_15 ===
  ‚ùå Mistral OCR: DIFFERENCES trouv√©es
--- page_15 (ground truth)
+++ page_15 (Mistral OCR)
@@ -1,46 +1,47 @@
-|  | Version 4.0 : r√©vision du paragraphe sur l'allocation du risque alpha pour tenir compte de l'analyse interm√©diaire non planifi√©e. |
-|---|---|
+Version 4.0 : r√©vision du paragraphe sur l'allocation du risque alpha pour tenir compte de l'analyse interm√©diaire non planifi√©e.
 
-## R√©sultats :
+# R√©sultats :
 
-### Effectifs
+## Effectifs
+
 Au total, 682 patients ont √©t√© randomis√©s dans l'√©tude : 339 dans le groupe osimertinib et 343 dans le groupe placebo constituant la population FAS.
-<br>Parmi eux, 2 patients n'ont pas re√ßu de traitement √† l'√©tude dans le groupe osimertinib (patients randomis√©s √† tort). Tous les autres patients ont re√ßu au moins une dose du traitement allou√© constituant la population d'analyse de tol√©rance.
 
-√Ä la date de l'analyse principale du 17 janvier 2020 :
-- Dans le groupe osimertinib, 205 patients (60,8%

## 5. Analyse qualitative des tables

Focus sur les tables complexes : cellules multi-lignes, fusions, `<br>`, footnotes.

In [7]:
for name in ground_truths:
    print(f"\n{'='*80}")
    print(f"=== {name} : comparaison des tables ===")
    print(f"{'='*80}")

    # Ground truth
    print("\nüìã GROUND TRUTH:")
    display(Markdown(ground_truths[name]))

    # Mistral OCR
    if name in mistral_results:
        print("\nü§ñ MISTRAL OCR:")
        for page in mistral_results[name]["pages"]:
            display(Markdown(page["markdown"]))

    # pdfplumber
    if name in pdfplumber_results:
        print("\nüîß PDFPLUMBER:")
        print("[Texte brut]")
        print(pdfplumber_results[name]["text"])
        print("\n[Tables structur√©es]")
        for j, table in enumerate(pdfplumber_results[name]["tables"]):
            print(f"  Table {j}:")
            for row in table:
                print(f"    {row}")


=== page_15 : comparaison des tables ===

üìã GROUND TRUTH:


|  | Version 4.0 : r√©vision du paragraphe sur l'allocation du risque alpha pour tenir compte de l'analyse interm√©diaire non planifi√©e. |
|---|---|

## R√©sultats :

### Effectifs
Au total, 682 patients ont √©t√© randomis√©s dans l'√©tude : 339 dans le groupe osimertinib et 343 dans le groupe placebo constituant la population FAS.
<br>Parmi eux, 2 patients n'ont pas re√ßu de traitement √† l'√©tude dans le groupe osimertinib (patients randomis√©s √† tort). Tous les autres patients ont re√ßu au moins une dose du traitement allou√© constituant la population d'analyse de tol√©rance.

√Ä la date de l'analyse principale du 17 janvier 2020 :
- Dans le groupe osimertinib, 205 patients (60,8%) poursuivaient le traitement allou√©. 40 (11,9%) l'avaient termin√© (3 ans de traitement comme pr√©vu au protocole) et 92 (27,3%) l'avaient arr√™t√© pr√©matur√©ment, le plus souvent en raison d'un √©v√®nement ind√©sirable (n = 36).
- Dans le groupe placebo, 196 patients (39,7%) poursuivaient le traitement allou√©, 33 (9,6%) l'avaient termin√© et 174 (50,7%) l'avaient arr√™t√© pr√©matur√©ment, le plus souvent en raison de la r√©cidive de la maladie (n = 148).

Il a √©t√© observ√© des d√©viations majeures au protocole : 97 patients (28,6%) dans le groupe osimertinib et 87 (25,4%) patients dans le groupe placebo. Il s'agissait le plus souvent d'un manque de respect du calendrier de r√©alisation des scanners (48 patients (14,2%) et 45 (13,1%) dans les groupes osimertinib et placebo respectivement) et d'un traitement concomitant non autoris√© (42 patients (12,4%) et 22 patients (6,4%) dans les groupes osimertinib et placebo respectivement).

#### Principales caract√©ristiques des patients √† l'inclusion

L'√¢ge m√©dian √©tait de 63 ans, et 70,1% des patients √©taient des femmes. Les patients √©taient de stade ECOG 0 (63,6%) ou 1 (36,4%). Ils avaient principalement une maladie au stade IB pour 31,7%, IIA pour 25,8% et IIIA pour 34,5% des patients selon la 7√®me classification TNM applicable au moment de la mise en place de l'√©tude ADAURA. Presque la totalit√© des patients (95,3%) avaient eu une r√©section par lobectomie. Ces caract√©ristiques √©taient similaires entre les deux groupes de randomisation et sont pr√©sent√©es dans le Tableau 1 ci-dessous.

**Tableau 1. Caract√©ristiques des patients et de la maladie √† l'inclusion dans l'√©tude ADAURA**

|  | **Osimertinib<br><br>**N=339**** | **Placebo**<br><br>**N=343** | **Total**<br><br>**N=682** |
|---|---|---|---|
| **√Çge** |  |  |  |
| M√©dian (Min-Max), ann√©es | 64,0 (30-86) | 62,0 (31-82) | 63,0 (30-86) |
| **Sexe, n (%)** |  |  |  |
| Hommes | 109 (32,2%) | 95 (27,7%) | 204 (29,9%) |
| Femmes | 230 (67,8%) | 248 (72,3%) | 478 (70,1%) |
| **Mutations EGFR, n (%)** |  |  |  |
| D√©l√©tion exon 19 | 185 (54,6) | 188 (54,8) | 373 (54,7) |
| L858R | 153 (45,1) | 155 (45,2) | 308 (45,2) |
| **Stade de la maladie au diagnostic (p TNM), n (%)** |  |  |  |
| Stade IB | 107 (31,6) | 109 (31,8) | 216 (31,7) |
| Stade IIA | 86 (25,4) | 90 (26,2) | 176 (25,8) |
| Stade IIB | 29 (8,6) | 26 (7,6) | 55 (8,1) |
| Stade IIIA | 117 (34,5) | 118 (34,4) | 235 (34,5) |
| **Score de performance ECOG, n (%)** |  |  |  |
| 0 | 216 (63,7) | 218 (63,6) | 434 (63,6) |
| 1 | 123 (36,3) | 125 (36,4) | 248 (36,4) |
| **Statut tabagique, n (%)** |  |  |  |
| Jamais fum√© | 231 (68,1) | 257 (74,9) | 488 (71,6) |

---

HAS - Direction de l'Evaluation et de l'Acc√®s √† l'Innovation 15/28
<br>Avis version d√©finitive



ü§ñ MISTRAL OCR:


Version 4.0 : r√©vision du paragraphe sur l'allocation du risque alpha pour tenir compte de l'analyse interm√©diaire non planifi√©e.

# R√©sultats :

## Effectifs

Au total, 682 patients ont √©t√© randomis√©s dans l'√©tude : 339 dans le groupe osimertinib et 343 dans le groupe placebo constituant la population FAS.

Parmi eux, 2 patients n'ont pas re√ßu de traitement √† l'√©tude dans le groupe osimertinib (patients randomis√©s √† tort). Tous les autres patients ont re√ßu au moins une dose du traitement allou√© constituant la population d'analyse de tol√©rance.

A la date de l'analyse principale du 17 janvier 2020 :

- Dans le groupe osimertinib, 205 patients (60,8%) poursuivaient le traitement allou√©, 40 (11,9%) l'avaient termin√© (3 ans de traitement comme pr√©vu au protocole) et 92 (27,3%) l'avaient arr√™t√© pr√©matur√©ment, le plus souvent en raison d'un √©v√©nement ind√©sirable (n = 36).
- Dans le groupe placebo, 136 patients (39,7%) poursuivaient le traitement allou√©, 33 (9,6%) l'avaient termin√© et 174 (50,7%) l'avaient arr√™t√© pr√©matur√©ment, le plus souvent en raison de la r√©cidive de la maladie (n = 148).

Il a √©t√© observ√© des d√©viations majeures au protocole : 97 patients (28,6%) dans le groupe osimertinib et 87 (25,4%) patients dans le groupe placebo. Il s'agissait le plus souvent d'un manque de respect du calendrier de r√©alisation des scanners (48 patients (14,2%) et 45 (13,1%) dans les groupes osimertinib et placebo respectivement) et d'un traitement concomitant non autoris√© (42 patients (12,4%) et 22 patients (6,4%) dans les groupes osimertinib et placebo respectivement).

## Principales caract√©ristiques des patients √† l'inclusion

L'√¢ge m√©dian √©tait de 63 ans, et 70,1% des patients √©taient des femmes. Les patients √©taient de stade ECOG 0 (63,6%) ou 1 (36,4%). Ils avaient principalement une maladie au stade IB pour 31,7%, IIA pour 25,8% et IIIA pour 34,5% des patients selon la 7√®me classification TNM applicable au moment de la mise en place de l'√©tude ADAURA. Presque la totalit√© des patients (95,3%) avaient eu une r√©section par lobectomie. Ces caract√©ristiques √©taient similaires entre les deux groupes de randomisation et sont pr√©sent√©es dans le Tableau 1 ci-dessous.

Tableau 1. Caract√©ristiques des patients et de la maladie √† l'inclusion dans l'√©tude ADAURA

|   | Osimertinib | Placebo | Total  |
| --- | --- | --- | --- |
|   |  N=339 | N=343 | N=682  |
|  Age  |   |   |   |
|  M√©dian (Min-Max), ann√©es | 64,0 (30-86) | 62,0 (31-82) | 63,0 (30-86)  |
|  Sexe, n (%)  |   |   |   |
|  Hommes | 109 (32,2%) | 95 (27,7%) | 204 (29,9%)  |
|  Femmes | 230 (67,8%) | 248 (72,3%) | 478 (70,1%)  |
|  Mutations EGFR, n (%)  |   |   |   |
|  D√©l√©tion exon 19 | 185 (54,6) | 188 (54,8) | 373 (54,7)  |
|  L858R | 153 (45,1) | 155 (45,2) | 308 (45,2)  |
|  Stade de la maladie au diagnostic (p TNM), n (%)  |   |   |   |
|  Stade IB | 107 (31,6) | 109 (31,8) | 216 (31,7)  |
|  Stade IIA | 86 (25,4) | 90 (26,2) | 176 (25,8)  |
|  Stade IIB | 29 (8,6) | 26 (7,6) | 55 (8,1)  |
|  Stade IIIA | 117 (34,5) | 118 (34,4) | 235 (34,5)  |
|  Score de performance ECOG, n (%)  |   |   |   |
|  0 | 216 (63,7) | 218 (63,6) | 434 (63,6)  |
|  1 | 123 (36,3) | 125 (36,4) | 248 (36,4)  |
|  Statut tabagique, n (%)  |   |   |   |
|  Jamais fum√© | 231 (68,1) | 257 (74,9) | 488 (71,6)  |

HAS - Direction de l'Evaluation et de l'Acc√®s √† l'Innovation
Avis version d√©finitive


üîß PDFPLUMBER:
[Texte brut]
Version 4.0: r√©vision du paragra
R√©sultats:
Effectifs
Au total, 682 patients : 339 dans le groupe osimertinib et 343 dans
le groupe placebo constituant la population FAS.
Parmi eux, 2 patients dans le groupe osimertinib (patients
randomis√©s √† tort). Tous les autres patients ont re√ßu au moins une dose du traitement allou√©
se de tol√©rance.
A la date de du 17 janvier 2020 :
- Dans le groupe osimertinib, 205 patients (60,8%) poursuivaient le traitement allou√©, 40 (11,9%)
- Dans le groupe placebo, 136 patients (39,7%) poursuivaient le traitement allou√©, 33 (9,6%)
r√©cidive de la maladie (n = 148).
Il a √©t√© observ√© des d√©viations majeures au protocole : 97 patients (28,6%) dans le groupe
osimertinib et 87(25,4%)patients dans le
de respect du calendrier de r√©alisation des scanners (48 patients (14,2%) et 45 (13,1%) dans les
groupes osimertinib et placebo respectivement
patients (12,4%) et 22patients (6,4%)dans les groupes osimertinib et placebo res

# 06 INFORMATIONS SUR L'INDICATION EVALUEE AU NIVEAU INTERNATIONAL

## AMM aux Etats-Unis

TAGRISSO (osimertinib) dispose d'une AMM aux Etats-Unis avec un libell√© superposable √† celui de l'AMM europ√©enne √† savoir : ¬´ as adjuvant therapy after tumor resection in adult patients with non-small cell lung cancer (NSCLC) whose tumors have epidermal growth factor receptor (EGFR) exon 19 deletions or exon 21 L858R mutations, as detected by an FDA-approved test ¬ª.

## Prise en charge

Selon les informations transmises par le laboratoire √† la date du d√©p√¥t du dossier :

| Pays | **PRISE EN CHARGE**<br>Oui/Non/En cours | **Population(s)**<br>Celle de l'AMM ou restreinte |
|------|----------------------------------------|--------------------------------------------------|
| Royaume-Uni | En cours | - |
| Allemagne | Oui | - |
| Pays-Bas | Non, d√©p√¥t pr√©vu | - |
| Belgique | Non, d√©p√¥t pr√©vu | - |
| Espagne | Non, d√©p√¥t pr√©vu | - |
| Italie | Non, d√©p√¥t pr√©vu | - |

---

# 07 ANALYSE DES DONNEES DISPONIBLES

La demande d'inscription de TAGRISSO (osimertinib) dans son extension d'indication en premi√®re ligne, dans le traitement adjuvant apr√®s r√©section tumorale compl√®te des patients adultes atteints d'un cancer bronchique non √† petites cellules (CBNPC) de stade IB - IIIA avec mutations activatrices du r√©cepteur du facteur de croissance √©pidermique (EGFR) par d√©l√©tion de l'exon 19 ou substitution de l'exon 21 (L858R) repose sur une √©tude de phase III (ADAURA‚Å∂,‚Å∑).

L'√©tude ADAURA est une √©tude de phase III, randomis√©e, en double insu, en 2 groupes parall√®les, ayant √©valu√© l'efficacit√© et la tol√©rance d'osimertinib versus placebo dans le traitement adjuvant des patients atteints d'un CBNPC avec mutation EGFR par d√©l√©tion de l'exon 19 ou substitution de l'exon 21 (L858R) de stade IB, II et IIIA ayant b√©n√©fici√© d'une r√©section chirurgicale compl√®te, suivie ou non d'une chimioth√©rapie post-op√©ratoire.

## 07.1 Efficacit√©

| R√©f√©rence | Phase III, Double-blind, Randomized Study of Osimertinib Versus Placebo in EGFR Mutation-positive Early-stage NSCLC After Complete Surgical Resection |
|-----------|--------------------------------------------------------------------------------------------------------------------------------------------------------|
| Clinicaltrials.gov | N¬∞ d'enregistrement : NCT02511106 |
| Objectif principal de l'√©tude | D√©montrer la sup√©riorit√© de l'osimertinib en monoth√©rapie par rapport au placebo, en termes de survie sans maladie, dans le traitement adjuvant des patients atteints d'un |

‚Å∂ Wu YL, Herbst RS, Mann H et col. ADAURA: Phase III, Double-blind, Randomized Study of Osimertinib Versus Placebo in EGFR Mutation-positive Early-stage NSCLC After Complete Surgical Resection. Clincal Lung Cancer. 2018;19(4):e533-36.

‚Å∑ Wu YL, Tsuboi M, He J et col., ADAURA Investigators. Osimertinib in Resected EGFR-Mutated Non-Small-Cell Lung Cancer. N Engl J Med 2020;383(18):1711-1723.

---

HAS - Direction de l'Evaluation et de l'Acc√®s √† l'Innovation 9/28
<br>Avis version d√©finitive



ü§ñ MISTRAL OCR:


06 INFORMATIONS SUR L'INDICATION EVALU√âE AU NIVEAU INTERNATIONAL

## AMM aux Etats-Unis

TAGRISSO (osimertinib) dispose d'une AMM aux Etats-Unis avec un libell√© superposable √† celui de l'AMM europ√©enne √† savoir : ¬´ as adjuvant therapy after tumor resection in adult patients with non-small cell lung cancer (NSCLC) whose tumors have epidermal growth factor receptor (EGFR) exon 19 deletions or exon 21 L858R mutations, as detected by an FDA-approved test ¬ª

## Prise en charge

Selon les informations transmises par le laboratoire √† la date du d√©p√¥t du dossier :

|  Pays | PRISE EN CHARGE  |   |
| --- | --- | --- |
|   |  Oui/Non/En cours | Population(s)
Celle de l'AMM ou restreinte  |
|  Royaume-Uni | En cours | -  |
|  Allemagne | Oui | -  |
|  Pays-Bas | Non, d√©p√¥t pr√©vu | -  |
|  Belgique | Non, d√©p√¥t pr√©vu | -  |
|  Espagne | Non, d√©p√¥t pr√©vu | -  |
|  Italie | Non, d√©p√¥t pr√©vu | -  |

# 07 ANALYSE DES DONN√âES DISPONIBLES

La demande d'inscription de TAGRISSO (osimertinib) dans son extension d'indication en premi√®re ligne, dans le traitement adjuvant apr√®s r√©section tumorale compl√®te des patients adultes atteints d'un cancer bronchique non √† petites cellules (CBNPC) de stade IB ‚Äì IIIA avec mutations activatrices du r√©cepteur du facteur de croissance √©pidermique (EGFR) par d√©l√©tion de l'exon 19 ou substitution de l'exon 21 (L858R) repose sur une √©tude de phase III (ADAURA‚Å∂,‚Å∑).

L'√©tude ADAURA est une √©tude de phase III, randomis√©e, en double insu, en 2 groupes parall√®les, ayant √©valu√© l'efficacit√© et la tol√©rance d'osimertinib versus placebo dans le traitement adjuvant des patients atteints d'un CBNPC avec mutation EGFR par d√©l√©tion de l'exon 19 ou substitution de l'exon 21 (L858R) de stade IB, II et IIIA ayant b√©n√©fici√© d'une r√©section chirurgicale compl√®te, suivie ou non d'une chimioth√©rapie post-op√©ratoire.

# 07.1 Efficacit√©

|  R√©f√©rence | Phase III, Double-blind, Randomized Study of Osimertinib Versus Placebo in EGFR Mutation-positive Early-stage NSCLC After Complete Surgical Resection  |
| --- | --- |
|  Clinicaltrials.gov | N¬∞ d'enregistrement : NCT02511106  |
|  Objectif principal de l'√©tude | D√©montrer la sup√©riorit√© de l'osimertinib en monoth√©rapie par rapport au placebo, en termes de survie sans maladie, dans le traitement adjuvant des patients atteints d'un  |

HAS - Direction de l'Evaluation et de l'Acc√®s √† l'Innovation
Avis version d√©finitive


üîß PDFPLUMBER:
[Texte brut]
06
INFORMATIONS SUR L INDICATION EVALUEE AU NIVEAU
INTERNATIONAL
AMM aux Etats-Unis
TAGRISSO(osimertinib) aux Etats-Unis avec un libell√© superposable √† celui de
: ¬´ as adjuvant therapy after tumor resection in adult patients with non-
small cell lung cancer (NSCLC) whose tumors have epidermal growth factor receptor (EGFR) exon
19 deletions or exon 21 L858R mutations, as detected by an FDA-approved test ¬ª
Prise en charge
Selon les informations transmises par le laboratoire √† la date du d√©p√¥t du dossier :
PRISE EN CHARGE
Pays Population(s)
Oui/Non/En cours
Royaume-Uni En cours -
Allemagne Oui -
Pays-Bas Non, d√©p√¥t pr√©vu -
Belgique Non, d√©p√¥t pr√©vu -
Espagne Non, d√©p√¥t pr√©vu -
Italie Non, d√©p√¥t pr√©vu -
07
ANALYSE DES DONNEES DISPONIBLES
TAGRISSO (osimertinib en premi√®re
ligne, dans le traitement adjuvant apr√®s r√©section tumorale compl√®te des patients adultes atteints
cellules (CBNPC) de stade IB IIIA avec mutations activatrices
repose 

## 6. Conclusion

### Mistral OCR

**Texte courant** : extraction integrale. Paragraphes complets, footnotes avec exposants, ponctuation correcte.

**Tables - donnees** : toutes les valeurs sont correctes (pays, statuts, caracteristiques patients, pourcentages). Aucune donnee perdue ou tronquee.

**Tables - limite identifiee** : quand une cellule PDF contient un retour a la ligne visuel,
Mistral le traite parfois comme une nouvelle ligne de tableau au lieu de le garder dans la meme cellule.
Cas concrets :
- **page_9, table "Prise en charge"** : le header `Population(s) / Celle de l'AMM ou restreinte`
  est splite avec un `\n` dans la cellule au lieu d'un `<br>`. La structure multi-niveaux du header
  (bold + `<br>`) n'est pas reproduite.
- **page_15, table patient characteristics** : les headers `Osimertinib / N=339` sont eclates
  sur 2 lignes de tableau au lieu d'une seule cellule avec `<br>`.

Le corps des tables est correct, seule la **fusion des headers multi-lignes** pose probleme.

### pdfplumber

Resultat inutilisable sur ces PDFs complexes :
- **Texte** : phrases tronquees ("revision du paragra", "Principales c", "dispose d'une AMM" manquant)
- **page_9 table 0** : colonne "Pays" perdue, headers fusionnes dans la premiere cellule
- **page_9 table 1** : cellules coupees en plein mot ("Clinicaltrials.g" / "ov t:NCT02511106")
- **page_15 table** : 2 colonnes detectees au lieu de 4, cellules eclatees mid-word ("Osime\nN=3" / "rtinib Placebo Total\n39 N=343 N=682")

### Tableau recapitulatif

| Critere | Mistral OCR | pdfplumber |
|---------|-------------|------------|
| Texte courant | Complet | Tronque |
| Valeurs dans tables | 100% correct | Cassees (mid-word splits) |
| Structure tables | Bonne sauf headers multi-lignes | Inutilisable |
| Headers complexes (`<br>`, fusion) | Splite en lignes separees | Fusionne n'importe comment |

### Verdict

**Mistral OCR** est le bon choix pour ces documents. Le probleme des headers multi-lignes
est mineur et gerable en post-traitement (merger les lignes qui ne sont que des sous-titres
de colonnes). pdfplumber n'est pas adapte a ce type de document (PDF a mise en page complexe,
colonnes etroites, cellules multi-lignes).