# 📖 Notebook 1 - Ingestion et Nettoyage des Textes Harry Potter

Ce notebook extrait et nettoie les textes des livres Harry Potter depuis les PDFs.

## Objectifs
1. Extraire le texte brut des 7 livres PDF
2. Nettoyer et normaliser le texte
3. Segmenter par phrases et dialogues
4. Exporter en format parquet pour analyse ultérieure

## Sorties
- `data/sentences.parquet` : corpus segmenté par phrases
- `data/book_metadata.json` : métadonnées des livres

In [1]:
# Imports
import os
import re
import json
from pathlib import Path
from typing import Dict, List, Tuple
import PyPDF2
import pandas as pd
import numpy as np
from tqdm import tqdm

# Configuration des chemins
NOTEBOOK_DIR = Path.cwd()

# Trouver la racine du dépôt en cherchant le dossier 'context'
def find_repo_root(start: Path) -> Path:
    for p in [start] + list(start.parents):
        if (p / 'context').is_dir():
            return p
    return start

REPO_ROOT = find_repo_root(NOTEBOOK_DIR)
PROJECT_DIR = None
# Trouver le répertoire de projet (contenant 'notebooks')
for p in [NOTEBOOK_DIR] + list(NOTEBOOK_DIR.parents):
    if (p / 'notebooks').is_dir():
        PROJECT_DIR = p
        break
if PROJECT_DIR is None:
    PROJECT_DIR = NOTEBOOK_DIR

BOOKS_DIR = REPO_ROOT / 'context' / 'books'
DATA_DIR = PROJECT_DIR / 'data'

# Créer le dossier data si nécessaire
DATA_DIR.mkdir(parents=True, exist_ok=True)

print(f"📁 Repo root: {REPO_ROOT}")
print(f"📁 Project dir: {PROJECT_DIR}")
print(f"📚 Books directory: {BOOKS_DIR}")
print(f"💾 Data output: {DATA_DIR}")

📁 Repo root: C:\Users\julie\src\School\Workshop\workshop-poudlard-epsi
📁 Project dir: C:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp
📚 Books directory: C:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\context\books
💾 Data output: C:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp\data


In [2]:
# Métadonnées des livres
BOOK_INFO = {
    "harry-potter-1-lecole-des-sorciers.pdf": {
        "title": "L'École des Sorciers",
        "book_number": 1,
        "pages": 320,
        "year": 1997
    },
    "harry-potter-2-la-chambre-des-secrets.pdf": {
        "title": "La Chambre des Secrets",
        "book_number": 2,
        "pages": 360,
        "year": 1998
    },
    "harry-potter-3-le-prisonnier-dazkaban.pdf": {
        "title": "Le Prisonnier d'Azkaban",
        "book_number": 3,
        "pages": 420,
        "year": 1999
    },
    "harry-potter-4-la-coupe-de-feu.pdf": {
        "title": "La Coupe de Feu",
        "book_number": 4,
        "pages": 656,
        "year": 2000
    },
    "harry-potter-5-lordre-du-phoenix.pdf": {
        "title": "L'Ordre du Phénix",
        "book_number": 5,
        "pages": 980,
        "year": 2003
    },
    "harry-potter-6-le-prince-de-sang-mecc82lecc81.pdf": {
        "title": "Le Prince de Sang-Mêlé",
        "book_number": 6,
        "pages": 640,
        "year": 2005
    },
    "harry-potter-7-les-reliques-de-la-mort.pdf": {
        "title": "Les Reliques de la Mort",
        "book_number": 7,
        "pages": 800,
        "year": 2007
    }
}

print(f"📚 Nombre de livres configurés: {len(BOOK_INFO)}")

📚 Nombre de livres configurés: 7


## 1. Extraction du texte depuis les PDFs

In [3]:
def extract_text_from_pdf(pdf_path: Path) -> str:
    """Extrait le texte d'un fichier PDF."""
    text = ""
    
    try:
        with open(pdf_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            print(f"  📄 Pages: {len(pdf_reader.pages)}")
            
            for page_num, page in enumerate(tqdm(pdf_reader.pages, desc="Extraction")):
                try:
                    text += page.extract_text() + "\n"
                except Exception as e:
                    print(f"  ⚠️  Erreur page {page_num}: {e}")
                    continue
    except Exception as e:
        print(f"  ❌ Erreur lecture PDF: {e}")
        return ""
    
    return text


def clean_text(text: str) -> str:
    """Nettoie le texte extrait."""
    # Supprimer les sauts de ligne excessifs
    text = re.sub(r'\n{3,}', '\n\n', text)
    
    # Supprimer les espaces multiples
    text = re.sub(r' +', ' ', text)
    
    # Normaliser les guillemets
    text = text.replace('\u2018', "'").replace('\u2019', "'")
    text = text.replace('\u201c', '«').replace('\u201d', '»')
    
    return text.strip()

In [4]:
# Extraire le texte de tous les livres
books_data = []

for filename, info in BOOK_INFO.items():
    pdf_path = BOOKS_DIR / filename
    
    if not pdf_path.exists():
        print(f"⚠️  Livre non trouvé: {filename}")
        continue
    
    print(f"\n📖 Extraction: {info['title']}")
    
    # Extraire et nettoyer
    raw_text = extract_text_from_pdf(pdf_path)
    clean = clean_text(raw_text)
    
    # Statistiques de base
    word_count = len(clean.split())
    char_count = len(clean)
    
    print(f"  ✅ Mots: {word_count:,}")
    print(f"  ✅ Caractères: {char_count:,}")
    
    books_data.append({
        'filename': filename,
        'book_number': info['book_number'],
        'title': info['title'],
        'pages': info['pages'],
        'year': info['year'],
        'text': clean,
        'word_count': word_count,
        'char_count': char_count
    })

print(f"\n✅ Total livres extraits: {len(books_data)}")


📖 Extraction: L'École des Sorciers
  📄 Pages: 208


Extraction:   0%|                                                                                                                  | 0/208 [00:00<?, ?it/s]

Extraction:   2%|██                                                                                                        | 4/208 [00:00<00:06, 32.47it/s]

Extraction:   4%|████                                                                                                      | 8/208 [00:00<00:06, 29.28it/s]

Extraction:   6%|██████                                                                                                   | 12/208 [00:00<00:06, 32.07it/s]

Extraction:   8%|████████                                                                                                 | 16/208 [00:00<00:05, 32.26it/s]

Extraction:  10%|██████████                                                                                               | 20/208 [00:00<00:06, 31.22it/s]

Extraction:  12%|████████████▌                                                                                            | 25/208 [00:00<00:05, 33.10it/s]

Extraction:  14%|██████████████▋                                                                                          | 29/208 [00:00<00:05, 33.98it/s]

Extraction:  16%|████████████████▋                                                                                        | 33/208 [00:01<00:05, 34.22it/s]

Extraction:  18%|███████████████████▏                                                                                     | 38/208 [00:01<00:04, 35.80it/s]

Extraction:  20%|█████████████████████▏                                                                                   | 42/208 [00:01<00:04, 34.55it/s]

Extraction:  22%|███████████████████████▏                                                                                 | 46/208 [00:01<00:04, 35.60it/s]

Extraction:  24%|█████████████████████████▏                                                                               | 50/208 [00:01<00:04, 34.72it/s]

Extraction:  26%|███████████████████████████▎                                                                             | 54/208 [00:01<00:04, 35.85it/s]

Extraction:  28%|█████████████████████████████▎                                                                           | 58/208 [00:01<00:04, 34.32it/s]

Extraction:  30%|███████████████████████████████▎                                                                         | 62/208 [00:01<00:04, 35.23it/s]

Extraction:  32%|█████████████████████████████████▊                                                                       | 67/208 [00:01<00:03, 38.23it/s]

Extraction:  34%|███████████████████████████████████▊                                                                     | 71/208 [00:02<00:03, 35.84it/s]

Extraction:  37%|██████████████████████████████████████▎                                                                  | 76/208 [00:02<00:03, 35.91it/s]

Extraction:  39%|████████████████████████████████████████▉                                                                | 81/208 [00:02<00:03, 38.54it/s]

Extraction:  41%|██████████████████████████████████████████▉                                                              | 85/208 [00:02<00:03, 38.25it/s]

Extraction:  43%|████████████████████████████████████████████▉                                                            | 89/208 [00:02<00:03, 36.36it/s]

Extraction:  45%|██████████████████████████████████████████████▉                                                          | 93/208 [00:02<00:03, 35.91it/s]

Extraction:  47%|████████████████████████████████████████████████▉                                                        | 97/208 [00:02<00:03, 34.55it/s]

Extraction:  49%|██████████████████████████████████████████████████▌                                                     | 101/208 [00:02<00:03, 33.80it/s]

Extraction:  51%|█████████████████████████████████████████████████████                                                   | 106/208 [00:03<00:02, 35.12it/s]

Extraction:  53%|███████████████████████████████████████████████████████                                                 | 110/208 [00:03<00:02, 35.38it/s]

Extraction:  55%|█████████████████████████████████████████████████████████▌                                              | 115/208 [00:03<00:02, 36.06it/s]

Extraction:  57%|███████████████████████████████████████████████████████████▌                                            | 119/208 [00:03<00:02, 34.47it/s]

Extraction:  60%|██████████████████████████████████████████████████████████████                                          | 124/208 [00:03<00:02, 36.87it/s]

Extraction:  62%|████████████████████████████████████████████████████████████████                                        | 128/208 [00:03<00:02, 36.36it/s]

Extraction:  64%|██████████████████████████████████████████████████████████████████▌                                     | 133/208 [00:03<00:02, 37.17it/s]

Extraction:  66%|████████████████████████████████████████████████████████████████████▌                                   | 137/208 [00:03<00:01, 37.61it/s]

Extraction:  68%|██████████████████████████████████████████████████████████████████████▌                                 | 141/208 [00:04<00:01, 34.16it/s]

Extraction:  70%|█████████████████████████████████████████████████████████████████████████                               | 146/208 [00:04<00:01, 36.44it/s]

Extraction:  72%|███████████████████████████████████████████████████████████████████████████                             | 150/208 [00:04<00:01, 36.75it/s]

Extraction:  75%|█████████████████████████████████████████████████████████████████████████████▌                          | 155/208 [00:04<00:01, 37.85it/s]

Extraction:  76%|███████████████████████████████████████████████████████████████████████████████▌                        | 159/208 [00:04<00:01, 37.16it/s]

Extraction:  79%|██████████████████████████████████████████████████████████████████████████████████                      | 164/208 [00:04<00:01, 35.91it/s]

Extraction:  81%|████████████████████████████████████████████████████████████████████████████████████                    | 168/208 [00:04<00:01, 36.38it/s]

Extraction:  83%|██████████████████████████████████████████████████████████████████████████████████████                  | 172/208 [00:04<00:01, 35.04it/s]

Extraction:  85%|████████████████████████████████████████████████████████████████████████████████████████                | 176/208 [00:04<00:00, 34.84it/s]

Extraction:  87%|██████████████████████████████████████████████████████████████████████████████████████████▌             | 181/208 [00:05<00:00, 36.18it/s]

Extraction:  89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 185/208 [00:05<00:00, 36.19it/s]

Extraction:  91%|██████████████████████████████████████████████████████████████████████████████████████████████▌         | 189/208 [00:05<00:00, 36.19it/s]

Extraction:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▌      | 195/208 [00:05<00:00, 40.90it/s]

Extraction:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████    | 200/208 [00:05<00:00, 39.39it/s]

Extraction:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████  | 204/208 [00:05<00:00, 37.87it/s]

Extraction: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 208/208 [00:05<00:00, 37.57it/s]

Extraction: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 208/208 [00:05<00:00, 35.86it/s]




  ✅ Mots: 85,803
  ✅ Caractères: 501,556

📖 Extraction: La Chambre des Secrets
  📄 Pages: 177


Extraction:   0%|                                                                                                                  | 0/177 [00:00<?, ?it/s]

Extraction:   2%|██▍                                                                                                       | 4/177 [00:00<00:05, 31.81it/s]

Extraction:   5%|████▊                                                                                                     | 8/177 [00:00<00:05, 31.10it/s]

Extraction:   7%|███████                                                                                                  | 12/177 [00:00<00:05, 27.95it/s]

Extraction:   9%|█████████▍                                                                                               | 16/177 [00:00<00:05, 30.53it/s]

Extraction:  11%|███████████▊                                                                                             | 20/177 [00:00<00:05, 29.63it/s]

Extraction:  14%|██████████████▏                                                                                          | 24/177 [00:00<00:05, 30.23it/s]

Extraction:  16%|████████████████▌                                                                                        | 28/177 [00:00<00:05, 28.38it/s]

Extraction:  18%|██████████████████▍                                                                                      | 31/177 [00:01<00:05, 27.40it/s]

Extraction:  19%|████████████████████▏                                                                                    | 34/177 [00:01<00:05, 27.89it/s]

Extraction:  21%|█████████████████████▉                                                                                   | 37/177 [00:01<00:05, 27.44it/s]

Extraction:  23%|███████████████████████▋                                                                                 | 40/177 [00:01<00:05, 26.25it/s]

Extraction:  24%|█████████████████████████▌                                                                               | 43/177 [00:01<00:04, 26.99it/s]

Extraction:  26%|███████████████████████████▎                                                                             | 46/177 [00:01<00:04, 26.41it/s]

Extraction:  28%|█████████████████████████████                                                                            | 49/177 [00:01<00:04, 26.35it/s]

Extraction:  29%|██████████████████████████████▊                                                                          | 52/177 [00:01<00:04, 26.03it/s]

Extraction:  31%|████████████████████████████████▋                                                                        | 55/177 [00:02<00:04, 24.54it/s]

Extraction:  33%|██████████████████████████████████▍                                                                      | 58/177 [00:02<00:04, 23.91it/s]

Extraction:  34%|████████████████████████████████████▏                                                                    | 61/177 [00:02<00:04, 25.34it/s]

Extraction:  36%|█████████████████████████████████████▉                                                                   | 64/177 [00:02<00:04, 24.25it/s]

Extraction:  38%|███████████████████████████████████████▋                                                                 | 67/177 [00:02<00:04, 24.39it/s]

Extraction:  40%|█████████████████████████████████████████▌                                                               | 70/177 [00:02<00:04, 25.30it/s]

Extraction:  41%|███████████████████████████████████████████▎                                                             | 73/177 [00:02<00:04, 25.81it/s]

Extraction:  44%|█████████████████████████████████████████████▋                                                           | 77/177 [00:02<00:03, 29.31it/s]

Extraction:  45%|███████████████████████████████████████████████▍                                                         | 80/177 [00:02<00:03, 26.84it/s]

Extraction:  47%|█████████████████████████████████████████████████▏                                                       | 83/177 [00:03<00:03, 26.32it/s]

Extraction:  49%|███████████████████████████████████████████████████▌                                                     | 87/177 [00:03<00:03, 27.44it/s]

Extraction:  51%|█████████████████████████████████████████████████████▍                                                   | 90/177 [00:03<00:03, 27.67it/s]

Extraction:  53%|███████████████████████████████████████████████████████▏                                                 | 93/177 [00:03<00:03, 25.99it/s]

Extraction:  55%|█████████████████████████████████████████████████████████▌                                               | 97/177 [00:03<00:02, 27.12it/s]

Extraction:  56%|██████████████████████████████████████████████████████████▊                                             | 100/177 [00:03<00:02, 26.86it/s]

Extraction:  58%|████████████████████████████████████████████████████████████▌                                           | 103/177 [00:03<00:02, 26.25it/s]

Extraction:  60%|██████████████████████████████████████████████████████████████▎                                         | 106/177 [00:03<00:02, 25.22it/s]

Extraction:  62%|████████████████████████████████████████████████████████████████▋                                       | 110/177 [00:04<00:02, 27.42it/s]

Extraction:  64%|██████████████████████████████████████████████████████████████████▍                                     | 113/177 [00:04<00:02, 21.97it/s]

Extraction:  66%|████████████████████████████████████████████████████████████████████▏                                   | 116/177 [00:04<00:02, 20.98it/s]

Extraction:  67%|█████████████████████████████████████████████████████████████████████▉                                  | 119/177 [00:04<00:02, 22.30it/s]

Extraction:  69%|███████████████████████████████████████████████████████████████████████▋                                | 122/177 [00:04<00:02, 20.79it/s]

Extraction:  71%|█████████████████████████████████████████████████████████████████████████▍                              | 125/177 [00:04<00:02, 20.90it/s]

Extraction:  72%|███████████████████████████████████████████████████████████████████████████▏                            | 128/177 [00:04<00:02, 22.45it/s]

Extraction:  74%|████████████████████████████████████████████████████████████████████████████▉                           | 131/177 [00:05<00:01, 23.33it/s]

Extraction:  76%|██████████████████████████████████████████████████████████████████████████████▋                         | 134/177 [00:05<00:01, 22.72it/s]

Extraction:  77%|████████████████████████████████████████████████████████████████████████████████▍                       | 137/177 [00:05<00:01, 23.77it/s]

Extraction:  79%|██████████████████████████████████████████████████████████████████████████████████▎                     | 140/177 [00:05<00:01, 23.07it/s]

Extraction:  81%|████████████████████████████████████████████████████████████████████████████████████                    | 143/177 [00:05<00:01, 24.41it/s]

Extraction:  82%|█████████████████████████████████████████████████████████████████████████████████████▊                  | 146/177 [00:05<00:01, 24.47it/s]

Extraction:  84%|███████████████████████████████████████████████████████████████████████████████████████▌                | 149/177 [00:05<00:01, 24.57it/s]

Extraction:  86%|█████████████████████████████████████████████████████████████████████████████████████████▎              | 152/177 [00:05<00:00, 25.43it/s]

Extraction:  88%|███████████████████████████████████████████████████████████████████████████████████████████             | 155/177 [00:06<00:00, 25.26it/s]

Extraction:  90%|█████████████████████████████████████████████████████████████████████████████████████████████▍          | 159/177 [00:06<00:00, 25.96it/s]

Extraction:  92%|███████████████████████████████████████████████████████████████████████████████████████████████▏        | 162/177 [00:06<00:00, 25.92it/s]

Extraction:  93%|████████████████████████████████████████████████████████████████████████████████████████████████▉       | 165/177 [00:06<00:00, 23.93it/s]

Extraction:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▋     | 168/177 [00:06<00:00, 23.32it/s]

Extraction:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████   | 172/177 [00:06<00:00, 25.32it/s]

Extraction:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 175/177 [00:06<00:00, 25.64it/s]

Extraction: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 177/177 [00:06<00:00, 25.46it/s]




  ✅ Mots: 92,206
  ✅ Caractères: 543,799

📖 Extraction: Le Prisonnier d'Azkaban
  📄 Pages: 288


Extraction:   0%|                                                                                                                  | 0/288 [00:00<?, ?it/s]

Extraction:   2%|█▊                                                                                                        | 5/288 [00:00<00:06, 44.87it/s]

Extraction:   3%|███▋                                                                                                     | 10/288 [00:00<00:08, 32.54it/s]

Extraction:   5%|█████                                                                                                    | 14/288 [00:00<00:08, 32.33it/s]

Extraction:   6%|██████▌                                                                                                  | 18/288 [00:00<00:08, 30.17it/s]

Extraction:   8%|████████                                                                                                 | 22/288 [00:00<00:08, 31.73it/s]

Extraction:   9%|█████████▍                                                                                               | 26/288 [00:00<00:08, 31.42it/s]

Extraction:  10%|██████████▉                                                                                              | 30/288 [00:00<00:08, 31.29it/s]

Extraction:  12%|████████████▊                                                                                            | 35/288 [00:01<00:07, 32.89it/s]

Extraction:  14%|██████████████▏                                                                                          | 39/288 [00:01<00:07, 32.35it/s]

Extraction:  15%|███████████████▋                                                                                         | 43/288 [00:01<00:07, 33.91it/s]

Extraction:  16%|█████████████████▏                                                                                       | 47/288 [00:01<00:07, 31.38it/s]

Extraction:  18%|██████████████████▌                                                                                      | 51/288 [00:01<00:07, 32.86it/s]

Extraction:  19%|████████████████████                                                                                     | 55/288 [00:01<00:07, 32.12it/s]

Extraction:  20%|█████████████████████▌                                                                                   | 59/288 [00:01<00:07, 31.55it/s]

Extraction:  22%|██████████████████████▉                                                                                  | 63/288 [00:01<00:07, 31.30it/s]

Extraction:  23%|████████████████████████▍                                                                                | 67/288 [00:02<00:06, 32.83it/s]

Extraction:  25%|█████████████████████████▉                                                                               | 71/288 [00:02<00:06, 32.32it/s]

Extraction:  26%|███████████████████████████▎                                                                             | 75/288 [00:02<00:06, 33.13it/s]

Extraction:  27%|████████████████████████████▊                                                                            | 79/288 [00:02<00:06, 31.84it/s]

Extraction:  29%|██████████████████████████████▋                                                                          | 84/288 [00:02<00:06, 32.98it/s]

Extraction:  31%|████████████████████████████████▍                                                                        | 89/288 [00:02<00:05, 34.71it/s]

Extraction:  32%|█████████████████████████████████▉                                                                       | 93/288 [00:02<00:06, 30.77it/s]

Extraction:  34%|███████████████████████████████████▎                                                                     | 97/288 [00:03<00:06, 30.72it/s]

Extraction:  35%|████████████████████████████████████▍                                                                   | 101/288 [00:03<00:05, 31.50it/s]

Extraction:  36%|█████████████████████████████████████▉                                                                  | 105/288 [00:03<00:05, 32.60it/s]

Extraction:  38%|███████████████████████████████████████▎                                                                | 109/288 [00:03<00:05, 34.29it/s]

Extraction:  39%|████████████████████████████████████████▊                                                               | 113/288 [00:03<00:05, 32.49it/s]

Extraction:  41%|██████████████████████████████████████████▎                                                             | 117/288 [00:03<00:05, 31.32it/s]

Extraction:  42%|███████████████████████████████████████████▋                                                            | 121/288 [00:03<00:05, 30.63it/s]

Extraction:  43%|█████████████████████████████████████████████▏                                                          | 125/288 [00:03<00:05, 31.87it/s]

Extraction:  45%|██████████████████████████████████████████████▌                                                         | 129/288 [00:04<00:05, 30.99it/s]

Extraction:  46%|████████████████████████████████████████████████                                                        | 133/288 [00:04<00:05, 29.62it/s]

Extraction:  48%|█████████████████████████████████████████████████▍                                                      | 137/288 [00:04<00:04, 30.93it/s]

Extraction:  49%|██████████████████████████████████████████████████▉                                                     | 141/288 [00:04<00:04, 30.49it/s]

Extraction:  50%|████████████████████████████████████████████████████▎                                                   | 145/288 [00:04<00:04, 30.54it/s]

Extraction:  52%|█████████████████████████████████████████████████████▊                                                  | 149/288 [00:04<00:04, 31.78it/s]

Extraction:  53%|███████████████████████████████████████████████████████▎                                                | 153/288 [00:04<00:04, 30.63it/s]

Extraction:  55%|████████████████████████████████████████████████████████▋                                               | 157/288 [00:04<00:04, 30.22it/s]

Extraction:  56%|██████████████████████████████████████████████████████████▏                                             | 161/288 [00:05<00:04, 30.11it/s]

Extraction:  57%|███████████████████████████████████████████████████████████▌                                            | 165/288 [00:05<00:04, 30.62it/s]

Extraction:  59%|█████████████████████████████████████████████████████████████                                           | 169/288 [00:05<00:03, 31.70it/s]

Extraction:  60%|██████████████████████████████████████████████████████████████▍                                         | 173/288 [00:05<00:03, 30.41it/s]

Extraction:  61%|███████████████████████████████████████████████████████████████▉                                        | 177/288 [00:05<00:03, 32.10it/s]

Extraction:  63%|█████████████████████████████████████████████████████████████████▎                                      | 181/288 [00:05<00:03, 31.72it/s]

Extraction:  64%|██████████████████████████████████████████████████████████████████▊                                     | 185/288 [00:05<00:03, 31.02it/s]

Extraction:  66%|████████████████████████████████████████████████████████████████████▎                                   | 189/288 [00:05<00:03, 32.17it/s]

Extraction:  67%|█████████████████████████████████████████████████████████████████████▋                                  | 193/288 [00:06<00:02, 32.12it/s]

Extraction:  68%|███████████████████████████████████████████████████████████████████████▏                                | 197/288 [00:06<00:02, 33.41it/s]

Extraction:  70%|████████████████████████████████████████████████████████████████████████▌                               | 201/288 [00:06<00:02, 30.51it/s]

Extraction:  71%|██████████████████████████████████████████████████████████████████████████                              | 205/288 [00:06<00:02, 29.55it/s]

Extraction:  73%|███████████████████████████████████████████████████████████████████████████▍                            | 209/288 [00:06<00:02, 29.37it/s]

Extraction:  74%|████████████████████████████████████████████████████████████████████████████▉                           | 213/288 [00:06<00:02, 30.56it/s]

Extraction:  75%|██████████████████████████████████████████████████████████████████████████████▎                         | 217/288 [00:06<00:02, 30.84it/s]

Extraction:  77%|████████████████████████████████████████████████████████████████████████████████▏                       | 222/288 [00:07<00:02, 32.94it/s]

Extraction:  78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 226/288 [00:07<00:01, 33.89it/s]

Extraction:  80%|███████████████████████████████████████████████████████████████████████████████████                     | 230/288 [00:07<00:01, 33.04it/s]

Extraction:  81%|████████████████████████████████████████████████████████████████████████████████████▌                   | 234/288 [00:07<00:01, 34.33it/s]

Extraction:  83%|█████████████████████████████████████████████████████████████████████████████████████▉                  | 238/288 [00:07<00:01, 31.30it/s]

Extraction:  84%|███████████████████████████████████████████████████████████████████████████████████████▍                | 242/288 [00:07<00:01, 30.65it/s]

Extraction:  85%|████████████████████████████████████████████████████████████████████████████████████████▊               | 246/288 [00:07<00:01, 29.22it/s]

Extraction:  87%|██████████████████████████████████████████████████████████████████████████████████████████▋             | 251/288 [00:07<00:01, 32.86it/s]

Extraction:  89%|████████████████████████████████████████████████████████████████████████████████████████████            | 255/288 [00:08<00:01, 31.69it/s]

Extraction:  90%|█████████████████████████████████████████████████████████████████████████████████████████████▌          | 259/288 [00:08<00:00, 31.35it/s]

Extraction:  91%|██████████████████████████████████████████████████████████████████████████████████████████████▉         | 263/288 [00:08<00:00, 32.69it/s]

Extraction:  93%|████████████████████████████████████████████████████████████████████████████████████████████████▍       | 267/288 [00:08<00:00, 32.30it/s]

Extraction:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 271/288 [00:08<00:00, 32.61it/s]

Extraction:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████▎    | 275/288 [00:08<00:00, 34.20it/s]

Extraction:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▊   | 279/288 [00:08<00:00, 32.95it/s]

Extraction:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 283/288 [00:08<00:00, 34.45it/s]

Extraction: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 287/288 [00:09<00:00, 32.26it/s]

Extraction: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 288/288 [00:09<00:00, 31.93it/s]




  ✅ Mots: 121,640
  ✅ Caractères: 711,797

📖 Extraction: La Coupe de Feu
  📄 Pages: 386


Extraction:   0%|                                                                                                                  | 0/386 [00:00<?, ?it/s]

Extraction:   2%|█▋                                                                                                        | 6/386 [00:00<00:08, 43.63it/s]

Extraction:   3%|██▉                                                                                                      | 11/386 [00:00<00:11, 32.92it/s]

Extraction:   4%|████                                                                                                     | 15/386 [00:00<00:12, 30.61it/s]

Extraction:   5%|█████▏                                                                                                   | 19/386 [00:00<00:12, 29.78it/s]

Extraction:   6%|█████▉                                                                                                   | 22/386 [00:00<00:12, 28.44it/s]

Extraction:   6%|██████▊                                                                                                  | 25/386 [00:00<00:13, 27.69it/s]

Extraction:   8%|███████▉                                                                                                 | 29/386 [00:00<00:11, 29.89it/s]

Extraction:   8%|████████▋                                                                                                | 32/386 [00:01<00:12, 29.30it/s]

Extraction:   9%|█████████▊                                                                                               | 36/386 [00:01<00:11, 31.46it/s]

Extraction:  10%|██████████▉                                                                                              | 40/386 [00:01<00:11, 30.42it/s]

Extraction:  11%|███████████▉                                                                                             | 44/386 [00:01<00:11, 29.01it/s]

Extraction:  13%|█████████████▎                                                                                           | 49/386 [00:01<00:10, 30.78it/s]

Extraction:  14%|██████████████▋                                                                                          | 54/386 [00:01<00:09, 34.22it/s]

Extraction:  15%|███████████████▊                                                                                         | 58/386 [00:01<00:10, 31.31it/s]

Extraction:  16%|████████████████▊                                                                                        | 62/386 [00:02<00:10, 29.95it/s]

Extraction:  17%|█████████████████▉                                                                                       | 66/386 [00:02<00:10, 31.90it/s]

Extraction:  18%|███████████████████                                                                                      | 70/386 [00:02<00:10, 30.25it/s]

Extraction:  19%|████████████████████▏                                                                                    | 74/386 [00:02<00:11, 27.13it/s]

Extraction:  20%|████████████████████▉                                                                                    | 77/386 [00:02<00:12, 24.12it/s]

Extraction:  21%|█████████████████████▊                                                                                   | 80/386 [00:02<00:13, 22.49it/s]

Extraction:  22%|██████████████████████▌                                                                                  | 83/386 [00:02<00:13, 23.05it/s]

Extraction:  22%|███████████████████████▍                                                                                 | 86/386 [00:03<00:13, 22.67it/s]

Extraction:  23%|████████████████████████▏                                                                                | 89/386 [00:03<00:13, 21.86it/s]

Extraction:  24%|█████████████████████████                                                                                | 92/386 [00:03<00:12, 23.11it/s]

Extraction:  25%|█████████████████████████▊                                                                               | 95/386 [00:03<00:13, 22.18it/s]

Extraction:  25%|██████████████████████████▋                                                                              | 98/386 [00:03<00:13, 21.53it/s]

Extraction:  26%|███████████████████████████▏                                                                            | 101/386 [00:03<00:13, 21.11it/s]

Extraction:  27%|████████████████████████████                                                                            | 104/386 [00:03<00:13, 20.90it/s]

Extraction:  28%|█████████████████████████████                                                                           | 108/386 [00:04<00:11, 23.81it/s]

Extraction:  29%|█████████████████████████████▉                                                                          | 111/386 [00:04<00:11, 23.84it/s]

Extraction:  30%|██████████████████████████████▋                                                                         | 114/386 [00:04<00:12, 22.22it/s]

Extraction:  30%|███████████████████████████████▌                                                                        | 117/386 [00:04<00:11, 23.85it/s]

Extraction:  31%|████████████████████████████████▎                                                                       | 120/386 [00:04<00:11, 22.49it/s]

Extraction:  32%|█████████████████████████████████▏                                                                      | 123/386 [00:04<00:11, 22.16it/s]

Extraction:  33%|█████████████████████████████████▉                                                                      | 126/386 [00:04<00:11, 22.20it/s]

Extraction:  33%|██████████████████████████████████▊                                                                     | 129/386 [00:04<00:11, 22.78it/s]

Extraction:  34%|███████████████████████████████████▌                                                                    | 132/386 [00:05<00:11, 22.36it/s]

Extraction:  35%|████████████████████████████████████▎                                                                   | 135/386 [00:05<00:10, 23.37it/s]

Extraction:  36%|█████████████████████████████████████▏                                                                  | 138/386 [00:05<00:10, 23.66it/s]

Extraction:  37%|█████████████████████████████████████▉                                                                  | 141/386 [00:05<00:10, 22.57it/s]

Extraction:  37%|██████████████████████████████████████▊                                                                 | 144/386 [00:05<00:10, 22.12it/s]

Extraction:  38%|███████████████████████████████████████▌                                                                | 147/386 [00:05<00:10, 21.88it/s]

Extraction:  39%|████████████████████████████████████████▍                                                               | 150/386 [00:05<00:11, 20.97it/s]

Extraction:  40%|█████████████████████████████████████████▏                                                              | 153/386 [00:06<00:10, 21.77it/s]

Extraction:  40%|██████████████████████████████████████████                                                              | 156/386 [00:06<00:10, 21.68it/s]

Extraction:  41%|██████████████████████████████████████████▊                                                             | 159/386 [00:06<00:10, 21.42it/s]

Extraction:  42%|███████████████████████████████████████████▋                                                            | 162/386 [00:06<00:10, 21.00it/s]

Extraction:  43%|████████████████████████████████████████████▍                                                           | 165/386 [00:06<00:09, 22.68it/s]

Extraction:  44%|█████████████████████████████████████████████▎                                                          | 168/386 [00:06<00:10, 21.65it/s]

Extraction:  44%|██████████████████████████████████████████████                                                          | 171/386 [00:06<00:09, 21.52it/s]

Extraction:  45%|██████████████████████████████████████████████▉                                                         | 174/386 [00:07<00:09, 22.40it/s]

Extraction:  46%|███████████████████████████████████████████████▋                                                        | 177/386 [00:07<00:08, 23.47it/s]

Extraction:  47%|████████████████████████████████████████████████▍                                                       | 180/386 [00:07<00:09, 22.03it/s]

Extraction:  47%|█████████████████████████████████████████████████▎                                                      | 183/386 [00:07<00:09, 21.56it/s]

Extraction:  48%|██████████████████████████████████████████████████                                                      | 186/386 [00:07<00:09, 21.97it/s]

Extraction:  49%|██████████████████████████████████████████████████▉                                                     | 189/386 [00:07<00:08, 22.46it/s]

Extraction:  50%|███████████████████████████████████████████████████▋                                                    | 192/386 [00:07<00:08, 22.03it/s]

Extraction:  51%|████████████████████████████████████████████████████▌                                                   | 195/386 [00:07<00:08, 21.40it/s]

Extraction:  51%|█████████████████████████████████████████████████████▎                                                  | 198/386 [00:08<00:08, 21.69it/s]

Extraction:  52%|██████████████████████████████████████████████████████▏                                                 | 201/386 [00:08<00:08, 21.74it/s]

Extraction:  53%|██████████████████████████████████████████████████████▉                                                 | 204/386 [00:08<00:08, 21.48it/s]

Extraction:  54%|███████████████████████████████████████████████████████▊                                                | 207/386 [00:08<00:08, 21.15it/s]

Extraction:  54%|████████████████████████████████████████████████████████▌                                               | 210/386 [00:08<00:08, 21.76it/s]

Extraction:  55%|█████████████████████████████████████████████████████████▋                                              | 214/386 [00:08<00:07, 23.63it/s]

Extraction:  56%|██████████████████████████████████████████████████████████▍                                             | 217/386 [00:08<00:07, 23.28it/s]

Extraction:  57%|███████████████████████████████████████████████████████████▎                                            | 220/386 [00:09<00:07, 22.24it/s]

Extraction:  58%|████████████████████████████████████████████████████████████▎                                           | 224/386 [00:09<00:07, 23.14it/s]

Extraction:  59%|█████████████████████████████████████████████████████████████▏                                          | 227/386 [00:09<00:06, 23.10it/s]

Extraction:  60%|█████████████████████████████████████████████████████████████▉                                          | 230/386 [00:09<00:07, 21.95it/s]

Extraction:  60%|██████████████████████████████████████████████████████████████▊                                         | 233/386 [00:09<00:07, 21.77it/s]

Extraction:  61%|███████████████████████████████████████████████████████████████▌                                        | 236/386 [00:09<00:06, 21.62it/s]

Extraction:  62%|████████████████████████████████████████████████████████████████▍                                       | 239/386 [00:09<00:06, 21.68it/s]

Extraction:  63%|█████████████████████████████████████████████████████████████████▏                                      | 242/386 [00:10<00:06, 21.15it/s]

Extraction:  63%|██████████████████████████████████████████████████████████████████                                      | 245/386 [00:10<00:06, 20.89it/s]

Extraction:  64%|██████████████████████████████████████████████████████████████████▊                                     | 248/386 [00:10<00:06, 21.48it/s]

Extraction:  65%|███████████████████████████████████████████████████████████████████▋                                    | 251/386 [00:10<00:06, 21.88it/s]

Extraction:  66%|████████████████████████████████████████████████████████████████████▍                                   | 254/386 [00:10<00:06, 21.12it/s]

Extraction:  67%|█████████████████████████████████████████████████████████████████████▏                                  | 257/386 [00:10<00:06, 21.39it/s]

Extraction:  68%|██████████████████████████████████████████████████████████████████████▎                                 | 261/386 [00:10<00:05, 22.36it/s]

Extraction:  68%|███████████████████████████████████████████████████████████████████████▏                                | 264/386 [00:11<00:05, 21.05it/s]

Extraction:  69%|███████████████████████████████████████████████████████████████████████▉                                | 267/386 [00:11<00:05, 21.79it/s]

Extraction:  70%|████████████████████████████████████████████████████████████████████████▋                               | 270/386 [00:11<00:05, 21.16it/s]

Extraction:  71%|█████████████████████████████████████████████████████████████████████████▌                              | 273/386 [00:11<00:05, 20.83it/s]

Extraction:  72%|██████████████████████████████████████████████████████████████████████████▎                             | 276/386 [00:11<00:04, 22.86it/s]

Extraction:  72%|███████████████████████████████████████████████████████████████████████████▏                            | 279/386 [00:11<00:04, 21.73it/s]

Extraction:  73%|███████████████████████████████████████████████████████████████████████████▉                            | 282/386 [00:11<00:04, 21.57it/s]

Extraction:  74%|████████████████████████████████████████████████████████████████████████████▊                           | 285/386 [00:12<00:04, 20.98it/s]

Extraction:  75%|█████████████████████████████████████████████████████████████████████████████▌                          | 288/386 [00:12<00:04, 22.91it/s]

Extraction:  75%|██████████████████████████████████████████████████████████████████████████████▍                         | 291/386 [00:12<00:04, 22.03it/s]

Extraction:  76%|███████████████████████████████████████████████████████████████████████████████▏                        | 294/386 [00:12<00:04, 21.56it/s]

Extraction:  77%|████████████████████████████████████████████████████████████████████████████████                        | 297/386 [00:12<00:04, 21.64it/s]

Extraction:  78%|████████████████████████████████████████████████████████████████████████████████▊                       | 300/386 [00:12<00:03, 22.82it/s]

Extraction:  78%|█████████████████████████████████████████████████████████████████████████████████▋                      | 303/386 [00:12<00:03, 23.96it/s]

Extraction:  79%|██████████████████████████████████████████████████████████████████████████████████▍                     | 306/386 [00:13<00:03, 23.60it/s]

Extraction:  80%|███████████████████████████████████████████████████████████████████████████████████▎                    | 309/386 [00:13<00:03, 23.61it/s]

Extraction:  81%|████████████████████████████████████████████████████████████████████████████████████                    | 312/386 [00:13<00:02, 25.18it/s]

Extraction:  82%|████████████████████████████████████████████████████████████████████████████████████▊                   | 315/386 [00:13<00:03, 22.96it/s]

Extraction:  82%|█████████████████████████████████████████████████████████████████████████████████████▋                  | 318/386 [00:13<00:02, 23.18it/s]

Extraction:  83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 321/386 [00:13<00:02, 22.99it/s]

Extraction:  84%|███████████████████████████████████████████████████████████████████████████████████████▎                | 324/386 [00:13<00:02, 23.50it/s]

Extraction:  85%|████████████████████████████████████████████████████████████████████████████████████████                | 327/386 [00:13<00:02, 22.28it/s]

Extraction:  85%|████████████████████████████████████████████████████████████████████████████████████████▉               | 330/386 [00:14<00:02, 22.79it/s]

Extraction:  86%|█████████████████████████████████████████████████████████████████████████████████████████▋              | 333/386 [00:14<00:02, 21.90it/s]

Extraction:  87%|██████████████████████████████████████████████████████████████████████████████████████████▌             | 336/386 [00:14<00:02, 21.82it/s]

Extraction:  88%|███████████████████████████████████████████████████████████████████████████████████████████▎            | 339/386 [00:14<00:02, 22.91it/s]

Extraction:  89%|████████████████████████████████████████████████████████████████████████████████████████████▏           | 342/386 [00:14<00:01, 22.66it/s]

Extraction:  89%|████████████████████████████████████████████████████████████████████████████████████████████▉           | 345/386 [00:14<00:01, 21.33it/s]

Extraction:  90%|█████████████████████████████████████████████████████████████████████████████████████████████▊          | 348/386 [00:14<00:01, 20.36it/s]

Extraction:  91%|██████████████████████████████████████████████████████████████████████████████████████████████▌         | 351/386 [00:15<00:01, 21.16it/s]

Extraction:  92%|███████████████████████████████████████████████████████████████████████████████████████████████▍        | 354/386 [00:15<00:01, 20.65it/s]

Extraction:  92%|████████████████████████████████████████████████████████████████████████████████████████████████▏       | 357/386 [00:15<00:01, 20.79it/s]

Extraction:  93%|████████████████████████████████████████████████████████████████████████████████████████████████▉       | 360/386 [00:15<00:01, 20.47it/s]

Extraction:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▊      | 363/386 [00:15<00:01, 19.32it/s]

Extraction:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▌     | 366/386 [00:15<00:00, 21.10it/s]

Extraction:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▍    | 369/386 [00:15<00:00, 20.80it/s]

Extraction:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 372/386 [00:16<00:00, 20.62it/s]

Extraction:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████   | 375/386 [00:16<00:00, 20.22it/s]

Extraction:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████  | 379/386 [00:16<00:00, 23.57it/s]

Extraction:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 382/386 [00:16<00:00, 22.19it/s]

Extraction: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 385/386 [00:16<00:00, 21.92it/s]

Extraction: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 386/386 [00:16<00:00, 23.14it/s]




  ✅ Mots: 221,669
  ✅ Caractères: 1,290,495

📖 Extraction: L'Ordre du Phénix
  📄 Pages: 694


Extraction:   0%|                                                                                                                  | 0/694 [00:00<?, ?it/s]

Extraction:   1%|▌                                                                                                         | 4/694 [00:00<00:17, 39.70it/s]

Extraction:   1%|█▏                                                                                                        | 8/694 [00:00<00:23, 28.87it/s]

Extraction:   2%|█▊                                                                                                       | 12/694 [00:00<00:22, 30.89it/s]

Extraction:   2%|██▍                                                                                                      | 16/694 [00:00<00:22, 30.59it/s]

Extraction:   3%|███                                                                                                      | 20/694 [00:00<00:22, 30.11it/s]

Extraction:   3%|███▋                                                                                                     | 24/694 [00:00<00:21, 31.72it/s]

Extraction:   4%|████▏                                                                                                    | 28/694 [00:00<00:20, 32.46it/s]

Extraction:   5%|████▊                                                                                                    | 32/694 [00:01<00:20, 32.03it/s]

Extraction:   5%|█████▍                                                                                                   | 36/694 [00:01<00:19, 33.22it/s]

Extraction:   6%|██████                                                                                                   | 40/694 [00:01<00:20, 31.51it/s]

Extraction:   6%|██████▋                                                                                                  | 44/694 [00:01<00:19, 33.49it/s]

Extraction:   7%|███████▎                                                                                                 | 48/694 [00:01<00:20, 31.20it/s]

Extraction:   7%|███████▊                                                                                                 | 52/694 [00:01<00:21, 30.04it/s]

Extraction:   8%|████████▍                                                                                                | 56/694 [00:01<00:19, 31.97it/s]

Extraction:   9%|█████████                                                                                                | 60/694 [00:01<00:20, 31.33it/s]

Extraction:   9%|█████████▋                                                                                               | 64/694 [00:02<00:20, 30.77it/s]

Extraction:  10%|██████████▍                                                                                              | 69/694 [00:02<00:18, 33.31it/s]

Extraction:  11%|███████████                                                                                              | 73/694 [00:02<00:19, 31.85it/s]

Extraction:  11%|███████████▋                                                                                             | 77/694 [00:02<00:19, 31.26it/s]

Extraction:  12%|████████████▎                                                                                            | 81/694 [00:02<00:18, 32.84it/s]

Extraction:  12%|████████████▊                                                                                            | 85/694 [00:02<00:19, 31.93it/s]

Extraction:  13%|█████████████▍                                                                                           | 89/694 [00:02<00:18, 32.36it/s]

Extraction:  13%|██████████████                                                                                           | 93/694 [00:02<00:19, 30.88it/s]

Extraction:  14%|██████████████▋                                                                                          | 97/694 [00:03<00:20, 28.84it/s]

Extraction:  15%|███████████████▎                                                                                        | 102/694 [00:03<00:18, 31.48it/s]

Extraction:  15%|███████████████▉                                                                                        | 106/694 [00:03<00:19, 30.83it/s]

Extraction:  16%|████████████████▍                                                                                       | 110/694 [00:03<00:19, 30.44it/s]

Extraction:  16%|█████████████████                                                                                       | 114/694 [00:03<00:19, 30.42it/s]

Extraction:  17%|█████████████████▋                                                                                      | 118/694 [00:03<00:18, 31.37it/s]

Extraction:  18%|██████████████████▎                                                                                     | 122/694 [00:03<00:17, 32.13it/s]

Extraction:  18%|██████████████████▉                                                                                     | 126/694 [00:04<00:18, 30.37it/s]

Extraction:  19%|███████████████████▍                                                                                    | 130/694 [00:04<00:17, 31.67it/s]

Extraction:  19%|████████████████████                                                                                    | 134/694 [00:04<00:17, 31.95it/s]

Extraction:  20%|████████████████████▋                                                                                   | 138/694 [00:04<00:17, 30.90it/s]

Extraction:  20%|█████████████████████▎                                                                                  | 142/694 [00:04<00:17, 32.14it/s]

Extraction:  21%|█████████████████████▉                                                                                  | 146/694 [00:04<00:17, 31.68it/s]

Extraction:  22%|██████████████████████▍                                                                                 | 150/694 [00:04<00:16, 32.75it/s]

Extraction:  22%|███████████████████████                                                                                 | 154/694 [00:04<00:16, 31.90it/s]

Extraction:  23%|███████████████████████▋                                                                                | 158/694 [00:05<00:17, 30.15it/s]

Extraction:  23%|████████████████████████▎                                                                               | 162/694 [00:05<00:16, 32.35it/s]

Extraction:  24%|█████████████████████████                                                                               | 167/694 [00:05<00:14, 35.83it/s]

Extraction:  25%|█████████████████████████▋                                                                              | 171/694 [00:05<00:16, 32.56it/s]

Extraction:  25%|██████████████████████████▏                                                                             | 175/694 [00:05<00:15, 32.57it/s]

Extraction:  26%|██████████████████████████▊                                                                             | 179/694 [00:05<00:14, 34.43it/s]

Extraction:  26%|███████████████████████████▍                                                                            | 183/694 [00:05<00:14, 35.88it/s]

Extraction:  27%|████████████████████████████                                                                            | 187/694 [00:05<00:14, 33.92it/s]

Extraction:  28%|████████████████████████████▌                                                                           | 191/694 [00:06<00:16, 30.13it/s]

Extraction:  28%|█████████████████████████████▏                                                                          | 195/694 [00:06<00:17, 29.23it/s]

Extraction:  29%|█████████████████████████████▊                                                                          | 199/694 [00:06<00:15, 31.08it/s]

Extraction:  29%|██████████████████████████████▍                                                                         | 203/694 [00:06<00:15, 32.10it/s]

Extraction:  30%|███████████████████████████████                                                                         | 207/694 [00:06<00:14, 32.97it/s]

Extraction:  30%|███████████████████████████████▌                                                                        | 211/694 [00:06<00:16, 30.06it/s]

Extraction:  31%|████████████████████████████████▏                                                                       | 215/694 [00:06<00:16, 29.21it/s]

Extraction:  32%|████████████████████████████████▊                                                                       | 219/694 [00:06<00:16, 28.79it/s]

Extraction:  32%|█████████████████████████████████▍                                                                      | 223/694 [00:07<00:15, 30.38it/s]

Extraction:  33%|██████████████████████████████████                                                                      | 227/694 [00:07<00:15, 30.99it/s]

Extraction:  33%|██████████████████████████████████▌                                                                     | 231/694 [00:07<00:14, 33.03it/s]

Extraction:  34%|███████████████████████████████████▏                                                                    | 235/694 [00:07<00:14, 31.36it/s]

Extraction:  34%|███████████████████████████████████▊                                                                    | 239/694 [00:07<00:14, 31.36it/s]

Extraction:  35%|████████████████████████████████████▍                                                                   | 243/694 [00:07<00:14, 31.40it/s]

Extraction:  36%|█████████████████████████████████████                                                                   | 247/694 [00:07<00:14, 31.69it/s]

Extraction:  36%|█████████████████████████████████████▌                                                                  | 251/694 [00:07<00:14, 31.08it/s]

Extraction:  37%|██████████████████████████████████████▏                                                                 | 255/694 [00:08<00:13, 32.28it/s]

Extraction:  37%|██████████████████████████████████████▊                                                                 | 259/694 [00:08<00:13, 31.29it/s]

Extraction:  38%|███████████████████████████████████████▍                                                                | 263/694 [00:08<00:14, 30.73it/s]

Extraction:  39%|████████████████████████████████████████▏                                                               | 268/694 [00:08<00:12, 34.03it/s]

Extraction:  39%|████████████████████████████████████████▊                                                               | 272/694 [00:08<00:13, 31.45it/s]

Extraction:  40%|█████████████████████████████████████████▎                                                              | 276/694 [00:08<00:14, 29.64it/s]

Extraction:  40%|██████████████████████████████████████████                                                              | 281/694 [00:08<00:13, 30.97it/s]

Extraction:  41%|██████████████████████████████████████████▋                                                             | 285/694 [00:09<00:12, 32.33it/s]

Extraction:  42%|███████████████████████████████████████████▎                                                            | 289/694 [00:09<00:12, 31.33it/s]

Extraction:  42%|███████████████████████████████████████████▉                                                            | 293/694 [00:09<00:12, 32.07it/s]

Extraction:  43%|████████████████████████████████████████████▌                                                           | 297/694 [00:09<00:12, 31.46it/s]

Extraction:  43%|█████████████████████████████████████████████                                                           | 301/694 [00:09<00:13, 30.04it/s]

Extraction:  44%|█████████████████████████████████████████████▊                                                          | 306/694 [00:09<00:11, 33.05it/s]

Extraction:  45%|██████████████████████████████████████████████▍                                                         | 310/694 [00:09<00:11, 32.04it/s]

Extraction:  45%|███████████████████████████████████████████████                                                         | 314/694 [00:09<00:12, 30.78it/s]

Extraction:  46%|███████████████████████████████████████████████▋                                                        | 318/694 [00:10<00:11, 32.66it/s]

Extraction:  46%|████████████████████████████████████████████████▎                                                       | 322/694 [00:10<00:12, 30.57it/s]

Extraction:  47%|████████████████████████████████████████████████▊                                                       | 326/694 [00:10<00:12, 28.47it/s]

Extraction:  48%|█████████████████████████████████████████████████▍                                                      | 330/694 [00:10<00:11, 30.90it/s]

Extraction:  48%|██████████████████████████████████████████████████                                                      | 334/694 [00:10<00:12, 29.57it/s]

Extraction:  49%|██████████████████████████████████████████████████▋                                                     | 338/694 [00:10<00:12, 29.55it/s]

Extraction:  49%|███████████████████████████████████████████████████▍                                                    | 343/694 [00:10<00:10, 33.22it/s]

Extraction:  50%|████████████████████████████████████████████████████                                                    | 347/694 [00:11<00:11, 30.90it/s]

Extraction:  51%|████████████████████████████████████████████████████▌                                                   | 351/694 [00:11<00:11, 30.42it/s]

Extraction:  51%|█████████████████████████████████████████████████████▎                                                  | 356/694 [00:11<00:10, 33.04it/s]

Extraction:  52%|█████████████████████████████████████████████████████▉                                                  | 360/694 [00:11<00:10, 31.97it/s]

Extraction:  52%|██████████████████████████████████████████████████████▌                                                 | 364/694 [00:11<00:10, 30.68it/s]

Extraction:  53%|███████████████████████████████████████████████████████▏                                                | 368/694 [00:11<00:10, 30.70it/s]

Extraction:  54%|███████████████████████████████████████████████████████▋                                                | 372/694 [00:11<00:10, 30.62it/s]

Extraction:  54%|████████████████████████████████████████████████████████▎                                               | 376/694 [00:11<00:10, 30.16it/s]

Extraction:  55%|████████████████████████████████████████████████████████▉                                               | 380/694 [00:12<00:10, 30.96it/s]

Extraction:  55%|█████████████████████████████████████████████████████████▌                                              | 384/694 [00:12<00:10, 30.12it/s]

Extraction:  56%|██████████████████████████████████████████████████████████▏                                             | 388/694 [00:12<00:10, 28.08it/s]

Extraction:  56%|██████████████████████████████████████████████████████████▌                                             | 391/694 [00:12<00:10, 28.18it/s]

Extraction:  57%|███████████████████████████████████████████████████████████                                             | 394/694 [00:12<00:10, 28.04it/s]

Extraction:  57%|███████████████████████████████████████████████████████████▋                                            | 398/694 [00:12<00:09, 30.90it/s]

Extraction:  58%|████████████████████████████████████████████████████████████▏                                           | 402/694 [00:12<00:10, 28.44it/s]

Extraction:  58%|████████████████████████████████████████████████████████████▋                                           | 405/694 [00:13<00:10, 26.48it/s]

Extraction:  59%|█████████████████████████████████████████████████████████████▏                                          | 408/694 [00:13<00:10, 26.40it/s]

Extraction:  59%|█████████████████████████████████████████████████████████████▌                                          | 411/694 [00:13<00:10, 26.67it/s]

Extraction:  60%|██████████████████████████████████████████████████████████████                                          | 414/694 [00:13<00:10, 27.28it/s]

Extraction:  60%|██████████████████████████████████████████████████████████████▋                                         | 418/694 [00:13<00:09, 28.79it/s]

Extraction:  61%|███████████████████████████████████████████████████████████████▏                                        | 422/694 [00:13<00:09, 28.85it/s]

Extraction:  61%|███████████████████████████████████████████████████████████████▊                                        | 426/694 [00:13<00:08, 30.27it/s]

Extraction:  62%|████████████████████████████████████████████████████████████████▍                                       | 430/694 [00:13<00:09, 28.66it/s]

Extraction:  62%|████████████████████████████████████████████████████████████████▉                                       | 433/694 [00:13<00:09, 27.58it/s]

Extraction:  63%|█████████████████████████████████████████████████████████████████▍                                      | 437/694 [00:14<00:08, 30.52it/s]

Extraction:  64%|██████████████████████████████████████████████████████████████████                                      | 441/694 [00:14<00:08, 29.17it/s]

Extraction:  64%|██████████████████████████████████████████████████████████████████▌                                     | 444/694 [00:14<00:08, 28.31it/s]

Extraction:  64%|██████████████████████████████████████████████████████████████████▉                                     | 447/694 [00:14<00:08, 27.59it/s]

Extraction:  65%|███████████████████████████████████████████████████████████████████▍                                    | 450/694 [00:14<00:09, 26.83it/s]

Extraction:  65%|████████████████████████████████████████████████████████████████████                                    | 454/694 [00:14<00:08, 29.67it/s]

Extraction:  66%|████████████████████████████████████████████████████████████████████▋                                   | 458/694 [00:14<00:07, 30.29it/s]

Extraction:  67%|█████████████████████████████████████████████████████████████████████▏                                  | 462/694 [00:14<00:07, 31.16it/s]

Extraction:  67%|█████████████████████████████████████████████████████████████████████▊                                  | 466/694 [00:15<00:07, 29.04it/s]

Extraction:  68%|██████████████████████████████████████████████████████████████████████▎                                 | 469/694 [00:15<00:08, 26.80it/s]

Extraction:  68%|██████████████████████████████████████████████████████████████████████▉                                 | 473/694 [00:15<00:07, 28.75it/s]

Extraction:  69%|███████████████████████████████████████████████████████████████████████▎                                | 476/694 [00:15<00:07, 27.91it/s]

Extraction:  69%|███████████████████████████████████████████████████████████████████████▊                                | 479/694 [00:15<00:07, 28.26it/s]

Extraction:  69%|████████████████████████████████████████████████████████████████████████▏                               | 482/694 [00:15<00:07, 27.41it/s]

Extraction:  70%|████████████████████████████████████████████████████████████████████████▊                               | 486/694 [00:15<00:07, 26.80it/s]

Extraction:  71%|█████████████████████████████████████████████████████████████████████████▍                              | 490/694 [00:15<00:07, 28.41it/s]

Extraction:  71%|█████████████████████████████████████████████████████████████████████████▉                              | 493/694 [00:16<00:07, 27.16it/s]

Extraction:  72%|██████████████████████████████████████████████████████████████████████████▍                             | 497/694 [00:16<00:07, 27.27it/s]

Extraction:  72%|███████████████████████████████████████████████████████████████████████████                             | 501/694 [00:16<00:06, 30.20it/s]

Extraction:  73%|███████████████████████████████████████████████████████████████████████████▋                            | 505/694 [00:16<00:06, 30.55it/s]

Extraction:  73%|████████████████████████████████████████████████████████████████████████████▎                           | 509/694 [00:16<00:06, 28.71it/s]

Extraction:  74%|████████████████████████████████████████████████████████████████████████████▉                           | 513/694 [00:16<00:06, 30.09it/s]

Extraction:  74%|█████████████████████████████████████████████████████████████████████████████▍                          | 517/694 [00:16<00:06, 28.64it/s]

Extraction:  75%|██████████████████████████████████████████████████████████████████████████████▏                         | 522/694 [00:17<00:05, 31.70it/s]

Extraction:  76%|██████████████████████████████████████████████████████████████████████████████▊                         | 526/694 [00:17<00:05, 32.34it/s]

Extraction:  76%|███████████████████████████████████████████████████████████████████████████████▍                        | 530/694 [00:17<00:05, 30.72it/s]

Extraction:  77%|████████████████████████████████████████████████████████████████████████████████                        | 534/694 [00:17<00:05, 29.12it/s]

Extraction:  78%|████████████████████████████████████████████████████████████████████████████████▌                       | 538/694 [00:17<00:05, 30.97it/s]

Extraction:  78%|█████████████████████████████████████████████████████████████████████████████████▏                      | 542/694 [00:17<00:04, 30.42it/s]

Extraction:  79%|█████████████████████████████████████████████████████████████████████████████████▊                      | 546/694 [00:17<00:05, 28.79it/s]

Extraction:  79%|██████████████████████████████████████████████████████████████████████████████████▍                     | 550/694 [00:17<00:04, 30.96it/s]

Extraction:  80%|███████████████████████████████████████████████████████████████████████████████████                     | 554/694 [00:18<00:04, 29.91it/s]

Extraction:  80%|███████████████████████████████████████████████████████████████████████████████████▌                    | 558/694 [00:18<00:04, 28.93it/s]

Extraction:  81%|████████████████████████████████████████████████████████████████████████████████████▎                   | 563/694 [00:18<00:04, 31.77it/s]

Extraction:  82%|████████████████████████████████████████████████████████████████████████████████████▉                   | 567/694 [00:18<00:04, 29.83it/s]

Extraction:  82%|█████████████████████████████████████████████████████████████████████████████████████▌                  | 571/694 [00:18<00:04, 28.02it/s]

Extraction:  83%|██████████████████████████████████████████████████████████████████████████████████████                  | 574/694 [00:18<00:04, 26.55it/s]

Extraction:  83%|██████████████████████████████████████████████████████████████████████████████████████▍                 | 577/694 [00:18<00:04, 27.30it/s]

Extraction:  84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 580/694 [00:19<00:04, 26.65it/s]

Extraction:  84%|███████████████████████████████████████████████████████████████████████████████████████▋                | 585/694 [00:19<00:03, 30.24it/s]

Extraction:  85%|████████████████████████████████████████████████████████████████████████████████████████▎               | 589/694 [00:19<00:03, 30.08it/s]

Extraction:  85%|████████████████████████████████████████████████████████████████████████████████████████▊               | 593/694 [00:19<00:03, 28.97it/s]

Extraction:  86%|█████████████████████████████████████████████████████████████████████████████████████████▍              | 597/694 [00:19<00:03, 30.38it/s]

Extraction:  87%|██████████████████████████████████████████████████████████████████████████████████████████              | 601/694 [00:19<00:03, 30.40it/s]

Extraction:  87%|██████████████████████████████████████████████████████████████████████████████████████████▋             | 605/694 [00:19<00:02, 29.81it/s]

Extraction:  88%|███████████████████████████████████████████████████████████████████████████████████████████▍            | 610/694 [00:19<00:02, 32.47it/s]

Extraction:  88%|████████████████████████████████████████████████████████████████████████████████████████████            | 614/694 [00:20<00:02, 30.01it/s]

Extraction:  89%|████████████████████████████████████████████████████████████████████████████████████████████▌           | 618/694 [00:20<00:02, 30.26it/s]

Extraction:  90%|█████████████████████████████████████████████████████████████████████████████████████████████▏          | 622/694 [00:20<00:02, 32.39it/s]

Extraction:  90%|█████████████████████████████████████████████████████████████████████████████████████████████▊          | 626/694 [00:20<00:02, 33.45it/s]

Extraction:  91%|██████████████████████████████████████████████████████████████████████████████████████████████▍         | 630/694 [00:20<00:02, 31.65it/s]

Extraction:  91%|███████████████████████████████████████████████████████████████████████████████████████████████         | 634/694 [00:20<00:01, 32.80it/s]

Extraction:  92%|███████████████████████████████████████████████████████████████████████████████████████████████▌        | 638/694 [00:20<00:01, 30.90it/s]

Extraction:  93%|████████████████████████████████████████████████████████████████████████████████████████████████▏       | 642/694 [00:21<00:01, 32.86it/s]

Extraction:  93%|████████████████████████████████████████████████████████████████████████████████████████████████▊       | 646/694 [00:21<00:01, 32.81it/s]

Extraction:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▍      | 650/694 [00:21<00:01, 32.68it/s]

Extraction:  94%|██████████████████████████████████████████████████████████████████████████████████████████████████      | 654/694 [00:21<00:01, 31.75it/s]

Extraction:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▌     | 658/694 [00:21<00:01, 32.57it/s]

Extraction:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████▏    | 662/694 [00:21<00:01, 30.16it/s]

Extraction:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▊    | 666/694 [00:21<00:00, 29.51it/s]

Extraction:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▎   | 669/694 [00:21<00:00, 28.33it/s]

Extraction:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 672/694 [00:22<00:00, 25.52it/s]

Extraction:  97%|█████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 675/694 [00:22<00:00, 26.55it/s]

Extraction:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 678/694 [00:22<00:00, 26.20it/s]

Extraction:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 682/694 [00:22<00:00, 29.48it/s]

Extraction:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊ | 686/694 [00:22<00:00, 28.34it/s]

Extraction:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▎| 689/694 [00:22<00:00, 27.95it/s]

Extraction: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▊| 693/694 [00:22<00:00, 29.43it/s]

Extraction: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 694/694 [00:22<00:00, 30.46it/s]




  ✅ Mots: 295,484
  ✅ Caractères: 1,715,842

📖 Extraction: Le Prince de Sang-Mêlé
  📄 Pages: 415


Extraction:   0%|                                                                                                                  | 0/415 [00:00<?, ?it/s]

Extraction:   1%|▊                                                                                                         | 3/415 [00:00<00:14, 28.16it/s]

Extraction:   1%|█▌                                                                                                        | 6/415 [00:00<00:17, 23.10it/s]

Extraction:   2%|██▎                                                                                                       | 9/415 [00:00<00:16, 24.79it/s]

Extraction:   3%|███                                                                                                      | 12/415 [00:00<00:16, 24.75it/s]

Extraction:   4%|████▎                                                                                                    | 17/415 [00:00<00:14, 28.30it/s]

Extraction:   5%|█████                                                                                                    | 20/415 [00:00<00:14, 27.95it/s]

Extraction:   6%|█████▊                                                                                                   | 23/415 [00:00<00:14, 26.24it/s]

Extraction:   7%|██████▊                                                                                                  | 27/415 [00:01<00:14, 27.33it/s]

Extraction:   7%|███████▌                                                                                                 | 30/415 [00:01<00:13, 27.99it/s]

Extraction:   8%|████████▎                                                                                                | 33/415 [00:01<00:14, 26.50it/s]

Extraction:   9%|█████████▎                                                                                               | 37/415 [00:01<00:13, 28.83it/s]

Extraction:  10%|██████████                                                                                               | 40/415 [00:01<00:13, 27.58it/s]

Extraction:  11%|███████████▏                                                                                             | 44/415 [00:01<00:13, 27.42it/s]

Extraction:  12%|████████████▏                                                                                            | 48/415 [00:01<00:12, 28.34it/s]

Extraction:  12%|████████████▉                                                                                            | 51/415 [00:01<00:12, 28.74it/s]

Extraction:  13%|█████████████▋                                                                                           | 54/415 [00:01<00:13, 26.70it/s]

Extraction:  14%|██████████████▋                                                                                          | 58/415 [00:02<00:12, 28.86it/s]

Extraction:  15%|███████████████▍                                                                                         | 61/415 [00:02<00:12, 28.07it/s]

Extraction:  16%|████████████████▍                                                                                        | 65/415 [00:02<00:11, 29.68it/s]

Extraction:  17%|█████████████████▍                                                                                       | 69/415 [00:02<00:11, 30.40it/s]

Extraction:  18%|██████████████████▍                                                                                      | 73/415 [00:02<00:11, 28.66it/s]

Extraction:  18%|███████████████████▏                                                                                     | 76/415 [00:02<00:12, 28.12it/s]

Extraction:  19%|███████████████████▉                                                                                     | 79/415 [00:02<00:12, 27.45it/s]

Extraction:  20%|█████████████████████                                                                                    | 83/415 [00:02<00:10, 30.61it/s]

Extraction:  21%|██████████████████████                                                                                   | 87/415 [00:03<00:11, 29.31it/s]

Extraction:  22%|██████████████████████▊                                                                                  | 90/415 [00:03<00:11, 28.57it/s]

Extraction:  22%|███████████████████████▌                                                                                 | 93/415 [00:03<00:11, 28.31it/s]

Extraction:  23%|████████████████████████▎                                                                                | 96/415 [00:03<00:11, 26.67it/s]

Extraction:  24%|█████████████████████████                                                                               | 100/415 [00:03<00:11, 28.62it/s]

Extraction:  25%|█████████████████████████▊                                                                              | 103/415 [00:03<00:11, 26.53it/s]

Extraction:  26%|██████████████████████████▌                                                                             | 106/415 [00:03<00:12, 25.18it/s]

Extraction:  26%|███████████████████████████▎                                                                            | 109/415 [00:03<00:11, 26.29it/s]

Extraction:  27%|████████████████████████████                                                                            | 112/415 [00:04<00:11, 26.50it/s]

Extraction:  28%|████████████████████████████▊                                                                           | 115/415 [00:04<00:11, 26.87it/s]

Extraction:  28%|█████████████████████████████▌                                                                          | 118/415 [00:04<00:11, 25.72it/s]

Extraction:  29%|██████████████████████████████▎                                                                         | 121/415 [00:04<00:11, 26.33it/s]

Extraction:  30%|███████████████████████████████                                                                         | 124/415 [00:04<00:11, 25.89it/s]

Extraction:  31%|███████████████████████████████▊                                                                        | 127/415 [00:04<00:11, 25.52it/s]

Extraction:  31%|████████████████████████████████▌                                                                       | 130/415 [00:04<00:10, 26.21it/s]

Extraction:  32%|█████████████████████████████████▎                                                                      | 133/415 [00:04<00:11, 25.63it/s]

Extraction:  33%|██████████████████████████████████                                                                      | 136/415 [00:04<00:10, 26.34it/s]

Extraction:  34%|███████████████████████████████████                                                                     | 140/415 [00:05<00:09, 28.18it/s]

Extraction:  34%|███████████████████████████████████▊                                                                    | 143/415 [00:05<00:10, 27.02it/s]

Extraction:  35%|████████████████████████████████████▌                                                                   | 146/415 [00:05<00:09, 27.80it/s]

Extraction:  36%|█████████████████████████████████████▎                                                                  | 149/415 [00:05<00:09, 27.17it/s]

Extraction:  37%|██████████████████████████████████████                                                                  | 152/415 [00:05<00:09, 27.94it/s]

Extraction:  37%|██████████████████████████████████████▊                                                                 | 155/415 [00:05<00:09, 26.56it/s]

Extraction:  38%|███████████████████████████████████████▊                                                                | 159/415 [00:05<00:09, 26.25it/s]

Extraction:  39%|████████████████████████████████████████▊                                                               | 163/415 [00:05<00:09, 27.92it/s]

Extraction:  40%|█████████████████████████████████████████▊                                                              | 167/415 [00:06<00:08, 28.52it/s]

Extraction:  41%|██████████████████████████████████████████▊                                                             | 171/415 [00:06<00:08, 28.06it/s]

Extraction:  42%|███████████████████████████████████████████▊                                                            | 175/415 [00:06<00:08, 28.98it/s]

Extraction:  43%|████████████████████████████████████████████▌                                                           | 178/415 [00:06<00:08, 27.45it/s]

Extraction:  44%|█████████████████████████████████████████████▎                                                          | 181/415 [00:06<00:08, 26.42it/s]

Extraction:  45%|██████████████████████████████████████████████▎                                                         | 185/415 [00:06<00:08, 27.17it/s]

Extraction:  45%|███████████████████████████████████████████████                                                         | 188/415 [00:06<00:08, 27.22it/s]

Extraction:  46%|███████████████████████████████████████████████▊                                                        | 191/415 [00:06<00:08, 27.92it/s]

Extraction:  47%|████████████████████████████████████████████████▌                                                       | 194/415 [00:07<00:07, 28.18it/s]

Extraction:  47%|█████████████████████████████████████████████████▎                                                      | 197/415 [00:07<00:08, 26.23it/s]

Extraction:  48%|██████████████████████████████████████████████████▎                                                     | 201/415 [00:07<00:07, 28.33it/s]

Extraction:  49%|███████████████████████████████████████████████████                                                     | 204/415 [00:07<00:07, 26.50it/s]

Extraction:  50%|███████████████████████████████████████████████████▊                                                    | 207/415 [00:07<00:07, 27.36it/s]

Extraction:  51%|████████████████████████████████████████████████████▋                                                   | 210/415 [00:07<00:07, 27.72it/s]

Extraction:  51%|█████████████████████████████████████████████████████▍                                                  | 213/415 [00:07<00:07, 27.88it/s]

Extraction:  52%|██████████████████████████████████████████████████████▏                                                 | 216/415 [00:07<00:07, 27.81it/s]

Extraction:  53%|███████████████████████████████████████████████████████▏                                                | 220/415 [00:08<00:07, 27.63it/s]

Extraction:  54%|████████████████████████████████████████████████████████▏                                               | 224/415 [00:08<00:06, 30.18it/s]

Extraction:  55%|█████████████████████████████████████████████████████████▏                                              | 228/415 [00:08<00:06, 29.85it/s]

Extraction:  56%|██████████████████████████████████████████████████████████▏                                             | 232/415 [00:08<00:06, 27.96it/s]

Extraction:  57%|██████████████████████████████████████████████████████████▉                                             | 235/415 [00:08<00:06, 27.81it/s]

Extraction:  57%|███████████████████████████████████████████████████████████▋                                            | 238/415 [00:08<00:06, 26.05it/s]

Extraction:  58%|████████████████████████████████████████████████████████████▍                                           | 241/415 [00:08<00:06, 25.78it/s]

Extraction:  59%|█████████████████████████████████████████████████████████████▏                                          | 244/415 [00:08<00:06, 25.96it/s]

Extraction:  60%|█████████████████████████████████████████████████████████████▉                                          | 247/415 [00:09<00:06, 24.73it/s]

Extraction:  60%|██████████████████████████████████████████████████████████████▋                                         | 250/415 [00:09<00:06, 25.67it/s]

Extraction:  61%|███████████████████████████████████████████████████████████████▍                                        | 253/415 [00:09<00:06, 26.25it/s]

Extraction:  62%|████████████████████████████████████████████████████████████████▍                                       | 257/415 [00:09<00:05, 29.27it/s]

Extraction:  63%|█████████████████████████████████████████████████████████████████▏                                      | 260/415 [00:09<00:05, 29.44it/s]

Extraction:  63%|█████████████████████████████████████████████████████████████████▉                                      | 263/415 [00:09<00:05, 26.76it/s]

Extraction:  64%|██████████████████████████████████████████████████████████████████▋                                     | 266/415 [00:09<00:05, 27.51it/s]

Extraction:  65%|███████████████████████████████████████████████████████████████████▍                                    | 269/415 [00:09<00:05, 26.62it/s]

Extraction:  66%|████████████████████████████████████████████████████████████████████▍                                   | 273/415 [00:09<00:05, 27.15it/s]

Extraction:  67%|█████████████████████████████████████████████████████████████████████▏                                  | 276/415 [00:10<00:05, 27.35it/s]

Extraction:  67%|█████████████████████████████████████████████████████████████████████▉                                  | 279/415 [00:10<00:05, 25.88it/s]

Extraction:  68%|██████████████████████████████████████████████████████████████████████▋                                 | 282/415 [00:10<00:05, 24.86it/s]

Extraction:  69%|███████████████████████████████████████████████████████████████████████▋                                | 286/415 [00:10<00:04, 27.35it/s]

Extraction:  70%|████████████████████████████████████████████████████████████████████████▍                               | 289/415 [00:10<00:04, 26.85it/s]

Extraction:  71%|█████████████████████████████████████████████████████████████████████████▍                              | 293/415 [00:10<00:04, 26.43it/s]

Extraction:  71%|██████████████████████████████████████████████████████████████████████████▏                             | 296/415 [00:10<00:04, 26.71it/s]

Extraction:  72%|██████████████████████████████████████████████████████████████████████████▉                             | 299/415 [00:10<00:04, 25.93it/s]

Extraction:  73%|███████████████████████████████████████████████████████████████████████████▉                            | 303/415 [00:11<00:03, 29.42it/s]

Extraction:  74%|████████████████████████████████████████████████████████████████████████████▉                           | 307/415 [00:11<00:03, 27.62it/s]

Extraction:  75%|█████████████████████████████████████████████████████████████████████████████▋                          | 310/415 [00:11<00:03, 26.48it/s]

Extraction:  76%|██████████████████████████████████████████████████████████████████████████████▋                         | 314/415 [00:11<00:03, 27.83it/s]

Extraction:  76%|███████████████████████████████████████████████████████████████████████████████▍                        | 317/415 [00:11<00:03, 27.78it/s]

Extraction:  77%|████████████████████████████████████████████████████████████████████████████████▏                       | 320/415 [00:11<00:03, 27.98it/s]

Extraction:  78%|████████████████████████████████████████████████████████████████████████████████▉                       | 323/415 [00:11<00:03, 24.95it/s]

Extraction:  79%|█████████████████████████████████████████████████████████████████████████████████▋                      | 326/415 [00:11<00:03, 23.94it/s]

Extraction:  79%|██████████████████████████████████████████████████████████████████████████████████▍                     | 329/415 [00:12<00:03, 24.32it/s]

Extraction:  80%|███████████████████████████████████████████████████████████████████████████████████▏                    | 332/415 [00:12<00:03, 25.27it/s]

Extraction:  81%|███████████████████████████████████████████████████████████████████████████████████▉                    | 335/415 [00:12<00:03, 24.39it/s]

Extraction:  81%|████████████████████████████████████████████████████████████████████████████████████▋                   | 338/415 [00:12<00:03, 23.59it/s]

Extraction:  82%|█████████████████████████████████████████████████████████████████████████████████████▍                  | 341/415 [00:12<00:02, 25.19it/s]

Extraction:  83%|██████████████████████████████████████████████████████████████████████████████████████▏                 | 344/415 [00:12<00:02, 24.84it/s]

Extraction:  84%|███████████████████████████████████████████████████████████████████████████████████████▏                | 348/415 [00:12<00:02, 27.40it/s]

Extraction:  85%|███████████████████████████████████████████████████████████████████████████████████████▉                | 351/415 [00:12<00:02, 27.40it/s]

Extraction:  86%|████████████████████████████████████████████████████████████████████████████████████████▉               | 355/415 [00:13<00:01, 30.08it/s]

Extraction:  87%|█████████████████████████████████████████████████████████████████████████████████████████▉              | 359/415 [00:13<00:01, 28.85it/s]

Extraction:  87%|██████████████████████████████████████████████████████████████████████████████████████████▋             | 362/415 [00:13<00:01, 27.10it/s]

Extraction:  88%|███████████████████████████████████████████████████████████████████████████████████████████▋            | 366/415 [00:13<00:01, 29.14it/s]

Extraction:  89%|████████████████████████████████████████████████████████████████████████████████████████████▍           | 369/415 [00:13<00:01, 27.39it/s]

Extraction:  90%|█████████████████████████████████████████████████████████████████████████████████████████████▍          | 373/415 [00:13<00:01, 28.32it/s]

Extraction:  91%|██████████████████████████████████████████████████████████████████████████████████████████████▏         | 376/415 [00:13<00:01, 28.70it/s]

Extraction:  91%|██████████████████████████████████████████████████████████████████████████████████████████████▉         | 379/415 [00:13<00:01, 27.41it/s]

Extraction:  92%|███████████████████████████████████████████████████████████████████████████████████████████████▉        | 383/415 [00:14<00:01, 26.66it/s]

Extraction:  93%|████████████████████████████████████████████████████████████████████████████████████████████████▉       | 387/415 [00:14<00:01, 27.77it/s]

Extraction:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▉      | 391/415 [00:14<00:00, 29.59it/s]

Extraction:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▋     | 394/415 [00:14<00:00, 29.65it/s]

Extraction:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▍    | 397/415 [00:14<00:00, 26.50it/s]

Extraction:  96%|████████████████████████████████████████████████████████████████████████████████████████████████████▏   | 400/415 [00:14<00:00, 25.63it/s]

Extraction:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▍  | 405/415 [00:14<00:00, 27.24it/s]

Extraction:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████▏ | 408/415 [00:14<00:00, 26.60it/s]

Extraction:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▉ | 411/415 [00:15<00:00, 23.85it/s]

Extraction: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████▋| 414/415 [00:15<00:00, 24.48it/s]

Extraction: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 415/415 [00:15<00:00, 27.13it/s]




  ✅ Mots: 193,852
  ✅ Caractères: 1,140,529

📖 Extraction: Les Reliques de la Mort
  📄 Pages: 541


Extraction:   0%|                                                                                                                  | 0/541 [00:00<?, ?it/s]

Extraction:   1%|▉                                                                                                         | 5/541 [00:00<00:13, 39.36it/s]

Extraction:   2%|█▊                                                                                                        | 9/541 [00:00<00:15, 35.13it/s]

Extraction:   2%|██▌                                                                                                      | 13/541 [00:00<00:16, 32.70it/s]

Extraction:   3%|███▎                                                                                                     | 17/541 [00:00<00:19, 27.49it/s]

Extraction:   4%|████                                                                                                     | 21/541 [00:00<00:19, 27.27it/s]

Extraction:   5%|████▊                                                                                                    | 25/541 [00:00<00:18, 28.47it/s]

Extraction:   5%|█████▍                                                                                                   | 28/541 [00:00<00:17, 28.75it/s]

Extraction:   6%|██████▍                                                                                                  | 33/541 [00:01<00:17, 29.87it/s]

Extraction:   7%|███████▏                                                                                                 | 37/541 [00:01<00:16, 31.37it/s]

Extraction:   8%|███████▉                                                                                                 | 41/541 [00:01<00:16, 29.74it/s]

Extraction:   8%|████████▋                                                                                                | 45/541 [00:01<00:15, 31.96it/s]

Extraction:   9%|█████████▌                                                                                               | 49/541 [00:01<00:15, 31.20it/s]

Extraction:  10%|██████████▎                                                                                              | 53/541 [00:01<00:15, 32.49it/s]

Extraction:  11%|███████████                                                                                              | 57/541 [00:01<00:15, 32.03it/s]

Extraction:  11%|███████████▊                                                                                             | 61/541 [00:01<00:15, 31.68it/s]

Extraction:  12%|████████████▌                                                                                            | 65/541 [00:02<00:15, 30.26it/s]

Extraction:  13%|█████████████▍                                                                                           | 69/541 [00:02<00:14, 31.75it/s]

Extraction:  13%|██████████████▏                                                                                          | 73/541 [00:02<00:15, 29.92it/s]

Extraction:  14%|██████████████▉                                                                                          | 77/541 [00:02<00:16, 27.95it/s]

Extraction:  15%|███████████████▋                                                                                         | 81/541 [00:02<00:15, 29.54it/s]

Extraction:  16%|████████████████▍                                                                                        | 85/541 [00:02<00:15, 29.58it/s]

Extraction:  16%|█████████████████▎                                                                                       | 89/541 [00:02<00:15, 29.34it/s]

Extraction:  17%|██████████████████                                                                                       | 93/541 [00:03<00:14, 30.82it/s]

Extraction:  18%|██████████████████▊                                                                                      | 97/541 [00:03<00:14, 31.42it/s]

Extraction:  19%|███████████████████▍                                                                                    | 101/541 [00:03<00:14, 29.48it/s]

Extraction:  19%|████████████████████▏                                                                                   | 105/541 [00:03<00:14, 30.57it/s]

Extraction:  20%|████████████████████▉                                                                                   | 109/541 [00:03<00:14, 30.55it/s]

Extraction:  21%|█████████████████████▋                                                                                  | 113/541 [00:03<00:14, 28.79it/s]

Extraction:  22%|██████████████████████▍                                                                                 | 117/541 [00:03<00:13, 30.60it/s]

Extraction:  22%|███████████████████████▎                                                                                | 121/541 [00:03<00:13, 30.43it/s]

Extraction:  23%|████████████████████████                                                                                | 125/541 [00:04<00:13, 30.31it/s]

Extraction:  24%|████████████████████████▊                                                                               | 129/541 [00:04<00:14, 28.45it/s]

Extraction:  25%|█████████████████████████▌                                                                              | 133/541 [00:04<00:13, 30.96it/s]

Extraction:  25%|██████████████████████████▎                                                                             | 137/541 [00:04<00:13, 30.48it/s]

Extraction:  26%|███████████████████████████                                                                             | 141/541 [00:04<00:13, 30.32it/s]

Extraction:  27%|███████████████████████████▊                                                                            | 145/541 [00:04<00:12, 31.11it/s]

Extraction:  28%|████████████████████████████▋                                                                           | 149/541 [00:04<00:13, 29.63it/s]

Extraction:  28%|█████████████████████████████▍                                                                          | 153/541 [00:05<00:12, 31.48it/s]

Extraction:  29%|██████████████████████████████▏                                                                         | 157/541 [00:05<00:13, 29.50it/s]

Extraction:  30%|██████████████████████████████▉                                                                         | 161/541 [00:05<00:12, 30.73it/s]

Extraction:  30%|███████████████████████████████▋                                                                        | 165/541 [00:05<00:12, 31.10it/s]

Extraction:  31%|████████████████████████████████▍                                                                       | 169/541 [00:05<00:12, 30.46it/s]

Extraction:  32%|█████████████████████████████████▎                                                                      | 173/541 [00:05<00:12, 29.51it/s]

Extraction:  33%|██████████████████████████████████▏                                                                     | 178/541 [00:05<00:11, 32.26it/s]

Extraction:  34%|██████████████████████████████████▉                                                                     | 182/541 [00:05<00:11, 30.52it/s]

Extraction:  34%|███████████████████████████████████▊                                                                    | 186/541 [00:06<00:12, 29.40it/s]

Extraction:  35%|████████████████████████████████████▋                                                                   | 191/541 [00:06<00:11, 29.98it/s]

Extraction:  36%|█████████████████████████████████████▍                                                                  | 195/541 [00:06<00:10, 31.49it/s]

Extraction:  37%|██████████████████████████████████████▎                                                                 | 199/541 [00:06<00:11, 29.62it/s]

Extraction:  38%|███████████████████████████████████████                                                                 | 203/541 [00:06<00:11, 30.11it/s]

Extraction:  38%|███████████████████████████████████████▊                                                                | 207/541 [00:06<00:11, 29.77it/s]

Extraction:  39%|████████████████████████████████████████▌                                                               | 211/541 [00:07<00:12, 27.30it/s]

Extraction:  40%|█████████████████████████████████████████▎                                                              | 215/541 [00:07<00:11, 27.95it/s]

Extraction:  40%|██████████████████████████████████████████                                                              | 219/541 [00:07<00:10, 30.66it/s]

Extraction:  41%|██████████████████████████████████████████▊                                                             | 223/541 [00:07<00:09, 32.03it/s]

Extraction:  42%|███████████████████████████████████████████▋                                                            | 227/541 [00:07<00:10, 28.85it/s]

Extraction:  43%|████████████████████████████████████████████▍                                                           | 231/541 [00:07<00:10, 29.30it/s]

Extraction:  43%|█████████████████████████████████████████████▏                                                          | 235/541 [00:07<00:10, 29.03it/s]

Extraction:  44%|█████████████████████████████████████████████▉                                                          | 239/541 [00:07<00:10, 29.75it/s]

Extraction:  45%|██████████████████████████████████████████████▋                                                         | 243/541 [00:08<00:09, 30.96it/s]

Extraction:  46%|███████████████████████████████████████████████▍                                                        | 247/541 [00:08<00:09, 29.52it/s]

Extraction:  46%|████████████████████████████████████████████████▎                                                       | 251/541 [00:08<00:09, 29.50it/s]

Extraction:  47%|████████████████████████████████████████████████▊                                                       | 254/541 [00:08<00:09, 29.03it/s]

Extraction:  48%|█████████████████████████████████████████████████▍                                                      | 257/541 [00:08<00:10, 26.63it/s]

Extraction:  48%|██████████████████████████████████████████████████▏                                                     | 261/541 [00:08<00:10, 26.07it/s]

Extraction:  49%|██████████████████████████████████████████████████▉                                                     | 265/541 [00:08<00:09, 27.81it/s]

Extraction:  50%|███████████████████████████████████████████████████▌                                                    | 268/541 [00:08<00:09, 28.34it/s]

Extraction:  50%|████████████████████████████████████████████████████▎                                                   | 272/541 [00:09<00:08, 30.07it/s]

Extraction:  51%|█████████████████████████████████████████████████████                                                   | 276/541 [00:09<00:08, 29.76it/s]

Extraction:  52%|█████████████████████████████████████████████████████▊                                                  | 280/541 [00:09<00:08, 29.23it/s]

Extraction:  52%|██████████████████████████████████████████████████████▌                                                 | 284/541 [00:09<00:08, 30.93it/s]

Extraction:  53%|███████████████████████████████████████████████████████▎                                                | 288/541 [00:09<00:07, 31.66it/s]

Extraction:  54%|████████████████████████████████████████████████████████▏                                               | 292/541 [00:09<00:07, 31.27it/s]

Extraction:  55%|████████████████████████████████████████████████████████▉                                               | 296/541 [00:09<00:07, 32.08it/s]

Extraction:  55%|█████████████████████████████████████████████████████████▋                                              | 300/541 [00:09<00:07, 30.54it/s]

Extraction:  56%|██████████████████████████████████████████████████████████▋                                             | 305/541 [00:10<00:07, 32.35it/s]

Extraction:  57%|███████████████████████████████████████████████████████████▍                                            | 309/541 [00:10<00:07, 32.47it/s]

Extraction:  58%|████████████████████████████████████████████████████████████▏                                           | 313/541 [00:10<00:07, 29.70it/s]

Extraction:  59%|████████████████████████████████████████████████████████████▉                                           | 317/541 [00:10<00:07, 29.55it/s]

Extraction:  59%|█████████████████████████████████████████████████████████████▋                                          | 321/541 [00:10<00:06, 31.68it/s]

Extraction:  60%|██████████████████████████████████████████████████████████████▍                                         | 325/541 [00:10<00:06, 30.92it/s]

Extraction:  61%|███████████████████████████████████████████████████████████████▏                                        | 329/541 [00:10<00:06, 30.91it/s]

Extraction:  62%|████████████████████████████████████████████████████████████████                                        | 333/541 [00:11<00:06, 32.63it/s]

Extraction:  62%|████████████████████████████████████████████████████████████████▊                                       | 337/541 [00:11<00:06, 31.97it/s]

Extraction:  63%|█████████████████████████████████████████████████████████████████▌                                      | 341/541 [00:11<00:06, 32.88it/s]

Extraction:  64%|██████████████████████████████████████████████████████████████████▎                                     | 345/541 [00:11<00:06, 30.76it/s]

Extraction:  65%|███████████████████████████████████████████████████████████████████                                     | 349/541 [00:11<00:06, 31.05it/s]

Extraction:  65%|███████████████████████████████████████████████████████████████████▊                                    | 353/541 [00:11<00:05, 32.43it/s]

Extraction:  66%|████████████████████████████████████████████████████████████████████▋                                   | 357/541 [00:11<00:05, 31.06it/s]

Extraction:  67%|█████████████████████████████████████████████████████████████████████▍                                  | 361/541 [00:11<00:05, 31.89it/s]

Extraction:  67%|██████████████████████████████████████████████████████████████████████▏                                 | 365/541 [00:12<00:05, 33.32it/s]

Extraction:  68%|██████████████████████████████████████████████████████████████████████▉                                 | 369/541 [00:12<00:05, 31.44it/s]

Extraction:  69%|███████████████████████████████████████████████████████████████████████▋                                | 373/541 [00:12<00:05, 30.62it/s]

Extraction:  70%|████████████████████████████████████████████████████████████████████████▍                               | 377/541 [00:12<00:05, 30.64it/s]

Extraction:  70%|█████████████████████████████████████████████████████████████████████████▏                              | 381/541 [00:12<00:05, 30.46it/s]

Extraction:  71%|██████████████████████████████████████████████████████████████████████████                              | 385/541 [00:12<00:05, 27.69it/s]

Extraction:  72%|██████████████████████████████████████████████████████████████████████████▊                             | 389/541 [00:12<00:05, 27.09it/s]

Extraction:  72%|███████████████████████████████████████████████████████████████████████████▎                            | 392/541 [00:12<00:05, 27.71it/s]

Extraction:  73%|████████████████████████████████████████████████████████████████████████████▏                           | 396/541 [00:13<00:05, 28.97it/s]

Extraction:  74%|████████████████████████████████████████████████████████████████████████████▉                           | 400/541 [00:13<00:04, 30.78it/s]

Extraction:  75%|█████████████████████████████████████████████████████████████████████████████▋                          | 404/541 [00:13<00:04, 28.77it/s]

Extraction:  75%|██████████████████████████████████████████████████████████████████████████████▍                         | 408/541 [00:13<00:04, 29.76it/s]

Extraction:  76%|███████████████████████████████████████████████████████████████████████████████▏                        | 412/541 [00:13<00:04, 29.80it/s]

Extraction:  77%|███████████████████████████████████████████████████████████████████████████████▉                        | 416/541 [00:13<00:04, 30.04it/s]

Extraction:  78%|████████████████████████████████████████████████████████████████████████████████▋                       | 420/541 [00:13<00:03, 31.14it/s]

Extraction:  78%|█████████████████████████████████████████████████████████████████████████████████▌                      | 424/541 [00:14<00:03, 32.04it/s]

Extraction:  79%|██████████████████████████████████████████████████████████████████████████████████▎                     | 428/541 [00:14<00:03, 30.91it/s]

Extraction:  80%|███████████████████████████████████████████████████████████████████████████████████                     | 432/541 [00:14<00:03, 30.33it/s]

Extraction:  81%|███████████████████████████████████████████████████████████████████████████████████▊                    | 436/541 [00:14<00:03, 32.35it/s]

Extraction:  81%|████████████████████████████████████████████████████████████████████████████████████▌                   | 440/541 [00:14<00:03, 31.33it/s]

Extraction:  82%|█████████████████████████████████████████████████████████████████████████████████████▎                  | 444/541 [00:14<00:03, 31.27it/s]

Extraction:  83%|██████████████████████████████████████████████████████████████████████████████████████                  | 448/541 [00:14<00:02, 31.72it/s]

Extraction:  84%|██████████████████████████████████████████████████████████████████████████████████████▉                 | 452/541 [00:14<00:02, 31.00it/s]

Extraction:  84%|███████████████████████████████████████████████████████████████████████████████████████▋                | 456/541 [00:15<00:02, 31.97it/s]

Extraction:  85%|████████████████████████████████████████████████████████████████████████████████████████▍               | 460/541 [00:15<00:02, 31.48it/s]

Extraction:  86%|█████████████████████████████████████████████████████████████████████████████████████████▏              | 464/541 [00:15<00:02, 28.85it/s]

Extraction:  87%|█████████████████████████████████████████████████████████████████████████████████████████▉              | 468/541 [00:15<00:02, 29.83it/s]

Extraction:  87%|██████████████████████████████████████████████████████████████████████████████████████████▋             | 472/541 [00:15<00:02, 28.71it/s]

Extraction:  88%|███████████████████████████████████████████████████████████████████████████████████████████▎            | 475/541 [00:15<00:02, 27.40it/s]

Extraction:  89%|████████████████████████████████████████████████████████████████████████████████████████████▎           | 480/541 [00:15<00:01, 31.88it/s]

Extraction:  89%|█████████████████████████████████████████████████████████████████████████████████████████████           | 484/541 [00:15<00:01, 31.65it/s]

Extraction:  90%|█████████████████████████████████████████████████████████████████████████████████████████████▊          | 488/541 [00:16<00:01, 31.87it/s]

Extraction:  91%|██████████████████████████████████████████████████████████████████████████████████████████████▌         | 492/541 [00:16<00:01, 33.21it/s]

Extraction:  92%|███████████████████████████████████████████████████████████████████████████████████████████████▎        | 496/541 [00:16<00:01, 33.75it/s]

Extraction:  92%|████████████████████████████████████████████████████████████████████████████████████████████████        | 500/541 [00:16<00:01, 32.29it/s]

Extraction:  93%|████████████████████████████████████████████████████████████████████████████████████████████████▉       | 504/541 [00:16<00:01, 30.66it/s]

Extraction:  94%|█████████████████████████████████████████████████████████████████████████████████████████████████▋      | 508/541 [00:16<00:01, 30.51it/s]

Extraction:  95%|██████████████████████████████████████████████████████████████████████████████████████████████████▍     | 512/541 [00:16<00:00, 30.60it/s]

Extraction:  95%|███████████████████████████████████████████████████████████████████████████████████████████████████▏    | 516/541 [00:17<00:00, 27.90it/s]

Extraction:  96%|███████████████████████████████████████████████████████████████████████████████████████████████████▉    | 520/541 [00:17<00:00, 29.89it/s]

Extraction:  97%|████████████████████████████████████████████████████████████████████████████████████████████████████▋   | 524/541 [00:17<00:00, 30.88it/s]

Extraction:  98%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌  | 528/541 [00:17<00:00, 28.67it/s]

Extraction:  98%|██████████████████████████████████████████████████████████████████████████████████████████████████████  | 531/541 [00:17<00:00, 28.19it/s]

Extraction:  99%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 534/541 [00:17<00:00, 27.98it/s]

Extraction:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████▏| 537/541 [00:17<00:00, 28.03it/s]

Extraction: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████| 541/541 [00:17<00:00, 30.32it/s]

  ✅ Mots: 230,278
  ✅ Caractères: 1,340,353

✅ Total livres extraits: 7





## 2. Segmentation en phrases

In [5]:
def segment_into_sentences(text: str) -> List[str]:
    """Segmente le texte en phrases.
    
    Note: Pour une segmentation plus précise, on utilisera spaCy dans le notebook 02.
    Ici, on fait une segmentation simple basée sur les points.
    """
    # Regex simple pour diviser sur . ! ? suivis d'espace et majuscule
    sentences = re.split(r'(?<=[.!?])\s+(?=[A-ZÀ-Ü])', text)
    
    # Filtrer les phrases trop courtes
    sentences = [s.strip() for s in sentences if len(s.strip()) > 10]
    
    return sentences

In [6]:
# Créer le corpus de phrases
all_sentences = []

for book in books_data:
    print(f"\n📝 Segmentation: {book['title']}")
    
    sentences = segment_into_sentences(book['text'])
    
    for idx, sentence in enumerate(sentences):
        all_sentences.append({
            'book_number': book['book_number'],
            'book_title': book['title'],
            'sentence_id': idx,
            'text': sentence,
            'length': len(sentence)
        })
    
    print(f"  ✅ {len(sentences):,} phrases extraites")

print(f"\n✅ Total phrases: {len(all_sentences):,}")


📝 Segmentation: L'École des Sorciers
  ✅ 4,934 phrases extraites

📝 Segmentation: La Chambre des Secrets
  ✅ 4,951 phrases extraites

📝 Segmentation: Le Prisonnier d'Azkaban
  ✅ 6,742 phrases extraites

📝 Segmentation: La Coupe de Feu
  ✅ 11,134 phrases extraites

📝 Segmentation: L'Ordre du Phénix
  ✅ 12,008 phrases extraites

📝 Segmentation: Le Prince de Sang-Mêlé
  ✅ 8,361 phrases extraites

📝 Segmentation: Les Reliques de la Mort
  ✅ 10,524 phrases extraites

✅ Total phrases: 58,654


## 3. Export des données

In [7]:
# Créer DataFrame et préparer l'export en parquet
df_sentences = pd.DataFrame(all_sentences)

# Définir le chemin de sortie même si on n'exporte pas (utilisé plus tard)
output_path = DATA_DIR / 'sentences.parquet'

try:
    if df_sentences.empty:
        print("\n⚠️ Aucune phrase extraite — vérifiez que les PDFs existent dans the 'context/books' directory.")
        print(f"  Books dir checked: {BOOKS_DIR}")
        print("✅ Aucune exportation réalisée.")
    else:
        print("\n📊 Aperçu du DataFrame:")
        print(df_sentences.head())
        print(f"\n📏 Shape: {df_sentences.shape}")
        print(f"\n📈 Statistiques:")
        try:
            print(df_sentences.groupby('book_title')['sentence_id'].count())
        except Exception as e:
            print(f"⚠️ Impossible d'obtenir les statistiques de groupby: {e}")
except Exception as e:
    print(f"⚠️ Erreur lors de la préparation du DataFrame: {e}")


📊 Aperçu du DataFrame:


   book_number            book_title  sentence_id  \
0            1  L'École des Sorciers            0   
1            1  L'École des Sorciers            1   
2            1  L'École des Sorciers            2   
3            1  L'École des Sorciers            3   
4            1  L'École des Sorciers            4   

                                                text  length  
0                                    L'auteure\nJ.K.      14  
1  Rowling\test\tnée\ten\t1967\tet\ta\tpassé\tson...     101  
2  Elle\ta\tsuivi\tdes\tétudes\tà\tl'université\t...     100  
3  Elle\ta\tensuite\ttravaillé\tquelque\ttemps\tà...     122  
4  C'est\ten\t1990\tque\tl'idée\tde\tHarry\tPotte...     160  

📏 Shape: (58654, 5)

📈 Statistiques:
book_title
L'Ordre du Phénix          12008
L'École des Sorciers        4934
La Chambre des Secrets      4951
La Coupe de Feu            11134
Le Prince de Sang-Mêlé      8361
Le Prisonnier d'Azkaban     6742
Les Reliques de la Mort    10524
Name: sentence_id, dtyp

In [8]:
# Exporter en parquet si des phrases existent
if 'df_sentences' in globals() and not df_sentences.empty:
    output_path = DATA_DIR / 'sentences.parquet'
    df_sentences.to_parquet(output_path, index=False)
    print(f"✅ Données exportées: {output_path}")
    try:
        print(f"📦 Taille fichier: {output_path.stat().st_size / 1024 / 1024:.2f} MB")
    except Exception:
        pass
else:
    print("⚠️ Pas d'export car aucun texte n'a été extrait.")

✅ Données exportées: C:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp\data\sentences.parquet
📦 Taille fichier: 4.74 MB


In [9]:
# Exporter les métadonnées
metadata = {
    'books': [
        {
            'book_number': book['book_number'],
            'title': book['title'],
            'pages': book['pages'],
            'year': book['year'],
            'word_count': book['word_count'],
            'char_count': book['char_count']
        }
        for book in books_data
    ],
    'total_sentences': len(all_sentences),
    'extraction_date': pd.Timestamp.now().isoformat()
}

metadata_path = DATA_DIR / 'book_metadata.json'
with open(metadata_path, 'w', encoding='utf-8') as f:
    json.dump(metadata, f, indent=2, ensure_ascii=False)

print(f"✅ Métadonnées exportées: {metadata_path}")

✅ Métadonnées exportées: C:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp\data\book_metadata.json


## 4. Validation des données

In [10]:
# Vérifier que les données peuvent être relues (si le fichier existe)
if output_path.exists():
    df_test = pd.read_parquet(output_path)
    print(f"✅ Vérification lecture parquet: {df_test.shape}")

    # Afficher quelques exemples
    print("\n📖 Exemples de phrases:")
    for i in range(min(5, len(df_test))):
        row = df_test.iloc[i]
        print(f"\nLivre {row['book_number']} - {row['book_title']}")
        print(f"  {row['text'][:200]}...")
else:
    print("⚠️ Aucun fichier parquet trouvé — pas d'extraction valide.")

✅ Vérification lecture parquet: (58654, 5)

📖 Exemples de phrases:

Livre 1 - L'École des Sorciers
  L'auteure
J.K....

Livre 1 - L'École des Sorciers
  Rowling	est	née	en	1967	et	a	passé	son	enfance	à	Chepstow,	dans	le	comté	de	Gwent,	au	pays	de
Galles....

Livre 1 - L'École des Sorciers
  Elle	a	suivi	des	études	à	l'université	d'Exeter	et	est	diplômée	en	langue	et	littérature	françaises....

Livre 1 - L'École des Sorciers
  Elle	a	ensuite	travaillé	quelque	temps	à	Londres	au	sein	de	l'association	Amnesty	International	et	a
enseigné	le	français....

Livre 1 - L'École des Sorciers
  C'est	en	1990	que	l'idée	de	Harry	Potter	et	de	son	école	de	magiciens	a	commencé	à	germer	dans	son
esprit,	alors	qu'elle	attendait	un	train	qui	avait	du	retard....


## ✅ Résumé

Ce notebook a:
1. ✅ Extrait le texte des 7 livres Harry Potter
2. ✅ Nettoyé et normalisé le texte
3. ✅ Segmenté en phrases
4. ✅ Exporté en format parquet

**Prochaine étape**: Notebook 02 - Pipeline NLP pour NER, coréférence et attribution de locuteur