# üìñ Notebook 1 - Ingestion et Nettoyage des Textes Harry Potter

Ce notebook extrait et nettoie les textes des livres Harry Potter depuis les PDFs.

## Objectifs
1. Extraire le texte brut des 7 livres PDF
2. Nettoyer et normaliser le texte
3. Segmenter par phrases et dialogues
4. Exporter en format parquet pour analyse ult√©rieure

## Sorties
- `data/sentences.parquet` : corpus segment√© par phrases
- `data/book_metadata.json` : m√©tadonn√©es des livres

In [18]:
# Imports
import os
import re
import json
from pathlib import Path
from typing import Dict, List, Tuple
import PyPDF2
import pandas as pd
import numpy as np
from tqdm import tqdm

# Configuration des chemins
NOTEBOOK_DIR = Path.cwd()

# Trouver la racine du d√©p√¥t en cherchant le dossier 'context'
def find_repo_root(start: Path) -> Path:
    for p in [start] + list(start.parents):
        if (p / 'context').is_dir():
            return p
    return start

REPO_ROOT = find_repo_root(NOTEBOOK_DIR)
PROJECT_DIR = None
# Trouver le r√©pertoire de projet (contenant 'notebooks')
for p in [NOTEBOOK_DIR] + list(NOTEBOOK_DIR.parents):
    if (p / 'notebooks').is_dir():
        PROJECT_DIR = p
        break
if PROJECT_DIR is None:
    PROJECT_DIR = NOTEBOOK_DIR

BOOKS_DIR = REPO_ROOT / 'context' / 'books'
DATA_DIR = PROJECT_DIR / 'data'

# Cr√©er le dossier data si n√©cessaire
DATA_DIR.mkdir(parents=True, exist_ok=True)

print(f"üìÅ Repo root: {REPO_ROOT}")
print(f"üìÅ Project dir: {PROJECT_DIR}")
print(f"üìö Books directory: {BOOKS_DIR}")
print(f"üíæ Data output: {DATA_DIR}")

üìÅ Repo root: c:\Users\julie\src\School\Workshop\workshop-poudlard-epsi
üìÅ Project dir: c:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp
üìö Books directory: c:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\context\books
üíæ Data output: c:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp\data


In [19]:
# M√©tadonn√©es des livres
BOOK_INFO = {
    "harry-potter-1-lecole-des-sorciers.pdf": {
        "title": "L'√âcole des Sorciers",
        "book_number": 1,
        "pages": 320,
        "year": 1997
    },
    "harry-potter-2-la-chambre-des-secrets.pdf": {
        "title": "La Chambre des Secrets",
        "book_number": 2,
        "pages": 360,
        "year": 1998
    },
    "harry-potter-3-le-prisonnier-dazkaban.pdf": {
        "title": "Le Prisonnier d'Azkaban",
        "book_number": 3,
        "pages": 420,
        "year": 1999
    },
    "harry-potter-4-la-coupe-de-feu.pdf": {
        "title": "La Coupe de Feu",
        "book_number": 4,
        "pages": 656,
        "year": 2000
    },
    "harry-potter-5-lordre-du-phoenix.pdf": {
        "title": "L'Ordre du Ph√©nix",
        "book_number": 5,
        "pages": 980,
        "year": 2003
    },
    "harry-potter-6-le-prince-de-sang-mecc82lecc81.pdf": {
        "title": "Le Prince de Sang-M√™l√©",
        "book_number": 6,
        "pages": 640,
        "year": 2005
    },
    "harry-potter-7-les-reliques-de-la-mort.pdf": {
        "title": "Les Reliques de la Mort",
        "book_number": 7,
        "pages": 800,
        "year": 2007
    }
}

print(f"üìö Nombre de livres configur√©s: {len(BOOK_INFO)}")

üìö Nombre de livres configur√©s: 7


## 1. Extraction du texte depuis les PDFs

In [20]:
def extract_text_from_pdf(pdf_path: Path) -> str:
    """Extrait le texte d'un fichier PDF."""
    text = ""
    
    try:
        with open(pdf_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            print(f"  üìÑ Pages: {len(pdf_reader.pages)}")
            
            for page_num, page in enumerate(tqdm(pdf_reader.pages, desc="Extraction")):
                try:
                    text += page.extract_text() + "\n"
                except Exception as e:
                    print(f"  ‚ö†Ô∏è  Erreur page {page_num}: {e}")
                    continue
    except Exception as e:
        print(f"  ‚ùå Erreur lecture PDF: {e}")
        return ""
    
    return text


def clean_text(text: str) -> str:
    """Nettoie le texte extrait."""
    # Supprimer les sauts de ligne excessifs
    text = re.sub(r'\n{3,}', '\n\n', text)
    
    # Supprimer les espaces multiples
    text = re.sub(r' +', ' ', text)
    
    # Normaliser les guillemets
    text = text.replace('\u2018', "'").replace('\u2019', "'")
    text = text.replace('\u201c', '¬´').replace('\u201d', '¬ª')
    
    return text.strip()

In [21]:
# Extraire le texte de tous les livres
books_data = []

for filename, info in BOOK_INFO.items():
    pdf_path = BOOKS_DIR / filename
    
    if not pdf_path.exists():
        print(f"‚ö†Ô∏è  Livre non trouv√©: {filename}")
        continue
    
    print(f"\nüìñ Extraction: {info['title']}")
    
    # Extraire et nettoyer
    raw_text = extract_text_from_pdf(pdf_path)
    clean = clean_text(raw_text)
    
    # Statistiques de base
    word_count = len(clean.split())
    char_count = len(clean)
    
    print(f"  ‚úÖ Mots: {word_count:,}")
    print(f"  ‚úÖ Caract√®res: {char_count:,}")
    
    books_data.append({
        'filename': filename,
        'book_number': info['book_number'],
        'title': info['title'],
        'pages': info['pages'],
        'year': info['year'],
        'text': clean,
        'word_count': word_count,
        'char_count': char_count
    })

print(f"\n‚úÖ Total livres extraits: {len(books_data)}")


üìñ Extraction: L'√âcole des Sorciers
  üìÑ Pages: 208


Extraction:   0%|          | 0/208 [00:00<?, ?it/s]

Extraction: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 208/208 [00:08<00:00, 25.00it/s]



  ‚úÖ Mots: 85,803
  ‚úÖ Caract√®res: 501,556

üìñ Extraction: La Chambre des Secrets
  üìÑ Pages: 177


Extraction: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 177/177 [00:08<00:00, 20.78it/s]



  ‚úÖ Mots: 92,206
  ‚úÖ Caract√®res: 543,799

üìñ Extraction: Le Prisonnier d'Azkaban
  üìÑ Pages: 288


Extraction: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 288/288 [00:11<00:00, 25.73it/s]
Extraction: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 288/288 [00:11<00:00, 25.73it/s]


  ‚úÖ Mots: 121,640
  ‚úÖ Caract√®res: 711,797

üìñ Extraction: La Coupe de Feu
  üìÑ Pages: 386


Extraction: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 386/386 [00:19<00:00, 19.49it/s]



  ‚úÖ Mots: 221,669
  ‚úÖ Caract√®res: 1,290,495

üìñ Extraction: L'Ordre du Ph√©nix
  üìÑ Pages: 694


Extraction: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 694/694 [00:27<00:00, 25.55it/s]



  ‚úÖ Mots: 295,484
  ‚úÖ Caract√®res: 1,715,842

üìñ Extraction: Le Prince de Sang-M√™l√©
  üìÑ Pages: 415


Extraction: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 415/415 [00:17<00:00, 24.19it/s]
Extraction: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 415/415 [00:17<00:00, 24.19it/s]


  ‚úÖ Mots: 193,852
  ‚úÖ Caract√®res: 1,140,529

üìñ Extraction: Les Reliques de la Mort
  üìÑ Pages: 541


Extraction: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 541/541 [00:20<00:00, 25.77it/s]

  ‚úÖ Mots: 230,278
  ‚úÖ Caract√®res: 1,340,353

‚úÖ Total livres extraits: 7





## 2. Segmentation en phrases

In [22]:
def segment_into_sentences(text: str) -> List[str]:
    """Segmente le texte en phrases.
    
    Note: Pour une segmentation plus pr√©cise, on utilisera spaCy dans le notebook 02.
    Ici, on fait une segmentation simple bas√©e sur les points.
    """
    # Regex simple pour diviser sur . ! ? suivis d'espace et majuscule
    sentences = re.split(r'(?<=[.!?])\s+(?=[A-Z√Ä-√ú])', text)
    
    # Filtrer les phrases trop courtes
    sentences = [s.strip() for s in sentences if len(s.strip()) > 10]
    
    return sentences

In [23]:
# Cr√©er le corpus de phrases
all_sentences = []

for book in books_data:
    print(f"\nüìù Segmentation: {book['title']}")
    
    sentences = segment_into_sentences(book['text'])
    
    for idx, sentence in enumerate(sentences):
        all_sentences.append({
            'book_number': book['book_number'],
            'book_title': book['title'],
            'sentence_id': idx,
            'text': sentence,
            'length': len(sentence)
        })
    
    print(f"  ‚úÖ {len(sentences):,} phrases extraites")

print(f"\n‚úÖ Total phrases: {len(all_sentences):,}")


üìù Segmentation: L'√âcole des Sorciers
  ‚úÖ 4,934 phrases extraites

üìù Segmentation: La Chambre des Secrets
  ‚úÖ 4,951 phrases extraites

üìù Segmentation: Le Prisonnier d'Azkaban
  ‚úÖ 6,742 phrases extraites

üìù Segmentation: La Coupe de Feu
  ‚úÖ 11,134 phrases extraites

üìù Segmentation: L'Ordre du Ph√©nix
  ‚úÖ 12,008 phrases extraites

üìù Segmentation: Le Prince de Sang-M√™l√©
  ‚úÖ 8,361 phrases extraites

üìù Segmentation: Les Reliques de la Mort
  ‚úÖ 10,524 phrases extraites

‚úÖ Total phrases: 58,654


## 3. Export des donn√©es

In [24]:
# Cr√©er DataFrame et pr√©parer l'export en parquet
df_sentences = pd.DataFrame(all_sentences)

# D√©finir le chemin de sortie m√™me si on n'exporte pas (utilis√© plus tard)
output_path = DATA_DIR / 'sentences.parquet'

try:
    if df_sentences.empty:
        print("\n‚ö†Ô∏è Aucune phrase extraite ‚Äî v√©rifiez que les PDFs existent dans the 'context/books' directory.")
        print(f"  Books dir checked: {BOOKS_DIR}")
        print("‚úÖ Aucune exportation r√©alis√©e.")
    else:
        print("\nüìä Aper√ßu du DataFrame:")
        print(df_sentences.head())
        print(f"\nüìè Shape: {df_sentences.shape}")
        print(f"\nüìà Statistiques:")
        try:
            print(df_sentences.groupby('book_title')['sentence_id'].count())
        except Exception as e:
            print(f"‚ö†Ô∏è Impossible d'obtenir les statistiques de groupby: {e}")
except Exception as e:
    print(f"‚ö†Ô∏è Erreur lors de la pr√©paration du DataFrame: {e}")


üìä Aper√ßu du DataFrame:
   book_number            book_title  sentence_id  \
0            1  L'√âcole des Sorciers            0   
1            1  L'√âcole des Sorciers            1   
2            1  L'√âcole des Sorciers            2   
3            1  L'√âcole des Sorciers            3   
4            1  L'√âcole des Sorciers            4   

                                                text  length  
0                                    L'auteure\nJ.K.      14  
1  Rowling\test\tn√©e\ten\t1967\tet\ta\tpass√©\tson...     101  
2  Elle\ta\tsuivi\tdes\t√©tudes\t√†\tl'universit√©\t...     100  
3  Elle\ta\tensuite\ttravaill√©\tquelque\ttemps\t√†...     122  
4  C'est\ten\t1990\tque\tl'id√©e\tde\tHarry\tPotte...     160  

üìè Shape: (58654, 5)

üìà Statistiques:
book_title
L'Ordre du Ph√©nix          12008
L'√âcole des Sorciers        4934
La Chambre des Secrets      4951
La Coupe de Feu            11134
Le Prince de Sang-M√™l√©      8361
Le Prisonnier d'Azkaban     6742
Les R

In [25]:
# Exporter en parquet si des phrases existent
if 'df_sentences' in globals() and not df_sentences.empty:
    output_path = DATA_DIR / 'sentences.parquet'
    df_sentences.to_parquet(output_path, index=False)
    print(f"‚úÖ Donn√©es export√©es: {output_path}")
    try:
        print(f"üì¶ Taille fichier: {output_path.stat().st_size / 1024 / 1024:.2f} MB")
    except Exception:
        pass
else:
    print("‚ö†Ô∏è Pas d'export car aucun texte n'a √©t√© extrait.")

‚úÖ Donn√©es export√©es: c:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp\data\sentences.parquet
üì¶ Taille fichier: 4.74 MB


In [26]:
# Exporter les m√©tadonn√©es
metadata = {
    'books': [
        {
            'book_number': book['book_number'],
            'title': book['title'],
            'pages': book['pages'],
            'year': book['year'],
            'word_count': book['word_count'],
            'char_count': book['char_count']
        }
        for book in books_data
    ],
    'total_sentences': len(all_sentences),
    'extraction_date': pd.Timestamp.now().isoformat()
}

metadata_path = DATA_DIR / 'book_metadata.json'
with open(metadata_path, 'w', encoding='utf-8') as f:
    json.dump(metadata, f, indent=2, ensure_ascii=False)

print(f"‚úÖ M√©tadonn√©es export√©es: {metadata_path}")

‚úÖ M√©tadonn√©es export√©es: c:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp\data\book_metadata.json


## 4. Validation des donn√©es

In [27]:
# V√©rifier que les donn√©es peuvent √™tre relues (si le fichier existe)
if output_path.exists():
    df_test = pd.read_parquet(output_path)
    print(f"‚úÖ V√©rification lecture parquet: {df_test.shape}")

    # Afficher quelques exemples
    print("\nüìñ Exemples de phrases:")
    for i in range(min(5, len(df_test))):
        row = df_test.iloc[i]
        print(f"\nLivre {row['book_number']} - {row['book_title']}")
        print(f"  {row['text'][:200]}...")
else:
    print("‚ö†Ô∏è Aucun fichier parquet trouv√© ‚Äî pas d'extraction valide.")

‚úÖ V√©rification lecture parquet: (58654, 5)

üìñ Exemples de phrases:

Livre 1 - L'√âcole des Sorciers
  L'auteure
J.K....

Livre 1 - L'√âcole des Sorciers
  Rowling	est	n√©e	en	1967	et	a	pass√©	son	enfance	√†	Chepstow,	dans	le	comt√©	de	Gwent,	au	pays	de
Galles....

Livre 1 - L'√âcole des Sorciers
  Elle	a	suivi	des	√©tudes	√†	l'universit√©	d'Exeter	et	est	dipl√¥m√©e	en	langue	et	litt√©rature	fran√ßaises....

Livre 1 - L'√âcole des Sorciers
  Elle	a	ensuite	travaill√©	quelque	temps	√†	Londres	au	sein	de	l'association	Amnesty	International	et	a
enseign√©	le	fran√ßais....

Livre 1 - L'√âcole des Sorciers
  C'est	en	1990	que	l'id√©e	de	Harry	Potter	et	de	son	√©cole	de	magiciens	a	commenc√©	√†	germer	dans	son
esprit,	alors	qu'elle	attendait	un	train	qui	avait	du	retard....


## ‚úÖ R√©sum√©

Ce notebook a:
1. ‚úÖ Extrait le texte des 7 livres Harry Potter
2. ‚úÖ Nettoy√© et normalis√© le texte
3. ‚úÖ Segment√© en phrases
4. ‚úÖ Export√© en format parquet

**Prochaine √©tape**: Notebook 02 - Pipeline NLP pour NER, cor√©f√©rence et attribution de locuteur