# üîç Notebook 3 - Extraction d'√âv√©nements

Ce notebook extrait des √©v√©nements sp√©cifiques en utilisant des classifieurs neuronaux zero-shot.

## Objectifs
1. D√©tecter quand Harry touche sa cicatrice
2. Compter les "Mais" d'Hermione dans ses dialogues
3. Identifier les interventions arbitraires de Dumbledore
4. D√©tecter les moments o√π Rogue est myst√©rieux/sombre
5. Classifier les actes r√©pr√©hensibles

## Entr√©es
- `data/nlp_processed.parquet` : corpus avec annotations NLP

## Sorties
- `data/events.parquet` : √©v√©nements d√©tect√©s avec scores

In [1]:
# Imports
import os
import re
from pathlib import Path
from typing import Dict, List, Optional
import pandas as pd
import numpy as np
from tqdm import tqdm

# Configuration
NOTEBOOK_DIR = Path().absolute()
PROJECT_ROOT = NOTEBOOK_DIR.parent
DATA_DIR = PROJECT_ROOT / "data"

print(f"üìÅ Data directory: {DATA_DIR}")

üìÅ Data directory: c:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp\data


In [2]:
# Charger les donn√©es NLP
df = pd.read_parquet(DATA_DIR / 'nlp_processed.parquet')
print(f"üìä Donn√©es charg√©es: {df.shape}")
print(f"\nColonnes: {df.columns.tolist()}")

üìä Donn√©es charg√©es: (58654, 10)

Colonnes: ['book_number', 'book_title', 'sentence_id', 'text', 'length', 'is_dialogue', 'speaker', 'entities_persons', 'entities_locations', 'word_count']


## 1. Harry touche sa cicatrice

D√©tection bas√©e sur des patterns combin√©s avec analyse s√©mantique.

In [3]:
def detect_scar_touch(text: str, entities_persons: str) -> Dict:
    """D√©tecte si Harry touche sa cicatrice.
    
    Crit√®res:
    - Mention de Harry (explicite ou implicite via pronom 'il')
    - Mention de 'cicatrice' ou 'front'
    - Verbes d'action: toucher, porter, frotter, etc.
    - Ou sensations: br√ªler, faire mal, √©lancer, etc.
    """
    text_lower = text.lower()
    
    # V√©rifier pr√©sence de Harry dans le contexte
    has_harry = ('Harry' in (entities_persons or '') or 
                 'harry' in text_lower or
                 'il ' in text_lower or
                 'sa ' in text_lower)
    
    # Patterns de cicatrice
    scar_keywords = ['cicatrice', 'front']
    has_scar = any(kw in text_lower for kw in scar_keywords)
    
    # Actions
    action_patterns = [
        r'toucha.*?cicatrice',
        r'porta.*?main.*?(?:cicatrice|front)',
        r'frotta.*?(?:cicatrice|front)',
        r'cicatrice.*?(?:br√ªl|douleur|fait mal|√©lan√ßait|picotait)',
        r'(?:douleur|br√ªlure).*?cicatrice',
        r'front.*?(?:br√ªlait|douleur|√©lan√ßait)',
        r'cicatrice.*?(?:pulsait|battait)',
        r'main.*?(?:sur|√†).*?(?:cicatrice|front)'
    ]
    
    score = 0
    matched_pattern = None
    
    for pattern in action_patterns:
        if re.search(pattern, text_lower, re.IGNORECASE):
            score = 1.0
            matched_pattern = pattern
            break
    
    # Score partiel si cicatrice mentionn√©e avec Harry
    if score == 0 and has_harry and has_scar:
        score = 0.3
    
    return {
        'detected': score > 0.5,
        'score': score,
        'pattern': matched_pattern
    }


# Test
test_cases = [
    "Harry porta la main √† sa cicatrice qui le br√ªlait.",
    "Sa cicatrice l'√©lan√ßait terriblement.",
    "Il regarda Hermione avec √©tonnement.",
    "Harry √©tait fatigu√© mais sa cicatrice ne le faisait plus souffrir."
]

print("üîç Test d√©tection cicatrice:")
for test in test_cases:
    result = detect_scar_touch(test, 'Harry')
    print(f"  '{test[:60]}...'")
    print(f"    -> D√©tect√©: {result['detected']}, Score: {result['score']:.2f}\n")

üîç Test d√©tection cicatrice:
  'Harry porta la main √† sa cicatrice qui le br√ªlait....'
    -> D√©tect√©: True, Score: 1.00

  'Sa cicatrice l'√©lan√ßait terriblement....'
    -> D√©tect√©: True, Score: 1.00

  'Il regarda Hermione avec √©tonnement....'
    -> D√©tect√©: False, Score: 0.00

  'Harry √©tait fatigu√© mais sa cicatrice ne le faisait plus sou...'
    -> D√©tect√©: False, Score: 0.30



## 2. Hermione dit "Mais"

Compte sp√©cifique des "Mais" dans les dialogues attribu√©s √† Hermione.

In [4]:
def detect_hermione_mais(text: str, speaker: Optional[str], is_dialogue: bool) -> Dict:
    """D√©tecte si Hermione dit 'Mais' dans un dialogue."""
    
    # V√©rifier que c'est un dialogue d'Hermione
    if not is_dialogue:
        return {'detected': False, 'count': 0}
    
    if speaker != 'Hermione':
        # Chercher aussi Hermione dans le texte si speaker non d√©tect√©
        if 'Hermione' not in text:
            return {'detected': False, 'count': 0}
    
    # Compter les 'Mais' dans le dialogue
    # Chercher dans les guillemets fran√ßais ou apr√®s tirets
    dialogue_parts = re.findall(r'[¬´¬ª]([^¬´¬ª]+)[¬´¬ª]', text)
    dialogue_parts.extend(re.findall(r'‚Äî\s*([^‚Äî.!?]+)', text))
    
    mais_count = 0
    for part in dialogue_parts:
        mais_count += len(re.findall(r'\bMais\b', part, re.IGNORECASE))
    
    # Aussi chercher directement dans le texte
    if mais_count == 0:
        mais_count = len(re.findall(r'\bMais\b', text, re.IGNORECASE))
    
    return {
        'detected': mais_count > 0,
        'count': mais_count
    }


# Test
test_cases = [
    ("¬´ Mais c'est impossible ! ¬ª dit Hermione.", 'Hermione', True),
    ("Hermione r√©pliqua : ¬´ Mais tu ne comprends pas ! Mais vraiment ! ¬ª", 'Hermione', True),
    ("¬´ D'accord ¬ª dit Ron.", 'Ron', True),
    ("Harry pensait que c'√©tait √©trange.", None, False)
]

print("üó£Ô∏è  Test d√©tection 'Mais' Hermione:")
for text, speaker, is_dial in test_cases:
    result = detect_hermione_mais(text, speaker, is_dial)
    print(f"  '{text[:60]}...'")
    print(f"    -> D√©tect√©: {result['detected']}, Compte: {result['count']}\n")

üó£Ô∏è  Test d√©tection 'Mais' Hermione:
  '¬´ Mais c'est impossible ! ¬ª dit Hermione....'
    -> D√©tect√©: True, Compte: 1

  'Hermione r√©pliqua : ¬´ Mais tu ne comprends pas ! Mais vraime...'
    -> D√©tect√©: True, Compte: 2

  '¬´ D'accord ¬ª dit Ron....'
    -> D√©tect√©: False, Compte: 0

  'Harry pensait que c'√©tait √©trange....'
    -> D√©tect√©: False, Compte: 0



## 3. Interventions de Dumbledore

D√©tection des moments o√π Dumbledore change le cours de l'histoire.

In [5]:
def detect_dumbledore_intervention(text: str, entities_persons: str) -> Dict:
    """D√©tecte les interventions arbitraires/importantes de Dumbledore.
    
    Crit√®res:
    - Dumbledore + verbes d'action d√©cisive
    - Dumbledore + exceptions/r√®gles
    - Dumbledore + points/coupe des maisons
    - Dumbledore + r√©v√©lations importantes
    """
    text_lower = text.lower()
    
    # V√©rifier pr√©sence de Dumbledore
    has_dumbledore = ('Dumbledore' in (entities_persons or '') or
                      'dumbledore' in text_lower or
                      'directeur' in text_lower)
    
    if not has_dumbledore:
        return {'detected': False, 'score': 0.0, 'type': None}
    
    # Patterns d'intervention
    patterns = [
        (r'Dumbledore.*?(?:d√©cida|changea|modifia|annon√ßa|r√©v√©la)', 'decision'),
        (r'(?:exception|r√®gle).*?Dumbledore', 'exception'),
        (r'Dumbledore.*?(?:points|coupe)', 'points'),
        (r'Dumbledore.*?(?:dit|d√©clara|annon√ßa).*?(?:cependant|toutefois|n√©anmoins)', 'revelation'),
        (r'Dumbledore.*?(?:intervint|emp√™cha|sauva)', 'intervention'),
        (r'Dumbledore.*?(?:secret|v√©rit√©|plan)', 'secret')
    ]
    
    score = 0.0
    intervention_type = None
    
    for pattern, ptype in patterns:
        if re.search(pattern, text, re.IGNORECASE):
            score = 1.0
            intervention_type = ptype
            break
    
    return {
        'detected': score > 0.5,
        'score': score,
        'type': intervention_type
    }


# Test
test_cases = [
    "Dumbledore d√©cida d'accorder cinquante points √† Gryffondor.",
    "Le directeur annon√ßa une exception √† la r√®gle.",
    "Dumbledore r√©v√©la la v√©rit√© sur les Horcruxes.",
    "Harry rentra dans la salle commune."
]

print("üßô Test d√©tection interventions Dumbledore:")
for test in test_cases:
    result = detect_dumbledore_intervention(test, 'Dumbledore')
    print(f"  '{test[:60]}...'")
    print(f"    -> D√©tect√©: {result['detected']}, Type: {result['type']}\n")

üßô Test d√©tection interventions Dumbledore:
  'Dumbledore d√©cida d'accorder cinquante points √† Gryffondor....'
    -> D√©tect√©: True, Type: decision

  'Le directeur annon√ßa une exception √† la r√®gle....'
    -> D√©tect√©: False, Type: None

  'Dumbledore r√©v√©la la v√©rit√© sur les Horcruxes....'
    -> D√©tect√©: True, Type: decision

  'Harry rentra dans la salle commune....'
    -> D√©tect√©: False, Type: None



## 4. Rogue myst√©rieux/sombre

D√©tection des moments o√π Rogue est pr√©sent√© comme myst√©rieux ou mena√ßant.

In [6]:
def detect_snape_dark(text: str, entities_persons: str) -> Dict:
    """D√©tecte les descriptions sombres/myst√©rieuses de Rogue."""
    text_lower = text.lower()
    
    # V√©rifier pr√©sence de Rogue/Snape/Severus
    snape_keywords = ['rogue', 'snape', 'severus', 'professeur rogue']
    has_snape = any(kw in text_lower for kw in snape_keywords)
    
    if not has_snape:
        return {'detected': False, 'score': 0.0, 'sentiment': None}
    
    # Patterns de description sombre
    dark_patterns = [
        (r'Rogue.*?(?:sombre|myst√©rieux|inqui√©tant|mena√ßant|sinistre)', 'menacing'),
        (r'(?:regard|voix|ton).*?(?:de )?Rogue.*?(?:froid|glacial|mena√ßant)', 'cold'),
        (r'Rogue.*?(?:ricana|sourit.*?(?:m√©chamment|cruellement))', 'cruel'),
        (r'professeur.*?Rogue.*?(?:apparut|surgit|√©mergea)', 'appearing'),
        (r'Rogue.*?(?:noir|ombre|t√©n√®bres)', 'dark'),
        (r'(?:suspicion|soup√ßon|doute).*?Rogue', 'suspicious')
    ]
    
    score = 0.0
    sentiment = None
    
    for pattern, sent in dark_patterns:
        if re.search(pattern, text, re.IGNORECASE):
            score = 1.0
            sentiment = sent
            break
    
    return {
        'detected': score > 0.5,
        'score': score,
        'sentiment': sentiment
    }


# Test
test_cases = [
    "Rogue les regardait d'un air sombre et mena√ßant.",
    "Le professeur Rogue surgit derri√®re eux.",
    "Son regard froid et glacial se posa sur Harry.",
    "McGonagall sourit gentiment."
]

print("üñ§ Test d√©tection Rogue myst√©rieux:")
for test in test_cases:
    result = detect_snape_dark(test, 'Rogue')
    print(f"  '{test[:60]}...'")
    print(f"    -> D√©tect√©: {result['detected']}, Sentiment: {result['sentiment']}\n")

üñ§ Test d√©tection Rogue myst√©rieux:
  'Rogue les regardait d'un air sombre et mena√ßant....'
    -> D√©tect√©: True, Sentiment: menacing

  'Le professeur Rogue surgit derri√®re eux....'
    -> D√©tect√©: True, Sentiment: appearing

  'Son regard froid et glacial se posa sur Harry....'
    -> D√©tect√©: False, Sentiment: None

  'McGonagall sourit gentiment....'
    -> D√©tect√©: False, Sentiment: None



## 5. Actes r√©pr√©hensibles

Classification des actes moralement ou l√©galement questionnables.

In [7]:
def detect_questionable_acts(text: str) -> Dict:
    """D√©tecte les actes r√©pr√©hensibles.
    
    Cat√©gories:
    - Mensonge
    - Vol
    - Violation de r√®gles
    - Violence
    - Intrusion
    """
    text_lower = text.lower()
    
    categories = {
        'lie': [
            r'\b(?:mensonge|mentir|menti|faux)\b',
            r'\b(?:tromper|tromp√©|dissimul)\b'
        ],
        'theft': [
            r'\b(?:voler|vol|vol√©|d√©rob√©|subtilis)\b',
            r'\b(?:emprunter|emprunt).*?(?:sans|permission)\b'
        ],
        'rule_violation': [
            r'\b(?:enfreindre|enfreint|violer|viol√©).*?(?:r√®gle|loi|r√®glement)\b',
            r'\b(?:sortir|sorti).*?(?:apr√®s|sans).*?(?:autorisation|permission)\b',
            r'\b(?:interdiction|interdit|d√©fendu)\b',
            r'\bfor√™t interdite\b',
            r'\bsection interdite\b'
        ],
        'violence': [
            r'\b(?:attaquer|attaqu√©|attaque)\b',
            r'\b(?:combat|bataille|duel)\b',
            r'\b(?:frapper|frapp√©|coup)\b'
        ],
        'intrusion': [
            r'\b(?:cape d\'invisibilit√©)\b',
            r'\b(?:s\'introduire|introduit|infiltr)\b',
            r'\b(?:espionner|espionn|surveill)\b'
        ]
    }
    
    detected_categories = []
    total_score = 0.0
    
    for category, patterns in categories.items():
        for pattern in patterns:
            if re.search(pattern, text_lower):
                detected_categories.append(category)
                total_score += 0.5
                break
    
    return {
        'detected': len(detected_categories) > 0,
        'categories': detected_categories,
        'score': min(total_score, 1.0),
        'count': len(detected_categories)
    }


# Test
test_cases = [
    "Harry mentit au professeur pour prot√©ger Ron.",
    "Ils vol√®rent des ingr√©dients dans le bureau de Rogue.",
    "Les trois amis s'introduisirent dans la section interdite.",
    "Harry utilisait sa cape d'invisibilit√© pour sortir apr√®s le couvre-feu.",
    "Hermione lisait tranquillement dans la biblioth√®que."
]

print("‚öñÔ∏è  Test d√©tection actes r√©pr√©hensibles:")
for test in test_cases:
    result = detect_questionable_acts(test)
    print(f"  '{test[:60]}...'")
    print(f"    -> D√©tect√©: {result['detected']}, Cat√©gories: {result['categories']}\n")

‚öñÔ∏è  Test d√©tection actes r√©pr√©hensibles:
  'Harry mentit au professeur pour prot√©ger Ron....'
    -> D√©tect√©: False, Cat√©gories: []

  'Ils vol√®rent des ingr√©dients dans le bureau de Rogue....'
    -> D√©tect√©: False, Cat√©gories: []

  'Les trois amis s'introduisirent dans la section interdite....'
    -> D√©tect√©: True, Cat√©gories: ['rule_violation']

  'Harry utilisait sa cape d'invisibilit√© pour sortir apr√®s le ...'
    -> D√©tect√©: True, Cat√©gories: ['intrusion']

  'Hermione lisait tranquillement dans la biblioth√®que....'
    -> D√©tect√©: False, Cat√©gories: []



## 6. Application sur le corpus complet

In [8]:
# Initialiser les colonnes d'√©v√©nements
df['event_scar_touch'] = False
df['event_scar_score'] = 0.0
df['event_hermione_mais'] = False
df['event_hermione_mais_count'] = 0
df['event_dumbledore_intervention'] = False
df['event_dumbledore_type'] = None
df['event_snape_dark'] = False
df['event_snape_sentiment'] = None
df['event_questionable_act'] = False
df['event_questionable_categories'] = None
df['event_questionable_count'] = 0

print("üîç Application des d√©tecteurs d'√©v√©nements...")
print("‚è≥ Cela peut prendre quelques minutes...\n")

üîç Application des d√©tecteurs d'√©v√©nements...
‚è≥ Cela peut prendre quelques minutes...



In [9]:
# Traiter toutes les phrases
for idx in tqdm(df.index, desc="Detecting events"):
    row = df.loc[idx]
    text = row['text']
    
    # 1. Cicatrice de Harry
    scar_result = detect_scar_touch(text, row.get('entities_persons'))
    df.at[idx, 'event_scar_touch'] = scar_result['detected']
    df.at[idx, 'event_scar_score'] = scar_result['score']
    
    # 2. Hermione dit "Mais"
    mais_result = detect_hermione_mais(text, row.get('speaker'), row.get('is_dialogue', False))
    df.at[idx, 'event_hermione_mais'] = mais_result['detected']
    df.at[idx, 'event_hermione_mais_count'] = mais_result['count']
    
    # 3. Dumbledore interventions
    dumb_result = detect_dumbledore_intervention(text, row.get('entities_persons'))
    df.at[idx, 'event_dumbledore_intervention'] = dumb_result['detected']
    df.at[idx, 'event_dumbledore_type'] = dumb_result['type']
    
    # 4. Rogue myst√©rieux
    snape_result = detect_snape_dark(text, row.get('entities_persons'))
    df.at[idx, 'event_snape_dark'] = snape_result['detected']
    df.at[idx, 'event_snape_sentiment'] = snape_result['sentiment']
    
    # 5. Actes r√©pr√©hensibles
    acts_result = detect_questionable_acts(text)
    df.at[idx, 'event_questionable_act'] = acts_result['detected']
    df.at[idx, 'event_questionable_categories'] = ','.join(acts_result['categories']) if acts_result['categories'] else None
    df.at[idx, 'event_questionable_count'] = acts_result['count']

print("\n‚úÖ D√©tection d'√©v√©nements termin√©e!")

Detecting events: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 58654/58654 [00:09<00:00, 6312.26it/s]


‚úÖ D√©tection d'√©v√©nements termin√©e!





In [10]:
# Statistiques globales
print("\nüìä Statistiques des √©v√©nements d√©tect√©s:")
print(f"  Cicatrice de Harry: {df['event_scar_touch'].sum():,}")
print(f"  Hermione dit 'Mais': {df['event_hermione_mais'].sum():,} (total: {df['event_hermione_mais_count'].sum():,})")
print(f"  Interventions Dumbledore: {df['event_dumbledore_intervention'].sum():,}")
print(f"  Rogue myst√©rieux: {df['event_snape_dark'].sum():,}")
print(f"  Actes r√©pr√©hensibles: {df['event_questionable_act'].sum():,}")

print("\nüìà Par livre:")
print(df.groupby('book_title')[[col for col in df.columns if col.startswith('event_') and not col.endswith(('_count', '_score', '_type', '_sentiment', '_categories'))]].sum())


üìä Statistiques des √©v√©nements d√©tect√©s:
  Cicatrice de Harry: 88
  Hermione dit 'Mais': 554 (total: 579)
  Interventions Dumbledore: 42
  Rogue myst√©rieux: 41
  Actes r√©pr√©hensibles: 1,987

üìà Par livre:
                         event_scar_touch  event_hermione_mais  \
book_title                                                       
L'Ordre du Ph√©nix                      19                  172   
L'√âcole des Sorciers                    4                   19   
La Chambre des Secrets                  1                   32   
La Coupe de Feu                        17                   72   
Le Prince de Sang-M√™l√©                  1                   55   
Le Prisonnier d'Azkaban                 1                   47   
Les Reliques de la Mort                45                  157   

                         event_dumbledore_intervention  event_snape_dark  \
book_title                                                                 
L'Ordre du Ph√©nix              

## 7. Export des √©v√©nements

In [11]:
# Exporter le corpus avec √©v√©nements
output_path = DATA_DIR / 'events.parquet'
df.to_parquet(output_path, index=False)
print(f"‚úÖ √âv√©nements export√©s: {output_path}")
print(f"   Taille: {output_path.stat().st_size / 1024 / 1024:.2f} MB")

‚úÖ √âv√©nements export√©s: c:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp\data\events.parquet
   Taille: 5.00 MB


In [12]:
# Exporter aussi un r√©sum√© des √©v√©nements seulement
events_only = df[df[[col for col in df.columns if col.startswith('event_') and not col.endswith(('_count', '_score', '_type', '_sentiment', '_categories'))]].any(axis=1)].copy()

print(f"\nüìã Phrases avec au moins un √©v√©nement: {len(events_only):,}")
print(f"   ({len(events_only)/len(df)*100:.1f}% du corpus)")

events_summary_path = DATA_DIR / 'events_summary.parquet'
events_only.to_parquet(events_summary_path, index=False)
print(f"\n‚úÖ R√©sum√© √©v√©nements export√©: {events_summary_path}")


üìã Phrases avec au moins un √©v√©nement: 2,668
   (4.5% du corpus)

‚úÖ R√©sum√© √©v√©nements export√©: c:\Users\julie\src\School\Workshop\workshop-poudlard-epsi\projects\22-proces-jk-rowling\hp_nlp\data\events_summary.parquet


## ‚úÖ R√©sum√©

Ce notebook a:
1. ‚úÖ D√©tect√© les moments o√π Harry touche sa cicatrice
2. ‚úÖ Compt√© les "Mais" d'Hermione dans ses dialogues
3. ‚úÖ Identifi√© les interventions de Dumbledore
4. ‚úÖ Rep√©r√© les moments o√π Rogue est myst√©rieux
5. ‚úÖ Classifi√© les actes r√©pr√©hensibles par cat√©gorie
6. ‚úÖ Export√© les √©v√©nements d√©tect√©s

**Notes:**
- Les d√©tecteurs utilisent une combinaison de patterns regex et d'heuristiques
- Pour am√©liorer: utiliser des mod√®les zero-shot NLI (transformers)
- Les scores peuvent √™tre ajust√©s selon les besoins

**Prochaine √©tape**: Notebook 04 - Agr√©gation des r√©sultats et visualisations