# Class Parser Workflow Test

This notebook reproduces the workflow from poc.ipynb step by step using the new src/ structure.
Test each component individually and then run the complete pipeline.

## Workflow Overview
1. **Data Extraction** - Extract slides and plan from PDF (deterministic)
2. **Branch A** - With plan: outline_two_pass → mapping_two_pass → enrich → writer
3. **Branch B** - No plan: outline_one_shot → enrich → writer
4. **Export** - Generate DOCX document


In [1]:
# Dev hot-reload setup (no kernel restart needed)
%load_ext autoreload
%autoreload 2

import sys, importlib
from pathlib import Path
# Ensure project root is on sys.path
sys.path.insert(0, str(Path('.').resolve()))

import src
import src.models as models
import src.llm as llm
import src.data_extraction as data_extraction
import src.course as course_mod
import src.pipeline as pipeline_mod


def refresh_imports():
    """Reload modules and rebind notebook aliases."""
    importlib.reload(src)
    importlib.reload(models)
    importlib.reload(llm)
    importlib.reload(data_extraction)
    importlib.reload(course_mod)
    importlib.reload(pipeline_mod)
    
    globals().update({
        # Models
        "Content": models.Content,
        "ContentSection": models.ContentSection,
        "MappingItem": models.MappingItem,
        "SectionSlideMapping": models.SectionSlideMapping,
        "Slides": models.Slides,
        "OutlineAndMapping": models.OutlineAndMapping,
        # LLM
        "OutlineOneShot": llm.OutlineOneShot,
        "OutlineTwoPass": llm.OutlineTwoPass,
        "MappingTwoPass": llm.MappingTwoPass,
        "Writer": llm.Writer,
        "PromptManager": llm.PromptManager,
        # Deterministic extractors
        "SlidesExtractor": data_extraction.SlidesExtractor,
        "PlanExtractor": data_extraction.PlanExtractor,
        # Orchestrators
        "Course": course_mod.Course,
        "CoursePipeline": pipeline_mod.CoursePipeline,
    })
    print("🔁 Imports refreshed")

# Initial bind
refresh_imports()


🔁 Imports refreshed


## Step 1: Data Extraction - Slides

Extract slides from PDF using the exact logic from poc.ipynb


In [2]:
slides_path = "/Users/youssefjanjar/Documents/formascience/class_parser/volume/slides/"
import os 
chapters = os.listdir(slides_path)
for index, chapter in enumerate(chapters):
    print(f"id {index} : {chapter}")

id 0 : cours_4_plan.pdf
id 1 : .DS_Store
id 2 : Ch6-Code génétique et traduction.pdf
id 3 : cours_1.pdf
id 4 : cours_4.pdf
id 5 : Ch1-Sucres et Lipides.pdf
id 6 : Ch3_Métabolisme des glucides.pdf
id 7 : Ch2-Acides aminés et protéines.pdf
id 8 : Ch7.1-Génome humain.pdf
id 9 : Ch7.2-Techniques de biologie moléculaire.pdf
id 10 : Ch4-Plan du polycopié.docx
id 11 : Ch4-Structure, réplication et réparation de l_ADN.pdf
id 12 : Ch5-Transcription, maturation et régulation.pdf


In [3]:
# Test slides extraction
pdf_path = slides_path+chapters[7]

# Initialize extractor
slides_extractor = SlidesExtractor(
    min_avg_len=10,
    max_lines=20,
    merge_tol=2.0
)

print(f"🔍 Extracting slides from: {pdf_path}")

try:
    # Extract slides as Slides objects
    slides = slides_extractor.extract_slides(pdf_path)
    print(f"✅ Extracted {len(slides)} slides")
    
    # Display first few slides
    print("\n📋 First 3 slides:")
    for i, slide in enumerate(slides[:3]):
        print(f"\n--- Slide {i+1}: {slide.id} ---")
        print(f"Title: {slide.title}")
        print(f"Content (first 200 chars): {slide.content[:200]}...")
        print("=" * 50)
        
except FileNotFoundError:
    print(f"❌ PDF file not found: {pdf_path}")
    print("Please ensure the PDF file exists in ./volume/slides/")
    slides = []  # Empty list for testing
except Exception as e:
    print(f"❌ Error extracting slides: {e}")
    slides = []


🔍 Extracting slides from: /Users/youssefjanjar/Documents/formascience/class_parser/volume/slides/Ch2-Acides aminés et protéines.pdf


Cannot set gray non-stroke color because /'P437' is an invalid float value
Cannot set gray non-stroke color because /'P439' is an invalid float value
Cannot set gray non-stroke color because /'P479' is an invalid float value
Cannot set gray non-stroke color because /'P481' is an invalid float value
Cannot set gray non-stroke color because /'P483' is an invalid float value
Cannot set gray non-stroke color because /'P485' is an invalid float value
Cannot set gray non-stroke color because /'P487' is an invalid float value
Cannot set gray non-stroke color because /'P489' is an invalid float value
Cannot set gray non-stroke color because /'P491' is an invalid float value
Cannot set gray non-stroke color because /'P493' is an invalid float value
Cannot set gray non-stroke color because /'P495' is an invalid float value
Cannot set gray non-stroke color because /'P497' is an invalid float value
Cannot set gray non-stroke color because /'P499' is an invalid float value
Cannot set gray non-strok

✅ Extracted 290 slides

📋 First 3 slides:

--- Slide 1: SL_001 ---
Title: Les Molécules du Vivant: Acides aminés, Protéines, Enzymologie
Content (first 200 chars): L1SpS - UE2 2024-2025
Les Molécules du Vivant: Acides aminés, Protéines, Enzymologie
Valérie Lamour
Note: Ce document est le support de cours définitf 2024-2025.
Le document est à usage exclusif des é...

--- Slide 2: SL_002 ---
Title: Introduction
Content (first 200 chars): Introduction
Échelle du vivant:
https://learn.genetics.utah.edu/content/cells/scale/...

--- Slide 3: SL_003 ---
Title: Introduction- UE2
Content (first 200 chars): Introduction- UE2
Chapitre 1 Glucides, lipides :aspects structuraux
Chapitre 2 Acides aminés, protéines, enzymologie
Chapitre 3 Métabolisme énergétique
Chapitre 4 Structure/propriétés des acides nuclé...


In [4]:
import json
import tiktoken

# Dump slides to JSON
slides_json = json.dumps([slide.model_dump() for slide in slides], ensure_ascii=False, indent=2)

# Calculate tokens using GPT-4 encoding (tiktoken doesn't have GPT-5 yet, using GPT-4 as closest)
encoding = tiktoken.encoding_for_model("gpt-4")
token_count = len(encoding.encode(slides_json))

print(f"📊 Slides JSON dump:")
print(f"Number of slides: {len(slides)}")
print(f"JSON size: {len(slides_json)} characters")
print(f"Estimated tokens (GPT-4 encoding): {token_count}")

# Display the JSON (truncated for readability)
print(f"\n📋 JSON content (first 1000 chars):")
print(slides_json[:1000] + "..." if len(slides_json) > 1000 else slides_json)

📊 Slides JSON dump:
Number of slides: 290
JSON size: 106247 characters
Estimated tokens (GPT-4 encoding): 36075

📋 JSON content (first 1000 chars):
[
  {
    "id": "SL_001",
    "title": "Les Molécules du Vivant: Acides aminés, Protéines, Enzymologie",
    "content": "L1SpS - UE2 2024-2025\nLes Molécules du Vivant: Acides aminés, Protéines, Enzymologie\nValérie Lamour\nNote: Ce document est le support de cours définitf 2024-2025.\nLe document est à usage exclusif des étudiants de L1SpS et ne pas être diffusé pour un autre usage sans\nautorisation de l’enseignant."
  },
  {
    "id": "SL_002",
    "title": "Introduction",
    "content": "Introduction\nÉchelle du vivant:\nhttps://learn.genetics.utah.edu/content/cells/scale/"
  },
  {
    "id": "SL_003",
    "title": "Introduction- UE2",
    "content": "Introduction- UE2\nChapitre 1 Glucides, lipides :aspects structuraux\nChapitre 2 Acides aminés, protéines, enzymologie\nChapitre 3 Métabolisme énergétique\nChapitre 4 Structure/propriétés 

# Single Shot

# Single shot:  Extract the plan for this class 

In [5]:
outline_one_shot = OutlineOneShot()

outline, mapping = outline_one_shot.build_outline_and_mapping(slides)

print(outline.print_outline())

Course Outline:
Introduction générale : molécules du vivant et échelle
  Plan du module et principaux chapitres
  Polymères biologiques: ADN, ARN et protéines
Acides aminés: structure, classification et propriétés
  Structure, stéréochimie et formes ioniques
  Classification selon polarité et exemples
  Réactivités métaboliques et modifications post‑traductionnelles
Protéines: structure, classification et fonctions
  Squelette peptidique et structure primaire des protéines
  Diversité fonctionnelle et classifications protéiques
  Niveaux secondaires: hélices, feuillets et paramètres
  Collagène: triple hélice et séquences répétitives
  Brins β, feuillets plissés, boucles et coudes
  Repliement tertiaire, domaines et rôle de l'eau
  Liaisons et ponts (disulfures) stabilisant structures
  Structure quaternaire, oligomères et exemples protéiques
  Flexibilité conformationnelle, désordre et dénaturation
  Détection des protéines: spectres, gels et anticorps
  Protéines d'oxygène: myoglobin

In [6]:
print(mapping.visualize_mapping(outline))

Section-to-Slides Mapping:

[Root] SEC_1
Title: Introduction générale : molécules du vivant et échelle
Slides: 1 slide(s)
Slide IDs: SL_001

  [Level 1] SEC_1.1
  Title: Plan du module et principaux chapitres
  Slides: 2 slide(s)
  Slide IDs: SL_002, SL_003

  [Level 1] SEC_1.2
  Title: Polymères biologiques: ADN, ARN et protéines
  Slides: 3 slide(s)
  Slide IDs: SL_004, SL_005, SL_006

[Root] SEC_2
Title: Acides aminés: structure, classification et propriétés
Slides: 0 slide(s)
Slide IDs: 

  [Level 1] SEC_2.1
  Title: Structure, stéréochimie et formes ioniques
  Slides: 4 slide(s)
  Slide IDs: SL_007, SL_008, SL_009, SL_019

  [Level 1] SEC_2.2
  Title: Classification selon polarité et exemples
  Slides: 13 slide(s)
  Slide IDs: SL_010, SL_011, SL_012, SL_013, SL_014, SL_015, SL_016, SL_017, SL_018, SL_020, SL_021, SL_022, SL_023

  [Level 1] SEC_2.3
  Title: Réactivités métaboliques et modifications post‑traductionnelles
  Slides: 7 slide(s)
  Slide IDs: SL_024, SL_025, SL_026, SL_

# Single shot: Writing content from mapping and the outline

In [7]:
outline_with_slides = outline.enrich_with_slides(slides=slides, mapping=mapping)
writer = Writer()

course = writer.write_course(enriched_content=outline_with_slides)

type(course)

src.models.Content

In [8]:
type(course)

src.models.Content

In [9]:
print(course.print_content())

Course Content:

[Root] ID: SEC_1
Title: Introduction générale : molécules du vivant et échelle
Content:
  [1] Ce module aborde les molécules du vivant avec un accent particulier sur
      les acides aminés, les protéines et l’enzymologie. Il vise à donner une
      compréhension intégrée des relations structure‑fonction à l’échelle
      moléculaire et de leurs implications pour le métabolisme et la physiologie
      cellulaire.
  [2] L’étude se déploie selon une double perspective : description rigoureuse
      des structures chimiques et des principes physiques qui gouvernent leur
      comportement, puis interprétation fonctionnelle au sein des processus
      biologiques. Les compétences visées incluent l’identification des éléments
      structuraux, la compréhension des mécanismes catalytiques et la capacité à
      relier modifications moléculaires et régulations métaboliques.

  [Level 1] ID: SEC_1.1
  Title: Plan du module et principaux chapitres
  Content:
    [1] Le module 

# Store a course as a artifact that I can load again into Course

In [10]:
type(course)

src.models.Content

In [11]:
print(course.print_outline())

Course Outline:
Introduction générale : molécules du vivant et échelle
  Plan du module et principaux chapitres
  Polymères biologiques: ADN, ARN et protéines
Acides aminés: structure, classification et propriétés
  Structure, stéréochimie et formes ioniques
  Classification selon polarité et exemples
  Réactivités métaboliques et modifications post‑traductionnelles
Protéines: structure, classification et fonctions
  Squelette peptidique et structure primaire des protéines
  Diversité fonctionnelle et classifications protéiques
  Niveaux secondaires: hélices, feuillets et paramètres
  Collagène: triple hélice et séquences répétitives
  Brins β, feuillets plissés, boucles et coudes
  Repliement tertiaire, domaines et rôle de l'eau
  Liaisons et ponts (disulfures) stabilisant structures
  Structure quaternaire, oligomères et exemples protéiques
  Flexibilité conformationnelle, désordre et dénaturation
  Détection des protéines: spectres, gels et anticorps
  Protéines d'oxygène: myoglobin

In [12]:
try:
    course_json = course.model_dump_json()
    course_dict = json.loads(course_json)
    course_formatted = Content.model_validate(course_dict)
    
    pilot_course = Course(
        name="Acides aminés et protéines",
        course_title="Acides aminés et protéines",
        level="L1", 
        block="SANTE",
        semester="S1",
        subject="UE-2",
        chapter="2",
        content=course_formatted
    )
    
    print("✅ Course created successfully!")
    
except Exception as e:
    print(f"❌ Error creating course: {e}")
    # You could inspect the course_dict here to debug
    print("Course data structure:")
    print(json.dumps(course_dict, indent=2)[:500] + "...")

✅ Course created successfully!


In [13]:
print(pilot_course.print_outline())

Course: Acides aminés et protéines
Level: L1
Block: SANTE
Semester: S1
Subject: UE-2
Chapter: 2


Course Outline:
Introduction générale : molécules du vivant et échelle
  Plan du module et principaux chapitres
  Polymères biologiques: ADN, ARN et protéines
Acides aminés: structure, classification et propriétés
  Structure, stéréochimie et formes ioniques
  Classification selon polarité et exemples
  Réactivités métaboliques et modifications post‑traductionnelles
Protéines: structure, classification et fonctions
  Squelette peptidique et structure primaire des protéines
  Diversité fonctionnelle et classifications protéiques
  Niveaux secondaires: hélices, feuillets et paramètres
  Collagène: triple hélice et séquences répétitives
  Brins β, feuillets plissés, boucles et coudes
  Repliement tertiaire, domaines et rôle de l'eau
  Liaisons et ponts (disulfures) stabilisant structures
  Structure quaternaire, oligomères et exemples protéiques
  Flexibilité conformationnelle, désordre et dé

In [14]:
pilot_course.save_to_json(output_path="volume/artifacts/json")

💾 Course saved to: volume/artifacts/json/acides_aminés_et_protéines_20250818_181001.json


'volume/artifacts/json/acides_aminés_et_protéines_20250818_181001.json'

In [15]:
pilot_course.to_docx(output_path="volume/artifacts/docx", template_path="volume/templates/fs_template.docx")

📄 Course exported to DOCX: volume/artifacts/docx/acides_aminés_et_protéines.docx


'volume/artifacts/docx/acides_aminés_et_protéines.docx'

In [32]:
# Check what's actually in your fresh_content variable
print(f"Type: {type(fresh_content)}")
print(f"Is Content? {isinstance(fresh_content, Content)}")

# Check the sections
if hasattr(fresh_content, 'sections'):
    print(f"Sections type: {type(fresh_content.sections)}")
    if fresh_content.sections:
        print(f"First section type: {type(fresh_content.sections[0])}")
        print(f"First section: {fresh_content.sections[0]}")
else:
    print("No sections attribute")

# Check if it's the right Content class
print(f"Content class: {Content}")
print(f"fresh_content's content class: {type(fresh_content).__module__}.{type(fresh_content).__name__}")

Type: <class 'src.models.Content'>
Is Content? True
Sections type: <class 'list'>
First section type: <class 'src.models.ContentSection'>
First section: id='SEC_1' title='Présentation du module et plan du cours' content=["Ce module porte sur l'organisation du génome humain et sur les méthodes biotechnologiques permettant de le caractériser et de l'analyser. Il vise à donner une vision intégrée de la composition, de l'architecture et de la dynamique des génomes, ainsi que des conséquences fonctionnelles et médicales des variations génomiques.", "Le plan du cours présente successivement une introduction aux concepts évolutifs et aux organismes modèles, les notions fondamentales de génétique moléculaire, la description du génome humain (nucléaire et mitochondrial), le projet de séquençage, l'architecture globale du génome, la description des éléments constitutifs (gènes codants et non codants, pseudogènes, éléments répétés), la comparaison intergénomique, les différents types de variation

# Two-shots

# Two-shots

## Plan from page

Extract plan text from PDF for Branch A (two-pass approach)


## Extract the slides

In [70]:
pdf_path = './volume/slides/cours_1.pdf'
plan_path = './volume/slides/cours_4_plan.pdf'

extractor = SlidesExtractor()

slides = extractor.extract_slides(pdf_path=pdf_path)

slides[:5]



2025-08-18 10:12:25,875 [DEBUG] src.data_extraction.slides_extractor: Starting slide extraction from ./volume/slides/cours_1.pdf
2025-08-18 10:12:25,924 [DEBUG] src.data_extraction.slides_extractor: PDF opened, found 111 pages
2025-08-18 10:12:27,073 [DEBUG] src.data_extraction.slides_extractor: Successfully extracted 110 slides


[Slides(id='SL_001', title='7.1 Architecture du génome', content='L1SpS: UE 2 Les molécules du vivant\nU.E.2 Les molécules du vivant\n7. Organisation du génome humain, méthodes en\nbiotechnologie\n7.1 Architecture du génome\nhumain\nJean Muller\nLaboratoire Diagnostic Génétique (HUS)\nLaboratoire de Génétique médicale (Inserm U1112)\njeanmuller@unistra.fr'),
 Slides(id='SL_002', title='Plan du cours', content='L1SpS: UE 2 Les molécules du vivant\nPlan du cours\n• Introduction\n• Notions fondamentales\n• Le génome humain\n• Projet de séquençage\n• Architecture globale\n• Génome mitochondrial\n• Génome nucléaire\n• Description des principaux éléments constituants\n• Gènes (codants et non-codants), pseudogènes et éléments répétés\n• Comparaison aux autres génomes\n• Les types de variations du génome humain et leurs conséquences\n• La variabilité du génome humain\n• Evolution des génomes: notions essentielles, mécanismes\n2'),
 Slides(id='SL_003', title='Introduction', content='L1SpS: UE 2

In [74]:
# Test plan extraction
plan_extractor = PlanExtractor()

plan_txt = plan_extractor.extract_plan_from_page(pdf_path=pdf_path, page_number=2)

print(plan_txt)

2025-08-18 10:13:00,872 [DEBUG] src.data_extraction.plan_extractor: Starting plan extraction from ./volume/slides/cours_1.pdf (page 2)
2025-08-18 10:13:00,928 [DEBUG] src.data_extraction.plan_extractor: PDF opened, found 111 pages
2025-08-18 10:13:00,948 [DEBUG] src.data_extraction.plan_extractor: Successfully extracted plan from page 2 (1599 chars)
   L1SpS: UE 2 Les molécules du vivant                                                             
      Plan      du     cours                                                                       
        •  Introduction                                                                            
             •  Notions  fondamentales                                                             
        •  Le génome    humain                                                                     
             •  Projet de séquençage                                                               
             •  Architecture globale            

## Build the Outline

In [75]:
out_builder = OutlineTwoPass()

outline = out_builder.build_outline(plan_txt)

2025-08-18 10:13:26,958 [DEBUG] src.llm.outline_two_pass: Starting outline generation from plan text (1599 chars)
2025-08-18 10:13:41,765 [INFO] httpx: HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-18 10:13:41,817 [DEBUG] src.llm.outline_two_pass: Successfully generated outline with 6 sections


In [78]:
print(outline.print_outline())

Course Outline:
Introduction
  Notions fondamentales
Le génome humain
  Projet de séquençage
  Architecture globale
    Génome mitochondrial
    Génome nucléaire
  Description des principaux éléments constituants
    Gènes (codants et non-codants), pseudogènes et éléments répétés
Comparaison aux autres génomes
Les types de variations du génome humain et leurs conséquences
La variabilité du génome humain
Evolution des génomes: notions essentielles, mécanismes


## Build the mapping

In [79]:
slides = slides[:10]

In [80]:
mapping_builder = MappingTwoPass()

mapping = mapping_builder.build_mapping(slides=slides, outline=outline) 

type(mapping)

2025-08-18 10:14:02,625 [DEBUG] src.llm.mapping_two_pass: Starting mapping generation for 10 slides and 6 sections
2025-08-18 10:15:20,967 [INFO] httpx: HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-18 10:15:20,996 [DEBUG] src.llm.mapping_two_pass: Successfully generated mapping with 13 entries


src.models.SectionSlideMapping

In [82]:
print(mapping.visualize_mapping(outline))

Section-to-Slides Mapping:

[Root] SEC_1
Title: Introduction
Slides: 2 slide(s)
Slide IDs: SL_002, SL_003

  [Level 1] SEC_1.1
  Title: Notions fondamentales
  Slides: 7 slide(s)
  Slide IDs: SL_004, SL_005, SL_006, SL_007, SL_008, SL_009, SL_010

[Root] SEC_2
Title: Le génome humain
Slides: 1 slide(s)
Slide IDs: SL_001

  [Level 1] SEC_2.1
  Title: Projet de séquençage
  Slides: 1 slide(s)
  Slide IDs: SL_002

  [Level 1] SEC_2.2
  Title: Architecture globale
  Slides: 1 slide(s)
  Slide IDs: SL_001

    [Level 2] SEC_2.2.1
    Title: Génome mitochondrial
    Slides: 1 slide(s)
    Slide IDs: SL_001

    [Level 2] SEC_2.2.2
    Title: Génome nucléaire
    Slides: 1 slide(s)
    Slide IDs: SL_001

  [Level 1] SEC_2.3
  Title: Description des principaux éléments constituants
  Slides: 1 slide(s)
  Slide IDs: SL_001

    [Level 2] SEC_2.3.1
    Title: Gènes (codants et non-codants), pseudogènes et éléments répétés
    Slides: 1 slide(s)
    Slide IDs: SL_001

[Root] SEC_3
Title: Comparai

In [87]:
course_with_slides = outline.enrich_with_slides(slides=slides, mapping=mapping)

print(course_with_slides.print_outline())

Course Outline:
Introduction
  Notions fondamentales
Le génome humain
  Projet de séquençage
  Architecture globale
    Génome mitochondrial
    Génome nucléaire
  Description des principaux éléments constituants
    Gènes (codants et non-codants), pseudogènes et éléments répétés
Comparaison aux autres génomes
Les types de variations du génome humain et leurs conséquences
La variabilité du génome humain
Evolution des génomes: notions essentielles, mécanismes


## Write the course

In [84]:
writer = Writer()

course = writer.write_course(enriched_content=course_with_slides)
type(course)

2025-08-18 10:16:07,926 [DEBUG] src.llm.writer: Starting content enhancement for 6 sections
2025-08-18 10:19:58,868 [INFO] httpx: HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-18 10:19:58,980 [DEBUG] src.llm.writer: Successfully enhanced content with 6 sections


src.models.Content

In [89]:
type(course)

src.models.Content

In [88]:
test_course = Course(
    name="Architecture du génome humain",
    course_title="Architecture du génome humain",
    level="L1",
    block="SANTE",
    semester="S1",
    subject="UE-1 Constitution et transformation de la matière",
    content=course
)

print(test_course.print_outline())

ValidationError: 1 validation error for Course
content
  Input should be a valid dictionary or instance of Content [type=model_type, input_value=Content(sections=[Content...ides=None, mapping=None), input_type=Content]
    For further information visit https://errors.pydantic.dev/2.11/v/model_type

In [90]:
from src.models import Content as ModelsContent
print("Course content annotation ->", ModelsContent, ModelsContent.__module__)

print("Returned content instance ->", type(course), type(course).__module__)

print("Same class object? ->", type(course) is ModelsContent)

Course content annotation -> <class 'src.models.Content'> src.models
Returned content instance -> <class 'src.models.Content'> src.models
Same class object? -> False


## Tests


In [64]:
refresh_imports()

from src.models import PipelineConfig

config = PipelineConfig.load("pipeline.yaml")
config.inputs, config.outputs, config.metadata

🔁 Imports refreshed


({'slides_pdf': '/Users/youssefjanjar/Documents/formascience/class_parser/volume/slides/cours_1.pdf',
  'plan_page': 2},
 {'save_json': True,
  'save_docx': True,
  'template_path': '/Users/youssefjanjar/Documents/formascience/class_parser/volume/templates/fs_template.docx',
  'output_dir': '/Users/youssefjanjar/Documents/formascience/class_parser/volume/artifacts'},
 CourseMetadata(name='Architecture du génome humain', course_title='Architecture du génome humain', level='L1', block='SANTE', semester='S1', subject='UE-1 - Les bases de la biologie', chapter=None, year=2024, professor='Youssef Janjar'))

In [65]:
import os 
os.listdir(config.outputs['output_dir'])

['architecture_du_génome_humain_20250817_224951.json',
 '.DS_Store',
 'architecture_du_génome_humain_filled.docx',
 'docx']

In [66]:
from src.course import Course

course = Course.load_from_json(config.outputs['output_dir']+'/architecture_du_génome_humain_20250817_224951.json')

print(course.content.print_outline())

Course Outline:
Introduction
  Notions fondamentales
Le génome humain
  Projet de séquençage
  Architecture globale
    Génome mitochondrial
    Génome nucléaire
  Description des principaux éléments constituants
    Gènes (codants et non-codants), pseudogènes et éléments répétés
Comparaison aux autres génomes
Les types de variations du génome humain et leurs conséquences
La variabilité du génome humain
Evolution des génomes: notions essentielles, mécanismes


In [67]:
course.save_to_json(output_path=config.outputs['output_dir'])

💾 Course saved to: /Users/youssefjanjar/Documents/formascience/class_parser/volume/artifacts/json/architecture_du_génome_humain_20250818_082858.json


'/Users/youssefjanjar/Documents/formascience/class_parser/volume/artifacts/json/architecture_du_génome_humain_20250818_082858.json'

In [61]:
course.to_docx(template_path=config.outputs['template_path'], output_path=config.outputs['output_dir']+'/docx')

📄 Course exported to DOCX: /Users/youssefjanjar/Documents/formascience/class_parser/volume/artifacts/docx/architecture_du_génome_humain.docx


'/Users/youssefjanjar/Documents/formascience/class_parser/volume/artifacts/docx/architecture_du_génome_humain.docx'

# Testing the pipeline

In [68]:
import os
from pathlib import Path

# Print current working directory
print("Current working directory:", os.getcwd())

# Print root folder using pathlib
root_path = Path.cwd()
print("Root folder (pathlib):", root_path)

# Print absolute path
print("Absolute path:", root_path.absolute())

# List contents of root folder
print("\nContents of root folder:")
for item in root_path.iterdir():
    if item.is_dir():
        print(f"📁 {item.name}/")
    else:
        print(f"📄 {item.name}")


Current working directory: /Users/youssefjanjar/Documents/formascience/class_parser
Root folder (pathlib): /Users/youssefjanjar/Documents/formascience/class_parser
Absolute path: /Users/youssefjanjar/Documents/formascience/class_parser

Contents of root folder:
📁 .cursor/
📄 .DS_Store
📄 create_structure.sh
📁 audio_extractor/
📄 pyproject.toml
📄 data_structure.md
📁 tests/
📁 __pycache__/
📄 README.md
📁 .mypy_cache/
📄 .gitignore
📄 diagram.mermaid
📄 .env
📁 .venv/
📄 pipeline.yaml
📄 poetry.lock
📁 .git/
📄 main.py
📄 test_workflow.ipynb
📁 data/
📁 volume/
📁 notebooks/
📁 src/


In [2]:
import logging
import sys
from pathlib import Path

from src.pipeline import CoursePipeline
from src.models import CourseMetadata

# Configure logging level
logging.basicConfig(
    level=logging.INFO,  # Change to DEBUG for more detailed logs, WARNING for less
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s',
    handlers=[
        logging.StreamHandler(),  # Console output
        logging.FileHandler('pipeline.log')  # Optional: save to file
    ]
)

# Initialize the pipeline
pipeline = CoursePipeline()
# Method 1: Using config file
course = pipeline.process_from_config("configs/cours_1.yaml")


# Get processing statistics
stats = pipeline.get_processing_statistics(course)
print(f"Processed {stats['total_sections']} sections from {stats['total_slides']} slides")

2025-08-18 13:10:15,727 - src.pipeline - INFO - 🚀 Processing course 'Architecture du génome humain' (Branch A - Plan Provided)
2025-08-18 13:10:15,727 - src.pipeline - INFO - 📝 Generating outline from plan...
2025-08-18 13:10:26,263 - httpx - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-18 13:10:26,318 - src.pipeline - INFO - ✅ Generated outline with 7 sections
2025-08-18 13:10:26,319 - src.pipeline - INFO - 🗺️ Generating section-slide mapping...
2025-08-18 13:12:39,982 - httpx - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-18 13:12:40,014 - src.pipeline - INFO - ✅ Generated section-slide mapping
2025-08-18 13:12:40,015 - src.pipeline - INFO - 🔗 Enriching content with slides...
2025-08-18 13:12:40,016 - src.pipeline - INFO - ✅ Content enriched with slide data
2025-08-18 13:12:40,017 - src.pipeline - INFO - ✍️ Enhancing content with AI...
2025-08-18 13:16:48,819 - httpx - INFO - HTTP Request: POST http

💾 Course saved to: /Users/youssefjanjar/Documents/formascience/class_parser/volume/artifacts/json/architecture_du_génome_humain_20250818_132011.json


2025-08-18 13:20:11,906 - src.pipeline - INFO - 💾 Course saved to DOCX
2025-08-18 13:20:11,906 - src.pipeline - INFO - 🎉 Course processing complete!


📄 Course exported to DOCX: /Users/youssefjanjar/Documents/formascience/class_parser/volume/artifacts/docx/architecture_du_génome_humain.docx
Processed 7 sections from 110 slides


In [4]:
print(course.print_outline())

Course: Architecture du génome humain
Level: L1
Block: SANTE
Semester: S1
Subject: UE-1
Chapter: 1


Course Outline:
Introduction
  Notions fondamentales
Le génome humain
  Projet de séquençage
  Architecture globale
    Génome mitochondrial
    Génome nucléaire
Description des principaux éléments constituants
  Gènes (codants et non-codants), pseudogènes et éléments répétés
Comparaison aux autres génomes
Les types de variations du génome humain et leurs conséquences
La variabilité du génome humain
Evolution des génomes: notions essentielles, mécanismes


In [6]:
import os

jsons = os.listdir("/Users/youssefjanjar/Documents/formascience/class_parser/volume/artifacts/json/")
file_path = "/Users/youssefjanjar/Documents/formascience/class_parser/volume/artifacts/json/" + jsons[-1]

jsons

['architecture_du_génome_humain_20250818_113431.json',
 'architecture_du_génome_humain_20250818_123215.json',
 'réplication_et_réparation_de_l’adn_20250818_120405.json',
 'architecture_du_génome_humain_20250818_114200.json',
 'architecture_du_génome_humain_20250818_132011.json']

In [7]:
from src.course import Course

course = Course.load_from_json(
file_path)
course

Course(name='Architecture du génome humain', course_title='Architecture du génome humain', level='L1', block='SANTE', semester='S1', subject='UE-1', chapter=1, content=Content(sections=[ContentSection(id='SEC_1', title='Introduction', content=["Ce module aborde les molécules du vivant en plaçant le génome au centre d'un cadre plus large qui comprend également le transcriptome, le protéome et le méthylome. Le programme couvre des notions fondamentales d'évolution et d'homologie, la structure et l'architecture du génome humain (nucléaire et mitochondrial), le projet de séquençage, la description des éléments constitutifs du génome, la comparaison avec d'autres génomes, ainsi que les types et les conséquences des variations génomiques.", "Le génome est présenté comme une référence stable de l'information héréditaire d'un organisme, servant de base de comparaison pour les autres couches fonctionnelles (expression, modifications épigénétiques, production protéique). L'étude intégrée de ces 

In [10]:
course.subject = "UE-2"
course.chapter = "7.1"

In [11]:
print(course.print_outline())

Course: Architecture du génome humain
Level: L1
Block: SANTE
Semester: S1
Subject: UE-2
Chapter: 7.1


Course Outline:
Introduction
  Notions fondamentales
Le génome humain
  Projet de séquençage
  Architecture globale
    Génome mitochondrial
    Génome nucléaire
Description des principaux éléments constituants
  Gènes (codants et non-codants), pseudogènes et éléments répétés
Comparaison aux autres génomes
Les types de variations du génome humain et leurs conséquences
La variabilité du génome humain
Evolution des génomes: notions essentielles, mécanismes


In [7]:
course.save_to_json(output_path="volume/artifacts/json")

💾 Course saved to: volume/artifacts/json/architecture_du_génome_humain_20250818_114200.json


'volume/artifacts/json/architecture_du_génome_humain_20250818_114200.json'

In [12]:
atifacts_path = "volume/artifacts/docx"
template_path = "volume/templates/fs_template.docx"
course.to_docx(output_path=atifacts_path, template_path=template_path)

📄 Course exported to DOCX: volume/artifacts/docx/architecture_du_génome_humain.docx


'volume/artifacts/docx/architecture_du_génome_humain.docx'

## Step 1: Data Extraction - Slides

Extract slides from PDF using the exact logic from poc.ipynb


In [None]:
# Method 2: Direct method call
metadata = CourseMetadata(
    name="Architecture du génome humain",
    course_title="Architecture du génome humain",
    level="L1",
    block="SANTE",
    semester="S1",
    subject="UE-1 Constitution et transformation de la matière"
)

course = pipeline.process_course_no_plan(
    slides=slides,  # Your slides list
    metadata=metadata,
    save_json=True,
    save_docx=True,
    test_mode=True,  # Process only first 10 slides
    output_path=""
)

# Get processing statistics
stats = pipeline.get_processing_statistics(course)
print(f"Processed {stats['total_sections']} sections from {stats['total_slides']} slides")