In [1]:
# src/ingestion.py

from typing import Dict, List
from io import BytesIO

import PyPDF2


def extract_text_from_pdf(file_bytes: BytesIO) -> str:
    """
    Extrait le texte d'un fichier PDF (bytes) page par page.
    """
    reader = PyPDF2.PdfReader(file_bytes)
    texts = []
    for page in reader.pages:
        txt = page.extract_text() or ""
        texts.append(txt)
    return "\n".join(texts)


def extract_text_from_txt(file_bytes: BytesIO, encoding: str = "utf-8") -> str:
    """
    Extrait le texte d'un fichier texte brut.
    """
    content = file_bytes.read().decode(encoding, errors="ignore")
    return content


def extract_texts_from_files(files) -> Dict[str, str]:
    """
    files : liste d'objets UploadedFile (Streamlit)
    Retourne un dictionnaire {nom_fichier: texte_extrait}
    """
    results: Dict[str, str] = {}

    for f in files:
        filename = f.name
        suffix = filename.lower().split(".")[-1]

        if suffix == "pdf":
            text = extract_text_from_pdf(f)
        elif suffix == "txt":
            text = extract_text_from_txt(f)
        else:
            # Pour l'instant, on ignore les autres formats
            text = ""

        results[filename] = text

    return results