In [2]:
import re
from pathlib import Path
from typing import List, Dict, Tuple

def load_srt(file_path: str) -> List[Dict[str, str]]:
    """Charge un fichier SRT et retourne une liste de segments."""
    segments = []
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
        blocks = content.strip().split('\n\n')
        for block in blocks:
            lines = block.split('\n')
            if len(lines) >= 3:
                time_range = lines[1]
                text = " ".join(lines[2:])
                segments.append({"time": time_range, "text": text})
    return segments

def annotate_speaker(segments: List[Dict[str, str]]) -> List[Dict[str, str]]:
    """Annoter chaque segment avec un locuteur basé sur des mots-clés."""
    speaker_keywords = {
        "MEDECIN": ["docteur", "examen", "prescrire", "traitement"],
        "PATIENT": ["je", "mon", "ma", "moi", "nous", "papa", "maman"],
        "PROCHE": ["mon père", "ma mère", "ma femme", "mon mari", "mon enfant"]
    }
    annotated_segments = []
    for segment in segments:
        text = segment["text"].lower()
        speaker = "INCONNU"  # Default speaker if no match is found
        for role, keywords in speaker_keywords.items():
            if any(keyword in text for keyword in keywords):
                speaker = role
                break
        annotated_segments.append({"time": segment["time"], "text": segment["text"], "speaker": speaker})
    return annotated_segments

def save_annotated_segments(annotated_segments: List[Dict[str, str]], output_path: str):
    """Sauvegarde les segments annotés dans un fichier au format texte."""
    with open(output_path, 'w', encoding='utf-8') as f:
        for segment in annotated_segments:
            f.write(f"[{segment['time']}] {segment['speaker']}: {segment['text']}\n\n")

# Exemple d'utilisation
srt_file = "dj_2022_3_mois_paracetamol_dj_2022_3_mois_paracetamol.srt"  # Remplacez par le chemin de votre fichier SRT
output_file = "annotations_avec_locuteurs2.txt"

# Charger les segments depuis le fichier SRT
segments = load_srt(srt_file)

# Annoter les segments avec les locuteurs
annotated_segments = annotate_speaker(segments)

# Sauvegarder les segments annotés
save_annotated_segments(annotated_segments, output_file)

print(f"Annotations terminées ! Résultat sauvegardé dans {output_file}")


Annotations terminées ! Résultat sauvegardé dans annotations_avec_locuteurs2.txt
