In [None]:
# V4
# Refactorisation claude
# Plus d'informations (contexte des points)
# Tra√ßabilit√© (source d'extraction)

# Essai refactorisation claude
import pandas as pd
import xml.etree.ElementTree as ET
import os
import glob


def extraire_donnees_assemblee(fichier_xml: str) -> pd.DataFrame:
    """
    Extrait les donn√©es d'un fichier XML de compte rendu de l'Assembl√©e nationale
    Version hybride : combine contexte global ET informations des points ODJ.
    """

    # Charger le XML
    tree = ET.parse(fichier_xml)
    root = tree.getroot()
    ns = {"ns": "http://schemas.assemblee-nationale.fr/referentiel"}

    def get_text(path):
        """Fonction helper pour extraire le texte de mani√®re s√ªre"""
        elem = root.find(path, ns)
        return elem.text.strip() if elem is not None and elem.text else ""

    # M√©tadonn√©es g√©n√©rales
    metadata = {
        "UID": get_text(".//ns:uid"),
        "SeanceRef": get_text(".//ns:seanceRef"),
        "SessionRef": get_text(".//ns:sessionRef"),
        "DateSeance": get_text(".//ns:dateSeance"),
        "DateSeanceJour": get_text(".//ns:dateSeanceJour"),
        "NumSeanceJour": get_text(".//ns:numSeanceJour"),
        "NumSeance": get_text(".//ns:numSeance"),
        "TypeAssemblee": get_text(".//ns:typeAssemblee"),
        "Legislature": get_text(".//ns:legislature"),
        "Session": get_text(".//ns:session"),
        "NomFichierJO": get_text(".//ns:nomFichierJo"),
        "President": get_text(".//ns:presidentSeance"),
    }

    # √âTAPE 1 : Cr√©er le mapping paragraphe -> point (contexte local)
    paragraphe_to_point = _creer_mapping_points(root, ns)

    # √âTAPE 2 : Parcourir le contenu et extraire tous les paragraphes
    contenu = root.find("ns:contenu", ns)
    if contenu is None:
        print(f"‚ö†Ô∏è Pas de contenu trouv√© dans {fichier_xml}")
        return pd.DataFrame()

    rows = []
    contexte_global = _initialiser_contexte()

    for elem in contenu.iter():
        tag = elem.tag.split("}")[-1]
        code_grammaire = elem.attrib.get("code_grammaire", "")
        code_style = elem.attrib.get("code_style", "")

        # Mettre √† jour le contexte global
        _mettre_a_jour_contexte(elem, contexte_global, ns)

        # Traiter les paragraphes
        if tag == "paragraphe":
            row = _extraire_paragraphe(
                elem, metadata, contexte_global, paragraphe_to_point, ns
            )
            if row:
                rows.append(row)

    return pd.DataFrame(rows)


def _creer_mapping_points(root, ns):
    """
    Cr√©e un mapping entre les paragraphes et leurs points parents
    pour r√©cup√©rer le contexte local (sujet du point, valeur ODJ).
    """
    paragraphe_to_point = {}

    for point in root.findall(".//ns:point", ns):
        # Informations du point
        sujet_elem = point.find("ns:texte", ns)
        sujet_texte = (
            sujet_elem.text.strip()
            if sujet_elem is not None and sujet_elem.text
            else ""
        )
        valeur_ptsodj = point.attrib.get("valeur_ptsodj", "")

        # R√©cup√©rer d'autres m√©tadonn√©es du point si disponibles
        point_id = point.attrib.get("id", "")
        point_type = point.attrib.get("type", "")

        point_info = {
            "sujet": sujet_texte,
            "valeur_odj": valeur_ptsodj,
            "point_id": point_id,
            "point_type": point_type,
        }

        # Associer tous les paragraphes de ce point (recherche r√©cursive)
        for para in point.findall(".//ns:paragraphe", ns):
            para_id = para.attrib.get("id_syceron", "")
            if para_id:  # Seulement si on a un ID valide
                paragraphe_to_point[para_id] = point_info
            else:
                # Fallback : utiliser l'objet Python comme cl√©
                paragraphe_to_point[id(para)] = point_info

    return paragraphe_to_point


def _initialiser_contexte():
    """Initialise la structure de contexte global"""
    return {
        "titre_general": "",
        "sous_titre": "",
        "contexte_stack": [],
        "section_courante": "",
    }


def _mettre_a_jour_contexte(elem, contexte, ns):
    """
    Met √† jour le contexte global bas√© sur l'√©l√©ment courant.
    G√®re diff√©rents niveaux hi√©rarchiques de titres.
    """
    code_grammaire = elem.attrib.get("code_grammaire", "")
    code_style = elem.attrib.get("code_style", "")

    texte_elem = elem.find("ns:texte", ns)
    texte = (
        texte_elem.text.strip() if texte_elem is not None and texte_elem.text else ""
    )

    if not texte:
        return

    # Titre principal
    if code_grammaire == "TITRE_TEXTE_DISCUSSION" and code_style == "Titre":
        contexte["titre_general"] = texte
        contexte["contexte_stack"] = [texte]

    # Sous-titre
    elif (
        code_grammaire == "SOUS_TITRE_TEXTE_DISCUSSION"
        and code_style == "Sous-tit_info"
    ):
        contexte["sous_titre"] = texte
        if len(contexte["contexte_stack"]) == 1:
            contexte["contexte_stack"].append(texte)
        else:
            contexte["contexte_stack"] = [contexte["titre_general"], texte]

    # Autres types de sections
    elif code_grammaire in ["TITRE_RUBRIQUE", "SOUS_TITRE_RUBRIQUE"]:
        if "SOUS" in code_grammaire:
            if len(contexte["contexte_stack"]) >= 2:
                contexte["contexte_stack"][1] = texte
            else:
                contexte["contexte_stack"].append(texte)
        else:
            contexte["contexte_stack"] = [texte]

    # Section courante pour d'autres cas
    elif code_style in ["Titre", "Sous-tit", "Sous-tit_info"]:
        contexte["section_courante"] = texte


def _extraire_paragraphe(elem, metadata, contexte_global, paragraphe_to_point, ns):
    """
    Extrait toutes les informations d'un paragraphe.
    Combine contexte global et contexte local (point).
    """
    texte_elem = elem.find("ns:texte", ns)
    if texte_elem is None:
        return None

    # Extraction du texte avec gestion des balises internes
    texte = "".join(texte_elem.itertext()).strip()
    if not texte:  # Skip les paragraphes vides
        return None

    stime = texte_elem.attrib.get("stime", "")

    # Informations orateur
    nom, qualite, id_orateur = _extraire_orateur(elem, ns)

    # R√©cup√©rer le contexte du point parent (si disponible)
    para_id = elem.attrib.get("id_syceron", "")
    point_info = paragraphe_to_point.get(para_id) or paragraphe_to_point.get(
        id(elem), {}
    )

    # D√©terminer la source d'extraction
    source_extraction = "point" if point_info else "global"

    # Construire le contexte hi√©rarchique complet
    contexte_hierarchique = " > ".join(filter(None, contexte_global["contexte_stack"]))

    return {
        **metadata,
        # Contexte global
        "Titre_general": contexte_global["titre_general"],
        "Sous_titre": contexte_global["sous_titre"],
        "Contexte_hierarchique": contexte_hierarchique,
        "Section_courante": contexte_global["section_courante"],
        # Contexte local du point
        "Sujet_point": point_info.get("sujet", ""),
        "Valeur_ODJ": point_info.get("valeur_odj", ""),
        "Point_ID": point_info.get("point_id", ""),
        "Point_type": point_info.get("point_type", ""),
        # Informations du paragraphe
        "ID_paragraphe": para_id,
        "Ordre_seance": elem.attrib.get("ordre_absolu_seance", ""),
        "Code_grammaire": elem.attrib.get("code_grammaire", ""),
        "Code_style": elem.attrib.get("code_style", ""),
        "Code_parole": elem.attrib.get("code_parole", ""),
        "Role_debat": elem.attrib.get("roledebat", ""),
        # Informations de l'orateur
        "Nom_orateur": nom,
        "Qualite_orateur": qualite,
        "ID_orateur": id_orateur,
        # Contenu
        "stime": stime,
        "Texte": texte,
        # M√©tadonn√©es d'extraction
        "Source_extraction": source_extraction,
        # nope "Fichier_source": os.path.basename(elem.getroottree().getroot().attrib.get("fichier", ""))
    }


def _extraire_orateur(elem, ns):
    """Extrait les informations de l'orateur de mani√®re robuste"""
    orateur_elem = elem.find(".//ns:orateur", ns)
    nom, qualite, id_orateur = "", "", ""

    if orateur_elem is not None:
        nom_elem = orateur_elem.find("ns:nom", ns)
        nom = nom_elem.text.strip() if nom_elem is not None and nom_elem.text else ""

        qualite_elem = orateur_elem.find("ns:qualite", ns)
        qualite = (
            qualite_elem.text.strip()
            if qualite_elem is not None and qualite_elem.text
            else ""
        )

        id_elem = orateur_elem.find("ns:id", ns)
        id_orateur = (
            id_elem.text.strip() if id_elem is not None and id_elem.text else ""
        )

    return nom, qualite, id_orateur


def traiter_dossier_xml(dossier_path: str, pattern: str = "*.xml") -> pd.DataFrame:
    """
    Traite tous les fichiers XML d'un dossier et retourne un DataFrame consolid√©.
    """
    fichiers_xml = glob.glob(os.path.join(dossier_path, pattern))

    if not fichiers_xml:
        print(f"‚ùå Aucun fichier XML trouv√© dans {dossier_path}")
        return pd.DataFrame()

    tous_dataframes = []
    stats = {"success": 0, "errors": 0, "total_rows": 0}

    print(f"üîÑ Traitement de {len(fichiers_xml)} fichiers XML...")

    for fichier in fichiers_xml:
        nom_fichier = os.path.basename(fichier)
        print(f"   üìÑ {nom_fichier}...", end=" ")

        try:
            df = extraire_donnees_assemblee(fichier)
            if not df.empty:
                tous_dataframes.append(df)
                stats["success"] += 1
                stats["total_rows"] += len(df)
                print(f"‚úÖ {len(df)} lignes")
            else:
                print("‚ö†Ô∏è Vide")

        except Exception as e:
            stats["errors"] += 1
            print(f"‚ùå Erreur: {str(e)}")

    print(f"\nüìä Statistiques:")
    print(f"   ‚úÖ Fichiers trait√©s avec succ√®s: {stats['success']}")
    print(f"   ‚ùå Erreurs: {stats['errors']}")
    print(f"   üìù Total de lignes extraites: {stats['total_rows']}")

    if tous_dataframes:
        df_final = pd.concat(tous_dataframes, ignore_index=True)

        # Statistiques sur la r√©partition des sources
        if "Source_extraction" in df_final.columns:
            source_stats = df_final["Source_extraction"].value_counts()
            print(f"\nüéØ R√©partition des sources:")
            for source, count in source_stats.items():
                print(
                    f"   {source}: {count} paragraphes ({count / len(df_final) * 100:.1f}%)"
                )

        return df_final
    else:
        return pd.DataFrame()


def analyser_extraction(df: pd.DataFrame):
    """
    Analyse les r√©sultats de l'extraction pour identifier les diff√©rences.
    """
    if df.empty:
        print("‚ùå DataFrame vide")
        return

    print(f"\nüìä ANALYSE DE L'EXTRACTION")
    print(f"Total de paragraphes: {len(df)}")

    # R√©partition par source
    if "Source_extraction" in df.columns:
        print(f"\nüîç R√©partition par source:")
        source_counts = df["Source_extraction"].value_counts()
        for source, count in source_counts.items():
            print(f"   {source}: {count} ({count / len(df) * 100:.1f}%)")

    # Paragraphes avec vs sans contexte de point
    if "Sujet_point" in df.columns:
        avec_point = df[df["Sujet_point"] != ""]
        sans_point = df[df["Sujet_point"] == ""]
        print(f"\nüìù Contexte des points:")
        print(f"   Avec sujet de point: {len(avec_point)}")
        print(f"   Sans sujet de point: {len(sans_point)}")

    # Types de codes grammaire les plus fr√©quents
    if "Code_grammaire" in df.columns:
        print(f"\nüè∑Ô∏è Top 5 des codes grammaire:")
        top_codes = df["Code_grammaire"].value_counts().head()
        for code, count in top_codes.items():
            print(f"   {code or '(vide)'}: {count}")


# Exemple d'utilisation
if __name__ == "__main__":
    # # Pour un seul fichier
    # print("üöÄ Test sur un fichier unique...")
    # df = extraire_donnees_assemblee("CRSANR5L16S2024O1N220.xml")

    # # Analyse des r√©sultats
    # analyser_extraction(df)

    # # Sauvegarde
    # if not df.empty:
    #     df.to_csv("assemblee_debat_hybride_ameliore.csv",
    #               index=False,
    #               quoting=csv.QUOTE_ALL,
    #               encoding='utf-8')
    #     print(f"\n‚úÖ Fichier CSV g√©n√©r√© : assemblee_debat_hybride_ameliore.csv")

    # Pour un dossier entier (d√©commenter si besoin)
    df_complet = traiter_dossier_xml("../data/16-xml/compteRendu/")
    analyser_extraction(df_complet)
    df_complet.to_csv("df_complet.csv")
    # print(f"\n‚úÖ Export CSV : ({df_complet.shape[0]} lignes)")

üîÑ Traitement de 605 fichiers XML...
   üìÑ CRSANR5L16S2023O1N173.xml... ‚úÖ 633 lignes
   üìÑ CRSANR5L16S2023O1N167.xml... ‚úÖ 467 lignes
   üìÑ CRSANR5L16S2023O1N198.xml... ‚úÖ 402 lignes
   üìÑ CRSANR5L16S2023E1N010.xml... ‚úÖ 818 lignes
   üìÑ CRSANR5L16S2024O1N117.xml... ‚úÖ 678 lignes
   üìÑ CRSANR5L16S2024O1N103.xml... ‚úÖ 857 lignes
   üìÑ CRSANR5L16S2023E1N004.xml... ‚úÖ 646 lignes
   üìÑ CRSANR5L16S2023O1N239.xml... ‚úÖ 452 lignes
   üìÑ CRSANR5L16S2023O1N205.xml... ‚úÖ 118 lignes
   üìÑ CRSANR5L16S2023O1N211.xml... ‚úÖ 296 lignes
   üìÑ CRSANR5L16S2024O1N088.xml... ‚úÖ 403 lignes
   üìÑ CRSANR5L16S2023O1N007.xml... ‚úÖ 535 lignes
   üìÑ CRSANR5L16S2023O1N013.xml... ‚úÖ 808 lignes
   üìÑ CRSANR5L16S2024O1N063.xml... ‚úÖ 106 lignes
   üìÑ CRSANR5L16S2024O1N077.xml... ‚úÖ 760 lignes
   üìÑ CRSANR5L16S2024O1N076.xml... ‚úÖ 834 lignes
   üìÑ CRSANR5L16S2024O1N062.xml... ‚úÖ 322 lignes
   üìÑ CRSANR5L16S2023O1N012.xml... ‚úÖ 688 lignes
   üìÑ CRSANR5L16S2023O1

In [None]:
# Pour aller v√©rifier √† la mano dans des petits :
#    üìÑ CRSANR5L16S2022O1N169.xml... ‚úÖ 31 lignes
#    üìÑ CRSANR5L16S2024O1N001.xml... ‚úÖ 7 lignes
