In [1]:
import xml.etree.ElementTree as ET
import csv

def extraire_lieux_vers_csv(fichier_xml, fichier_csv):
    """
    Extrait les xml:id et liens Wikidata d'un fichier TEI XML
    et les sauvegarde dans un fichier CSV.
    """
    # Définir le namespace TEI
    namespaces = {'tei': 'http://www.tei-c.org/ns/1.0'}
    
    # Parser le fichier XML
    tree = ET.parse(fichier_xml)
    root = tree.getroot()
    
    # Trouver tous les éléments <place>
    places = root.findall('.//tei:place', namespaces)
    
    # Ouvrir le fichier CSV en écriture
    with open(fichier_csv, 'w', newline='', encoding='utf-8') as csvfile:
        writer = csv.writer(csvfile)
        
        # Écrire l'en-tête
        writer.writerow(['xml_id', 'wikidata_url'])
        
        # Extraire et écrire les données
        for place in places:
            xml_id = place.get('{http://www.w3.org/XML/1998/namespace}id')
            source = place.get('source')
            
            if xml_id and source:
                writer.writerow([xml_id, source])
    
    print(f"Conversion terminée ! {len(places)} lieux extraits vers {fichier_csv}")

# Utilisation
if __name__ == "__main__":
    # Remplacez par vos noms de fichiers
    fichier_xml = "IndexLieux.xml"
    fichier_csv = "lieux.csv"
    
    try:
        extraire_lieux_vers_csv(fichier_xml, fichier_csv)
    except FileNotFoundError:
        print(f"Erreur : Le fichier {fichier_xml} n'a pas été trouvé.")
    except Exception as e:
        print(f"Erreur lors de la conversion : {e}")

Conversion terminée ! 431 lieux extraits vers lieux.csv


In [2]:
import xml.etree.ElementTree as ET
import csv

def extraire_personnes_vers_csv(fichier_xml, fichier_csv):
    """
    Extrait les xml:id et liens Wikidata d'un fichier TEI XML
    et les sauvegarde dans un fichier CSV.
    """
    # Définir le namespace TEI
    namespaces = {'tei': 'http://www.tei-c.org/ns/1.0'}
    
    # Parser le fichier XML
    tree = ET.parse(fichier_xml)
    root = tree.getroot()
    
    # Trouver tous les éléments <place>
    places = root.findall('.//tei:person', namespaces)
    
    # Ouvrir le fichier CSV en écriture
    with open(fichier_csv, 'w', newline='', encoding='utf-8') as csvfile:
        writer = csv.writer(csvfile)
        
        # Écrire l'en-tête
        writer.writerow(['xml_id', 'wikidata_url'])
        
        # Extraire et écrire les données
        for place in places:
            xml_id = place.get('{http://www.w3.org/XML/1998/namespace}id')
            source = place.get('source')
            
            if xml_id and source:
                writer.writerow([xml_id, source])
    
    print(f"Conversion terminée ! {len(places)} lieux extraits vers {fichier_csv}")

# Utilisation
if __name__ == "__main__":
    # Remplacez par vos noms de fichiers
    fichier_xml = "IndexPersonnes.xml"
    fichier_csv = "personnes.csv"
    
    try:
        extraire_personnes_vers_csv(fichier_xml, fichier_csv)
    except FileNotFoundError:
        print(f"Erreur : Le fichier {fichier_xml} n'a pas été trouvé.")
    except Exception as e:
        print(f"Erreur lors de la conversion : {e}")

Conversion terminée ! 2100 lieux extraits vers personnes.csv
