In [1]:
from bs4 import BeautifulSoup
import os
import csv

In [2]:
# Chemin du dossier contenant les fichiers XML
chemin_dossier = "export_inception_place_pers_XML"

# Liste pour stocker les valeurs
valeurs = []

In [3]:
# Parcourir tous les fichiers du dossier
for nom_fichier in os.listdir(chemin_dossier):
    if nom_fichier.endswith(".xml"):
        chemin_fichier = os.path.join(chemin_dossier, nom_fichier)
        
        # Lire le contenu du fichier XML
        with open(chemin_fichier, 'r') as fichier:
            contenu = fichier.read()
        
        # Utilisation de BeautifulSoup pour extraire les balises NamedEntity
        soup = BeautifulSoup(contenu, 'xml')
        named_entities = soup.find_all('de.tudarmstadt.ukp.dkpro.core.api.ner.type.NamedEntity')
        
        # Parcourir les balises NamedEntity et ajouter les valeurs à la liste
        for named_entity in named_entities:
            identifier = named_entity['identifier']
            value = named_entity['value']
            content = named_entity.text.strip()
            if identifier != 'null':
                valeurs.append({
                    'fichier': nom_fichier,
                    'identifier': identifier,
                    'value': value,
                    'content': content
                })

In [4]:
type(valeurs)

list

In [5]:
len(valeurs)

1671

In [6]:
# Trier les valeurs par ordre alphabétique des fichiers
valeurs = sorted(valeurs, key=lambda x: x['fichier'])

In [7]:
valeurs[0:5]

[{'fichier': 'coNLL2002_Paris, Archives Nationales, JJ037, Acte 1 on folio 001r_clean.xml',
  'identifier': 'https://heurist.huma-num.fr/heurist/?db=stutzmann_himanis/#95636',
  'value': 'LOC',
  'content': 'Casulis'},
 {'fichier': 'coNLL2002_Paris, Archives Nationales, JJ037, Acte 1 on folio 001r_clean.xml',
  'identifier': 'https://heurist.huma-num.fr/heurist/?db=stutzmann_himanis/#10167...',
  'value': 'LOC',
  'content': 'Uscrayo,'},
 {'fichier': 'coNLL2002_Paris, Archives Nationales, JJ037, Acte 1 on folio 001r_clean.xml',
  'identifier': 'https://heurist.huma-num.fr/heurist/?db=stutzmann_himanis/#85429',
  'value': 'PERS',
  'content': 'Philippus,'},
 {'fichier': 'coNLL2002_Paris, Archives Nationales, JJ037, Acte 1 on folio 001r_clean.xml',
  'identifier': 'https://heurist.huma-num.fr/heurist/?db=stutzmann_himanis/#96970',
  'value': 'LOC',
  'content': 'Francorum'},
 {'fichier': 'coNLL2002_Paris, Archives Nationales, JJ037, Acte 1 on folio 001r_clean.xml',
  'identifier': 'https

In [8]:
len(valeurs)

1671

In [9]:
# on fait la même chose mais on separe les per du loc

In [10]:
# Listes pour stocker les valeurs 'per' et 'loc'
valeurs_per = []
valeurs_loc = []

# Parcourir tous les fichiers du dossier
for nom_fichier in os.listdir(chemin_dossier):
    if nom_fichier.endswith(".xml"):
        chemin_fichier = os.path.join(chemin_dossier, nom_fichier)
        
        # Lire le contenu du fichier XML
        with open(chemin_fichier, 'r') as fichier:
            contenu = fichier.read()
        
        # Utilisation de BeautifulSoup pour extraire les balises NamedEntity
        soup = BeautifulSoup(contenu, 'xml')
        named_entities = soup.find_all('de.tudarmstadt.ukp.dkpro.core.api.ner.type.NamedEntity')
        
        # Parcourir les balises NamedEntity et ajouter les valeurs à la liste correspondante
        for named_entity in named_entities:
            identifier = named_entity['identifier']
            value = named_entity['value']
            content = named_entity.text.strip()
            
            if value == 'PERS' and identifier != 'null' or value == 'PER' and identifier != 'null':
                valeurs_per.append({
                    'fichier': nom_fichier,
                    'identifier': identifier,
                    'value': value,
                    'content': content
                })
            elif value == 'LOC' and identifier != 'null':
                valeurs_loc.append({
                    'fichier': nom_fichier,
                    'identifier': identifier,
                    'value': value,
                    'content': content
                })

In [11]:
len(valeurs_per)

619

In [12]:
len(valeurs_loc)

1052

In [13]:
valeurs_per = sorted(valeurs_per, key=lambda x: x['fichier'])
valeurs_loc = sorted(valeurs_loc, key=lambda x: x['fichier'])

In [14]:
len(valeurs_per)

619

In [15]:
len(valeurs_loc)

1052

In [16]:
# Écrire les valeurs 'per' dans un fichier CSV
with open('per.csv', 'w', newline='') as fichier_per:
    writer_per = csv.DictWriter(fichier_per, fieldnames=['fichier', 'identifier', 'value', 'content'])
    writer_per.writeheader()
    writer_per.writerows(valeurs_per)

# Écrire les valeurs 'loc' dans un fichier CSV
with open('loc.csv', 'w', newline='') as fichier_loc:
    writer_loc = csv.DictWriter(fichier_loc, fieldnames=['fichier', 'identifier', 'value', 'content'])
    writer_loc.writeheader()
    writer_loc.writerows(valeurs_loc)

In [17]:
# Écrire les valeurs dans un fichier CSV
with open('valeurs.csv', 'w', newline='') as fichier:
    writer = csv.DictWriter(fichier, fieldnames=['fichier', 'identifier', 'value', 'content'])
    writer.writeheader()
    writer.writerows(valeurs)