In [2]:
import os
import json

In [3]:
def load_json_files(base_directory):
    json_files = []
    for root, dirs, files in os.walk(base_directory):
        for file in files:
            if file.endswith(".json"):
                file_path = os.path.join(root, file)
                with open(file_path, 'r', encoding='utf-8') as f:
                    json_data = json.load(f)
                    json_files.append({
                        'file_path': file_path,
                        'data': json_data
                    })
    return json_files

base_directory = 'export_v4/fiches/solution'
json_files = load_json_files(base_directory)    

In [4]:
def extract_french_titles(json_files):
    french_titles = {}
    for json_file in json_files:
        identifier = json_file['data']['identifier']
        french_title = json_file['data']['languages']['fr']['title']
        french_titles[identifier] = french_title
    return french_titles

titles = extract_french_titles(json_files)
print(titles)

{'328': 'Fonctionnement du moteur à pleine charge', '145': "Production d'air décentralisée", '1117': 'Moteur à haut rendement IE4 (super premium)', '1585': 'Evaluer la durée de ventilation d’un palier', '297': "Programmateur d'intermittence sur une chaudière existante pour un chauffage central à combustible", '373': "Gestion technique d'un bâtiment (GTB)", '572': 'Caisson de ventilation mécanique contrôlée (VMC) à consommation réduite', '295': "Chauffage et la climatisation adaptés à l'occupation des locaux", '1091': "Passer à une coulée continue pour la production d'acier.", '231': 'Système de télésurveillance et de télégestion', '72': "Vérification de l'usure des pompes, et identification des pompes en cavitation.", '262': "Vérification de la présence de traces d'humidité", '129': 'Nouveaux onduleur en remplacement des anciens onduleurs', '181': 'Utilisation de turbines à contre pression à la place des soupapes de réduction de pression', '1039': 'Optimisation de la pression de foncti

In [5]:
def link_titles_to_md_files(base_directory, titles):
    linked_files = []
    for root, dirs, files in os.walk(base_directory):
        if os.path.basename(root) == 'FRENCH':
            for file in files:
                if file.endswith(".md"):
                    file_path = os.path.join(root, file)
                    # Extraire l'identifiant du dossier parent
                    identifier = os.path.basename(os.path.dirname(root))
                    if identifier in titles:
                        # Lire le contenu du fichier .md
                        with open(file_path, 'r', encoding='utf-8') as f:
                            content = f.read()

                        linked_files.append({  # Ajouter un objet complet avec l'identifiant
                            "identifier": identifier,
                            'content': content,
                            "title": titles[identifier]
                        })
    return linked_files

linked_files = link_titles_to_md_files(base_directory, titles)


# Sauvegarder les données dans un fichier JSON
output_file = 'linked_files.json'
with open(output_file, 'w', encoding='utf-8') as f:
    json.dump(linked_files, f, ensure_ascii=False, indent=4)

print(f"Les données ont été sauvegardées dans {output_file}")

Les données ont été sauvegardées dans linked_files.json
