In [8]:
import os
import pandas as pd
import math

# Chemin du dossier contenant les fichiers CSV
dossier = r'D:\Axel\PYTHON\FragHub\TOOLS\check_ontologies_completion\data_solweig'

# Lire tous les fichiers CSV dans le dossier, en excluant 'unique_inchikeys_merged.csv'
csv_files = [f for f in os.listdir(dossier) if f.endswith('.csv') and "unique_inchikeys_merged.csv" not in f]
print(csv_files)  # Vérifiez les fichiers trouvés

# Liste pour stocker les DataFrames
dfs = []

# Lire chaque fichier CSV et l'ajouter à la liste
for csv_file in csv_files:
    path = os.path.join(dossier, csv_file)
    try:
        df = pd.read_csv(path, sep=';')
        dfs.append(df)
    except Exception as e:
        print(f"Erreur lors de la lecture du fichier {csv_file}: {e}")

# Fusionner les DataFrames sur la colonne 'INCHIKEY'
if dfs:  # Vérifier qu'il y ait au moins un dataframe
    merged_df = dfs[0]
    for df in dfs[1:]:
        merged_df = pd.merge(merged_df, df, on='INCHIKEY', how='outer')

    # Remplir les valeurs manquantes
    merged_df.fillna('UNKNOWN', inplace=True)

    # Supprimer les duplicata
    merged_df.drop_duplicates(subset=['INCHIKEY'], inplace=True)

    # Diviser le DataFrame en 5 parties
    lignes_total = len(merged_df)
    lignes_par_morceau = math.ceil(lignes_total / 5)

    for partie in range(1, 6):
        debut = (partie - 1) * lignes_par_morceau
        fin = min(partie * lignes_par_morceau, lignes_total)

        sortie_partie = f"ontologies_dict_part_{partie}.csv"
        merged_df.iloc[debut:fin].to_csv(os.path.join(dossier, sortie_partie), sep=';', index=False)

        print(f'{sortie_partie} sauvegardé avec {fin - debut} lignes.')

    print(f"La fusion des fichiers est terminée en 5 parties dans le dossier {dossier}.")
else:
    print("Aucun fichier CSV trouvé ou lu correctement.")


['CLassyFireOutput.csv', 'NPClass070723.csv']
ontologies_dict_part_1.csv sauvegardé avec 200351 lignes.
ontologies_dict_part_2.csv sauvegardé avec 200351 lignes.
ontologies_dict_part_3.csv sauvegardé avec 200351 lignes.
ontologies_dict_part_4.csv sauvegardé avec 200351 lignes.
ontologies_dict_part_5.csv sauvegardé avec 200347 lignes.
La fusion des fichiers est terminée en 5 parties dans le dossier D:\Axel\PYTHON\FragHub\TOOLS\check_ontologies_completion\data_solweig.
