In [5]:
from pathlib import Path
import pandas as pd
import plotly.express as px


In [10]:
def count_files_by_species(dataset_root: str):
    """
    Parcourt les sous-dossiers 'color', 'grayscale' et 'segmented' du dataset PlantVillage
    et retourne un DataFrame avec le nombre de fichiers par espèce et par modalité.
    """
    root = Path(dataset_root)
    modalities = ['color', 'grayscale', 'segmented']
    records = []

    for mod in modalities:
        mod_path = root / mod
        if not mod_path.exists():
            print(f"⚠️ Le dossier {mod_path} n'existe pas.")
            continue

        for class_dir in mod_path.iterdir():
            if class_dir.is_dir():
                species = class_dir.name.split('___')[0]
                count = sum(1 for f in class_dir.iterdir() if f.is_file())
                records.append({'species': species, 'modality': mod, 'count': count})

    df = pd.DataFrame(records)
    # Pivot si vous préférez un format espèces×modalité :
    pivot = df.pivot_table(index='species', columns='modality', values='count', fill_value=0)
    return df, pivot

In [14]:
dataset_root = '../dataset/dataset/plantvillage/plantvillage dataset'
df_records, df_pivot = count_files_by_species(dataset_root)

# Affichage rapide :
# print(df_pivot)

# df_records.head(10)

# # --- Création de l'histogramme Plotly ---
# # On veut la distribution des effectifs par modalité :
# fig = px.histogram(
#     df_records,
#     x='count',
#     color='modality',
#     barmode='overlay',
#     nbins=50,
#     title="Distribution du nombre d'images par espèce et modalité",
#     labels={'count': "Nombre d'images", 'modality': "Modalité"}
# )

# fig.update_layout(
#     xaxis_title="Nombre d'images par espèce",
#     yaxis_title="Nombre d'espèces",
#     legend_title="Modalité"
# )

# fig.show()