In [None]:
import os
import json

from pathlib import Path

# Chemin vers le dossier principal
PROJECT_ROOT = os.path.abspath(os.path.join(os.path.dirname("check_article.ipynb"), os.pardir))

# 📂 Chemins relatifs à la racine du projet
DATA_PATH = os.path.join(PROJECT_ROOT, "data", "cleaned")



# Dictionnaire pour stocker le nombre d'articles par fichier
article_counts = {}

# Parcourir tous les sous-dossiers
for subdir in Path(DATA_PATH).iterdir():
    if subdir.is_dir():
        # Chercher les fichiers JSON dans chaque sous-dossier
        for json_file in subdir.glob('*.json'):
            try:
                # Charger le fichier JSON
                with open(json_file, 'r', encoding='utf-8') as f:
                    data = json.load(f)
                
                # Compter le nombre d'articles (supposant que chaque élément de la liste est un article)
                if isinstance(data, list):
                    article_counts[str(json_file)] = len(data)
                else:
                    # Si ce n'est pas une liste, essayer de trouver une clé qui contient les articles
                    for key, value in data.items():
                        if isinstance(value, list):
                            article_counts[str(json_file)] = len(value)
                            break
                    else:
                        article_counts[str(json_file)] = "Structure non reconnue"
            except Exception as e:
                article_counts[str(json_file)] = f"Erreur: {str(e)}"
            # Calculer le nombre total d'articles
            total_articles = sum(count for count in article_counts.values() if isinstance(count, int))

                # Obtenir les statistiques de base
            num_files = len(article_counts)
            max_articles = max(count for count in article_counts.values() if isinstance(count, int))
            min_articles = min(count for count in article_counts.values() if isinstance(count, int))                
            avg_articles = total_articles / num_files if num_files > 0 else 0

            # Regrouper par dossier
            folder_counts = {}
            for file_path, count in article_counts.items():
                if isinstance(count, int):                        
                    folder = str(Path(file_path).parent.name)
                    if folder not in folder_counts:
                        folder_counts[folder] = {'count': 0, 'files': 0}
                    folder_counts[folder]['count'] += count
                    folder_counts[folder]['files'] += 1

                # Trier une fois avant la boucle d'affichage
            sorted_by_count = sorted(article_counts.items(), key=lambda x: x[1] if isinstance(x[1], int) else 0, reverse=True)
# Afficher les résultats
print(f"Nombre total d'articles: {total_articles}")
print(f"Nombre total de fichiers: {num_files}")
print(f"Nombre maximum d'articles dans un fichier: {max_articles}")
print(f"Nombre minimum d'articles dans un fichier: {min_articles}")
print(f"Nombre moyen d'articles par fichier: {avg_articles:.2f}")

print("\nNombre d'articles par fichier:")
for file_path, count in sorted_by_count:
    print(f"{count}: {file_path}")