In [1]:
import os
from conllu import parse

def load_conllu_file(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        data = f.read()
    return parse(data)

def basic_stats(conllu_data):
    if len(conllu_data) == 0:
        return {
            'Nombre de phrases': 0,
            'Taille moyenne de phrase': 0,
            'Taille médiane de phrase': 0,
            'Taille de la plus petite phrase': 0,
            'Taille de la plus grande phrase': 0
        }
    else:
        num_sentences = len(conllu_data)
        sentence_lengths = [int(sentence.metadata['len']) for sentence in conllu_data]
        avg_length = sum(sentence_lengths) / num_sentences
        sorted_lengths = sorted(sentence_lengths)
        median_length = sorted_lengths[num_sentences // 2]
        min_length = min(sentence_lengths)
        max_length = max(sentence_lengths)
        return {
            'Nombre de phrases': num_sentences,
            'Taille moyenne de phrase': avg_length,
            'Taille médiane de phrase': median_length,
            'Taille de la plus petite phrase': min_length,
            'Taille de la plus grande phrase': max_length
        }

def process_folder(folder_path):
    for root, dirs, files in os.walk(folder_path):
        for file in files:
            if file.endswith(".conllu"):
                file_path = os.path.join(root, file)
                print(f"Traitement de {file_path}")
                conllu_data = load_conllu_file(file_path)
                for sent in conllu_data:
                    len_sent = 0
                    for token in sent:
                        len_sent += 1
                    
                    sent.metadata["len"] = len_sent
                stats = basic_stats(conllu_data)

                for stat, value in stats.items():
                    print(f"{stat}: {value}")
                print("\n")

if __name__ == "__main__":
    conllu_folder_path = "/home/ziane212/Téléchargements/dump_MICLE_1563_Guernsey_30.08.24/last/expe_LLcD/train/size_split_train/ft3"  # Remplacez avec le chemin de votre dossier contenant les fichiers CoNLL-U
    process_folder(conllu_folder_path)


Traitement de /home/ziane212/Téléchargements/dump_MICLE_1563_Guernsey_30.08.24/last/expe_LLcD/train/size_split_train/ft3/1563_Guernsey_train_ft3large.conllu
Nombre de phrases: 200
Taille moyenne de phrase: 58.15
Taille médiane de phrase: 49
Taille de la plus petite phrase: 36
Taille de la plus grande phrase: 231


Traitement de /home/ziane212/Téléchargements/dump_MICLE_1563_Guernsey_30.08.24/last/expe_LLcD/train/size_split_train/ft3/1563_Guernsey_train_ft3small.conllu
Nombre de phrases: 200
Taille moyenne de phrase: 13.285
Taille médiane de phrase: 14
Taille de la plus petite phrase: 5
Taille de la plus grande phrase: 19


Traitement de /home/ziane212/Téléchargements/dump_MICLE_1563_Guernsey_30.08.24/last/expe_LLcD/train/size_split_train/ft3/1563_Guernsey_train_ft3middle.conllu
Nombre de phrases: 200
Taille moyenne de phrase: 26.325
Taille médiane de phrase: 26
Taille de la plus petite phrase: 19
Taille de la plus grande phrase: 35


Traitement de /home/ziane212/Téléchargements/dump_MI