In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import os

In [2]:
def load_data(dataset_path, dataset_name):
    """
    Carica i dati dal percorso specificato per il dataset (paragrafi e annotazioni).
    """
    paragraphs_train = pd.read_csv(os.path.join(dataset_path, dataset_name, 'paragraphs_train.csv'))
    paragraphs_test = pd.read_csv(os.path.join(dataset_path, dataset_name, 'paragraphs_test.csv'))
    annotations_train = pd.read_csv(os.path.join(dataset_path, dataset_name, 'annotations_train.csv'))
    annotations_test = pd.read_csv(os.path.join(dataset_path, dataset_name, 'annotations_test.csv'))
    
    return paragraphs_train, paragraphs_test, annotations_train, annotations_test

In [3]:
def compute_annotation_stats(annotations):
    
    total_annotations = len(annotations)
    
    unique_entities = annotations['identifier'].unique()
    num_unique_entities = len(unique_entities)
    
    entity_counts = annotations['identifier'].value_counts()

    return total_annotations, num_unique_entities, entity_counts

In [4]:
def get_top_15_entities(entity_counts):
    top_15_entities = entity_counts.head(15)
    return top_15_entities

In [5]:
def compute_unseen_entities(annotations_train, annotations_test):

    train_entities = set(annotations_train['identifier'].unique())
    
    unseen_annotations = annotations_test[~annotations_test['identifier'].isin(train_entities)]
    
    unseen_count = len(unseen_annotations)
    
    unseen_entities = unseen_annotations['identifier'].unique()

    seen_annotations = annotations_test[annotations_test['identifier'].isin(train_entities)]

    seen_count = len(seen_annotations)

    seen_entities = seen_annotations['identifier'].unique()
    
    return unseen_count, unseen_entities, seen_count, seen_entities

In [6]:
def print_stats(dataset_name, annotations_train, annotations_test):

    annotations = pd.concat([annotations_train, annotations_test], axis=0, ignore_index=True)
    total_annotations, num_unique_entities, entity_counts = compute_annotation_stats(annotations)
    
    print(f"--- Statistiche del Dataset {dataset_name} ---")
    print(f"Numero totale di annotazioni: {total_annotations}")
    print(f"Numero di entità uniche: {num_unique_entities}")
    
    top_15_entities = get_top_15_entities(entity_counts)
    print("\nTop 15 entità più frequenti e la loro frequenza:")
    print(top_15_entities)
    
    unseen_count, unseen_entities, seen_count, seen_entities = compute_unseen_entities(annotations_train, annotations_test)
    print(f"\nNumero di annotazioni contenenti entità non viste nel test set: {unseen_count}")
    if unseen_entities.any():
        print(f"Numero di entità non viste nel test set: {len(unseen_entities)}")
    print(f"\nNumero di annotazioni contenenti entità viste nel test set: {seen_count}")
    if seen_entities.any():
        print(f"Numero di entità viste nel test set: {len(seen_entities)}")
    
    print("\n--- Fine delle Statistiche ---\n")

In [7]:
def main(dataset_path, dataset_name):
    """
    Funzione principale per caricare i dati e calcolare le statistiche per un dato dataset.
    """
    # Carica i dati per il dataset
    paragraphs_train, paragraphs_test, annotations_train, annotations_test = load_data(dataset_path, dataset_name)
    
    # Stampa le statistiche
    print_stats(dataset_name, annotations_train, annotations_test)

In [8]:
main_folder_path = './'

# Esegui per il dataset AMD
main(main_folder_path, 'AMD')

# Esegui per il dataset DZ
main(main_folder_path, 'DZ')

--- Statistiche del Dataset AMD ---
Numero totale di annotazioni: 2626
Numero di entità uniche: 640

Top 15 entità più frequenti e la loro frequenza:
identifier
Q815348     322
Q38         272
Q220         85
Q3091708     83
NIL          63
Q52847       61
Q46          59
Q273228      33
Q3519        32
Q3866579     26
Q2044        23
Q1065        22
Q34651       22
Q3318304     22
Q2604        22
Name: count, dtype: int64

Numero di annotazioni contenenti entità non viste nel test set: 162
Numero di entità non viste nel test set: 133

Numero di annotazioni contenenti entità viste nel test set: 505
Numero di entità viste nel test set: 123

--- Fine delle Statistiche ---

--- Statistiche del Dataset DZ ---
Numero totale di annotazioni: 2899
Numero di entità uniche: 787

Top 15 entità più frequenti e la loro frequenza:
identifier
Q15851274    193
Q6691        111
Q1240983     105
Q38           93
Q4015911      59
Q550353       56
Q1541         55
Q1398         45
Q46           42
Q142   