In [None]:
### Deze code bevat de functie merge_annotated_data, die gelabelde data samenvoegt naar één uiteindelijke dataset.
### De output van deze code is een DataFrame met de uiteindelijke dataset.
### This code contains the function merge_annotated_data, which merges annotated documents from the annotators back into one final dataset. 
### The output of this code is a DataFrame with the final dataset.

In [60]:
# inladen benodigde packages
# load necessary packages
import pandas as pd
import numpy as np

In [105]:
def merge_annotated_data(naam_dataset, n_annotators, n_annotations = 3):
    """ functie die de gesplitste data gesplitst door split_annotated_data weer kan samenvoegen. 
    De datasets met de naam naam_dataset_n_annotators.csv worden ingeladen. Vervolgens wordt de oorspronkelijke dataset gereconstrueerd
    uit de ingeladen data. De oorspronkelijke zinnen en het overzicht van de labels wordt gereturned.
    
    Input:
    naam_dataset: str, de naam van de documenen die de annotators hebben ingevuld
    n_annotators: int, het aantal annotators
    n_annotations: int, het aantal annotations per zin. default 3
    
    Output:
    merged_data: een DataFrame met daarin de oorspronkelijke data en de n_annotations labels die zijn toegekend.
    """

    """ function that can merge data split by split_annotated_data.
    The datasets with the name naam_dataset_n_annotators.csv are loaded. The original dataset then gets reconstructed
    from the loaded data. The original sentences and the overview of the original labels is returned.

    Input:
    name_dataset: str, the name of the documents that the annotators have filled in
    n_annotators: int, the number of annotators
    n_annotations: int, the number of annotations per sentence. Defaults to 3
    """
    
    # inladen path naar data en creëren lege frames
    # load path to data and create empty frames
    dataset_path = "~/share/Milena/programma-discriminatie-en-racisme/01_datapreparatie/"
    merged_data = pd.DataFrame()
    
    for i in range(n_annotators):
        # inladen annotated documenten en samenvoegen
        # load annotated documents and compile
        annotated_doc = pd.read_csv(dataset_path + naam_dataset + "_" + str(i) + '.csv', sep = ',')
        columns = list(annotated_doc.columns)
        
        # document opstellen
        # create document
        if i == 0:
            merged_data = annotated_doc
        else:
            merged_data = pd.concat([merged_data, annotated_doc])
            
    merged_data = merged_data.groupby(['Unnamed: 0']).agg({'id': 'last', 'document': 'last', 'text': 'last', 'zin': 'last', 'score': 'mean'})
    merged_data = merged_data.sort_values(by = ['Unnamed: 0'])
    
    return pd.DataFrame(merged_data)

merged = merge_annotated_data('te_labellen', n_annotators = 5, n_annotations = 3)
display(merged)

Unnamed: 0_level_0,id,document,text,zin,score
Unnamed: 0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,d4cfb963-de8d-400e-bb87-5493b794a255_1_4adc737...,Beslisnota bij Kamerbrief over Geografische Ba...,...,...,
1,d4cfb963-de8d-400e-bb87-5493b794a255_2_4adc737...,Beslisnota bij Kamerbrief over Geografische Ba...,...,Onze referentie\nVerdel...,
2,7eb69333-4557-4594-b5be-1276e3c0f2da_2_027bdd4...,Kwartaalrapportage Q4 2023,Onze referentie\nVerdel...,"groeifaciliteit voor de 23987, nr. aanspraa...",
3,ad741e24-86a7-47a2-ad12-fbde149fe4bc_8_e4269c3...,Advies GR; Verbetermogelijkheden voor het bevo...,"groeifaciliteit voor de 23987, nr. aanspraa...",hoofdstuk 01 | Inleiding ...,
4,ad741e24-86a7-47a2-ad12-fbde149fe4bc_17_e4269c...,Advies GR; Verbetermogelijkheden voor het bevo...,hoofdstuk 01 | Inleiding ...,"hoofdstuk 03 | Effectiviteit, resultaten, nade...",
...,...,...,...,...,...
6328,490faff2-b50c-4a78-afdc-f36ed34ed3df_10_039b80...,"Quick scan Financiële impact maatregelen ""Voor...",QUICK SCAN D.D...,QUICK SCAN D....,
6329,490faff2-b50c-4a78-afdc-f36ed34ed3df_11_039b80...,"Quick scan Financiële impact maatregelen ""Voor...",QUICK SCAN D....,QUICK SCAN...,
6330,490faff2-b50c-4a78-afdc-f36ed34ed3df_15_039b80...,"Quick scan Financiële impact maatregelen ""Voor...",QUICK SCAN...,QUICK SCA...,
6331,490faff2-b50c-4a78-afdc-f36ed34ed3df_16_039b80...,"Quick scan Financiële impact maatregelen ""Voor...",QUICK SCA...,QUICK...,


In [50]:
# output checken
# check output of code
print(list(merged[0]))

[0, 0, 'Beslisnota bij Kamerbrief over Geografische Balans Subsidieregeling en Beleidsintensiveringen Slavernijverleden', '                                                                                    TER BESLUITVORMING\n                                                                                    Nota actief openbaar\n                                                                                    Ja\n                                                                                    Onze referentie\nAan                      StasBZK en MBZK                                            2024-0000015654\nVan                      Programma <mark style="background: #00ced1!important">slavernijverleden</mark>                                Datum\n                                                                                    9 januari 2024\n                                                                                    Opgesteld door\n                          (0) Nota 