In [447]:
#!pip install simpledorff
import simpledorff as sf
import pandas as pd
import json
import numpy as np
from glom import glom
pd.__version__
pd.set_option("display.max_rows", None, "display.max_columns", None)

In [221]:
# load data using Python JSON module
with open('Jsonfiles/ch23_1.json','r') as f:
    data = json.loads(f.read())
# Flatten data, keep entry ID and person who completed the data
df_base_list = pd.json_normalize(data, record_path =['annotations', 'result'], meta = [
    'id',
    ['annotations', 'completed_by'],
    ['annotations', 'id'],
], record_prefix = '_',
    errors = 'ignore'
                                  )

# Remove unused columns
df_base_list = df_base_list.drop(['_id', '_to_name', '_origin', '_type', 'id'], axis=1)

# Rename remaining columns
#df_base_list.rename(columns = {'_from_name':'data_type', '_value.text':'text'}, inplace = True)


# Anonymise annotator by giving them a number
df_base_list['annotations.completed_by'] = 1
df_base_list['_value.labels'] = df_base_list['_value.labels'].str[0]
df_base_list['_value.labels'] = df_base_list['_value.labels'].astype(str)

# Separate speakers and speeches
df_speakers = df_base_list[df_base_list['_value.labels'] == "Speaker"]
df_speeches = df_base_list[df_base_list['_value.labels'] != "Speaker"]

#Clean speakers dataframe by removing unused columns
series_speakers_name = df_speakers['_value.text']
series_speakers_id = df_speakers['_meta.text'].str[0]
df_speakers_final =  pd.concat([series_speakers_name, series_speakers_id], axis=1).reset_index()

# Drop all NaN values, or they'll cause issues
df_speeches = df_speeches.dropna(subset=['annotations.id'])
df_speakers_final = df_speakers_final.dropna(subset=['_meta.text'])

# Convert both columns to integer to merge
df_speeches['annotations.id'] = df_speeches['annotations.id'].astype(int)
df_speakers_final['_meta.text'] = df_speakers_final['_meta.text'].astype(int)

# Merge speakers and speeches dataframes based on matching IDs
df_final = pd.merge(df_speeches, df_speakers_final, how='inner', left_on=['annotations.id'], right_on=['_meta.text'])

# Remove speech lines and only keep those with emotions
df_final_emotions_1 = df_final[df_final['_from_name'] == 'emotion']

# TODO : Merge all 4 dataframes into one. Group_by?


# Turn emotions into numerical value
#df_final_emotions_1 = pd.get_dummies(df_final_emotions_1, columns=['_value.labels'])

#codes, unique = pd.factorize(df_final_emotions_1['_value.labels'])

# Calculate Krippendorff' alpha
#sf.calculate_krippendorffs_alpha_for_df(df_final_emotions_1)

#print(codes,unique)


In [384]:
def create_dataframe(json_path, annotator_int):
    # load data using Python JSON module
    with open(json_path,'r') as f:
        data = json.loads(f.read())
    # Flatten data, keep entry ID and person who completed the data
    df_base_list = pd.json_normalize(data, record_path =['annotations', 'result'], meta = [
        'id',
        ['annotations', 'completed_by'],
        ['annotations', 'id'],
    ], record_prefix = '_',
        errors = 'ignore'
                                      )

    # load original data separately
    with open(json_path,'r') as f:
        data = json.loads(f.read())
    # Flatten data, keep entry ID and person who completed the data
    df_original_data = pd.json_normalize(data, max_level=1, meta = ['id'], record_prefix = '_',
        errors = 'ignore'
                                      )

    # Only keep relevant columns from df_original_data
    series_id = df_original_data['id']
    series_data = df_original_data['data.text']
    df_original_data = pd.concat([series_id, series_data], axis=1)


    # Add original data to dataframe
    df_base_list = pd.merge(df_base_list, df_original_data, how='inner', left_on=['id'], right_on=['id'])

    # Only keep relevant columns from df_base_list
    series_datatype = df_base_list['_from_name']
    series_start = df_base_list['_value.start']
    series_end = df_base_list['_value.end']
    series_text = df_base_list['_value.text']
    series_label = df_base_list['_value.labels']
    series_speakerid = df_base_list['_meta.text']
    series_annotator = df_base_list['annotations.completed_by']
    series_id = df_base_list['annotations.id']
    series_original = df_base_list['data.text']
    df_base_list = pd.concat([series_datatype, series_start, series_end, series_text, series_label, 
                              series_speakerid, series_annotator, series_id, series_original], axis=1)

    # Rename remaining columns
    df_base_list.columns = ['data_type', 'start', 'end', 'text', 'label', 'speaker_id', 'annotator', 'id', 'original_data']

    # Anonymise annotator by giving them a number
    df_base_list['annotator'] = annotator_int

    # Remove useless lists in labels and convert to string
    df_base_list['label'] = df_base_list['label'].str[0]
    df_base_list['label'] = df_base_list['label'].astype(str)

    # Separate speakers and speeches
    df_speakers = df_base_list[df_base_list['label'] == "Speaker"]
    df_speeches = df_base_list[df_base_list['label'] != "Speaker"]

    #Clean speakers dataframe by removing unused columns
    df_speakers = df_speakers.drop(['data_type', 'start', 'end', 'label', 'annotator', 'id', 'original_data'], axis=1)
    # Remove useless list in speaker_id
    df_speakers['speaker_id'] = df_speakers['speaker_id'].str[0]

    # Replace NaN values with -1 values, so we can convert the columns to int
    df_speeches['id'] = df_speeches['id'].fillna(-1)
    df_speakers['speaker_id'] = df_speakers['speaker_id'].fillna(-1)

    # Convert both columns to integer so we can merge later
    df_speeches['id'] = df_speeches['id'].astype(int)
    df_speakers['speaker_id'] = df_speakers['speaker_id'].astype(int)

    # Merge speakers and speeches dataframes based on matching IDs
    df_final = pd.merge(df_speeches, df_speakers, how='inner', left_on=['id'], right_on=['speaker_id'])

    # Delete unused columns and rename new ones
    df_final = df_final.drop(['speaker_id_x', 'speaker_id_y'], axis=1)
    df_final.columns = ['data_type', 'start', 'end', 'text', 'label', 'annotator', 'id', 'original_data', 'speaker']

    # Remove speech lines and only keep those with emotions
    df_final = df_final[df_final['data_type'] == 'emotion']

    return df_final

In [468]:
def merge_dataframes(json_path_list):
    dataframes = []
    # Create the dataframes from json_path_list
    for idx, file in enumerate(json_path_list):
        df = create_dataframe(file, idx)
        dataframes.append(df)

    # Concatenate all dataframes into one
    df = pd.concat(dataframes)

    # Turn emotions into numerical value
    codes, unique = pd.factorize(df['label'])
    df['label'] = codes
    
    # Create rounded length of text to use as a margin of error when grouping
    df['rounded_length'] = (df['end'] - df['start']).round(-1)
    
    
    # Group rows by original_data and length of text
    df = df.groupby(['original_data', 'rounded_length'])
    print(unique)
    
    # Calculate Krippendorff's alpha for each group TODO: FIX
    for group in df:
        kripp = sf.calculate_krippendorffs_alpha_for_df(group,experiment_col='rounded_length', annotator_col='annotator', class_col='label')
        print(kripp)

    return df

In [469]:
json_list = ['Jsonfiles/ch23_1.json', 'Jsonfiles/ch23_2.json', 'Jsonfiles/ch23_3.json', 'Jsonfiles/ch23_4.json']
test = merge_dataframes(json_list)

# display grouped information   
test.apply(lambda a: a[:])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


Index(['ColÃ¨re', 'Tristesse', 'Calme', 'Ardeur', 'Joie', 'Peur', 'Plaisir',
       'DÃ©goÃ»t'],
      dtype='object')


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,data_type,start,end,text,label,annotator,id,original_data,speaker,rounded_length
original_data,rounded_length,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
"â€” Aias , excellent pour la querelle , homme injurieux , le dernier des Argiens , ton Ã¢me est toute fÃ©roce ! Allons ! dÃ©posons un trÃ©pied , ou un vase , et prenons tous deux pour arbitre l'AtrÃ©ide AgamemnÃ´n . Qu'il dise quels sont ces chevaux , et tu le sauras Ã tes dÃ©pens .",270,42,emotion,2,272,"Aias , excellent pour la querelle , homme inju...",0,1,58,"â€” Aias , excellent pour la querelle , homme ...",le chef des KrÃ¨tois,270
"â€” Aias , excellent pour la querelle , homme injurieux , le dernier des Argiens , ton Ã¢me est toute fÃ©roce ! Allons ! dÃ©posons un trÃ©pied , ou un vase , et prenons tous deux pour arbitre l'AtrÃ©ide AgamemnÃ´n . Qu'il dise quels sont ces chevaux , et tu le sauras Ã tes dÃ©pens .",270,31,emotion,2,274,"Aias , excellent pour la querelle , homme inju...",0,2,55,"â€” Aias , excellent pour la querelle , homme ...",le chef des KrÃ¨tois,270
"â€” Aias , excellent pour la querelle , homme injurieux , le dernier des Argiens , ton Ã¢me est toute fÃ©roce ! Allons ! dÃ©posons un trÃ©pied , ou un vase , et prenons tous deux pour arbitre l'AtrÃ©ide AgamemnÃ´n . Qu'il dise quels sont ces chevaux , et tu le sauras Ã tes dÃ©pens .",270,45,emotion,2,274,"Aias , excellent pour la querelle , homme inju...",0,3,38,"â€” Aias , excellent pour la querelle , homme ...",le chef des KrÃ¨tois,270
"â€” Antilokhos , aucun homme n'est plus perfide que toi ! Va ! c'est bien faussement que nous te disions sage . Mais tu ne remporteras point le prix sans te parjurer .",160,70,emotion,2,165,"Antilokhos , aucun homme n'est plus perfide qu...",0,0,38,"â€” Antilokhos , aucun homme n'est plus perfid...",MÃ©nÃ©laos,160
"â€” Antilokhos , aucun homme n'est plus perfide que toi ! Va ! c'est bien faussement que nous te disions sage . Mais tu ne remporteras point le prix sans te parjurer .",160,51,emotion,2,165,"Antilokhos , aucun homme n'est plus perfide qu...",0,1,49,"â€” Antilokhos , aucun homme n'est plus perfid...",blond MÃ©nÃ©laos,160
"â€” Antilokhos , aucun homme n'est plus perfide que toi ! Va ! c'est bien faussement que nous te disions sage . Mais tu ne remporteras point le prix sans te parjurer .",160,37,emotion,2,165,"Antilokhos , aucun homme n'est plus perfide qu...",0,2,46,"â€” Antilokhos , aucun homme n'est plus perfid...",le blond MÃ©nÃ©laos,160
"â€” Antilokhos , aucun homme n'est plus perfide que toi ! Va ! c'est bien faussement que nous te disions sage . Mais tu ne remporteras point le prix sans te parjurer .",160,76,emotion,2,165,"Antilokhos , aucun homme n'est plus perfide qu...",0,3,31,"â€” Antilokhos , aucun homme n'est plus perfid...",MÃ©nÃ©laos,160
"â€” Antilokhos , certes , Zeus et PoseidaÃ´n , t'ayant aimÃ© tout jeune , t'ont enseignÃ© Ã mener un char ; c'est pourquoi on ne peut t'instruire davantage . Tu sais tourner habilement la borne , mais tes chevaux sont lourds , et je crains un malheur . Les autres ne te sont pas supÃ©rieurs en science , mais leurs chevaux sont plus rapides . Allons , ami , rÃ©flÃ©chis Ã tout , afin que les prix ne t'Ã©chappent pas . Le bÃ»cheron vaut mieux par l'adresse que par la force . C'est par son art que le pilote dirige sur la noire mer une nef rapide , battue par les vents ; et le conducteur de chars l'emporte par son habiletÃ© sur le conducteur de chars . Celui qui s'abandonne Ã ses chevaux et Ã son char vagabonde follement Ã§Ã et lÃ , et ses chevaux s'emportent dans le stade , et il ne peut les retenir . Mais celui qui sait les choses utiles , quand il conduit des chevaux lourds , regardant toujours la borne , l'effleure en la tournant . Et il ne lÃ¢che point tout d'abord les rÃªnes en cuir de boeuf , mais , les tenant d'une main ferme , il observe celui qui le prÃ©cÃ¨de . Je vais te montrer la borne . On la reconnaÃ®t aisÃ©ment . LÃ s'Ã©lÃ¨ve un tronc dessÃ©chÃ© , d'une aune environ hors de terre et que la pluie ne peut nourrir . C'est le tronc d'un chÃªne ou d'un pin . Devant lui sont deux pierres blanches , posÃ©es de l'un et l'autre cÃ´tÃ© , au dÃ©tour du chemin , et , en deÃ§Ã comme au-delÃ , s'Ã©tend l'hippodrome aplani . C'est le tombeau d'un homme mort autrefois , ou une limite plantÃ©e par les anciens hommes , et c'est la borne que le divin Akhilleus aux pieds rapides vous a marquÃ©e . Quand tu en approcheras , pousse tout auprÃ¨s tes chevaux et ton char . Penche-toi , de ton char bien construit , un peu sur la gauche , et excite le cheval de droite de la voix et du fouet , en lui lÃ¢chant toutes les rÃªnes . Que ton cheval de gauche rase la borne , de faÃ§on que le moyeu de la roue la touche presque ; mais Ã©vite de heurter la pierre , de peur de blesser tes chevaux et de briser ton char , ce qui ferait la joie des autres , mais ta propre honte . Enfin , ami , sois adroit et prudent . Si tu peux dÃ©passer la borne le premier , il n'en est aucun qui ne te poursuive vivement , mais nul ne te devancera , quand mÃªme on pousserait derriÃ¨re toi le divin AtrÃ©iÃ´n , ce rapide cheval d'AdrestÃ¨s , qui Ã©tait de race divine , ou mÃªme les illustres chevaux de LaomÃ©dÃ´n qui furent nourris ici .",450,44,emotion,15,465,"certes , Zeus et PoseidaÃ´n , t'ayant aimÃ© to...",5,2,34,"â€” Antilokhos , certes , Zeus et PoseidaÃ´n ,...",le pÃ¨re,450
"â€” Antilokhos , certes , Zeus et PoseidaÃ´n , t'ayant aimÃ© tout jeune , t'ont enseignÃ© Ã mener un char ; c'est pourquoi on ne peut t'instruire davantage . Tu sais tourner habilement la borne , mais tes chevaux sont lourds , et je crains un malheur . Les autres ne te sont pas supÃ©rieurs en science , mais leurs chevaux sont plus rapides . Allons , ami , rÃ©flÃ©chis Ã tout , afin que les prix ne t'Ã©chappent pas . Le bÃ»cheron vaut mieux par l'adresse que par la force . C'est par son art que le pilote dirige sur la noire mer une nef rapide , battue par les vents ; et le conducteur de chars l'emporte par son habiletÃ© sur le conducteur de chars . Celui qui s'abandonne Ã ses chevaux et Ã son char vagabonde follement Ã§Ã et lÃ , et ses chevaux s'emportent dans le stade , et il ne peut les retenir . Mais celui qui sait les choses utiles , quand il conduit des chevaux lourds , regardant toujours la borne , l'effleure en la tournant . Et il ne lÃ¢che point tout d'abord les rÃªnes en cuir de boeuf , mais , les tenant d'une main ferme , il observe celui qui le prÃ©cÃ¨de . Je vais te montrer la borne . On la reconnaÃ®t aisÃ©ment . LÃ s'Ã©lÃ¨ve un tronc dessÃ©chÃ© , d'une aune environ hors de terre et que la pluie ne peut nourrir . C'est le tronc d'un chÃªne ou d'un pin . Devant lui sont deux pierres blanches , posÃ©es de l'un et l'autre cÃ´tÃ© , au dÃ©tour du chemin , et , en deÃ§Ã comme au-delÃ , s'Ã©tend l'hippodrome aplani . C'est le tombeau d'un homme mort autrefois , ou une limite plantÃ©e par les anciens hommes , et c'est la borne que le divin Akhilleus aux pieds rapides vous a marquÃ©e . Quand tu en approcheras , pousse tout auprÃ¨s tes chevaux et ton char . Penche-toi , de ton char bien construit , un peu sur la gauche , et excite le cheval de droite de la voix et du fouet , en lui lÃ¢chant toutes les rÃªnes . Que ton cheval de gauche rase la borne , de faÃ§on que le moyeu de la roue la touche presque ; mais Ã©vite de heurter la pierre , de peur de blesser tes chevaux et de briser ton char , ce qui ferait la joie des autres , mais ta propre honte . Enfin , ami , sois adroit et prudent . Si tu peux dÃ©passer la borne le premier , il n'en est aucun qui ne te poursuive vivement , mais nul ne te devancera , quand mÃªme on pousserait derriÃ¨re toi le divin AtrÃ©iÃ´n , ce rapide cheval d'AdrestÃ¨s , qui Ã©tait de race divine , ou mÃªme les illustres chevaux de LaomÃ©dÃ´n qui furent nourris ici .",730,45,emotion,1653,2386,"Penche-toi , de ton char bien construit , un ...",2,2,34,"â€” Antilokhos , certes , Zeus et PoseidaÃ´n ,...",le pÃ¨re,730
"â€” Antilokhos , certes , Zeus et PoseidaÃ´n , t'ayant aimÃ© tout jeune , t'ont enseignÃ© Ã mener un char ; c'est pourquoi on ne peut t'instruire davantage . Tu sais tourner habilement la borne , mais tes chevaux sont lourds , et je crains un malheur . Les autres ne te sont pas supÃ©rieurs en science , mais leurs chevaux sont plus rapides . Allons , ami , rÃ©flÃ©chis Ã tout , afin que les prix ne t'Ã©chappent pas . Le bÃ»cheron vaut mieux par l'adresse que par la force . C'est par son art que le pilote dirige sur la noire mer une nef rapide , battue par les vents ; et le conducteur de chars l'emporte par son habiletÃ© sur le conducteur de chars . Celui qui s'abandonne Ã ses chevaux et Ã son char vagabonde follement Ã§Ã et lÃ , et ses chevaux s'emportent dans le stade , et il ne peut les retenir . Mais celui qui sait les choses utiles , quand il conduit des chevaux lourds , regardant toujours la borne , l'effleure en la tournant . Et il ne lÃ¢che point tout d'abord les rÃªnes en cuir de boeuf , mais , les tenant d'une main ferme , il observe celui qui le prÃ©cÃ¨de . Je vais te montrer la borne . On la reconnaÃ®t aisÃ©ment . LÃ s'Ã©lÃ¨ve un tronc dessÃ©chÃ© , d'une aune environ hors de terre et que la pluie ne peut nourrir . C'est le tronc d'un chÃªne ou d'un pin . Devant lui sont deux pierres blanches , posÃ©es de l'un et l'autre cÃ´tÃ© , au dÃ©tour du chemin , et , en deÃ§Ã comme au-delÃ , s'Ã©tend l'hippodrome aplani . C'est le tombeau d'un homme mort autrefois , ou une limite plantÃ©e par les anciens hommes , et c'est la borne que le divin Akhilleus aux pieds rapides vous a marquÃ©e . Quand tu en approcheras , pousse tout auprÃ¨s tes chevaux et ton char . Penche-toi , de ton char bien construit , un peu sur la gauche , et excite le cheval de droite de la voix et du fouet , en lui lÃ¢chant toutes les rÃªnes . Que ton cheval de gauche rase la borne , de faÃ§on que le moyeu de la roue la touche presque ; mais Ã©vite de heurter la pierre , de peur de blesser tes chevaux et de briser ton char , ce qui ferait la joie des autres , mais ta propre honte . Enfin , ami , sois adroit et prudent . Si tu peux dÃ©passer la borne le premier , il n'en est aucun qui ne te poursuive vivement , mais nul ne te devancera , quand mÃªme on pousserait derriÃ¨re toi le divin AtrÃ©iÃ´n , ce rapide cheval d'AdrestÃ¨s , qui Ã©tait de race divine , ou mÃªme les illustres chevaux de LaomÃ©dÃ´n qui furent nourris ici .",810,52,emotion,1572,2386,"marquÃ©e . Quand tu en approcheras , pousse t...",3,3,25,"â€” Antilokhos , certes , Zeus et PoseidaÃ´n ,...",NestÃ´r NÃ¨lÃ¨iade,810


In [320]:

# Merge dataframes
df = dataframes[0]
    for dataframe in dataframes[1:]:
        df = df.merge(dataframe, on='original_data')

In [448]:
d = {'text': ["aaa", "bbb", "ccc", "ddd", "eee", "fff"], 'start': [0, 1, 0, 2, 1, 0], 'end': [250, 500, 501, 251, 249, 499]}
df = pd.DataFrame(data=d)
df = df.groupby(['start', 'end'])

df.apply(lambda a: a[:])

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,text,start,end
start,end,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,250,0,aaa,0,250
0,499,5,fff,0,499
0,501,2,ccc,0,501
1,249,4,eee,1,249
1,500,1,bbb,1,500
2,251,3,ddd,2,251
