In [1]:
import numpy as np
import krippendorff
import pandas as pd

In [6]:
dataset0 = pd.read_csv('dataset_0_ANNOTATED.tsv', sep='\t')
dataset1 = pd.read_csv('dataset_1_ANNOTATED.tsv', sep='\t')

In [7]:
dataset0.shape

(4215, 10)

In [8]:
dataset1.shape

(3633, 10)

In [11]:
dataset0 = dataset0[(dataset0.annotator1 != 0) & (dataset0.annotator2 != 0) & (dataset0.annotator3 != 0)
                    & (dataset0.annotator4 != 0) & (dataset0.annotator5 != 0)]
len(dataset0)

4193

In [12]:
dataset1 = dataset1[(dataset1.annotator1 != 0) & (dataset1.annotator2 != 0) & (dataset1.annotator3 != 0)
                    & (dataset1.annotator4 != 0) & (dataset1.annotator5 != 0)]
len(dataset1)

3594

In [13]:
def agreement(dataset):
    scores = np.zeros((5, dataset.shape[0]), dtype=int)

    for nr, annotator in enumerate(['annotator1', 'annotator2', 'annotator3', 'annotator4', 'annotator5']):
        scores[nr, :] = dataset[annotator].values

    # print('Raters:', scores.shape[0])
    # print('Instances:', scores.shape[1])


    agreement = krippendorff.alpha(scores)

    # print('Krippendorff Alpha:', agreement)
    
    return agreement

In [14]:
agreement(dataset0)

0.5381442897150754

In [15]:
agreement(dataset1)

0.5464951323056048

In [16]:
datasets = pd.concat([dataset0, dataset1], ignore_index=True)
len(datasets)

7787

In [17]:
agreement(datasets)

0.5426281902389232

In [18]:
df_alpha = pd.DataFrame({'name': ['ALL', 'dataset_0', 'dataset_1'], 'dataset': ['-', '-', '-'],
                         'alpha': [agreement(datasets), agreement(dataset0), agreement(dataset1)]})

In [19]:
df_alpha.head()

Unnamed: 0,name,dataset,alpha
0,ALL,-,0.542628
1,dataset_0,-,0.538144
2,dataset_1,-,0.546495


In [20]:
words0 = dataset0['word'].unique()
words0

array(['богадельня', 'машина', 'молодец', 'особа', 'переулок', 'больница',
       'декрет', 'дождь', 'заведующий', 'мама', 'насаждение', 'неудачник',
       'овес', 'отдел', 'свалка', 'сволочь', 'серединный', 'смотритель',
       'ссора', 'трибунал', 'червяк', 'агентство', 'археолог', 'бюрократ',
       'весна', 'вино', 'влажный', 'войско', 'вывеска', 'графиня',
       'директор', 'дума', 'заключенный', 'защитник', 'знатный',
       'казенный', 'классный', 'клиника', 'комиссар', 'мазь', 'новичок',
       'ночлег', 'обвинитель', 'отделение', 'отрывок', 'пакет', 'палата',
       'передовой', 'пионер', 'похищение', 'правитель', 'привет',
       'присутствие', 'прозвище', 'пружина', 'публика', 'секция', 'собор',
       'стиль', 'тетка', 'торжественный', 'тройка', 'трубка', 'уклон',
       'управа', 'управление', 'участок', 'философ', 'чиновник',
       'элемент', 'юношество'], dtype=object)

In [21]:
words1 = dataset1['word'].unique()
words1

array(['ателье', 'бескомпромиссность', 'беспредел', 'благотворительность',
       'блочный', 'боевик', 'ботаник', 'брезентовый', 'валюта',
       'валютный', 'вампир', 'взлом', 'вирус', 'выплеск', 'высоколобый',
       'вышка', 'гермафродит', 'гильдия', 'гимназия', 'глянец', 'гололед',
       'голубой', 'двушка', 'дивизион', 'донорство', 'драйвер', 'завязка',
       'загрузка', 'знамя', 'игра', 'инкубатор', 'исполнитель', 'карта',
       'классный', 'корпус', 'лилипут', 'ломберный', 'мгновение',
       'модель', 'мыло', 'одежда', 'однодневка', 'орбита', 'осуществимый',
       'пакет', 'партиец', 'перестройка', 'погрешность', 'подстава',
       'предощущение', 'приношение', 'прислуга', 'приставка',
       'провальный', 'продукция', 'раскрутка', 'рождество', 'рынок',
       'рыночный', 'свинцовый', 'собака', 'сомнение', 'стаканчик',
       'стачка', 'стиль', 'удвоение', 'флакон', 'четырехлетка',
       'эрмитажный'], dtype=object)

In [22]:
set(words0).intersection(set(words1))

{'классный', 'пакет', 'стиль'}

In [23]:
for word in words0:
    dataset_word = dataset0[dataset0['word'] == word]
    df_alpha = df_alpha.append({'name': word, 'dataset': '0',
                         'alpha': agreement(dataset_word)}, ignore_index=True)

In [24]:
for word in words1:
    dataset_word = dataset1[dataset1['word'] == word]
    df_alpha = df_alpha.append({'name': word, 'dataset': '1',
                         'alpha': agreement(dataset_word)}, ignore_index=True)

In [25]:
df_alpha.head()

Unnamed: 0,name,dataset,alpha
0,ALL,-,0.542628
1,dataset_0,-,0.538144
2,dataset_1,-,0.546495
3,богадельня,0,0.238605
4,машина,0,0.470618


In [26]:
df_alpha.tail()

Unnamed: 0,name,dataset,alpha
138,стиль,1,0.207059
139,удвоение,1,0.230864
140,флакон,1,0.387607
141,четырехлетка,1,0.394914
142,эрмитажный,1,0.154653


In [28]:
df_alpha.to_csv('alpha_values.tsv', sep='\t', index=False)