Имеется файл с различными оценками асессоров. 

Формат файла: login tuid docid jud cjud 

Пояснение к формату: login — логин асессора; 
                     uid — id асессора (user id); 
                     docid — id оцениваемого документа (document id); 
                     jud — оценка асессора (judgement); 
                     cjud — правильная оценка (correct judgement); 
                     
                     разделитель — табуляция \t. 
                     
Оценки могут принимать значение [0, 1], т.е. задание, которое сделали асессоры, имеет бинарную шкалу. 
Используя данные об оценках, установите, какие асессоры хуже всего справились с заданием. 
На какие показатели вы ориентировались и какие метрики вы использовали для ответа на этот вопрос? 
Можно ли предложить какие-то новые метрики для подсчета качества асессоров с учетом природы оценок у этого бинарного задания? 
Опишите подробно все этапы вашего решения.


1. сгруппировать данные по асессорам и заданиям
2. для каждого ассесора найти процент правильно выполненных заданий
3. для каждого задания найти процент правильного выполнения 
4. для каждого ассесора вычислить эффективность его работы на 10% самых лёгких и 10% самых сложных заданий
5. создать сводную таблицу
6. проанализировать полученные результаты, сделать выводы о качестве работы асессоров

In [150]:
import pandas as pd
import numpy as np

In [208]:
# Set ipython's max row display
pd.set_option('display.max_row', 20)

# Set iPython's max column width to 50
pd.set_option('display.max_columns', 50)

In [6]:
dataframe = pd.read_csv('data_task3.csv', sep='\t', index_col=0)

In [18]:
dataframe.head(2)

Unnamed: 0_level_0,uid,docid,jud,cjud
login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
assessor158,158,0,0,0
assessor238,238,0,0,0


In [117]:
# 1. сгруппировать данные по асессорам и заданиям

group_by_user = dataframe.groupby('login')      # группировка по асессорам
number_user = len(group_by_user)

group_by_docid = dataframe.groupby('docid')     # группировка по документам
number_doc = len(group_by_docid)

number_notes = len(dataframe)

In [124]:
print('количество асессоров  -  ' + str(number_user) + '\nколичество документов  -  ' + str(number_doc))
print('\nвсего записей  -  ' + str(number_notes) + '\n\nзаписей на одного ассессора в среднем  -  ' + str(number_notes / number_user))
print('записей на один документ  -  ' + str(number_notes / number_doc))

количество асессоров  -  600
количество документов  -  50000

всего записей  -  250000

записей на одного ассессора в среднем  -  416.6666666666667
записей на один документ  -  5.0


In [28]:
dataframe.iloc[0]

uid      158
docid      0
jud        0
cjud       0
Name: assessor158, dtype: int64

In [125]:
# создание глубокой копии фрейма данных

df = dataframe.copy()

In [133]:
# adding new empty columns

df['success'] = np.nan

# создание списка ключей (списка уникальных значений асессоров)

keys = df.index.unique()

In [134]:
df.head(5)

Unnamed: 0_level_0,uid,docid,jud,cjud,success
login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
assessor158,158,0,0,0,
assessor238,238,0,0,0,
assessor488,488,0,0,0,
assessor136,136,0,0,0,
assessor300,300,0,0,0,


In [135]:
%%time

# заполение столбца бинарными маркерами успешности выполнения задания асессором
# 1 - для правильно оцененного документа, 0 - для проваленной оценки

for i in range (0, len(df)):
    if df['jud'].iloc[i] == df['cjud'].iloc[i]:
        df.iloc[i, df.columns.get_loc('success')] = 1
    else:
        df.iloc[i, df.columns.get_loc('success')] = 0

Wall time: 16min 59s


In [136]:
# Контроль корректности заполнения

df.head(10)

Unnamed: 0_level_0,uid,docid,jud,cjud,success
login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
assessor158,158,0,0,0,1.0
assessor238,238,0,0,0,1.0
assessor488,488,0,0,0,1.0
assessor136,136,0,0,0,1.0
assessor300,300,0,0,0,1.0
assessor123,123,1,1,1,1.0
assessor491,491,1,0,1,0.0
assessor409,409,1,1,1,1.0
assessor396,396,1,1,1,1.0
assessor295,295,1,1,1,1.0


In [137]:
gbu = df.groupby('login')
gbum = df.groupby('login').mean()      # группировка по асессорам c вычислением среднего

In [138]:
# пример получения отдельной группы по ключу

gbu.get_group('assessor0') sort_values(by = ['success'], ascending=False)

Unnamed: 0_level_0,uid,docid,jud,cjud,success
login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
assessor0,0,11,0,0,1.0
assessor0,0,110,1,1,1.0
assessor0,0,147,0,0,1.0
assessor0,0,392,0,0,1.0
assessor0,0,505,0,0,1.0
...,...,...,...,...,...
assessor0,0,49238,0,0,1.0
assessor0,0,49270,0,0,1.0
assessor0,0,49617,0,0,1.0
assessor0,0,49905,0,0,1.0


Отсортировав полученные данные по значению столбца "success" мы получим простейший показатель оценки эффективности ассессора, выраженный в доле правильно выполненных им оценок.
Как видно из полученных данных, эффективность ассессоров в верхнем и нижнем топ-5 отличается, практически, в 2 раза.

Однако, данного показаетеля недостаточно для корректной оценки эффективности работы ассессора, так как мы не учитываем различия в сложности оценок каждого отдельного документа. Необходимость учета данной особенности исходит из того, что каждый документ не был оценён каждым из ассессоров, а также в условиях не указано, что оценка каждого документа равно трудозатратна.

Так как мы не можем дополнить исходные данные для соответсвия выдвинотому условию, необходимо произвести оценку эффективности работы асессоров на 10% статистически наиболее сложных и 10% статистически наиболее лёгких документов.

In [139]:
gbum.sort_values(by = ['success'], ascending=False)

Unnamed: 0_level_0,uid,docid,jud,cjud,success
login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
assessor296,296.0,24049.261905,0.154762,0.107143,0.923810
assessor545,545.0,25293.725225,0.162162,0.130631,0.923423
assessor184,184.0,24549.223881,0.171642,0.109453,0.922886
assessor63,63.0,24189.748166,0.161369,0.107579,0.921760
assessor191,191.0,25657.260331,0.159091,0.101240,0.921488
...,...,...,...,...,...
assessor234,234.0,26636.383838,0.535354,0.141414,0.484848
assessor390,390.0,25813.803398,0.541262,0.114078,0.480583
assessor118,118.0,23988.383632,0.547315,0.099744,0.475703
assessor3,3.0,24876.056338,0.542254,0.115023,0.460094


In [141]:
gbdm = df.groupby('docid').mean()

In [175]:
sort = gbdm.sort_values(by = ['success'], ascending=False)

In [176]:
# 10% от 50000 записей - 5000

first_10 = sort.head(5000)
first_10_list = first_10.index.unique()
last_10 = sort.tail(5000)
last_10_list = last_10.index.unique()

In [187]:
# Отфильтруем из общего массива данных лишь нужные нам

filter_10_first = df.query('docid in @first_10_list')
filter_10_last = df.query('docid in @last_10_list')

Cоздание списка ключей (списка уникальных значений асессоров) для подтверждения гипотезы о том, что каждый из ассессоров в ходе своей работы оценивал как документы как из первой(10% наиболее лёгких), так и второй(10% наиболее тяжёлых) выборок.

In [204]:
keys_first = filter_10_first.index.unique()
keys_last = filter_10_last.index.unique()

print(len(keys_first), len(keys_last), number_user)

600 600 600


In [206]:
filter_first = filter_10_first.groupby('login').mean()

In [214]:
#  10 последних результатов для 10% наиболее лёгких в оценке документов

filter_first.sort_values(by = ['success'], ascending=False).tail(10)

Unnamed: 0_level_0,uid,docid,jud,cjud,success
login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
assessor274,274.0,24272.727273,0.159091,0.159091,1.0
assessor276,276.0,25738.756757,0.081081,0.081081,1.0
assessor282,282.0,25514.957447,0.06383,0.06383,1.0
assessor277,277.0,25678.628571,0.085714,0.085714,1.0
assessor278,278.0,24707.5,0.12,0.12,1.0
assessor279,279.0,25759.302326,0.139535,0.139535,1.0
assessor28,28.0,25977.96875,0.0625,0.0625,1.0
assessor280,280.0,24357.473684,0.078947,0.078947,1.0
assessor281,281.0,24584.75,0.15,0.15,1.0
assessor99,99.0,24025.102564,0.025641,0.025641,1.0


In [213]:
# 10 последних результатов для наиболее тяжёлых в оценке документов

filter_last = filter_10_last.groupby('login').mean()
filter_last.sort_values(by = ['success'], ascending=False).tail(10)

Unnamed: 0_level_0,uid,docid,jud,cjud,success
login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
assessor100,100.0,22808.605263,0.631579,0.289474,0.289474
assessor412,412.0,24434.605263,0.657895,0.105263,0.289474
assessor379,379.0,25858.510204,0.755102,0.040816,0.285714
assessor9,9.0,22606.275862,0.689655,0.12069,0.258621
assessor219,219.0,25151.697674,0.651163,0.186047,0.255814
assessor118,118.0,22103.257576,0.742424,0.106061,0.212121
assessor56,56.0,26131.935897,0.74359,0.141026,0.166667
assessor3,3.0,24121.125,0.822917,0.083333,0.15625
assessor390,390.0,25218.064935,0.805195,0.090909,0.12987
assessor234,234.0,33831.526316,0.842105,0.157895,0.0


In [215]:
# 10 последних результатов по общей доле правильно выполненных оценок

gbum.sort_values(by = ['success'], ascending=False).tail(10)

Unnamed: 0_level_0,uid,docid,jud,cjud,success
login,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
assessor71,71.0,25505.374134,0.307159,0.124711,0.757506
assessor154,154.0,25381.249383,0.293827,0.14321,0.755556
assessor335,335.0,25436.670644,0.281623,0.109785,0.742243
assessor9,9.0,24435.907801,0.314421,0.125296,0.739953
assessor550,550.0,25520.703125,0.34375,0.101562,0.726562
assessor234,234.0,26636.383838,0.535354,0.141414,0.484848
assessor390,390.0,25813.803398,0.541262,0.114078,0.480583
assessor118,118.0,23988.383632,0.547315,0.099744,0.475703
assessor3,3.0,24876.056338,0.542254,0.115023,0.460094
assessor56,56.0,24636.041363,0.574209,0.111922,0.425791


Анализируя приведённые выше срезы можно отметить несколько моментов:

переписать всё это

1. Довольно четко прослеживаются "лидеры забега" среди наименее качественно выполняющих оценку ассессоров. Это ассессоры с id: 56, 3, 234, 390, 118, 9

2. Учёт сложности оцениваемого материала позволил отделить ассессоров, плохо работающих со всеми категориями данных, от ассессоров, для которых характерен невысокий процент правильного выполнения, но которые хорошо работают с тяжёлыми в оценке документами

3. С 10% наиболее лёгких документов все ассессоры справляются на 100%.

Далее я считаю нецелесообразным анализировать всех пользователей.
Необходимо выделить 5% последних мест (600 * 0,05 = 30) в рейтингах общего процента выполнения и результатов выполнения 10% тяжёлых.
Произвести анализ на перекрёстное вхождение ассессоров в обе группы и отсеять тех, кто находится лишь в одном списке.
Извлечь данные об общем количестве оценок каждого ассессора, чтобы минимизировать возможность негативного влияния выборки малых размеров. В данном случае количество оценок ассессора должно быть сопоставимо со средним по датасету (прибл. 416.6(6))
На основании полученных данных составить итоговый список.