## Обработка айтрекинговых данных

### # эксперимент 15/03/17

В качестве основного инструмента будем использовать модуль pandas, потому что это более-менее быстро и удобно. Файл event_processor.py импортируем ради нескольких полезных функций. Для визуализации будем использовать Bokeh. 

In [1]:
import os
from event_processor import *
import pandas as pd
from bokeh.plotting import figure
from bokeh.io import push_notebook, show, output_notebook
output_notebook()

В raw_events загружаем путь к текстовому файлу с событиями, который получается на выходе SMI IDF Event Detector. В raw_markers -- путь к маркерам эскперимента.

In [2]:
raw_events=os.path.abspath('3-15-17 Events.txt')
raw_markers=os.path.abspath('tracking_markers.csv')

В events_dictionary записываем словарь, который будет содержать датафреймы для всех типов событий, доступные по ключам.

In [3]:
events_dictionary=process_events(raw_events, debug=False)
events_dictionary.keys()

['Saccade L',
 'Fixation L',
 'User Event',
 'Blink R',
 'Blink L',
 'Fixation R',
 'Saccade R']

Дальше для обработки будем использовать данные по фиксациям с левого глаза (для правого все, естественно, будет аналогично). 

In [4]:
fixations=events_dictionary['Fixation L']

In [5]:
fixations.drop(['Trial','Number', 'Dispersion X', 'Dispersion Y', 'Plane', 'Avg. Pupil Size X', 
                'Avg Pupil Size Y'], axis=1, inplace=True)
fixations[['Location X','Location Y']] = fixations[['Location X','Location Y']].apply(pd.to_numeric)
fixations.drop(fixations[(fixations['Location X']<=0) | (fixations['Location Y']<=0)].index, axis=0, inplace=True)

В markers записываем датафрейм с маркерами эксперимента.

In [6]:
markers=pd.read_csv(raw_markers, sep='\t', header=0, index_col=0, engine='python')

Выбираем из этого датафрейма записи с метками начала ("777") и конца ("888") трайлов.

In [7]:
markers[(markers['Marker']==777) | (markers['Marker']==888)]

Unnamed: 0,Start,Marker
0,11322251346,777.0
105,11346324402,888.0
106,11347336777,777.0
211,11371404228,888.0
212,11372418813,777.0
317,11396562539,888.0
318,11397587079,777.0
423,11421814134,888.0
424,11422837471,777.0
529,11447173565,888.0


Теперь выбираем из датафрейма с фиксациями все записи, относящиеся к временному интервалу первого трайла:

In [8]:
s1_fix=find_fixations(fixations, time=(markers.loc[0, 'Start'], markers.loc[105, 'Start']))
s1_fix

Unnamed: 0,index,Start,End,Duration,Location X,Location Y
0,2,11322490000.0,11322575419,89897.0,742.38,513.62
1,3,11323020000.0,11323123662,103924.0,390.49,281.98
2,4,11323320000.0,11323395975,74114.0,327.49,442.02
3,5,11323760000.0,11323814090,50006.0,431.86,607.52
4,6,11325900000.0,11325976889,72011.0,367.44,519.49
5,7,11326380000.0,11326447091,67999.0,374.15,546.54
6,8,11326960000.0,11327011329,54028.0,405.16,572.92
7,9,11329040000.0,11329144174,106129.0,354.42,496.66
8,10,11329300000.0,11329372287,70124.0,357.77,518.72
9,11,11329650000.0,11329720401,67995.0,397.72,602.22


Теперь выберем все фиксации, которые относятся к участку, на котором находится тот символ, на котором должен был сконцентрировать внимание испытуемый. 

Для начала разберемся с расположением символов на экране. В positions запишем координаты центров всех символов на экране (относительно центра самого экрана), в stimuli_size - размер символа (px), shrinkage - сжатие матрицы.

In [9]:
positions=[[-600, 375], [-400, 375], [-200, 375], [0, 375], [200, 375], [400, 375],
           [-600, 250], [-400, 250], [-200, 250], [0, 250], [200, 250], [400, 250],
           [-600, 125], [-400, 125], [-200, 125], [0, 125], [200, 125], [400, 125],
           [-600, 0], [-400, 0], [-200, 0], [0, 0], [200, 0], [400, 0], 
           [-600, -125],[-400, -125], [-200, -125], [0, -125], [200, -125], [400, -125], 
           [-600, -250],[-400, -250], [-200, -250], [0, -250], [200, -250], [400, -250], 
           [-600, -375],[-400, -375], [-200, -375], [0, -375], [200, -375], [400, -375]]
stimuli_size=100
shrinkage=1.32
resolution=(1680, 1050)

Пересчитаем координаты в границы всех символов на экране и запишем их в coors:

In [10]:
coors=matrix_coordinates(positions, resolution, stimuli_size,shrinkage)

В sequence будут храниться координаты последовательности символов, которые набирал испытуемый. *Science sucks :D*

In [11]:
sequence=[coors[18], coors[2], coors[8], coors[4], coors[13], coors[2], coors[4],
         coors[26],
         coors[18], coors[20], coors[2], coors[10], coors[18]]

Наконец, можно посмотреть на список всех фиксаций, относящихся к тому участку экрана, на котором находился первый символ:

In [12]:
s1_fix_r=find_fixations(s1_fix,time=(0,11653055935), area=sequence[0])
s1_fix_r

Unnamed: 0,level_0,index,Start,End,Duration,Location X,Location Y
0,4,6,11325900000.0,11325976889,72011.0,367.44,519.49
1,5,7,11326380000.0,11326447091,67999.0,374.15,546.54
2,6,8,11326960000.0,11327011329,54028.0,405.16,572.92
3,7,9,11329040000.0,11329144174,106129.0,354.42,496.66
4,8,10,11329300000.0,11329372287,70124.0,357.77,518.72
5,10,12,11329890000.0,11329948510,61995.0,347.96,493.77
6,11,13,11331010000.0,11331138929,126028.0,372.98,486.69
7,14,16,11333320000.0,11333409928,94128.0,353.26,482.78
8,19,21,11336090000.0,11336279001,184012.0,379.65,478.06
9,26,28,11341250000.0,11341311097,60028.0,378.66,499.83


Средняя длительность фиксации на этом участке (в микросекундах):

In [13]:
s1_fix_r['Duration'].mean()

89648.2

Теперь отсортируем нерелевантные фиксации (во всех других местах экрана за пределами нужного участка):

In [14]:
sf= pd.merge(s1_fix, s1_fix_r, how='outer', indicator=True)
s1_fix_ur = sf[sf['_merge']=='left_only'][s1_fix.columns]
s1_fix_ur.reset_index(inplace=True)
s1_fix_ur

Unnamed: 0,level_0,index,Start,End,Duration,Location X,Location Y
0,0,2,11322490000.0,11322575419,89897.0,742.38,513.62
1,1,3,11323020000.0,11323123662,103924.0,390.49,281.98
2,2,4,11323320000.0,11323395975,74114.0,327.49,442.02
3,3,5,11323760000.0,11323814090,50006.0,431.86,607.52
4,9,11,11329650000.0,11329720401,67995.0,397.72,602.22
5,12,14,11332120000.0,11332205368,85988.0,353.57,391.86
6,13,15,11332800000.0,11332975710,178131.0,359.31,437.41
7,15,17,11335170000.0,11335292649,126072.0,367.82,465.01
8,16,18,11335330000.0,11335388653,57958.0,344.37,416.46
9,17,19,11335590000.0,11335664796,70039.0,360.53,410.31


Средняя длительность нерелевантной фиксации (в микросекундах):

In [15]:
s1_fix_ur['Duration'].mean()

105670.76190476191

Т.е. нерелевантные фиксации были в cреднем длиннее релевантных. 

Посмотрим на распределение фиксаций разной длительности по матрице:

In [16]:
plot = figure(title="Matrix overlay", y_range=(1050,0), x_range=(0, 1680),
              plot_width=840,
              plot_height=525,
              x_axis_label='width, pixels', 
              y_axis_label='height, pixels')

x1=s1_fix_r['Location X']
y1=s1_fix_r['Location Y']
radii1 = s1_fix_r['Duration']*0.0001

x2=s1_fix_ur['Location X']
y2=s1_fix_ur['Location Y']
radii2 = s1_fix_ur['Duration']*0.0001

for item in coors:
    if item == sequence[0]:
        #plot.quad(top=item[3], bottom=item[1], left=item[0], right=item[2], color="red", fill_alpha=0.3, line_color=None)
        plot.quad(top=item[1], bottom=item[3], left=item[0], right=item[2], color="red", fill_alpha=0.3, line_color=None)
    else:
        #plot.quad(top=item[3], bottom=item[1], left=item[0], right=item[2], color="blue", fill_alpha=0.3, line_color=None)
        plot.quad(top=item[1], bottom=item[3], left=item[0], right=item[2], color="blue", fill_alpha=0.3, line_color=None)
        
plot.circle(x2,y2, radius=radii2, fill_color="navy", fill_alpha=0.5, line_color=None, legend="irrelevant fixations")
plot.circle(x1,y1, radius=radii1, fill_color="firebrick", fill_alpha=0.6, line_color=None, legend="relevant fixations")

show(plot)

Еще интересно посмотреть на распределение фиксаций разной длительности по трайлу. Заодно на графике можно отметить временные интрвалы, во время которых подсвечивались строки и столбцы, содержащие целевой символ (3 строка, 7 столбец для буквы "S").

In [17]:
targets=markers[1:105]
targets=targets[(targets['Marker']==3) | (targets['Marker']==7)]

In [18]:
plot2=figure(title="Fixations on first 'S' letter", 
             x_axis_label='time since the start of experiment, microseconds', 
             y_axis_label='duration, microseconds')

x3=s1_fix_r['Start']
y3=s1_fix_r['Duration']

x4=s1_fix_ur['Start']
y4=s1_fix_ur['Duration']

for item in list(targets['Start']):
    plot2.quad(top=300000, bottom=0, left=item, right=item+50000, color="red", 
               fill_alpha=0.5, line_color=None, legend="relevant flashes")
    
plot2.circle(x3, y3, fill_color="firebrick", line_color=None, fill_alpha=0.6, size=10, legend="relevant fixations")
plot2.circle(x4, y4, fill_color="navy", line_color=None,fill_alpha=0.6, size=10, legend="irrelevant fixations")    

show(plot2)

Можно также проделать все эти манипуляции для другого символа, например, второй буквы "E":

Релевантные фиксации:

In [19]:
c2_fix=find_fixations(fixations, time=(markers.loc[636, 'Start'], markers.loc[741, 'Start']))
c2_fix_r=find_fixations(fixations, area=sequence[6])
c2_fix_r

Unnamed: 0,index,Start,End,Duration,Location X,Location Y
0,136,11397600000.0,11397675971,76245.0,941.63,264.73
1,149,11404770000.0,11404826726,52126.0,961.99,272.63
2,168,11419960000.0,11420174633,212059.0,954.77,271.05
3,296,11472160000.0,11472229670,68006.0,984.12,251.09
4,298,11473460000.0,11473900326,442085.0,953.39,270.0
5,301,11475440000.0,11475679106,242090.0,946.97,225.0
6,302,11475880000.0,11475933218,52001.0,947.11,220.3
7,305,11476810000.0,11476911647,100097.0,951.89,283.26
8,312,11479980000.0,11480170985,186143.0,945.5,247.87
9,318,11481800000.0,11481939593,135993.0,992.29,220.9


Нерелевантные фиксации:

In [20]:
cf= pd.merge(c2_fix, c2_fix_r, how='outer', indicator=True)
c2_fix_ur = cf[cf['_merge']=='left_only'][c2_fix.columns]
c2_fix_ur.reset_index(inplace=True)
c2_fix_ur

Unnamed: 0,level_0,index,Start,End,Duration,Location X,Location Y
0,0,299,11474040000.0,11474124435,81983.0,908.69,227.57
1,1,300,11474180000.0,11475384996,1206457.0,923.1,245.61
2,4,303,11476130000.0,11476223323,95992.0,933.81,289.77
3,5,304,11476600000.0,11476697551,95999.0,934.46,220.02
4,7,306,11476980000.0,11477031645,53982.0,895.14,281.52
5,8,307,11477210000.0,11478034058,824334.0,886.93,262.07
6,9,308,11478260000.0,11478622308,360102.0,916.63,236.88
7,10,309,11478660000.0,11479320653,662349.0,932.69,271.78
8,11,310,11479360000.0,11479614737,252098.0,927.94,225.33
9,12,311,11479660000.0,11479792726,133989.0,940.28,267.08


Последнюю строчку из этого датафрейма убираем, т.к. там странная очень долгая фиксация в верхнем углу экрана.

In [21]:
c2_fix_ur.drop(c2_fix_ur.index[-1:], axis=0, inplace=True)

Кстати, важное замечание: фиксации здесь длиннее, чем в случае первой буквы S, так что диаметры сфер на графике домножены на коэффициент в 500 раз меньше, просто для удобства восприятия. Чтобы сравнивать графики между собой, нужно будет выровнять коэффициенты.

In [22]:
plot3 = figure(title="Matrix overlay", y_range=(1050,0), x_range=(0, 1680),
               plot_width=840,
               plot_height=525,
               x_axis_label='width, pixels', 
               y_axis_label='height, pixels')

x5=c2_fix_r['Location X']
y5=c2_fix_r['Location Y']
radii5 = c2_fix_r['Duration']*0.00002

x6=c2_fix_ur['Location X']
y6=c2_fix_ur['Location Y']
radii6 = c2_fix_ur['Duration']*0.00002

for item in coors:
    if item == sequence[6]:
        plot3.quad(top=item[1], bottom=item[3], left=item[0], right=item[2], color="orange", fill_alpha=0.3, line_color=None)
    else:
        plot3.quad(top=item[1], bottom=item[3], left=item[0], right=item[2], color="blue", fill_alpha=0.3, line_color=None)

plot3.circle(x6,y6, radius=radii6, fill_color="navy", fill_alpha=0.5, line_color=None, legend="irrelevant fixations")        
plot3.circle(x5,y5, radius=radii5, fill_color="orange", fill_alpha=0.6, line_color=None, legend="relevant fixations")

show(plot3)

И еще раз то же самое, для пробела в середине фразы. Релевантные фиксации:

In [23]:
space_fix=find_fixations(fixations, time=(markers.loc[742, 'Start'], markers.loc[847, 'Start']))
space_fix_r=find_fixations(fixations, area=sequence[7])
c2_fix_r

Unnamed: 0,index,Start,End,Duration,Location X,Location Y
0,136,11397600000.0,11397675971,76245.0,941.63,264.73
1,149,11404770000.0,11404826726,52126.0,961.99,272.63
2,168,11419960000.0,11420174633,212059.0,954.77,271.05
3,296,11472160000.0,11472229670,68006.0,984.12,251.09
4,298,11473460000.0,11473900326,442085.0,953.39,270.0
5,301,11475440000.0,11475679106,242090.0,946.97,225.0
6,302,11475880000.0,11475933218,52001.0,947.11,220.3
7,305,11476810000.0,11476911647,100097.0,951.89,283.26
8,312,11479980000.0,11480170985,186143.0,945.5,247.87
9,318,11481800000.0,11481939593,135993.0,992.29,220.9


Нерелевантные фиксации:

In [24]:
spf= pd.merge(space_fix, space_fix_r, how='outer', indicator=True)
space_fix_ur = spf[spf['_merge']=='left_only'][space_fix.columns]
space_fix_ur.reset_index(inplace=True)
space_fix_ur

Unnamed: 0,level_0,index,Start,End,Duration,Location X,Location Y
0,0,361,11499520000.0,11499610780,89931.0,512.88,603.35
1,1,362,11499650000.0,11499740801,93959.0,565.54,654.58
2,2,363,11499790000.0,11499870899,81827.0,571.12,689.96
3,3,364,11499940000.0,11500012878,73933.0,577.72,620.24
4,4,365,11500160000.0,11500290985,133982.0,597.95,662.08
5,5,366,11500350000.0,11500401177,50051.0,585.39,635.04
6,6,367,11500440000.0,11500499100,63931.0,590.24,664.76
7,7,368,11500570000.0,11500833259,264007.0,568.7,622.55
8,8,369,11500880000.0,11501091374,216044.0,573.08,640.53
9,9,370,11501120000.0,11501285512,166030.0,578.52,622.89


In [25]:
plot4 = figure(title="Matrix overlay", y_range=(1050,0), x_range=(0, 1680),
               plot_width=840,
               plot_height=525,
               x_axis_label='width, pixels', 
               y_axis_label='height, pixels')

x7=space_fix_r['Location X']
y7=space_fix_r['Location Y']
radii7 = space_fix_r['Duration']*0.00002

x8=space_fix_ur['Location X']
y8=space_fix_ur['Location Y']
radii8 = space_fix_ur['Duration']*0.00002

for item in coors:
    if item == sequence[7]:
        plot4.quad(top=item[1], bottom=item[3], left=item[0], right=item[2], color="#32CD32", fill_alpha=0.3, line_color=None)
    else:
        plot4.quad(top=item[1], bottom=item[3], left=item[0], right=item[2], color="blue", fill_alpha=0.3, line_color=None)

plot4.circle(x8,y8, radius=radii8, fill_color="navy", fill_alpha=0.5, line_color=None, legend="irrelevant fixations")        
plot4.circle(x7,y7, radius=radii7, fill_color="#008000", fill_alpha=0.6, line_color=None, legend="relevant fixations")

show(plot4)

В общем, пока вопросов больше чем ответов. Чем обусловлены сдвиги фиксаций, например? Что вообще еще можно интересного извлечь из этих данных?