# Temat testów

Czy istnieje istotna statystycznie różnica w poprawności/pewności odpowiedzi w zależności od:
- liczby fiksacji (na wszystkich elementach grafiki, tylko na treści, tylko na poleceniu)?
- długości całkowitej i średniej fiksacji (na wszystkich elementach grafiki, tylko na treści, tylko na poleceniu)?
- ostatniego odwiedzonego AOI (ze wszystkich elementów grafiki)?
- średniej wielkości źrenicy (na wszystkich elementach grafiki, tylko na treści, tylko na poleceniu)?

### Przygotowanie setów do testowania 
- fiksacje (liczba, długość całkowita, średnia, średnia wielkość źrenicy, ostatnie odwiedzone AOI)
vs
- poprawność odpowiedzi
- pewność odpowiedzi

### Jakie sety potrzebujemy do testów?

Poprawność/pewność w zależności od metryki eye tracking dla: każdego elementu (mapa, tabela, tekst, wykres, polecenie); elementów treści (bez polecenia) w grupach:
- dla każdej grafiki osobno
- sumy: wszystkie grafiki, A, B, 1, 2, 3
- kolekcje: wszystkie grafiki, A, B, 1, 2, 3



In [2]:
import pandas as pd
import re

from functions.set_preparations import prepare_row_df
from functions.tests import conduct_logistic_regression_test

In [37]:
df_answers = pd.read_csv('../postprocess_data/sets/correctness.csv', index_col='ID')
df_answers

Unnamed: 0_level_0,1a_trud,1b_trud,2a_trud,2b_trud,3a_trud,3b_trud,Trud_all,Corr_all,1a_corr,1b_corr,...,SumCorr_a,SumCorr_b,SumCorr_1,SumCorr_2,SumCorr_3,SumTrud_a,SumTrud_b,SumTrud_1,SumTrud_2,SumTrud_3
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,3,1,4,3,4,4,19,4,1,1,...,2,2,2,0,2,11,8,4,7,8
2,1,2,3,1,2,4,13,5,1,1,...,2,3,2,2,1,6,7,3,4,6
3,2,1,3,1,1,1,9,4,1,1,...,2,2,2,2,0,6,3,3,4,2
4,3,2,2,1,3,5,16,5,1,1,...,3,2,2,2,1,8,8,5,3,8
5,4,2,3,2,3,3,17,6,1,1,...,3,3,2,2,2,10,7,6,5,6
7,2,2,2,1,4,3,14,6,1,1,...,3,3,2,2,2,8,6,4,3,7
11,2,1,3,2,1,2,11,2,1,0,...,1,1,1,0,1,6,5,3,5,3
12,1,1,3,3,2,2,12,2,1,1,...,1,1,2,0,0,6,6,2,6,4
13,2,4,2,1,1,3,13,5,1,1,...,3,2,2,2,1,5,8,6,3,4
14,2,3,2,5,4,4,20,5,1,1,...,3,2,2,1,2,8,12,5,7,8


In [38]:
# Grafiki A - wszystki elementy treści oddzielnie: mapa, polecenie 
df_1a = pd.read_csv('/Users/martasolarz/Studies/Thesis/data/metrics/AOI_fixation/1a.csv', index_col='ID')

df_2a = pd.read_csv('/Users/martasolarz/Studies/Thesis/data/metrics/AOI_fixation/2a.csv',
index_col='ID')

df_3a = pd.read_csv('/Users/martasolarz/Studies/Thesis/data/metrics/AOI_fixation/3a.csv', index_col='ID')

# Grafiki B - suma elementów treści (bez polecenia)
df_1b_aggr = pd.read_csv('/Users/martasolarz/Studies/Thesis/data/metrics/AOI_fixation/1b-aggregate.csv', index_col='ID')

df_2b_aggr = pd.read_csv('/Users/martasolarz/Studies/Thesis/data/metrics/AOI_fixation/2b-aggregate.csv', index_col='ID')

df_3b_aggr = pd.read_csv('/Users/martasolarz/Studies/Thesis/data/metrics/AOI_fixation/3b-aggregate.csv', index_col='ID')

# Grafiki B - wszystki elementy treści oddzielnie: mapa, wykres, tabela, tekst, polecenie 
df_1b = pd.read_csv('/Users/martasolarz/Studies/Thesis/data/metrics/AOI_fixation/1b.csv', index_col='ID')

df_2b = pd.read_csv('/Users/martasolarz/Studies/Thesis/data/metrics/AOI_fixation/2b.csv', index_col='ID')

df_3b = pd.read_csv('/Users/martasolarz/Studies/Thesis/data/metrics/AOI_fixation/3b.csv', index_col='ID')

In [39]:
df_a = pd.concat([df_1a, df_2a, df_3a], axis=1) # wszystkie elementy oddzielnie w jednym df - A
df_b = pd.concat([df_1b, df_2b, df_3b], axis=1) # wszystkie elementy oddzielnie w jednym df - B
df_1 = pd.concat([df_1a, df_1b], axis=1) # wszystkie elementy oddzielnie w jednym df - 1
df_2 = pd.concat([df_2a, df_2b], axis=1) # wszystkie elementy oddzielnie w jednym df - 2
df_3 = pd.concat([df_3a, df_3b], axis=1) # wszystkie elementy oddzielnie w jednym df - 3
df_all = pd.concat([df_a, df_b], axis=1) # wszystkie elementy oddzielnie w jednym df - A i B

df_1aaggr = df_1a.filter(regex='^(?!.*_com$).*$') # suma elementów treści (bez polecenia) - 1a
df_1aaggr.columns = [col.replace('_map', '') for col in df_1aaggr.columns]
df_2aaggr = df_2a.filter(regex='^(?!.*_com$).*$') # suma elementów treści (bez polecenia) - 2a
df_2aaggr.columns = [col.replace('_map', '') for col in df_2aaggr.columns]
df_3aaggr = df_3a.filter(regex='^(?!.*_com$).*$') # suma elementów treści (bez polecenia) - 3a
df_3aaggr.columns = [col.replace('_map', '') for col in df_3aaggr.columns]
df_a_aggr = pd.concat([df_1aaggr, df_2aaggr, df_3aaggr], axis=1) # suma elementów treści (bez polecenia) w jednym df: A

df_1baggr = df_1b_aggr.add_suffix('_1b') # suma elementów treści (bez polecenia) - 1b
df_2baggr = df_2b_aggr.add_suffix('_2b') # suma elementów treści (bez polecenia) - 2b
df_3baggr = df_3b_aggr.add_suffix('_3b') # suma elementów treści (bez polecenia) - 3b
df_b_aggr = pd.concat([df_1baggr, df_2baggr, df_3baggr], axis=1) # suma elementów treści (bez polecenia) w jednym df: B

In [40]:
# zsumowane wszystkie elementy (bez polecenia): wszystkie grafiki A, B razem
df_all_aggr = pd.concat([df_a_aggr, df_b_aggr], axis=1)

In [41]:
# zsumowane wszystkie elementy (z poleceniem): 1A
total = df_1a.filter(regex='Total').sum(axis=1)
avg = df_1a.filter(regex='^Avg_(?!pupil_)').sum(axis=1)
avg_pupil = df_1a.filter(regex='Avg_pupil').mean(axis=1)
num = df_1a.filter(regex='Num').sum(axis=1)
df_1A_aggr = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num}) 

# zsumowane wszystkie elementy (z poleceniem): 2A
total = df_2a.filter(regex='Total').sum(axis=1)
avg = df_2a.filter(regex='^Avg_(?!pupil_)').sum(axis=1)
avg_pupil = df_2a.filter(regex='Avg_pupil').mean(axis=1)
num = df_2a.filter(regex='Num').sum(axis=1)
df_2A_aggr = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

# zsumowane wszystkie elementy (z poleceniem): 3A
total = df_3a.filter(regex='Total').sum(axis=1)
avg = df_3a.filter(regex='^Avg_(?!pupil_)').sum(axis=1)
avg_pupil = df_3a.filter(regex='Avg_pupil').mean(axis=1)
num = df_3a.filter(regex='Num').sum(axis=1)
df_3A_aggr = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

df_1A_aggr = df_1A_aggr.add_suffix('_1a')
df_2A_aggr = df_2A_aggr.add_suffix('_2a')
df_3A_aggr = df_3A_aggr.add_suffix('_3a')

# zsumowane wszystkie elementy (z poleceniem): 1A, 2A, 3A razem
df_A_aggr = pd.concat([df_1A_aggr, df_2A_aggr, df_3A_aggr], axis=1)

In [42]:
# zsumowane wszystkie elementy (z poleceniem): 1B
total = df_1b.filter(regex='Total').sum(axis=1)
avg = df_1b.filter(regex='^Avg_(?!pupil_)').sum(axis=1)
avg_pupil = df_1b.filter(regex='Avg_pupil').mean(axis=1)
num = df_1b.filter(regex='Num').sum(axis=1)
df_1B_aggr = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

# zsumowane wszystkie elementy (z poleceniem): 2B
total = df_2b.filter(regex='Total').sum(axis=1)
avg = df_2b.filter(regex='^Avg_(?!pupil_)').sum(axis=1)
avg_pupil = df_2b.filter(regex='Avg_pupil').mean(axis=1)
num = df_2b.filter(regex='Num').sum(axis=1)
df_2B_aggr = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

# zsumowane wszystkie elementy (z poleceniem): 3B
total = df_3b.filter(regex='Total').sum(axis=1)
avg = df_3b.filter(regex='^Avg_(?!pupil_)').sum(axis=1)
avg_pupil = df_3b.filter(regex='Avg_pupil').mean(axis=1)
num = df_3b.filter(regex='Num').sum(axis=1)
df_3B_aggr = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

df_1B_aggr = df_1B_aggr.add_suffix('_1b')
df_2B_aggr = df_2B_aggr.add_suffix('_2b')
df_3B_aggr = df_3B_aggr.add_suffix('_3b')

# zsumowane wszystkie elementy (z poleceniem): 1B, 2B, 3B razem
df_B_aggr = pd.concat([df_1B_aggr, df_2B_aggr, df_3B_aggr], axis=1) 

In [43]:
# zsumowane wszystkie elementy (z poleceniem): wszystkie grafiki A, B razem
df_ALL_aggr = pd.concat([df_A_aggr, df_B_aggr], axis=1)

In [44]:
# zsumowane wszystkie elementy (z poleceniem): grafiki 1
total = df_ALL_aggr.filter(regex='Total_1').sum(axis=1)
avg = df_ALL_aggr.filter(regex='Avg_1').sum(axis=1)
avg_pupil = df_ALL_aggr.filter(regex='Avg_pupil_1').mean(axis=1)
num = df_ALL_aggr.filter(regex='Num_1').sum(axis=1)
df_1_AGGR = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

# zsumowane wszystkie elementy (z poleceniem): grafiki 2
total = df_ALL_aggr.filter(regex='Total_2').sum(axis=1)
avg = df_ALL_aggr.filter(regex='Avg_2').sum(axis=1)
avg_pupil = df_ALL_aggr.filter(regex='Avg_pupil_2').mean(axis=1)
num = df_ALL_aggr.filter(regex='Num_2').sum(axis=1)
df_2_AGGR = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

# zsumowane wszystkie elementy (z poleceniem): grafiki 3
total = df_ALL_aggr.filter(regex='Total_3').sum(axis=1)
avg = df_ALL_aggr.filter(regex='Avg_3').sum(axis=1)
avg_pupil = df_ALL_aggr.filter(regex='Avg_pupil_3').mean(axis=1)
num = df_ALL_aggr.filter(regex='Num_3').sum(axis=1)
df_3_AGGR = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

In [45]:
# zsumowane wszystkie elementy (bez polecenia): grafiki 1
total = df_all_aggr.filter(regex='Total_1').sum(axis=1)
avg = df_all_aggr.filter(regex='Avg_1').sum(axis=1)
avg_pupil = df_all_aggr.filter(regex='Avg_pupil_1').mean(axis=1)
num = df_all_aggr.filter(regex='Num_1').sum(axis=1)
df_1_aggr = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

# zsumowane wszystkie elementy (bez poleceniem): grafiki 2
total = df_all_aggr.filter(regex='Total_2').sum(axis=1)
avg = df_all_aggr.filter(regex='Avg_2').sum(axis=1)
avg_pupil = df_all_aggr.filter(regex='Avg_pupil_2').mean(axis=1)
num = df_all_aggr.filter(regex='Num_2').sum(axis=1)
df_2_aggr = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

# zsumowane wszystkie elementy (bez poleceniem): grafiki 3
total = df_all_aggr.filter(regex='Total_3').sum(axis=1)
avg = df_all_aggr.filter(regex='Avg_3').sum(axis=1)
avg_pupil = df_all_aggr.filter(regex='Avg_pupil_3').mean(axis=1)
num = df_all_aggr.filter(regex='Num_3').sum(axis=1)
df_3_aggr = pd.DataFrame(data={'Total':total, 'Avg':avg, 'Avg_pupil':avg_pupil, 'Num':num})

In [46]:
# SET: wszystkie elementy treści osobno: A - map, com; B - map, plt, tab, text, com; corr; trud
corr = df_answers.filter(regex='.+_corr$')
trud = df_answers.filter(regex='.+_trud$')
df_all[corr.columns] = corr
df_all[trud.columns] = trud;

regex = re.compile(r'^Last_AOI_[^_]+_(?!map)')
columns_to_drop = [col for col in df_all.columns if regex.match(col)]
df_all.drop(columns=columns_to_drop, inplace=True)
df_all.columns = [col.replace('_map', '') if col.startswith('Last_AOI_') else col for col in df_all.columns];

  df_all[corr.columns] = corr
  df_all[corr.columns] = corr
  df_all[corr.columns] = corr
  df_all[corr.columns] = corr
  df_all[corr.columns] = corr
  df_all[corr.columns] = corr
  df_all[trud.columns] = trud;
  df_all[trud.columns] = trud;
  df_all[trud.columns] = trud;
  df_all[trud.columns] = trud;
  df_all[trud.columns] = trud;
  df_all[trud.columns] = trud;


In [47]:
# SET: wszystkie elementy treści zsumowane (z poleceniem oraz bez polecenia): dla każdego zadania
corr = df_answers.filter(regex='.+_corr$')
trud = df_answers.filter(regex='.+_trud$')

df_all_with_com = pd.concat([df_answers[corr.columns], df_answers[trud.columns], df_A_aggr, df_B_aggr], axis=1)

df_all_without_com = pd.concat([df_answers[corr.columns], df_answers[trud.columns], df_a_aggr, df_b_aggr], axis=1)

In [48]:
def create_sum_sets(dfWithCom, dfWithoutCom, dfAllElements, corr, trud):
    total = dfWithCom.filter(regex='Total').sum(axis=1)
    avg = dfWithCom.filter(regex='^Avg_(?!pupil_)').sum(axis=1)
    avg_pupil = dfWithCom.filter(regex='Avg_pupil').mean(axis=1)
    num = dfWithCom.filter(regex='Num').sum(axis=1)
    df_sumWithCom = pd.DataFrame(data={'Corr': df_answers[corr], 'Trud': df_answers[trud], 'Total':total, 'Avg':avg, 'Num':num, 'Avg_pupil':avg_pupil})

    total = dfWithoutCom.filter(regex='Total').sum(axis=1)
    avg = dfWithoutCom.filter(regex='^Avg_(?!pupil_)').sum(axis=1)
    avg_pupil = dfWithoutCom.filter(regex='Avg_pupil').mean(axis=1)
    num = dfWithoutCom.filter(regex='Num').sum(axis=1)
    df_sumWithoutCom = pd.DataFrame(data={'Corr': df_answers[corr], 'Trud': df_answers[trud], 'Total':total, 'Avg':avg, 'Num':num, 'Avg_pupil':avg_pupil})

    total = dfAllElements.filter(regex='^Total_.*_com$').sum(axis=1)
    avg = dfAllElements.filter(regex='^Avg_(?!pupil_).*_com$').sum(axis=1)
    avg_pupil = dfAllElements.filter(regex='^Avg_pupil_.*_com$').mean(axis=1)
    num = dfAllElements.filter(regex='^Num_.*_com$').sum(axis=1)
    df_sumOnlyCom = pd.DataFrame(data={'Corr': df_answers[corr], 'Trud': df_answers[trud], 'Total':total, 'Avg':avg, 'Num':num, 'Avg_pupil':avg_pupil})
    
    return df_sumWithCom, df_sumWithoutCom, df_sumOnlyCom

In [49]:
# SETY: 
# suma wszystkich elementów
df_sumAllWithCom, df_sumAllWithoutCom, df_sumAllOnlyCom = create_sum_sets(df_all_with_com, df_all_without_com, df_all, 'Corr_all', 'Trud_all')

# suma A
df_sumAWithCom, df_sumAWithoutCom, df_sumAOnlyCom = create_sum_sets(df_A_aggr, df_a_aggr, df_a, 'SumCorr_a', 'SumTrud_a')

# suma B
df_sumBWithCom, df_sumBWithoutCom, df_sumBOnlyCom = create_sum_sets(df_B_aggr, df_b_aggr, df_b, 'SumCorr_b', 'SumTrud_b')

# suma 1
df_sum1WithCom, df_sum1WithoutCom, df_sum1OnlyCom = create_sum_sets(df_1_AGGR, df_1_aggr, df_1, 'SumCorr_1', 'SumTrud_1')

# suma 2
df_sum2WithCom, df_sum2WithoutCom, df_sum2OnlyCom = create_sum_sets(df_2_AGGR, df_2_aggr, df_2, 'SumCorr_2', 'SumTrud_2')

# suma 3
df_sum3WithCom, df_sum3WithoutCom, df_sum3OnlyCom = create_sum_sets(df_3_AGGR, df_3_aggr, df_3, 'SumCorr_3', 'SumTrud_3')

In [50]:
def create_collection_sets(dfWithCom, dfWithoutCom, dfAllElements, corr_regex, trud_regex):
    corr = prepare_row_df(df_all_with_com.filter(regex=corr_regex))
    trud = prepare_row_df(df_all_with_com.filter(regex=trud_regex))

    total = prepare_row_df(dfWithCom.filter(regex='Total'))
    avg = prepare_row_df(dfWithCom.filter(regex='Avg_(?!pupil_)'))
    avg_pupil = prepare_row_df(dfWithCom.filter(regex='Avg_pupil'))
    num = prepare_row_df(dfWithCom.filter(regex='Num'))
    df_collWithCom = pd.DataFrame(data={'Corr': corr, 'Trud': trud, 'Total':total, 'Avg':avg, 'Num':num, 'Avg_pupil':avg_pupil})

    total = prepare_row_df(dfWithoutCom.filter(regex='Total'))
    avg = prepare_row_df(dfWithoutCom.filter(regex='Avg_(?!pupil_)'))
    avg_pupil = prepare_row_df(dfWithoutCom.filter(regex='Avg_pupil'))
    num = prepare_row_df(dfWithoutCom.filter(regex='Num'))
    df_collWithoutCom = pd.DataFrame(data={'Corr': corr, 'Trud': trud, 'Total':total, 'Avg':avg, 'Num':num, 'Avg_pupil':avg_pupil})

    total = prepare_row_df(dfAllElements.filter(regex='^Total_.*_com$'))
    avg = prepare_row_df(dfAllElements.filter(regex='^Avg_(?!pupil_).*_com$'))
    avg_pupil = prepare_row_df(dfAllElements.filter(regex='^Avg_pupil_.*_com$'))
    num = prepare_row_df(dfAllElements.filter(regex='^Num_.*_com$'))
    df_collOnlyCom = pd.DataFrame(data={'Corr': corr, 'Trud': trud, 'Total':total, 'Avg':avg, 'Num':num, 'Avg_pupil':avg_pupil})
    
    return df_collWithCom, df_collWithoutCom, df_collOnlyCom

In [52]:
# SETY: 
# collections: wszystkie
df_collAllWithCom, df_collAllWithoutCom, df_collAllOnlyCom = create_collection_sets(df_all_with_com, df_all_without_com, df_all, '.+_corr$', '.+_trud$')

# collections: A
df_collAWithCom, df_collAWithoutCom, df_collAOnlyCom = create_collection_sets(df_A_aggr, df_a_aggr, df_a, '.+a_corr$', '.+a_trud$')

# collections: B
df_collBWithCom, df_collBWithoutCom, df_collBOnlyCom = create_collection_sets(df_B_aggr, df_b_aggr, df_b, '.+b_corr$', '.+b_trud$')

# collections: 1
df_coll1WithCom, df_coll1WithoutCom, df_coll1OnlyCom = create_collection_sets(df_1_AGGR, df_1_aggr, df_1, '^1.*_corr$', '^1.*_trud$')

# collections: 2
df_coll2WithCom, df_coll2WithoutCom, df_coll2OnlyCom = create_collection_sets(df_2_AGGR, df_2_aggr, df_2, '^2.*_corr$', '^2.*_trud$')

# collections: 3
df_coll3WithCom, df_coll3WithoutCom, df_coll3OnlyCom = create_collection_sets(df_3_AGGR, df_3_aggr, df_3, '^3.*_corr$', '^3.*_trud$')
df_1a

Unnamed: 0_level_0,Total_1a_map,Avg_1a_map,Min_1a_map,Max_1a_map,Num_1a_map,TTF_1a_map,DTTF_1a_map,Last_AOI_1a_map,AOI_int_end_1a_map,Avg_pupil_1a_map,Total_1a_com,Avg_1a_com,Min_1a_com,Max_1a_com,Num_1a_com,TTF_1a_com,DTTF_1a_com,Last_AOI_1a_com,AOI_int_end_1a_com,Avg_pupil_1a_com
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1
46,3133,104.0,67.0,242.0,30,6905.0,75.0,1a_com,,2.96666,1666,111.0,66.0,233.0,15,2630.0,108.0,1a_com,,2.91639
37,36009,187.0,0.0,542.0,193,0.0,0.0,1a_map,1a_map,2.90671,0,,,,0,,,1a_map,1a_map,
23,13774,98.0,66.0,217.0,140,5240.0,83.0,1a_map,,4.18933,1950,115.0,67.0,283.0,17,824.0,92.0,1a_map,,4.29518
40,42868,213.0,67.0,650.0,201,0.0,238.0,1a_map,,3.47541,558,93.0,67.0,125.0,6,1104.0,100.0,1a_map,,3.44126
19,33214,242.0,9.0,633.0,137,0.0,9.0,1a_map,,3.83562,2000,143.0,67.0,300.0,14,350.0,83.0,1a_map,,3.90341
31,26340,204.0,32.0,567.0,129,0.0,145.0,1a_map,1a_map,2.99505,8141,239.0,92.0,533.0,34,411.0,125.0,1a_map,1a_map,2.96409
38,31338,162.0,67.0,700.0,194,0.0,292.0,1a_com,1a_com,3.18883,785,157.0,83.0,308.0,5,2083.0,308.0,1a_com,1a_com,3.03834
35,79503,209.0,67.0,675.0,381,243.0,183.0,1a_com,,3.37629,2617,138.0,75.0,317.0,19,876.0,83.0,1a_com,,3.40619
42,37827,156.0,66.0,592.0,242,96.0,67.0,1a_com,,4.40725,3325,145.0,67.0,275.0,23,196.0,125.0,1a_com,,4.54866
14,26252,167.0,67.0,525.0,157,637.0,92.0,1a_map,1a_map,3.76177,1184,132.0,83.0,208.0,9,212.0,125.0,1a_map,1a_map,4.0749


In [58]:
def prepare_graphic_set(df, pattern):    
    regex = [re.compile('Min'), re.compile('Max'), re.compile('DTTF'), re.compile('TTF'), re.compile('AOI_int_end'), re.compile('^Last_AOI_[^_]+_(?!map)')]
    columns_to_drop = [col for col in df.columns if any(pat.search(col) for pat in regex)]
    df.drop(columns=columns_to_drop, inplace=True)
    df.columns = [col.replace('_map', '') if col.startswith('Last_AOI_') else col for col in df.columns]
    df.columns = [col.replace(f'_{pattern}', '') for col in df.columns]
    return df

In [61]:
# SET: wszystkie elementy
df_1a_samples = prepare_graphic_set(df_1a, "1a")
df_2a_samples = prepare_graphic_set(df_2a, "2a")
df_3a_samples = prepare_graphic_set(df_3a, "3a")
df_1b_samples = prepare_graphic_set(df_1b, "1b")
df_2b_samples = prepare_graphic_set(df_2b, "2b")
df_3b_samples = prepare_graphic_set(df_3b, "3b")

In [72]:
# Analiza NaNów
def print_nans(df):
    for col in df.filter(regex='Avg_pupil').columns:
        print(f"{col}: {df[col].isna().sum()} - tyle osób ani razu nie spojrzało na ten element")
    
    
for df, id in zip([df_1a_samples, df_1b_samples, df_2a_samples, df_2b_samples, df_3a_samples, df_3b_samples], ['1a', '1b', '2a', '2b', '3a', '3b']):
    print(id)
    print_nans(df)

1a
Avg_pupil_map: 0 - tyle osób ani razu nie spojrzało na ten element
Avg_pupil_com: 3 - tyle osób ani razu nie spojrzało na ten element
1b
Avg_pupil_map: 1 - tyle osób ani razu nie spojrzało na ten element
Avg_pupil_com: 3 - tyle osób ani razu nie spojrzało na ten element
Avg_pupil_plt: 5 - tyle osób ani razu nie spojrzało na ten element
Avg_pupil_tab: 1 - tyle osób ani razu nie spojrzało na ten element
Avg_pupil_txt: 12 - tyle osób ani razu nie spojrzało na ten element
2a
Avg_pupil_map: 0 - tyle osób ani razu nie spojrzało na ten element
Avg_pupil_com: 1 - tyle osób ani razu nie spojrzało na ten element
2b
Avg_pupil_map: 0 - tyle osób ani razu nie spojrzało na ten element
Avg_pupil_com: 1 - tyle osób ani razu nie spojrzało na ten element
Avg_pupil_plt: 5 - tyle osób ani razu nie spojrzało na ten element
Avg_pupil_tab: 1 - tyle osób ani razu nie spojrzało na ten element
Avg_pupil_txt: 1 - tyle osób ani razu nie spojrzało na ten element
3a
Avg_pupil_map: 0 - tyle osób ani razu nie spoj

In [76]:
dfs_sum = [df_sumAllWithCom, df_sumAllWithoutCom, df_sumAllOnlyCom, df_sumAWithCom, df_sumAWithoutCom, df_sumAOnlyCom, df_sumBWithCom, df_sumBWithoutCom, df_sumBOnlyCom, df_sum1WithCom, df_sum1WithoutCom, df_sum1OnlyCom, df_sum2WithCom, df_sum2WithoutCom, df_sum2OnlyCom, df_sum3WithCom, df_sum3WithoutCom, df_sum3OnlyCom]

dfs_coll = [df_collAllWithCom, df_collAllWithoutCom, df_collAllOnlyCom, df_collAWithCom, df_collAWithoutCom, df_collAOnlyCom, df_collBWithCom, df_collBWithoutCom, df_collBOnlyCom, df_coll1WithCom, df_coll1WithoutCom, df_coll1OnlyCom, df_coll2WithCom, df_coll2WithoutCom, df_coll2OnlyCom, df_coll3WithCom, df_coll3WithoutCom, df_coll3OnlyCom]

dfs_samples = [df_1a_samples, df_1b_samples, df_2a_samples, df_2b_samples, df_3a_samples, df_3b_samples]

names_sum = {
    1: 'Zsumowane wszystkie grafiki: z poleceniem:',
    2: 'Zsumowane wszystkie grafiki: bez polecenia:',
    3: 'Zsumowane wszystkie grafiki: tylko polecenie :',
    4: 'Zsumowane grafiki A: z poleceniem:',
    5: 'Zsumowane grafiki A: bez polecenia:',
    6: 'Zsumowane grafiki A: tylko polecenie :',
    7: 'Zsumowane grafiki B: z poleceniem:',
    8: 'Zsumowane grafiki B: bez polecenia:',
    9: 'Zsumowane grafiki B: tylko polecenie :',
    10: 'Zsumowane grafiki 1: z poleceniem:',
    11: 'Zsumowane grafiki 1: bez polecenia:',
    12: 'Zsumowane grafiki 1: tylko polecenie :',
    13: 'Zsumowane grafiki 2: z poleceniem:',
    14: 'Zsumowane grafiki 2: bez polecenia:',
    15: 'Zsumowane grafiki 2: tylko polecenie :',
    16: 'Zsumowane grafiki 3: z poleceniem:',
    17: 'Zsumowane grafiki 3: bez polecenia:',
    18: 'Zsumowane grafiki 3: tylko polecenie :',
}

names_coll = {
    1: 'Kolekcja wszystkie grafiki: z poleceniem:',
    2: 'Kolekcja wszystkie grafiki: bez polecenia:',
    3: 'Kolekcja wszystkie grafiki: tylko polecenie :',
    4: 'Kolekcja grafiki A: z poleceniem:',
    5: 'Kolekcja grafiki A: bez polecenia:',
    6: 'Kolekcja grafiki A: tylko polecenie :',
    7: 'Kolekcja grafiki B: z poleceniem:',
    8: 'Kolekcja grafiki B: bez polecenia:',
    9: 'Kolekcja grafiki B: tylko polecenie :',
    10: 'Kolekcja grafiki 1: z poleceniem:',
    11: 'Kolekcja grafiki 1: bez polecenia:',
    12: 'Kolekcja grafiki 1: tylko polecenie :',
    13: 'Kolekcja grafiki 2: z poleceniem:',
    14: 'Kolekcja grafiki 2: bez polecenia:',
    15: 'Kolekcja grafiki 2: tylko polecenie :',
    16: 'Kolekcja grafiki 3: z poleceniem:',
    17: 'Kolekcja grafiki 3: bez polecenia:',
    18: 'Kolekcja grafiki 3: tylko polecenie :',
}

names_samples = {
    1: '1a',
    2: '1b',
    3: '2a',
    4: '2b',
    5: '3a',
    6: '3b',
}

### Testy:

**H0:** Nie ma istotnej statystycznie zależności między poprawnością odpowiedzi a daną metryką dotyczącą fiksacji.

**H1:** Istnieje istotna statystycznie zależność między poprawnością odpowiedzi a daną metryką dotyczącą fiksacji.

**Poziom istotności:** $\alpha=0.05$

In [55]:
ALPHA = 0.05