# Datasetin luonti analyysia varten
[Cognition.run](https://www.cognition.run) tallentaa jokaisen kokeen aikana tapahtuneen tapahtuman omalle rivilleen. Suurin osa tapahtumista eivät ole tarpeellisia analyysin kannalta, joten ne on siivottava datasetistä pois. Datasetti tulee myös muokata sellaiseen muotoon, että siitä on helpompi tehdä analyyseja.

31 yksi henkilöä ilmoittautui osallistujaksi kokeeseen, joista 30 suoritti kokeen (ID 24 ei osallistunut). Yksi osallistujista osallistui kokeeseen englannin kielellä, joten hänen dataansa ei käytetä analyysissa (ID 7). Yksi osallistujista kysyi kokeen suoritettuaan "missä vaiheessa se puhelimeen liittyvä osuus on?". Hänen dataansa ei myöskään käytetä analyysissa, koska selvästi tiesi kokeen tavoitteista liikaa ennen kokeeseen osallistumista (ID 1). Otoksen koko on siis yhteensä **28**.

Ladataan ensin cognition.run sivustolta ladattu raaka data. Suomen ja englannin kieliset tehtävät olivat palvelussa erillään, joten tässä datasetissä on vain **englanninkielellä** suoritetut tehtävät.

In [1]:
import pandas as pd
import matplotlib as plt
import numpy as np

# Ospan aineisto

In [2]:
df=pd.read_csv('Raw data/ospan-english.csv', delimiter=',' )

In [3]:
print('Uniikit: ', df['subjectId'].unique())
print('Yhteensä: ',df['subjectId'].unique().size)

Uniikit:  [7]
Yhteensä:  1


In [7]:
df = df[df.subjectId != 1]
print('Osallistujia yhteensä: ', df['subjectId'].unique().size)

Osallistujia yhteensä:  28


Nyt kaikilla riveillä on oikea subjectId ja datasetissä oikeat osallistujat.

Tutkitaan ensin koko datasettiä ja sen sisältämää tietoa.

In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5936 entries, 106 to 6147
Data columns (total 27 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   success              112 non-null    object 
 1   trial_type           5936 non-null   object 
 2   trial_index          5936 non-null   int64  
 3   time_elapsed         5936 non-null   int64  
 4   internal_node_id     5936 non-null   object 
 5   run_id               5936 non-null   int64  
 6   condition            5936 non-null   int64  
 7   recorded_at          5936 non-null   object 
 8   source_code_version  5936 non-null   object 
 9   ip                   0 non-null      float64
 10  user_agent           5936 non-null   object 
 11  device               5936 non-null   object 
 12  browser              5936 non-null   object 
 13  browser_version      5936 non-null   object 
 14  platform             5936 non-null   object 
 15  platform_version     5936 non-null  

Analyysia varten tarvitsemme seuraavat tiedot:
1. Osallistujan ID (SubjectId)
2. Kummassa koetilanteessa tehtävä on suoritettu (cond)
3. Kumpi tehtävistä suoritettiin ensin (bal)
4. Kuinka paljon osallistuja muisti kirjaimia oikein (accuracy)
5. Kuinka paljon osallistuja vastasi laskutehtäviin oikein (accuracy)

Pisteytyksen voisi myös halutessaan tarkistaa pisteyttämällä tulokset itse recall ja stimuli muuttujien avulla.

Tutkitaan missä halutut tiedot datassa sijaitsevat.

In [9]:
df.head(30)

Unnamed: 0,success,trial_type,trial_index,time_elapsed,internal_node_id,run_id,condition,recorded_at,source_code_version,ip,...,cond,bal,view_history,rt,stimulus,key_press,accuracy,recall,stimuli,set_size
106,True,fullscreen,0,993470,0.0-0.0,2,1,2022-05-05 14:02:39,07e2e056772a877f89175bcd11545e20,,...,2,a,,,,,,,,
107,,instructions,1,996580,0.0-1.0,2,1,2022-05-05 14:02:39,07e2e056772a877f89175bcd11545e20,,...,2,a,"[{""page_index"":0,""viewing_time"":3108}]",3108.0,,,,,,
108,,html-keyboard-response,2,997583,0.0-2.0-0.0-0.0,2,1,2022-05-05 14:02:39,07e2e056772a877f89175bcd11545e20,,...,2,a,,,"<div style=""font-size:70px;"">L<br><br><br><br>...",,,,,
109,,html-button-operationspan,3,1000436,0.0-2.0-0.0-1.0,2,1,2022-05-05 14:02:39,07e2e056772a877f89175bcd11545e20,,...,2,a,,2850.0,"<div style=""font-size:46px;"">9 - 1 = 6<br><br>...",,1.0,,,
110,,html-keyboard-response,4,1000441,0.0-2.0-0.0-2.0,2,1,2022-05-05 14:02:39,07e2e056772a877f89175bcd11545e20,,...,2,a,,,,,,,,
111,,html-keyboard-response,5,1001457,0.0-2.0-0.0-0.1,2,1,2022-05-05 14:02:39,07e2e056772a877f89175bcd11545e20,,...,2,a,,,"<div style=""font-size:70px;"">R<br><br><br><br>...",,,,,
112,,html-button-operationspan,6,1004523,0.0-2.0-0.0-1.1,2,1,2022-05-05 14:02:39,07e2e056772a877f89175bcd11545e20,,...,2,a,,3063.0,"<div style=""font-size:46px;"">3 - 1 = 2<br><br>...",,1.0,,,
113,,html-keyboard-response,7,1004526,0.0-2.0-0.0-2.1,2,1,2022-05-05 14:02:39,07e2e056772a877f89175bcd11545e20,,...,2,a,,,,,,,,
114,,html-keyboard-response,8,1005528,0.0-2.0-0.0-0.2,2,1,2022-05-05 14:02:39,07e2e056772a877f89175bcd11545e20,,...,2,a,,,"<div style=""font-size:70px;"">S<br><br><br><br>...",,,,,
115,,html-button-operationspan,9,1007340,0.0-2.0-0.0-1.2,2,1,2022-05-05 14:02:39,07e2e056772a877f89175bcd11545e20,,...,2,a,,1810.0,"<div style=""font-size:46px;"">2 - 1 = 0<br><br>...",,1.0,,,


Muuttujat subjectId, cond ja bal ovat mukana kaikilla riveillä osoittamassa missä tilanteessa tehtävät ovat suoritettu. Analyysin kannalta kiinnostavat accuracy arvot löytyvät riveiltä, joissa trial_type on 'operation-span-recall'. Niiden avulla saa laskettua kuinka paljon osallistuja muisti kirjaimia oikein. 

Lisäksi trial_type 'html-button-operationspan' sijaitsevista accuracy muuttujista täytyy laskea kuinka paljon osallistuja sai oikein laskutehtävistä. Niiden osallistujien, jotka saivat lasku tehtävistä alle 85% oikein, dataa ei voi käyttää analyysissa, koska heidän ei voi katsoa suorittaneen tehtävää oikein.

## Laskutehtävien suorittamisprosenttien laskenta
Valitaan vain trial_type 'html-button-operationspan' ja lasketaan oikein suoritettujen laskutehtävien prosenttiosuus.

In [4]:
df_math = df.loc[lambda df: df['trial_type'] == 'html-button-operationspan']

df_math = df_math[['subjectId', 'accuracy','cond']]

df_math.head()

Unnamed: 0,subjectId,accuracy,cond
3,7,1.0,1
6,7,1.0,1
9,7,1.0,1
12,7,1.0,1
15,7,1.0,1


In [5]:
print('Uniikit: ', df_math['subjectId'].unique())
print('Yhteensä: ',df_math['subjectId'].unique().size)
print('\nInfo:')
print(df_math.info())

Uniikit:  [7]
Yhteensä:  1

Info:
<class 'pandas.core.frame.DataFrame'>
Int64Index: 60 entries, 3 to 206
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   subjectId  60 non-null     int64  
 1   accuracy   60 non-null     float64
 2   cond       60 non-null     int64  
dtypes: float64(1), int64(2)
memory usage: 1.9 KB
None


Lasketaan laskutehtävässä onnistumisprosentti molemmissa koetilanteissa erikeen sekä yhteenlaskettuna. Taulukossa näkyy kaikki rivit joilla tarkkuus on alle 85%

In [7]:
print('85% oikein vastauksia: >',30*0.85)
df_sum = df_math.groupby(by=['subjectId','cond']).sum()
df_sum[df_sum['accuracy'] < 26]

85% oikein vastauksia: > 25.5


Unnamed: 0_level_0,Unnamed: 1_level_0,accuracy
subjectId,cond,Unnamed: 2_level_1


In [11]:
print('85% oikein vastauksia: >',30*0.85)
df_sum2 = df_math.groupby(by=['subjectId','cond']).sum()
df_sum2

85% oikein vastauksia: > 25.5


Unnamed: 0_level_0,Unnamed: 1_level_0,accuracy
subjectId,cond,Unnamed: 2_level_1
7,1,30.0
7,2,30.0


## Ospan datan järjestely
Kertauksena, analyysia varten tarvitsemme seuraavat tiedot:
1. Osallistujan ID (SubjectId)
2. Kummassa koetilanteessa tehtävä on suoritettu (cond)
3. Kumpi tehtävistä suoritettiin ensin (bal)
4. Kuinka paljon osallistuja muisti kirjaimia oikein (accuracy)
    - Tästä tulee laskea summa

In [12]:
df_in = df.loc[lambda df: df['trial_type'] == 'operation-span-recall']

df_ospan = df_in[['subjectId','cond','accuracy','bal']]
df_ospan

Unnamed: 0,subjectId,cond,accuracy,bal
17,7,1,4.0,a
37,7,1,6.0,a
57,7,1,2.0,a
71,7,1,4.0,a
85,7,1,2.0,a
102,7,1,3.0,a
126,7,2,4.0,a
146,7,2,4.0,a
163,7,2,2.0,a
177,7,2,1.0,a


Jaetaan koetilanteiden pisteet erillisiin dataframeihin ja yhdistetään ne ja counterbalanssi muuttuja

In [13]:
cond1 = df_ospan[df_ospan['cond'] == 1]
cond1 = cond1.drop(['cond'], axis=1)
cond1 = cond1.rename(columns = {'accuracy': 'score_1'})
cond1 = cond1.reset_index().drop('index',axis=1)
cond1 = cond1.groupby(by=['subjectId']).sum()

cond2 = df_ospan[df_ospan['cond'] == 2]
cond2 = cond2.drop(['cond'], axis=1)
cond2 = cond2.rename(columns = {'accuracy': 'score_2'})
cond2 = cond2.set_index('subjectId').sort_index()
cond2 = cond2.groupby(by=['subjectId']).sum()

df_join = cond1.join(cond2)

df_bal = df_in[['subjectId','bal']]
df_bal = df_bal.drop_duplicates().set_index('subjectId').sort_index()

df_join = df_join.join(df_bal)
df_join

Unnamed: 0_level_0,score_1,score_2,bal
subjectId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
7,21.0,20.0,a


Ospan tulokset on nyt järjestettynä. Englanninkielestä aineistoa ei analyysissä käytetty, koska siinä on vain yksi osallistuja. Tehtävän tulos kuitenkin lähetettiin osallistujalle.

In [20]:
df_join['score_1'] = df_join['score_1'].astype('int64')
df_join['score_2'] = df_join['score_2'].astype('int64')

## Datan tarkistus
Tarkistetaan ensin, että aineisto ei ole muuttunut koodauksen aikana.

In [21]:
df_survey_coded=pd.read_csv('Raw data/Ennakko-gradu_Perusraportti_koodattu.csv', delimiter=';' )
df_survey_raw=pd.read_csv('Raw data/Ennakko-gradu_Perusraportti.csv', delimiter=';' )
df_survey_coded[np.all(df_survey_coded.values == df_survey_raw.values,1)].any().any()

True

Ei ole muuttunut.

## Dataframen muuttujan nimi lyhyempään muotoon

In [22]:
df_survey = df_survey_coded

## Poistetaan osallistujanumero 1

In [23]:
df_survey = df_survey[df_survey.subjectId != 1]
print('Osallistujia yhteensä: ', df_survey['subjectId'].unique().size)

Osallistujia yhteensä:  28


## Suostumus tutkimukseen osallistumisesta
Tarkistetaan, että jokainen osallistuja on antanut suostumuksen tutkimukseen osallistumiselle.

In [24]:
df_survey['consent'].count()

28

Jokainen osallistuja on antanut suostumuksen. Se rivi voidaan poistaa aineistosta.

In [25]:
df_survey = df_survey.drop('consent',axis=1)

## Ylimääräisen sarakkeen poistaminen

Saraketta 'result' ei tarvita analyysissa.

In [26]:
df_survey = df_survey.drop('result',axis=1)

## Yhdistetään kyselyainesto ospan-aineistoon

In [27]:
df_survey = df_survey.set_index('subjectId').sort_index()

df_survey.head()

Unnamed: 0_level_0,gender,age,vdaq_1,vdaq_2,vdaq_3,vdaq_4,vdaq_5,vdaq_6,vdaq_7,vdaq_8,...,ovs_3,ovs_4,ovs_5,ovs_6,ovs_7,ovs_8,ovs_9,ovs_10,ovs_11,ovs_12
subjectId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2,1,31,3,3,3,4,4,3,3,3,...,2,2.0,3,2,3,2,3,2,2,2
3,1,26,3,4,4,4,4,4,4,2,...,2,2.0,5,5,5,2,2,4,5,3
4,1,28,3,1,4,4,2,3,2,3,...,1,2.0,4,4,2,2,4,5,5,3
5,2,26,3,4,2,3,4,2,3,2,...,3,4.0,4,4,4,4,2,2,2,2
6,2,25,3,2,4,2,2,3,3,3,...,2,2.0,3,4,3,2,2,4,4,3


In [28]:
df_combined = df_join.join(df_survey)
df_combined = df_combined.reset_index()

df_combined.head()

Unnamed: 0,subjectId,score_1,score_2,bal,gender,age,vdaq_1,vdaq_2,vdaq_3,vdaq_4,...,ovs_3,ovs_4,ovs_5,ovs_6,ovs_7,ovs_8,ovs_9,ovs_10,ovs_11,ovs_12
0,2,19,25,b,1,31,3,3,3,4,...,2,2.0,3,2,3,2,3,2,2,2
1,3,18,21,a,1,26,3,4,4,4,...,2,2.0,5,5,5,2,2,4,5,3
2,4,26,26,b,1,28,3,1,4,4,...,1,2.0,4,4,2,2,4,5,5,3
3,5,22,21,a,2,26,3,4,2,3,...,3,4.0,4,4,4,4,2,2,2,2
4,6,28,30,b,2,25,3,2,4,2,...,2,2.0,3,4,3,2,2,4,4,3


## Muutetaan `0` arvot `NaN`
"En osaa vastata" vastaukset tulee tulkita tyhjäksi, joten kaikki `0` arvot tulee muuttaa `NaN`

In [29]:
df_combined = df_combined.where(df_combined != 0, np.nan)

## Arvojen kääntäminen
Osa kysymyksistä on ollut käännettyjä, joten niiden kysymysten arvot täytyy muuttaa.

In [30]:
df_combined[['asq_2','asq_3','asq_7','asq_10', 'asq_12']] = df_combined[['asq_2','asq_3','asq_7','asq_10', 'asq_12']].replace([1,2,3,4,5,6], [6,5,4,3,2,1])

## Summamuuttujien luonti
Kyselyn vastauksista tulee luoda summamuuttujat. Osallistujat ovat voineet myös jättää vastaamatta niin halutessaan, mikä tekee summamuuttujan luomisesta hieman monimutkaisempaa. Jos kysymykseen ei ole vastattu, sitä ei pidä ottaa huomioon keskiarvon laskennassa. Toisinsanoen arvot `NaN` tulee jättää huomioimatta. 

pandas laskee keskiarvon oletuksena oikein, jos `0` tilalla on `NaN`

In [31]:
df_mims = df_combined

df_mims['vdaq'] = df_mims[['vdaq_1', 'vdaq_2','vdaq_3','vdaq_4','vdaq_5','vdaq_6','vdaq_7','vdaq_8','vdaq_9','vdaq_10','vdaq_11','vdaq_12','vdaq_13','vdaq_14','vdaq_15','vdaq_16',]].mean(axis=1)

df_mims['asq_int'] = df_mims[['asq_2', 'asq_4', 'asq_5', 'asq_6', 'asq_7', 'asq_8', 'asq_9']].mean(axis=1)
df_mims['asq_ext'] = df_mims[['asq_1', 'asq_3', 'asq_10', 'asq_11', 'asq_12']].mean(axis=1)
df_mims['asq'] = df_mims[['asq_1', 'asq_2' ,'asq_3', 'asq_4', 'asq_5', 'asq_6', 'asq_7','asq_8','asq_9', 'asq_10', 'asq_11', 'asq_12']].mean(axis=1)

df_mims['ovs'] = df_mims[['ovs_1', 'ovs_2', 'ovs_3', 'ovs_4', 'ovs_5', 'ovs_6', 'ovs_7', 'ovs_8', 'ovs_9', 'ovs_10', 'ovs_11', 'ovs_12']].mean(axis=1)
df_mims['ovs_salience'] = df_mims[['ovs_1', 'ovs_2', 'ovs_3', 'ovs_4']].mean(axis=1)
df_mims['ovs_reactibility'] = df_mims[['ovs_5', 'ovs_6', 'ovs_7', 'ovs_8']].mean(axis=1)
df_mims['ovs_monitoring'] = df_mims[['ovs_9', 'ovs_10', 'ovs_11', 'ovs_12']].mean(axis=1)

In [32]:
# Pois kommentista, jos halutaan todella kirjoittaa uusi tiedosto
df_mims.to_csv('ospan_and_survey.csv',index=False)