In [1]:
import sys
import os
sys.path.append(os.path.abspath(".."))

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import re
from IPython.display import display, HTML
sns.set(context='paper', style='whitegrid', color_codes=True, font_scale=1.8)
colorcycle = [(0.498, 0.788, 0.498),
              (0.745, 0.682, 0.831),
              (0.992, 0.753, 0.525),
              (0.220, 0.424, 0.690),
              (0.749, 0.357, 0.090),
              (1.000, 1.000, 0.600),
              (0.941, 0.008, 0.498),
              (0.400, 0.400, 0.400)]
sns.set_palette(colorcycle)
mpl.rcParams['figure.max_open_warning'] = 65
mpl.rcParams['figure.figsize'] = [12, 7]
mpl.rcParams['text.usetex'] = True

from speclib import misc, plotting, loaders

%matplotlib inline

In [2]:
df = pd.read_json('../../allan_data/RGender_.json')
userAlias = loaders.Useralias()
df.index = df.index.map(lambda s: userAlias.lookup(s))
q = misc.QuestionCompleter(df)
f = misc.QuestionFilterer(df)

df.head()

Unnamed: 0,alcohol_binge10__answer,alcohol_binge10__answer_type,alcohol_binge10__condition,alcohol_binge10__question,alcohol_binge10__response,alcohol_binge5__answer,alcohol_binge5__answer_type,alcohol_binge5__condition,alcohol_binge5__question,alcohol_binge5__response,...,worries_partner__answer,worries_partner__answer_type,worries_partner__condition,worries_partner__question,worries_partner__response,worries_zieblings__answer,worries_zieblings__answer_type,worries_zieblings__condition,worries_zieblings__question,worries_zieblings__response
0010fedde8e61cad5b049da6df8b5a,1.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 10 genstande på en dag/aften,1 gange,2.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 5 genstande på en dag/aften,2 gange,...,,radio,False,Kæreste/ægtefælle,Har ingen,3.0,radio,False,Søskende,Sjældent
002ee26a0c38a1f77b7cdeab8046cd,1.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 10 genstande på en dag/aften,1 gange,0.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 5 genstande på en dag/aften,0 gange,...,2.0,radio,False,Kæreste/ægtefælle,Af og til,,radio,False,Søskende,Har ingen
0037c93a19a7e90580086b462ba11b,2.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 10 genstande på en dag/aften,2 gange,2.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 5 genstande på en dag/aften,2 gange,...,,radio,False,Kæreste/ægtefælle,Har ingen,2.0,radio,False,Søskende,Af og til
005b1e0298bde6b726156aefb8d88c,1.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 10 genstande på en dag/aften,1 gange,1.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 5 genstande på en dag/aften,1 gange,...,,radio,False,Kæreste/ægtefælle,Har ingen,,radio,False,Søskende,Har ingen
00ad591e46eb6f3d8c474d9de9e219,0.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 10 genstande på en dag/aften,0 gange,1.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 5 genstande på en dag/aften,1 gange,...,2.0,radio,False,Kæreste/ægtefælle,Af og til,3.0,radio,False,Søskende,Sjældent


## The types of questions

In [3]:
df.filter(like='answer_type').iloc[0].value_counts()

radio           266
number           16
multi_number      2
scale             1
number;radio      1
Name: 0010fedde8e61cad5b049da6df8b5a, dtype: int64

In [4]:
misc.questionSummary(df, q.alcohol_debut, samplesize=10)

Unnamed: 0,response_index,answer_index,count
0,14,0.0,34
1,15,1.0,906


Unnamed: 0,alcohol_debut__answer,alcohol_debut__response
d0835aa354df732a6e9a1174a3ff4a,1.0,16
177359680e0b719a84e64a150ee53c,1.0,14
6136b0f74ca0a587aa0fc059feb71a,1.0,12
ddb63b1c90f28acf3f9e1721bbf4fd,1.0,12
658289f8dc454ef88136ba29558854,1.0,16
6d0d837492d3a5f6cc54978a40229f,1.0,15
9561b97d9af6f35cd632cf59532f6e,1.0,12
92b9694424324ffdb022485eb5e0fe,1.0,12
e280be63ab4b0d6ec9596e0500ea02,1.0,13
df4b3f9980564aa2cbc3beca9eb019,1.0,29


In [5]:
f.alcohol_debut.head()

Unnamed: 0,alcohol_debut__answer,alcohol_debut__answer_type,alcohol_debut__condition,alcohol_debut__question,alcohol_debut__response
0010fedde8e61cad5b049da6df8b5a,1.0,number;radio,False,Hvor gammel var du første gang du drak mindst ...,15
002ee26a0c38a1f77b7cdeab8046cd,1.0,number;radio,False,Hvor gammel var du første gang du drak mindst ...,14
0037c93a19a7e90580086b462ba11b,1.0,number;radio,False,Hvor gammel var du første gang du drak mindst ...,15
005b1e0298bde6b726156aefb8d88c,1.0,number;radio,False,Hvor gammel var du første gang du drak mindst ...,14
00ad591e46eb6f3d8c474d9de9e219,1.0,number;radio,False,Hvor gammel var du første gang du drak mindst ...,16


In [6]:
df.alcohol_debut__answer.value_counts()

1.0    906
0.0     34
Name: alcohol_debut__answer, dtype: int64

In [7]:
print(*f.alcohol_debut.columns, sep='\n')

alcohol_debut__answer
alcohol_debut__answer_type
alcohol_debut__condition
alcohol_debut__question
alcohol_debut__response


In [8]:
cq = f.alcohol_drunk

In [9]:
cq.groupby(cq.alcohol_drunk__answer)[q.alcohol_drunk__response].value_counts()

alcohol_drunk__answer  alcohol_drunk__response
0.0                    0 gange                    135
1.0                    1 gange                    124
2.0                    2 gange                    155
3.0                    3 gange                    120
4.0                    4-5 gange                  187
5.0                    6-9 gange                  136
6.0                    10+ gange                   49
Name: alcohol_drunk__response, dtype: int64

In [10]:
radio_questions = df.iloc[0].filter(like='answer_type')
radio_questions = radio_questions[radio_questions == 'radio'].index
radio_questions = radio_questions.str.replace('__answer_type', '').tolist()

In [11]:
def response_compare(df, q):
    cq = df.filter(like=q)
    res = cq.groupby(cq[q + '__answer'])[q + '__response'].unique()
    res = res.map(lambda el: el[0])
    return res

In [12]:
summary_list = list()
for cq in radio_questions:
    res = pd.DataFrame(response_compare(df, cq))
    qstr = df.iloc[0].filter(like=cq + '__question')
    summary_list.append((qstr, res))

In [13]:
misc.questionSummary(df, q.function_duties)

Unnamed: 0,response_index,answer_index,count
0,Slet ikke,0.0,322
1,Lidt,1.0,341
2,Noget,2.0,188
3,Meget,3.0,70
4,Virkelig meget/kan ikke,4.0,12


In [16]:
%run examine_questions_for_reversed_scales_functions.py

In [17]:
fails = list()
for i, (qstr, res) in enumerate(summary_list):
    ans_extract = check_question_scales(res)
    if not ans_extract:
        fails.append(i)
        print(f"{i}:\t" + qstr.index[0], qstr.values[0], sep='\n', end='\n\n')

6:	ambition_career__question
Hvor vigtig er din faglige karriere for dig i forhold til andre ting i dit liv såsom venner, familie, fritid?

7:	ambition_job__question
Hvor vigtige tror du, at dine karakterer på det første år, er for det job du godt kunne tænke dig, når du er færdig med uddannelsen?

8:	ambition_mark__question
Hvor meget betyder dine karakterer for dig?

53:	conflicts_father__question
Far

54:	conflicts_friends__question
Venner

55:	conflicts_mother__question
Mor

56:	conflicts_other_family__question
Øvrig familie

57:	conflicts_partner__question
Kæreste/ægtefælle

58:	conflicts_zieblings__question
Søskende

59:	contact_father__question
Far

60:	contact_friends__question
Venner

61:	contact_mother__question
Mor

62:	contact_other_familily__question
Øvrig familie

63:	contact_partner__question
Kæreste/ægtefælle

64:	contact_zieblings__question
Søskende

65:	demands_father__question
Far

66:	demands_friends__question
Venner

67:	demands_mother__question
Mor

68:	demands_ot

153:	mdi_quiet__question
Har du følt dig mere stille?

154:	mdi_restless__question
Har du følt dig rastløs?

155:	mdi_sleep__question
Har du haft besvær med at sove om natten? 

156:	medicine_concentration__question
der fremmer din koncentrationsevne

157:	medicine_depressed__question
mod nedtrykthed

158:	medicine_headache__question
mod hovedpine

159:	medicine_nervous__question
mod nervøsitet

160:	medicine_pain__question
mod smerter andre steder

161:	medicine_physical__question
der fremmer din fysiske præstation

162:	medicine_sleep__question
mod søvnproblemer

192:	physical_activity__question
Indenfor <u>den sidste måned</u>, hvor mange timer om ugen har du været fysisk aktiv? Udover sport og motion, medregn også hus- og havearbejde, gå- og cykelture – også til og fra uddannelse og arbejde.

193:	physical_function_exercise__question
Kan du motionere i en time?

194:	physical_function_lift__question
Kan du løfte 10 kg over skulderhøjde?

195:	physical_function_physical__question
Ka

In [30]:
print(f"Result was alse for {len(fails)} questions, or {len(fails)/len(summary_list)*100:.0f} %.")

Result was alse for 177 questions, or 67 %.


In [22]:
misc.questionSummary(df, 'bfi_calm')

Unnamed: 0,response_index,answer_index,count
0,Meget uenig,0.0,4
1,Uenig,1.0,51
2,Hverken enig eller uenig,2.0,231
3,Enig,3.0,495
4,Meget enig,4.0,161


In [23]:
res

Unnamed: 0_level_0,Unnamed: 1_level_0,bf_complet
answer,response,Unnamed: 2_level_1
0.0,Meget uenig,10
1.0,Uenig,113
2.0,Hverken enig eller uenig,327
3.0,Enig,413
4.0,Meget enig,79


In [24]:
ans = pd.Series([res.index.levels[1][i] for i in res.index.labels[1]])

In [25]:
ans

0                 Meget uenig
1                       Uenig
2    Hverken enig eller uenig
3                        Enig
4                  Meget enig
dtype: object