In [1]:
import sys
import os
sys.path.append(os.path.abspath(".."))

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import re
from IPython.display import display, HTML
sns.set(context='paper', style='whitegrid', color_codes=True, font_scale=1.8)
colorcycle = [(0.498, 0.788, 0.498),
              (0.745, 0.682, 0.831),
              (0.992, 0.753, 0.525),
              (0.220, 0.424, 0.690),
              (0.749, 0.357, 0.090),
              (1.000, 1.000, 0.600),
              (0.941, 0.008, 0.498),
              (0.400, 0.400, 0.400)]
sns.set_palette(colorcycle)
mpl.rcParams['figure.max_open_warning'] = 65
mpl.rcParams['figure.figsize'] = [12, 7]
mpl.rcParams['text.usetex'] = True

from speclib import misc, plotting, loaders

%matplotlib inline

In [2]:
df = pd.read_json('../../allan_data/RGender_.json')
userAlias = loaders.Useralias()
df.index = df.index.map(lambda s: userAlias.lookup(s))
q = misc.QuestionCompleter(df)
f = misc.QuestionFilterer(df)

df.head()

Unnamed: 0,alcohol_binge10__answer,alcohol_binge10__answer_type,alcohol_binge10__condition,alcohol_binge10__question,alcohol_binge10__response,alcohol_binge5__answer,alcohol_binge5__answer_type,alcohol_binge5__condition,alcohol_binge5__question,alcohol_binge5__response,...,worries_partner__answer,worries_partner__answer_type,worries_partner__condition,worries_partner__question,worries_partner__response,worries_zieblings__answer,worries_zieblings__answer_type,worries_zieblings__condition,worries_zieblings__question,worries_zieblings__response
0010fedde8e61cad5b049da6df8b5a,1.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 10 genstande på en dag/aften,1 gange,2.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 5 genstande på en dag/aften,2 gange,...,,radio,False,Kæreste/ægtefælle,Har ingen,3.0,radio,False,Søskende,Sjældent
002ee26a0c38a1f77b7cdeab8046cd,1.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 10 genstande på en dag/aften,1 gange,0.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 5 genstande på en dag/aften,0 gange,...,2.0,radio,False,Kæreste/ægtefælle,Af og til,,radio,False,Søskende,Har ingen
0037c93a19a7e90580086b462ba11b,2.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 10 genstande på en dag/aften,2 gange,2.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 5 genstande på en dag/aften,2 gange,...,,radio,False,Kæreste/ægtefælle,Har ingen,2.0,radio,False,Søskende,Af og til
005b1e0298bde6b726156aefb8d88c,1.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 10 genstande på en dag/aften,1 gange,1.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 5 genstande på en dag/aften,1 gange,...,,radio,False,Kæreste/ægtefælle,Har ingen,,radio,False,Søskende,Har ingen
00ad591e46eb6f3d8c474d9de9e219,0.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 10 genstande på en dag/aften,0 gange,1.0,radio,alcohol_debut != 'Jeg har aldrig drukket alkohol',Drukket mere end 5 genstande på en dag/aften,1 gange,...,2.0,radio,False,Kæreste/ægtefælle,Af og til,3.0,radio,False,Søskende,Sjældent


## The types of questions

In [3]:
df.filter(like='answer_type').iloc[0].value_counts()

radio           266
number           16
multi_number      2
number;radio      1
scale             1
Name: 0010fedde8e61cad5b049da6df8b5a, dtype: int64

In [4]:
misc.questionSummary(df, q.alcohol_debut, samplesize=10)

Unnamed: 0,response_index,answer_index,count
0,14,0.0,34
1,15,1.0,906


Unnamed: 0,alcohol_debut__answer,alcohol_debut__response
c97d4dc047548a58aed2e7aaca58be,1.0,15
30b639aa61a5ea9037774f851b16f3,1.0,13
249ade4a6962f7f6a7ba663bd5468e,0.0,jeg_har_aldrig_drukket_alkohol
1a876510d7aee92aca3989ee1c0020,1.0,14
c1fcc5591fdbaf78c00d468ddcc43b,1.0,15
c3e0d3ae5936ee580d4dcdba281446,1.0,12
f41c375b5c87d3593b963b49a3f9a3,1.0,16
fa14720117a29e0a03f8f23975de5e,1.0,16
d10c230dd1eba0aeb6f4a2a2a90b94,1.0,16
0ff4e370c221cd71bbb1f892c60cfd,1.0,5


In [5]:
f.alcohol_debut.head()

Unnamed: 0,alcohol_debut__answer,alcohol_debut__answer_type,alcohol_debut__condition,alcohol_debut__question,alcohol_debut__response
0010fedde8e61cad5b049da6df8b5a,1.0,number;radio,False,Hvor gammel var du første gang du drak mindst ...,15
002ee26a0c38a1f77b7cdeab8046cd,1.0,number;radio,False,Hvor gammel var du første gang du drak mindst ...,14
0037c93a19a7e90580086b462ba11b,1.0,number;radio,False,Hvor gammel var du første gang du drak mindst ...,15
005b1e0298bde6b726156aefb8d88c,1.0,number;radio,False,Hvor gammel var du første gang du drak mindst ...,14
00ad591e46eb6f3d8c474d9de9e219,1.0,number;radio,False,Hvor gammel var du første gang du drak mindst ...,16


In [6]:
df.alcohol_debut__answer.value_counts()

1.0    906
0.0     34
Name: alcohol_debut__answer, dtype: int64

In [7]:
print(*f.alcohol_debut.columns, sep='\n')

alcohol_debut__answer
alcohol_debut__answer_type
alcohol_debut__condition
alcohol_debut__question
alcohol_debut__response


In [8]:
cq = f.alcohol_drunk

In [9]:
cq.groupby(cq.alcohol_drunk__answer)[q.alcohol_drunk__response].value_counts()

alcohol_drunk__answer  alcohol_drunk__response
0.0                    0 gange                    135
1.0                    1 gange                    124
2.0                    2 gange                    155
3.0                    3 gange                    120
4.0                    4-5 gange                  187
5.0                    6-9 gange                  136
6.0                    10+ gange                   49
Name: alcohol_drunk__response, dtype: int64

In [10]:
radio_questions = df.iloc[0].filter(like='answer_type')
radio_questions = radio_questions[radio_questions == 'radio'].index
radio_questions = radio_questions.str.replace('__answer_type', '').tolist()

In [11]:
def response_compare(df, q):
    cq = df.filter(like=q)
    res = cq.groupby(cq[q + '__answer'])[q + '__response'].unique()
    res = res.map(lambda el: el[0])
    return res

In [12]:
summary_list = list()
for cq in radio_questions:
    res = pd.DataFrame(response_compare(df, cq))
    qstr = df.iloc[0].filter(like=cq + '__question')
    summary_list.append((qstr, res))

In [13]:
misc.questionSummary(df, q.function_duties)

Unnamed: 0,response_index,answer_index,count
0,Slet ikke,0.0,322
1,Lidt,1.0,341
2,Noget,2.0,188
3,Meget,3.0,70
4,Virkelig meget/kan ikke,4.0,12


In [14]:
%run examine_questions_for_reversed_scales_functions.py

In [15]:
processed = list()
for i, (qstr, res) in enumerate(summary_list):
    ans_extract = check_question_scales(res)
    ans_extract['idx'] = i
    ans_extract['qname'] = qstr.index[0]
    ans_extract['qstr'] = qstr.values[0]
    processed.append(ans_extract)

In [16]:
pr = pd.DataFrame(processed)
pr['qname'] = pr.qname.str.replace('__question', '')
pr.head(10)

Unnamed: 0,ans_resp_shape_mismatch,idx,numeric_responses,qname,qstr,resp_is_sorted,ved_ikke
0,,0,True,alcohol_binge10,Drukket mere end 10 genstande på en dag/aften,True,0
1,,1,True,alcohol_binge5,Drukket mere end 5 genstande på en dag/aften,True,0
2,,2,True,alcohol_drunk,Hvor mange gange er du blevet fuld af at drikk...,True,0
3,,3,True,alcohol_everyday,"Drukket dig fuld på en hverdagsaften/dag, hvor...",True,0
4,,4,True,alcohol_very_drunk,Drukket dig meget fuld,True,0
5,,5,True,alcohol_weekend,Drukket alkohol i weekenden,True,0
6,,6,False,ambition_career,Hvor vigtig er din faglige karriere for dig i ...,,1
7,,7,False,ambition_job,"Hvor vigtige tror du, at dine karakterer på de...",,1
8,,8,False,ambition_mark,Hvor meget betyder dine karakterer for dig?,,0
9,,9,False,bf_complet,lægger planer og får dem gennemført,,0


In [17]:
pr.resp_is_sorted.fillna(False).mean()

0.13909774436090225

In [18]:
misc.questionSummary(df, pr.qname.loc[8])

Unnamed: 0,response_index,answer_index,count
0,Mine karakterer er meget vigtige for mig,0.0,149
1,Mine karakterer er vigtige for mig,1.0,574
2,Mine karakterer er ikke så vigtige for mig,2.0,210
3,Ved ikke,3.0,8


In [19]:
summary_list[8][1]

Unnamed: 0_level_0,ambition_mark__response
ambition_mark__answer,Unnamed: 1_level_1
0.0,Mine karakterer er meget vigtige for mig
1.0,Mine karakterer er vigtige for mig
2.0,Mine karakterer er ikke så vigtige for mig
3.0,Jeg er helt ligeglad med hvilke karakterer jeg...


The methods are inconsistent!?!?

In [31]:
print(*df[q.ambition_mark__response].unique(), sep='\n')

Mine karakterer er ikke så vigtige for mig
Mine karakterer er meget vigtige for mig
Mine karakterer er vigtige for mig
Ved ikke
Jeg er helt ligeglad med hvilke karakterer jeg får
None


In [37]:
tm1 = df.filter(regex=q.ambition_mark + '__(answer|response)$')
tm1.head()

Unnamed: 0,ambition_mark__answer,ambition_mark__response
0010fedde8e61cad5b049da6df8b5a,2.0,Mine karakterer er ikke så vigtige for mig
002ee26a0c38a1f77b7cdeab8046cd,2.0,Mine karakterer er ikke så vigtige for mig
0037c93a19a7e90580086b462ba11b,2.0,Mine karakterer er ikke så vigtige for mig
005b1e0298bde6b726156aefb8d88c,0.0,Mine karakterer er meget vigtige for mig
00ad591e46eb6f3d8c474d9de9e219,1.0,Mine karakterer er vigtige for mig


In [40]:
tm2 = tm1.dropna()

In [47]:
{tuple(el) for el in tm2.values}

{(0.0, 'Mine karakterer er meget vigtige for mig'),
 (1.0, 'Mine karakterer er vigtige for mig'),
 (2.0, 'Mine karakterer er ikke så vigtige for mig'),
 (3.0, 'Jeg er helt ligeglad med hvilke karakterer jeg får')}

In [48]:
{tuple(el) for el in tm1.values}

{(nan, None),
 (nan, 'Ved ikke'),
 (nan, 'Ved ikke'),
 (nan, 'Ved ikke'),
 (nan, 'Ved ikke'),
 (nan, 'Ved ikke'),
 (0.0, 'Mine karakterer er meget vigtige for mig'),
 (nan, None),
 (nan, 'Ved ikke'),
 (nan, 'Ved ikke'),
 (1.0, 'Mine karakterer er vigtige for mig'),
 (nan, 'Ved ikke'),
 (nan, 'Ved ikke'),
 (nan, None),
 (nan, None),
 (2.0, 'Mine karakterer er ikke så vigtige for mig'),
 (3.0, 'Jeg er helt ligeglad med hvilke karakterer jeg får')}