# Exploratory regression - Scores

## Importing the libraries

In [27]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from pygam import GAM, LinearGAM, InvGaussGAM
import matplotlib.pyplot as plt
from mpl_toolkits import mplot3d


## Importing the dataset

In [28]:
# import the data
# cg = control group
# eg = experimental group
cg = pd.read_csv("05-12-2021_kontrollgruppe_df.csv", index_col=0) 
eg = pd.read_csv("05-12-2021_untersuchungsgruppe_df.csv", index_col=0)

###  Select the relevant variables

In [29]:
# handlungsbereitschaft_score = behavioral intention score
indep_var = "handlungsbereitschaft_score"

In [30]:
# list of independent (x) variables
x_variables = ['SD01',
'SD02_01',
'SD04',
'SD06',
'SD07',
'HI01',
'HI03',
'HI04',
'HI05',
'HI06',
'VR01',
'VR06',
'K001', indep_var]

### Aggregated values of variables with small n and remove keine Angabe (no answer)

In [31]:
# explore variables where an aggregation is needed
key = 'VR01'

In [32]:
eg[key].value_counts()

Ja      100
Nein     93
Name: VR01, dtype: int64

In [33]:
cg[key].value_counts()

Ja      53
Nein    47
Name: VR01, dtype: int64

##### SD01 > Remove one entry with Keine Angabe

In [34]:
cg = cg[cg['SD01'] != "Keine Angabe"]

In [35]:
eg.SD01.value_counts()

Männlich    103
Weiblich     90
Name: SD01, dtype: int64

In [36]:
cg.SD01.value_counts()

Weiblich    50
Männlich    49
Name: SD01, dtype: int64

##### SD04 > (1) Condensate Schulabschluss (high school diploma), Schule beendet ohne Abschluss (School finished without diploma) and Sonstiges (further) for eg and cg, (2) remove one Keine Angabe from eg

In [37]:
# Maximal Schulabschluß und sonstiges = No more than high school diploma

In [38]:
eg["SD04"] = eg["SD04"].replace("Sonstiges", "Maximal Schulabschluß und sonstiges")

In [39]:
cg["SD04"] = cg["SD04"].replace("Sonstiges", "Maximal Schulabschluß und sonstiges")

In [40]:
eg["SD04"] = eg["SD04"].replace("Schule beendet ohne Abschluss", "Maximal Schulabschluß und sonstiges")

In [41]:
cg["SD04"] = cg["SD04"].replace("Schule beendet ohne Abschluss", "Maximal Schulabschluß und sonstiges")

In [42]:
eg["SD04"] = eg["SD04"].replace("Schulabschluß", "Maximal Schulabschluß und sonstiges")

In [43]:
cg["SD04"] = cg["SD04"].replace("Schulabschluß", "Maximal Schulabschluß und sonstiges")

In [44]:
eg = eg[eg['SD04'] != "Keine Angabe"]

In [45]:
eg.SD04.value_counts()

Ausbildung                             109
Hochschulabschluß                       54
Maximal Schulabschluß und sonstiges     29
Name: SD04, dtype: int64

In [46]:
cg.SD04.value_counts()

Ausbildung                             52
Hochschulabschluß                      36
Maximal Schulabschluß und sonstiges    11
Name: SD04, dtype: int64

##### SD06 > (1) Remove one Keine Angabe from eg and (2) add friendly labels

In [54]:
# Keine Kinder = no children
# hat Kinder = has children

In [47]:
eg = eg[eg['SD06'] != "Keine Angabe"]

In [48]:
eg["SD06"] = eg["SD06"].replace("Nein", "Keine Kinder")

In [49]:
eg["SD06"] = eg["SD06"].replace("Ja", "hat Kinder")

In [50]:
cg["SD06"] = cg["SD06"].replace("Nein", "Keine Kinder")

In [51]:
cg["SD06"] = cg["SD06"].replace("Ja", "hat Kinder")

In [52]:
eg.SD06.value_counts()

Keine Kinder    151
hat Kinder       41
Name: SD06, dtype: int64

In [53]:
cg.SD06.value_counts()

Keine Kinder    82
hat Kinder      17
Name: SD06, dtype: int64

##### SD06 > (1) Remove one Keine Angabe from eg and (2) add friendly labels

In [56]:
# Raucher*in = smoker
# Kein* Raucher*in = no smoker

In [57]:
eg["SD07"] = eg["SD07"].replace("Ja", "Raucher*in")

In [58]:
cg["SD07"] = cg["SD07"].replace("Ja", "Raucher*in")

In [59]:
eg["SD07"] = eg["SD07"].replace("Nein", "Kein* Raucher*in")

In [60]:
cg["SD07"] = cg["SD07"].replace("Nein", "Kein* Raucher*in")

In [61]:
eg.SD07.value_counts()

Kein* Raucher*in    125
Raucher*in           67
Name: SD07, dtype: int64

In [62]:
cg.SD07.value_counts()

Kein* Raucher*in    65
Raucher*in          34
Name: SD07, dtype: int64

##### HI05 > Remove one Keine Angabe from eg and two keine Angabe from cg

In [63]:
eg = eg[eg['HI05'] != "Keine Angabe"]

In [64]:
cg = cg[cg['HI05'] != "Keine Angabe"]

In [67]:
eg.HI05.value_counts()

länger als 10 Jahre    143
0 bis 5 Jahres          31
6 bis 10 Jahre          17
Name: HI05, dtype: int64

In [68]:
# länger als 10 Jahre = more than 10 yrs
# 0 bis 5 Jahres = 0 to 5 yrs
# 6 bis 10 Jahres = 6 to 10 yrs

In [69]:
cg.HI05.value_counts()

länger als 10 Jahre    65
0 bis 5 Jahres         19
6 bis 10 Jahre         13
Name: HI05, dtype: int64

##### HI06 > (1) Condensate Erdgeschoß und Souterrain, (2) Remove 8 Keine Angabe from cg

In [71]:
# Erdgeschoß = ground-floor
# Souterrain = basement

In [72]:
eg["HI06"] = eg["HI06"].replace("Erdgeschoß", "Erdgeschoß/Souterrain")

In [73]:
eg["HI06"] = eg["HI06"].replace("Souterrain", "Erdgeschoß/Souterrain")

In [74]:
cg["HI06"] = cg["HI06"].replace("Erdgeschoß", "Erdgeschoß/Souterrain")

In [75]:
cg["HI06"] = cg["HI06"].replace("Souterrain", "Erdgeschoß/Souterrain")

In [76]:
cg = cg[cg['HI06'] != "Keine Angabe"]

In [77]:
eg.HI06.value_counts()

Erdgeschoß/Souterrain    79
1. Etage                 59
2. Etage oder höher      53
Name: HI06, dtype: int64

In [78]:
cg.HI06.value_counts()

2. Etage oder höher      32
Erdgeschoß/Souterrain    31
1. Etage                 26
Name: HI06, dtype: int64

##### HI01 > Friendly labels

In [79]:
eg["HI01"] = eg["HI01"].replace("Ich wohne zur Miete.", "Mieter*in")

In [80]:
cg["HI01"] = cg["HI01"].replace("Ich wohne zur Miete.", "Mieter*in")

In [81]:
eg["HI01"] = eg["HI01"].replace("Ich wohne im eigenen Haus bzw. in der eigenen Wohnung.", "Eigentümer*in")

In [82]:
cg["HI01"] = cg["HI01"].replace("Ich wohne im eigenen Haus bzw. in der eigenen Wohnung.", "Eigentümer*in")

In [83]:
eg.HI01.value_counts()

Eigentümer*in    96
Mieter*in        95
Name: HI01, dtype: int64

In [84]:
cg.HI01.value_counts()

Mieter*in        56
Eigentümer*in    33
Name: HI01, dtype: int64

##### VR01 > Friendly labels

In [85]:
eg["VR01"] = eg["VR01"].replace("Ja", "kennt Radon")

In [86]:
cg["VR01"] = cg["VR01"].replace("Ja", "kennt Radon")

In [87]:
eg["VR01"] = eg["VR01"].replace("Nein", "kennt Radon nicht")

In [88]:
cg["VR01"] = cg["VR01"].replace("Nein", "kennt Radon nicht")

In [89]:
eg.VR01.value_counts()

kennt Radon          99
kennt Radon nicht    92
Name: VR01, dtype: int64

In [90]:
cg.VR01.value_counts()

kennt Radon          45
kennt Radon nicht    44
Name: VR01, dtype: int64

##### VR06 > (1) Remove 2 Keine Angabe from eg, (2) and substitute with friendly label

In [91]:
eg = eg[eg['VR06'] != "Keine Angabe"]

In [92]:
eg["VR06"] = eg["VR06"].replace("Ja", "kennt BfS")

In [93]:
cg["VR06"] = cg["VR06"].replace("Ja", "kennt BfS")

In [94]:
eg["VR06"] = eg["VR06"].replace("Nein", "kennt BfS nicht")

In [95]:
cg["VR06"] = cg["VR06"].replace("Nein", "kennt BfS nicht")

In [96]:
eg.VR06.value_counts()

kennt BfS          156
kennt BfS nicht     33
Name: VR06, dtype: int64

In [97]:
cg.VR06.value_counts()

kennt BfS          75
kennt BfS nicht    14
Name: VR06, dtype: int64

##### Unify RG01 and RG02 for the eg

In [98]:
eg['K001'] = eg['RG01'].astype(str) + eg['RG02'].astype(str)
eg['K001'].unique()

array(['nanIch wohne angrenzend zu einem Radon-Gebiet bzw. durchschnittlich zeigen die Messungen vor Ort Werte unter dem Referenzwert von 100 kBq/m3 an.',
       'nanIch wohne in einem Radon-Gebiet bzw. durchschnittlich zeigen die Messungen vor Ort Werte über dem Referenzwert von 100 kBq/m3 an.',
       'Ich wohne angrenzend zu einem Radon-Gebiet bzw. durchschnittlich zeigen die Messungen vor Ort Werte unter dem Referenzwert von 100 kBq/m3 an.nan',
       'Ich wohne in einem Radon-Gebiet bzw. durchschnittlich zeigen die Messungen vor Ort Werte über dem Referenzwert von 100 kBq/m3 an.nan'],
      dtype=object)

In [99]:
eg["K001"] = eg["K001"].replace("nanIch wohne angrenzend zu einem Radon-Gebiet bzw. durchschnittlich zeigen die Messungen vor Ort Werte unter dem Referenzwert von 100 kBq/m3 an.", "Angrenzend")

In [100]:
eg["K001"] = eg["K001"].replace("Ich wohne angrenzend zu einem Radon-Gebiet bzw. durchschnittlich zeigen die Messungen vor Ort Werte unter dem Referenzwert von 100 kBq/m3 an.nan", "Angrenzend")

In [101]:
eg["K001"] = eg["K001"].replace("nanIch wohne in einem Radon-Gebiet bzw. durchschnittlich zeigen die Messungen vor Ort Werte über dem Referenzwert von 100 kBq/m3 an.", "Radon-Gebiet")

In [102]:
eg["K001"] = eg["K001"].replace("Ich wohne in einem Radon-Gebiet bzw. durchschnittlich zeigen die Messungen vor Ort Werte über dem Referenzwert von 100 kBq/m3 an.nan", "Radon-Gebiet")

In [103]:
eg["K001"].value_counts()

Angrenzend      109
Radon-Gebiet     80
Name: K001, dtype: int64

##### Friendly labels for K001 in the cg

In [104]:
cg["K001"] = cg["K001"].replace("Ich wohne angrenzend zu einem Radon-Gebiet bzw. durchschnittlich zeigen die Messungen vor Ort Werte unter dem Referenzwert von 100 kBq/m3 an.", "Angrenzend")

In [105]:
cg["K001"] = cg["K001"].replace("Ich wohne in einem Radon-Gebiet bzw. durchschnittlich zeigen die Messungen vor Ort Werte über dem Referenzwert von 100 kBq/m3 an.", "Radon-Gebiet")

In [106]:
cg["K001"].value_counts()

Angrenzend      54
Radon-Gebiet    35
Name: K001, dtype: int64

##### Check new df length

In [107]:
len(eg), len(cg)

(189, 89)

## Slice dataframes

In [108]:
eg = eg[eg.columns.intersection(x_variables)]

In [109]:
cg = cg[cg.columns.intersection(x_variables)]

## Add eg, cg column

In [110]:
eg['Gruppe'] = 'eg'

In [111]:
cg['Gruppe'] = 'cg'

## Add eg, cg column

In [112]:
df = eg.append(cg)
len(df), df.columns

(278,
 Index(['SD01', 'SD02_01', 'SD04', 'SD06', 'SD07', 'HI01', 'HI03', 'HI04',
        'HI05', 'HI06', 'VR01', 'VR06', 'handlungsbereitschaft_score', 'K001',
        'Gruppe'],
       dtype='object'))

In [113]:
df.columns = ['Geschlecht',
'Alter',
'Abschluss',
'Kinder',
'Rauchen',
'Wohnsituation',
'Gebäudentyp',
'Wohndauer',
'Wohnperspektive',
'Etage',
'Radonkenntnisse',
'BfS-Bekanntheit',
indep_var,
'Risikogebiet',
'Gruppe']

In [114]:
df.head()

Unnamed: 0,Geschlecht,Alter,Abschluss,Kinder,Rauchen,Wohnsituation,Gebäudentyp,Wohndauer,Wohnperspektive,Etage,Radonkenntnisse,BfS-Bekanntheit,handlungsbereitschaft_score,Risikogebiet,Gruppe
0,Männlich,1960,Hochschulabschluß,Keine Kinder,Kein* Raucher*in,Mieter*in,in einem Mehrfamilienhaus oder einer Wohnung,0 bis 5 Jahres,länger als 10 Jahre,Erdgeschoß/Souterrain,kennt Radon,kennt BfS,2.8,Angrenzend,eg
1,Männlich,1958,Ausbildung,Keine Kinder,Kein* Raucher*in,Mieter*in,in einem Mehrfamilienhaus oder einer Wohnung,länger als 10 Jahre,länger als 10 Jahre,2. Etage oder höher,kennt Radon nicht,kennt BfS,3.4,Angrenzend,eg
2,Männlich,1963,Ausbildung,Keine Kinder,Kein* Raucher*in,Mieter*in,in einem Mehrfamilienhaus oder einer Wohnung,länger als 10 Jahre,länger als 10 Jahre,2. Etage oder höher,kennt Radon nicht,kennt BfS nicht,0.0,Radon-Gebiet,eg
3,Männlich,1979,Maximal Schulabschluß und sonstiges,hat Kinder,Kein* Raucher*in,Eigentümer*in,in einem Ein- oder Zweifamilienhaus,länger als 10 Jahre,länger als 10 Jahre,1. Etage,kennt Radon nicht,kennt BfS,3.0,Angrenzend,eg
4,Weiblich,1966,Ausbildung,Keine Kinder,Kein* Raucher*in,Eigentümer*in,in einem Mehrfamilienhaus oder einer Wohnung,länger als 10 Jahre,länger als 10 Jahre,2. Etage oder höher,kennt Radon,kennt BfS,2.4,Angrenzend,eg


In [1399]:
# save one df for each schore
df.to_csv("df_" + indep_var + "_gam_uncoded.csv")