# Assessing scale reliability through Cronbach's alpha

In [3]:
import pandas as pd
import numpy as np

In [4]:
# import the data
kg = pd.read_csv("05-12-2021_kontrollgruppe_df.csv", index_col=0) 
ug = pd.read_csv("05-12-2021_untersuchungsgruppe_df.csv", index_col=0)

# # Cronbach's Alpha function

1)Transform the dataframe input into a correlation matrix.
2)Calculate N and r.
3)Use the formula to calculate Cronbach’s Alpha

In [5]:
def cronbach_alpha(df):
    # 1. Transform the df into a correlation matrix
    df_corr = df.corr()
    
    # 2.1 Calculate N
    # The number of variables equals the number of columns in the df
    N = df.shape[1]
    
    # 2.2 Calculate R
    # Loop through the columns and append every relevant correlation to an array calles "r_s".
    # Then, calculate the mean of "r_s"
    rs = np.array([])
    for i, col in enumerate(df_corr.columns):
        sum_ = df_corr[col][i+1:].values
        rs = np.append(sum_, rs)
    mean_r = np.mean(rs)
    
   # 3. Use the formula to calculate Cronbach's Alpha 
    cronbach_alpha = (N * mean_r) / (1 + (N - 1) * mean_r)
    return cronbach_alpha,df_corr

### Cronbach's alpha for unsicherheit score

In [4]:
# select the items
unsicherheit_fragen = ['US01_01', 'US01_02', 'US01_03', 'US01_04']

In [5]:
# create dfs only with the items
kg_unsicherheit = kg[kg.columns.intersection(unsicherheit_fragen)]
ug_unsicherheit = ug[ug.columns.intersection(unsicherheit_fragen)]

In [6]:
# join the two dfs
unsicherheit = kg_unsicherheit.append(ug_unsicherheit)

In [7]:
# drop keine angabe (no answer)
unsicherheit_clean = unsicherheit.drop(unsicherheit[(unsicherheit.US01_01 == 'Keine Angabe') |
                                                       (unsicherheit.US01_02 == 'Keine Angabe') |
                                                       (unsicherheit.US01_03 == 'Keine Angabe') |
                                                       (unsicherheit.US01_04 == 'Keine Angabe')].index)

In [8]:
# count losses after dropping keine angabe
len(unsicherheit),len(unsicherheit_clean)

(293, 207)

In [9]:
# replace stimme zu (agree) nicht zu (disagree) values
for column in unsicherheit_clean.columns:
    unsicherheit_clean[column] = unsicherheit_clean[column].map({"stimme nicht zu" : 1, "stimme eher nicht zu" : 2, "stimme eher zu" : 3, "stimme zu" : 4})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  unsicherheit_clean[column] = unsicherheit_clean[column].map({"stimme nicht zu" : 1, "stimme eher nicht zu" : 2, "stimme eher zu" : 3, "stimme zu" : 4})


In [10]:
# apply cronbach alpha formula
cronbach_alpha(unsicherheit_clean)

(0.8336474294213784,
           US01_01   US01_02   US01_03   US01_04
 US01_01  1.000000  0.612461  0.484656  0.601702
 US01_02  0.612461  1.000000  0.536893  0.542868
 US01_03  0.484656  0.536893  1.000000  0.558106
 US01_04  0.601702  0.542868  0.558106  1.000000)

### Cronbach's alpha for risikowahrnehmung score

In [66]:
# select the items
risikowahrnehmung_fragen = ['RW03_01', 'RW03_02', 'RW03_03']

In [67]:
# create dfs only with the items
kg_risikowahrnehmung = kg[kg.columns.intersection(risikowahrnehmung_fragen)]
ug_risikowahrnehmung = ug[ug.columns.intersection(risikowahrnehmung_fragen)]

In [68]:
# join the two dfs
risikowahrnehmung = kg_risikowahrnehmung.append(ug_risikowahrnehmung)

In [69]:
# drop keine angabe (no answer)
risikowahrnehmung_clean = risikowahrnehmung.drop(risikowahrnehmung[(risikowahrnehmung.RW03_01 == 'Keine Angabe') |
                                                       (risikowahrnehmung.RW03_02 == 'Keine Angabe') |
                                                       (risikowahrnehmung.RW03_03 == 'Keine Angabe')].index)

In [70]:
# count losses
len(risikowahrnehmung),len(risikowahrnehmung_clean)

(293, 235)

In [71]:
# replace stimme zu (agree) nicht zu (disagree) values
for column in risikowahrnehmung_clean.columns:
    risikowahrnehmung_clean[column] = risikowahrnehmung_clean[column].map({"gering" : 1, "eher gering" : 2, "eher hoch" : 3, "hoch" : 4})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  risikowahrnehmung_clean[column] = risikowahrnehmung_clean[column].map({"gering" : 1, "eher gering" : 2, "eher hoch" : 3, "hoch" : 4})


In [72]:
# apply cronbach alpha formula
cronbach_alpha(risikowahrnehmung_clean)

(0.7264245961724761,
           RW03_01   RW03_02   RW03_03
 RW03_01  1.000000  0.543083  0.385528
 RW03_02  0.543083  1.000000  0.479961
 RW03_03  0.385528  0.479961  1.000000)

### Cronbach's alpha for handlungsbereitschaft score

In [73]:
# select the items
handlungsbereitschaft_fragen = ['H201_01',
                                'H201_02',
                                'H202_01',
                                'H202_02',
                                'H202_03']

In [74]:
# create dfs only with the items
kg_handlungsbereitschaft = kg[kg.columns.intersection(handlungsbereitschaft_fragen)]
ug_handlungsbereitschaft = ug[ug.columns.intersection(handlungsbereitschaft_fragen)]

In [75]:
# join the two dfs
handlungsbereitschaft = kg_handlungsbereitschaft.append(ug_handlungsbereitschaft)

In [76]:
# drop keine angabe (no answer)
handlungsbereitschaft_clean = handlungsbereitschaft.drop(handlungsbereitschaft[(handlungsbereitschaft.H201_01 == 'Keine Angabe') |
                                                       (handlungsbereitschaft.H201_02 == 'Keine Angabe') |
                                                       (handlungsbereitschaft.H202_01 == 'Keine Angabe') |
                                                       (handlungsbereitschaft.H202_02 == 'Keine Angabe') |
                                                       (handlungsbereitschaft.H202_03 == 'Keine Angabe')].index)

In [77]:
# count losses
len(handlungsbereitschaft),len(handlungsbereitschaft_clean)

(293, 187)

In [78]:
# replace stimme zu (agree) nicht zu (disagree) values
for column in handlungsbereitschaft_clean.columns:
    handlungsbereitschaft_clean[column] = handlungsbereitschaft_clean[column].map({"nein" : 1, "eher nein" : 2, "eher ja" : 3, "ja" : 4})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  handlungsbereitschaft_clean[column] = handlungsbereitschaft_clean[column].map({"nein" : 1, "eher nein" : 2, "eher ja" : 3, "ja" : 4})


In [79]:
# apply cronbach alpha formula
cronbach_alpha(handlungsbereitschaft_clean)

(0.7870859677785208,
           H201_01   H201_02   H202_01   H202_02   H202_03
 H201_01  1.000000  0.330456  0.686232  0.287270  0.096611
 H201_02  0.330456  1.000000  0.264339  0.755679  0.541256
 H202_01  0.686232  0.264339  1.000000  0.427079  0.210683
 H202_02  0.287270  0.755679  0.427079  1.000000  0.651108
 H202_03  0.096611  0.541256  0.210683  0.651108  1.000000)

### Cronbach's alpha for coping score

In [80]:
#coping special case because of two

In [81]:
# select the items
coping_fragen = ['CL01_02',
                  'CL01_04',
                  'CL01_06',
                  'CL01_01',
                  'CL01_03',
                  'CL01_05',
                  'CA01_02',
                  'CA01_04',
                  'CA01_06',
                  'CA01_01',
                  'CA01_03',
                  'CA01_05',
                  'CS01_02',
                  'CS01_04',
                  'CS01_06',
                  'CS01_01',
                  'CS01_03',
                  'CS01_05']

In [82]:
lüften_positive = ['CL01_02', 'CL01_04', 'CL01_06']
lüften_negative = ['CL01_01', 'CL01_03', 'CL01_05']

abdichten_positive = ['CA01_02', 'CA01_04', 'CA01_06']
abdichten_negative = ['CA01_01', 'CA01_03', 'CA01_05']

sanierung_positive = ['CS01_02', 'CS01_04', 'CS01_06']
sanierung_negative = ['CS01_01', 'CS01_03', 'CS01_05']

response_efficacy_positive = ['CL01_02', 'CA01_02', 'CS01_02']
response_efficacy_negative = ['CL01_01', 'CA01_01', 'CS01_01']

response_cost_positive = ['CL01_04', 'CA01_04', 'CS01_04']
response_cost_negative = ['CL01_03', 'CA01_03', 'CS01_03']

self_efficacy_positive = ['CL01_06', 'CA01_06', 'CS01_06']
self_efficacy_negative = ['CL01_05', 'CA01_05', 'CS01_05']

all_positive = lüften_positive + abdichten_positive + sanierung_positive
all_negative = lüften_negative + abdichten_negative + sanierung_negative

In [83]:
# create dfs only with the items
kg_coping = kg[kg.columns.intersection(coping_fragen)]
ug_coping = ug[ug.columns.intersection(coping_fragen)]

In [84]:
# join the two dfs
coping = kg_coping.append(ug_coping)

In [85]:
# drop keine angabe (no answer)
coping_clean = coping.drop(coping[(coping.CL01_02 == 'Keine Angabe') |
                                                       (coping.CL01_04 == 'Keine Angabe') |
                                                       (coping.CL01_06 == 'Keine Angabe') |
                                                       (coping.CL01_01 == 'Keine Angabe') |
                                                       (coping.CL01_03 == 'Keine Angabe') |
                                                       (coping.CL01_05 == 'Keine Angabe') |
                                                       (coping.CA01_02 == 'Keine Angabe') |
                                                       (coping.CA01_04 == 'Keine Angabe') |
                                                       (coping.CA01_06 == 'Keine Angabe') |
                                                       (coping.CA01_01 == 'Keine Angabe') |                     
                                                       (coping.CA01_03 == 'Keine Angabe') |
                                                       (coping.CA01_05 == 'Keine Angabe') |
                                                       (coping.CS01_02 == 'Keine Angabe') |
                                                       (coping.CS01_06 == 'Keine Angabe') |                     
                                                       (coping.CS01_01 == 'Keine Angabe') |
                                                       (coping.CS01_03 == 'Keine Angabe') |
                                                       (coping.CS01_05 == 'Keine Angabe') |  
                                                       (coping.CS01_04 == 'Keine Angabe')].index)

In [86]:
# count losses
len(coping),len(coping_clean)

(293, 97)

In [87]:
# replace stimme zu (agree) nicht zu (disagree) values
for column in coping_clean[coping_clean.columns.intersection(all_positive)].columns:
    coping_clean[column] = coping_clean[column].map({"stimme nicht zu" : 1, "stimme eher nicht zu" : 2, "stimme eher zu" : 3, "stimme zu" : 4})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  coping_clean[column] = coping_clean[column].map({"stimme nicht zu" : 1, "stimme eher nicht zu" : 2, "stimme eher zu" : 3, "stimme zu" : 4})


In [88]:
# replace stimme zu (agree) nicht zu (disagree) values
for column in coping_clean[coping_clean.columns.intersection(all_negative)].columns:
    coping_clean[column] = coping_clean[column].map({"stimme nicht zu" : 4, "stimme eher nicht zu" : 3, "stimme eher zu" : 2, "stimme zu" : 1})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  coping_clean[column] = coping_clean[column].map({"stimme nicht zu" : 4, "stimme eher nicht zu" : 3, "stimme eher zu" : 2, "stimme zu" : 1})


In [89]:
# apply cronbach alpha formula
cronbach_alpha(coping_clean)

(0.789171943165655,
           CL01_01   CL01_02   CL01_03   CL01_04   CL01_05   CL01_06   CA01_01  \
 CL01_01  1.000000  0.458167  0.072439  0.294987  0.499425  0.122879  0.286180   
 CL01_02  0.458167  1.000000  0.052732  0.575402  0.335192  0.336438  0.106099   
 CL01_03  0.072439  0.052732  1.000000  0.180678  0.277019  0.212325  0.059577   
 CL01_04  0.294987  0.575402  0.180678  1.000000  0.317645  0.376445  0.132369   
 CL01_05  0.499425  0.335192  0.277019  0.317645  1.000000  0.283310  0.328039   
 CL01_06  0.122879  0.336438  0.212325  0.376445  0.283310  1.000000 -0.066913   
 CA01_01  0.286180  0.106099  0.059577  0.132369  0.328039 -0.066913  1.000000   
 CA01_02  0.041441  0.204890  0.114305  0.294556  0.160941  0.068454  0.408715   
 CA01_03  0.060715  0.104455  0.183539  0.064937  0.184380 -0.047546  0.146961   
 CA01_04  0.062790  0.166229  0.255856  0.295210  0.199170  0.331791  0.071557   
 CA01_05  0.265352  0.304516  0.205822  0.200715  0.318355  0.110235  0.249719

### Cronbach's alpha for informationsverständnis score

In [37]:
# select the items
informationsverständnis_fragen = ['IS01_01',
                                    'IS01_02',
                                    'IS01_03',
                                    'IS01_04',
                                    'IS01_05',
                                    'IS01_06',
                                    'IS01_07',
                                    'IS01_08',
                                    'IS01_09',
                                    'IS01_10']

In [38]:
# select the items in the same direction
informationsverständnis_fragen_same_direction = ['IS01_01',
                                    'IS01_02',
                                    'IS01_03',
                                    'IS01_04',
                                    'IS01_05',
                                    'IS01_07',
                                    'IS01_08',
                                    'IS01_09',
                                    'IS01_10']

In [39]:
# create dfs only with the items
kg_informationsverständnis = kg[kg.columns.intersection(informationsverständnis_fragen)]
ug_informationsverständnis = ug[ug.columns.intersection(informationsverständnis_fragen)]

In [40]:
# join the two dfs
informationsverständnis = kg_informationsverständnis.append(ug_informationsverständnis)

In [41]:
# drop keine angabe (no answer)
informationsverständnis_clean = informationsverständnis.drop(informationsverständnis[(informationsverständnis.IS01_01 == 'Keine Angabe') |
                                                       (informationsverständnis.IS01_02 == 'Keine Angabe') |
                                                       (informationsverständnis.IS01_03 == 'Keine Angabe') |
                                                       (informationsverständnis.IS01_04 == 'Keine Angabe') |
                                                       (informationsverständnis.IS01_05 == 'Keine Angabe') |
                                                       (informationsverständnis.IS01_06 == 'Keine Angabe') |
                                                       (informationsverständnis.IS01_07 == 'Keine Angabe') |
                                                       (informationsverständnis.IS01_08 == 'Keine Angabe') |
                                                       (informationsverständnis.IS01_09 == 'Keine Angabe') |
                                                       (informationsverständnis.IS01_10 == 'Keine Angabe')].index)

In [42]:
# count losses
len(informationsverständnis),len(informationsverständnis_clean)

(293, 274)

In [43]:
# item IS01_06 was coded in the opposite direction
informationsverständnis_clean["IS01_06"] = informationsverständnis_clean["IS01_06"].map({"nein" : 4, "eher nein" : 3, "eher ja" : 2, "ja" : 1,  "Keine Angabe": 0})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  informationsverständnis_clean["IS01_06"] = informationsverständnis_clean["IS01_06"].map({"nein" : 4, "eher nein" : 3, "eher ja" : 2, "ja" : 1,  "Keine Angabe": 0})


In [45]:
# replace stimme zu (agree) nicht zu (disagree) values
for column in informationsverständnis_clean[informationsverständnis_clean.columns.intersection(informationsverständnis_fragen_same_direction)]:
    informationsverständnis_clean[column] = informationsverständnis_clean[column].map({"nein" : 1, "eher nein" : 2, "eher ja" : 3, "ja" : 4})

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  informationsverständnis_clean[column] = informationsverständnis_clean[column].map({"nein" : 1, "eher nein" : 2, "eher ja" : 3, "ja" : 4})


In [46]:
informationsverständnis_clean

Unnamed: 0,IS01_01,IS01_02,IS01_03,IS01_04,IS01_05,IS01_06,IS01_07,IS01_08,IS01_09,IS01_10
0,3.0,3.0,,,,2.0,,,,
1,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0,4.0
2,4.0,4.0,3.0,3.0,4.0,2.0,,3.0,3.0,3.0
3,3.0,4.0,3.0,4.0,4.0,2.0,4.0,4.0,3.0,
4,3.0,3.0,3.0,3.0,3.0,2.0,3.0,3.0,3.0,
...,...,...,...,...,...,...,...,...,...,...
187,3.0,,,,,3.0,,,,2.0
188,4.0,4.0,4.0,4.0,4.0,1.0,3.0,4.0,4.0,4.0
189,4.0,4.0,4.0,4.0,4.0,2.0,3.0,3.0,3.0,3.0
191,3.0,,3.0,,2.0,2.0,2.0,2.0,,


In [47]:
# apply cronbach alpha formula
cronbach_alpha(informationsverständnis_clean)

(0.8808320234581464,
           IS01_01   IS01_02   IS01_03   IS01_04   IS01_05   IS01_06   IS01_07  \
 IS01_01  1.000000  0.602117  0.454578  0.570411  0.664572 -0.460366  0.503692   
 IS01_02  0.602117  1.000000  0.630843  0.630575  0.690186 -0.328181  0.520222   
 IS01_03  0.454578  0.630843  1.000000  0.708827  0.686146 -0.338016  0.504336   
 IS01_04  0.570411  0.630575  0.708827  1.000000  0.784543 -0.299055  0.506518   
 IS01_05  0.664572  0.690186  0.686146  0.784543  1.000000 -0.423152  0.560317   
 IS01_06 -0.460366 -0.328181 -0.338016 -0.299055 -0.423152  1.000000 -0.315276   
 IS01_07  0.503692  0.520222  0.504336  0.506518  0.560317 -0.315276  1.000000   
 IS01_08  0.595954  0.576391  0.597253  0.638654  0.715947 -0.434963  0.749104   
 IS01_09  0.639738  0.623552  0.644539  0.682680  0.727861 -0.450364  0.657527   
 IS01_10  0.482660  0.520766  0.561461  0.671522  0.653581 -0.396481  0.567096   
 
           IS01_08   IS01_09   IS01_10  
 IS01_01  0.595954  0.639738  0.48