### This notebook preprocesses GESIS.

In [5]:
from pathlib import Path
import os

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

path = Path(os.getcwd()).parent

gesis1 = pd.read_csv(os.path.join(path, 'data/GESIS/ZA5665_a1_a11-a12_v22-0-0.dta.csv'), engine='python', encoding = "ISO-8859-1")
gesis2 = pd.read_csv(os.path.join(path, 'data/GESIS/ZA5665_a1_ca-cf_v22-0-0.dta.csv'), engine='python', encoding = "ISO-8859-1")
gesis3 = pd.read_csv(os.path.join(path, 'data/GESIS/ZA5665_a1_ba-bf_v22-0-0.dta.csv'), engine='python', encoding = "ISO-8859-1")
gesis4 = pd.read_csv(os.path.join(path, 'data/GESIS/ZA5665_a1_aa-ac_v22-0-0 (1).dta.csv'), engine='python', encoding = "ISO-8859-1")

df1 = pd.merge(gesis1, gesis2, how='inner', on='z000001a')
df2 = pd.merge(gesis3, gesis4, how='inner', on='z000001a')
df  = pd.merge(df1, df2, how='inner', on='z000001a')

In [6]:
attributes_gesis1 = ['z000001a', 'a11d054a','a11d056b','a11d072d','a11d057d','a11d079b','a11d082b','a11d086b','a11d089c','a11d092a','a11d093b','a11d096b','a11d097c']

attributes_gesis2 = ['bazb021a','bazb024a','bazb026a','bazb020a','bbzc017a','bbzc019a','bdap101a','bbak098a','bbal119a','bbal123a','bbal133a','bbal134a','bbal138a',
                    'bdze001a','bdze002a','bdze003a','bdze004a','bdze005a','bdze006a','bdze007a','bdze008a','bdze009a','bdze010a']

attribute_name_1 = ['Geschlecht','Geburtsjahr','Geburtsland','Nationalitaet','Familienstand','Hoechster Bildungsabschluss',
                    'Berufliche Ausbildung','Erwerbstaetigkeit','Berufsgruppe','Personen im Haushalt',
                    'Nettoeinkommen Selbst','Nettoeinkommen Haushalt']

attribute_name_2 = ['Schlechter Schlaf','Leben genießen','Zu Nichts aufraffen','Alles anstrengend','Wahlteilnahme','Wahlabsicht',
                    'Desinteresse Politiker','Zufriedenheit Leben','Aktiv','Verärgert','Wach','Nervös','Ängstlich',
                    'Zurueckhaltend','leicht Vertrauen','Faulheit','Entspannt','wenig kuenstlerisches Interesse','Gesellig',
                    'Andere kritisieren','Gruendlich','Nervoes','Phantasievoll']

In [7]:
name = ['GESIS-CODE'] + attribute_name_1 + attribute_name_2

df.rename(index=str, columns={k:v for k,v in zip(attributes_gesis1 + attributes_gesis2, name)},inplace=True)
df = df[name]

In [8]:
rep1 = {
    '5 Trifft voll und ganz zu':5,
    '4 Eher zutreffend':4,
    '3 Weder noch':3,
    '2 Trifft eher nicht zu':2,
    '1 Trifft überhaupt nicht zu':1,
    
    'trifft voll und ganz zu (5)':5,
    'eher zutreffend (4)':4,
    'weder noch (3)':3,     
    'trifft eher nicht zu (2)':2,
    'trifft ueberhaupt nicht zu (1)':1, 
    
    'Unit nonresponse':np.nan,
    'Not in panel':np.nan,
    'Item nonresponse':np.nan,
    'Not reached':np.nan,
    'Ambiguous answer':np.nan,
    'keine Angabe':np.nan,
     
    -1:np.nan,
    -9:np.nan
}
rep2 = {
     True:1,
     False:0,
    'Ja':1,
    'Nein':0,
    'True':1,
    'False':0,
    
    'Ja, ich würde wählen.':1,
    'Weiß ich nicht':0.5,
    'Ich war nicht wahlberechtigt.':0.5,
    'Ich bin nicht wahlberechtigt.':0.5,
    'Ich war nicht wahlberechtigt':0.5,
    'Ja, ich würde wählen.':1,
    'Nein, ich würde nicht wählen.':0,
    
    'Nie':1,
    'Fast nie':2,
    'Manchmal':3,
    'Meistens':4,
    'Fast Immer':4,
    'Fast immer':4,
    'Immer':4,
    
    'Gar nicht':1,
    'Ein bisschen':2,
    'Einigermaßen':3,
    'Äußerst':4,
    'Erheblich':4
}

df = df.replace(rep1)
df = df.replace(rep2)

In [9]:
di1 = {'männlich': 0, "Männlich": 0, 'weiblich': 1, "Weiblich": 1, '[NA] Keine Angabe':np.nan}
df = df.replace({"Geschlecht": di1})

di2 = {'Item nonresponse':0, '<=1943': 1943, '>=1995':1995}
df = df.replace({'Geburtsjahr': di2})

di3 = {'Türkei':0, 'Österreich': 0, 
       'Item nonresponse': np.nan, 'sonstige, und zwar:': 0, 'Europa':0, 'Deutschland':1, 'Andere':0}
df = df.replace({'Geburtsland': di3})

di4 = {'Deutschland':1.0, 2: 0, 2.0: 0, 'Item nonresponse':np.nan, 'EU28': 0, 'Restliches Europa': 0, "Andere": 0}
df = df.replace({'Nationalitaet': di4})

di5 = {'Verheiratet/ Eing. LP zus. lebend':1,
       'Verheiratet und lebe mit meinem/r Ehepartner/-in zusammen': 1, 
       'Geschieden/ Eing. LP aufgehoben': 2,
       'Geschieden': 2,
       'Ledig': 2,
       'In eingetragener Lebenspartnerschaft zusammenlebend (gleichgeschlechtlich)':1,
       'Verheiratet und lebe von meinem/meiner Ehepartner/-in getrennt': 0,
       'Eingetragene Lebenspartnerschaft, getrennt lebend (gleichgeschlechtlich)': 0,
       'Eingetragene/r Lebenspartner/-in verstorben (gleichgeschlechtlich)': 0,
       'Verheiratet/ Eing. LP getrennt lebend': 0,
       'Geschieden/ Eing. LP aufgehoben':2,
       '[NA] Keine Angabe':np.nan,
       'Verwitwet': 0,
       'Verwitwet/ Eing. LP verstorben': 0,
       'Item nonresponse':np.nan}
df = df.replace({'Familienstand': di5})

di6 = {'Abitur, allgemeine oder fachgebundene Hochschulreife (Gymnasium bzw. EOS)': 3,
       'Abitur, allgemeine oder fachgebundene Hochschulreife': 3,
       'Item nonresponse':np.nan, 
       'Anderer Schulabschluss:':np.nan, 
       'Anderer Schulabschluss':np.nan,
       'Fachhochschulreife, Fachoberschule': 3,
       'Realschulabschluss':2,
       'Polytechnische Oberschule DDR, Abschluss 10. Klasse': 2,
       'Fachhochschulreife (Abschluss einer Fachoberschule)': 2,
       'Schüler/-in': np.nan,
       'Hauptschulabschluss':1,
       'Hochschulabschluss':3,
       'Hauptschulabschluss/Volksschulabschluss': 1,
       'Von der Schule abgegangen ohne Hauptschulabschluss':np.nan,
       'Realschulabschluss (Mittlere Reife)': 2,
       'Polytechnische Oberschule DDR, Abschluss 8.oder 9. Klasse': 2,
       'Abschluss Polytechnische Oberschule 10. Klasse (vor 1965: 8. Klasse)': 2}
df = df.replace({'Hoechster Bildungsabschluss': di6})

di7 = {1.0: 51,
       2.0: 52,
       3.0:np.nan,
       4.0:np.nan,
      -1.0:np.nan,
      'Geringfügig erwerbstätig, 400-Euro-Job, Minijob':53,
      'Item nonresponse':np.nan,
      'In einer beruflichen Ausbildung/Lehre':50,
      'In Umschulung':54,
      'Altersteilzeit (nicht mehr am Arbeitsplatz)':54,
      '\'Ein-Euro-Job\' (bei Bezug von Arbeitslosengeld II)':52,
      'Gelegentlich oder unregelmäßig beschäftigt':52,
      'Freiwilliger (Wehr-)Dienst':51,
      'Mutterschafts-, Erziehungsurlaub, Elternzeit oder sonstige Beurlaubung':52,
      'Vollzeiterwerbstätig':51,
      'Nicht erwerbstätig':52,
      'Teilzeiterwerbstätig':53}
df = df.replace({'Erwerbstaetigkeit': di7})

di8 = {'Item nonresponse':np.nan,
       '[NA] Keine Angabe':np.nan,
       'eine Person':1,
       '1':1,
       'mehrere Personen, und zwar:':np.nan,
      '5 und mehr':5,
      '4':4,
      '3':3,
      '2':2}
df = df.replace({'Personen im Haushalt': di8})

di9 = {'Item nonresponse':np.nan,
        'Missing by filter': np.nan,
       'Angabe verweigert':np.nan,
       'Weiß nicht':np.nan,     
'6000 € und mehr'                     :6000,
'5000 bis unter 6000 €'               :5000,
'4000 bis unter 5000 €'               :4000,
'3200 bis unter 4000 €'               :3200,
'2600 bis unter 3200 €'               :3600,
'2300 bis unter 2600 €'               :2300,
'2000 bis unter 2300 €'               :2000,
'1700 bis unter 2000 €'               :1700,
'1500 bis unter 1700 €'               :1500,
'1300 bis unter 1500 €'               :1300,
'1100 bis unter 1300 €'               :1100,
'900 bis unter 1100 €'                :900,
'700 bis unter 900 €'                 :700,
'700 € und weniger'                   :0,
'6000 \x80 und mehr'                  :6000,
'5000 bis unter 6000 \x80'            :5000,
'4000 bis unter 5000 \x80'            :4000,
'3200 bis unter 4000 \x80'            :3200,
'2600 bis unter 3200 \x80'            :3600,
'2300 bis unter 2600 \x80'            :2300,
'2000 bis unter 2300 \x80'            :2000,
'1700 bis unter 2000 \x80'            :1700,
'1500 bis unter 1700 \x80'            :1500,
'1300 bis unter 1500 \x80'            :1300,
'1100 bis unter 1300 \x80'            :1100,
'900 bis unter 1100 \x80'             :900,
'700 bis unter 900 \x80'              :700,
'700 \x80 und weniger'                :0, 
'4 000\t bis unter\t4 500 Euro'       :4000,
'3 750\t bis unter \t4 000 Euro'      :3200,
'6 000\t bis unter \t7 500 Euro'      :6000,
'3 000\t bis unter \t3 250 Euro'      :2600,
'2 000\t bis unter\t2 250 Euro'       :2000,
'4 500\t bis unter\t5 000 Euro'       :4000,
'5000\t bis unter\t5 500 Euro'        :5000,
'2 750\t bis unter \t3 000 Euro'      :2600,
'3 250\t bis unter \t3 500 Euro'      :3200,
'1 750 \t bis unter\t2 000 Euro'      :1700,
'2 250\t bis unter\t2 500 Euro'       :2300,
'5 500\t bis unter\t6 000 Euro'       :5000,
'500 \t bis unter\t800 Euro'           :700,
'2 500 \t bis unter \t2 750 Euro'     :2300,
'7 500 \t bis unter \t10 000 Euro'    :6000,
'3 500\t bis unter \t3 750 Euro'      :3200,
'1 500\t bis unter\t1 750 Euro'       :1500,
'1 250 \t bis unter \t1 500 Euro'     :1300,
'801\t bis unter \t1 000 Euro'         :900,
'10 000\t bis unter\t20 000 Euro'     :6000,
'1 000 \t bis unter \t1 250 Euro'     :1100,
'401 \t bis unter 500 Euro'              :0,
'150 \t bis unter\t400 Euro'             :0,
'unter 150 Euro'                         :0,
'Kein eigenes Einkommen'                 :np.nan,
'kein eigenes Einkommen'                 :np.nan,
'300 bis unter 500 €'                    :0,
'300 bis unter 500 '                    :0,
'500 bis unter 700 €'                    :700,
'500 bis unter 700 '                    :700,
'unter 300 €'                            :0,
'unter 300 '                            :0,
'5000 € und mehr'                        :5000,      
'5000  und mehr'                        :5000}
df = df.replace({'Nettoeinkommen Selbst': di9})
df = df.replace({'Nettoeinkommen Haushalt': di9})

di10 = {
'Angestellte(r)':0,
'Missing by filter':np.nan,
'Arbeiter/-in':1,
'Selbstständiger':2,
'Beamter/-in, Richter/-in, Berufssoldat/-in':3,
'Akademiker/-in in freiem Beruf':4,
'Ausbildung':5,
'Selbstständiger Landwirt/-in':6,
'Item nonresponse':7,
'Mithelfende(r) Familienangehörige(r)':8,
'Angestellte(r)':0,
'keine passende Angabe':np.nan,
'Beamter/Beamtin, Richter/-in, Berufssoldat/-in':3,
'Ausbildung':5,
'Selbstständige (im Handel, im Gastgewerbe, im Handwerk, in der Industrie, der Dienstleistung, auch Ich-AG oder Produktionsgenossenschaft des Handwerks (PGH)-Mitglied)':2,
'Akademiker/-in in freiem Beruf (Arzt/Ärztin, Rechtsanwalt/-anwältin, Steuerberater/-in u. Ä.)':4,
'[NA] Keine Angabe':np.nan,
'Arbeiter/-in':1,
'mithelfende(r) Familienangehörige(r)':8,
'Selbstständige(r) Landwirt/-in bzw. Genossenschaftsbauer/-bäuerin':6
}
df = df.replace({'Berufsgruppe': di10})

di11 = {
'Beruflich-betriebliche Berufsausbildung':1,
'Universitätsabschluss':2,
'Kein beruflicher Abschluss, nicht beruflicher Ausbildung':3,
'Ausbildung an Fach-, Meister-, Technikerschule,Berufs- oder Fachakademie':4,
'Fachhochschulabschluss':5,
'Beruflich-schulische Ausbildung':6,
'Student/-in':7,
'Noch in beruflicher Ausbildung':8,
'Ausbildung an Fachschule der DDR':9,
'Schüler/-in an berufsorientiertre Aufbau-, Fachschule o. Ä.':10,
'Item nonresponse':np.nan,
'Missing by filter':np.nan,
'Anderer beruflicher Abschluss':11,

'Beruflich-betriebliche Berufsausbildung (Lehre) abgeschlossen':1,
'Universitätsabschluss (z. B. Diplom, Magister, Staatsexamen, Master)':2,
'Fachhochschulabschluss (z. B. Diplom, Master)':5,
'Noch in beruflicher Ausbildung (Berufsvorbereitungsjahr, Auszubildende/r, Praktikant/-in, Student/-in)':8,
'Ausbildung an einer Fach-, Meister-, Technikerschule, Berufs- oder Fachakademie abgeschlossen':4,
'Bachelor an (Fach-)Hochschule abgeschlossen':5,
'Beruflich-schulische Ausbildung (Berufsfachschule, Handelsschule, Vorbereitungsdienst für den mittleren Dienst in der öffentlichen Verwaltung) abgeschlossen':6,
'Promotion':2,
'Anderer Abschluss, und zwar:':np.nan,
'Keinen beruflichen Abschluss und bin nicht in beruflicher Ausbildung':3,
'Ausbildung an einer Fachschule der DDR abgeschlossen':9,
'[NA] Keine Angabe':np.nan   
}
df = df.replace({'Berufliche Ausbildung': di11})

df.to_csv(os.path.join(path, 'data/gesis_processed.csv'), encoding = "ISO-8859-1", index= False)
df.head(5)

Unnamed: 0,GESIS-CODE,Geschlecht,Geburtsjahr,Geburtsland,Nationalitaet,Familienstand,Hoechster Bildungsabschluss,Berufliche Ausbildung,Erwerbstaetigkeit,Berufsgruppe,...,Zurueckhaltend,leicht Vertrauen,Faulheit,Entspannt,wenig kuenstlerisches Interesse,Gesellig,Andere kritisieren,Gruendlich,Nervoes,Phantasievoll
0,288506501,0,1946,1.0,1.0,1.0,3.0,5.0,52.0,,...,3.0,3.0,1.0,3.0,4.0,4.0,3.0,4.0,3.0,4.0
1,577577701,1,1974,1.0,1.0,1.0,1.0,1.0,51.0,0.0,...,5.0,5.0,,1.0,5.0,1.0,3.0,4.0,5.0,1.0
2,358477201,1,1994,1.0,1.0,2.0,,,52.0,,...,,,,,,,,,,
3,168186301,0,1950,1.0,1.0,1.0,3.0,2.0,51.0,0.0,...,4.0,4.0,3.0,2.0,2.0,3.0,3.0,4.0,3.0,4.0
4,212460601,0,1990,1.0,1.0,2.0,2.0,1.0,51.0,0.0,...,5.0,4.0,3.0,2.0,4.0,2.0,4.0,4.0,5.0,3.0
