In [1]:
import pandas as pd 
import numpy as np
from pathlib import Path
from pandas import NA
pd.set_option('display.float_format', lambda x: '%.2f' % x)

In [2]:
"""Functions for cleaning the raw data sets."""

# PPATH data 
def clean_ppath_data(raw):
    
    df_ppath = pd.DataFrame(index = raw.index)
    df_ppath["cid"] = raw["cid"]
    df_ppath["pid"] = raw["pid"]
    df_ppath["birth_year"] = raw["gebjahr"]

    gender_mapping_dict = {
    '[-1] keine Angabe': NA,
    '[-3] nicht valide': NA,
    '[1] maennlich': 0,
    '[2] weiblich': 1,
    }

    df_ppath["female"] = raw["sex"].map(gender_mapping_dict)

    loc1989_mapping_dict = {
        '[1] East Germany (DDR) incl. East Berlin': 0,
        '[2] West Germany (FRG) incl. West Berlin': 1, 
        '[3] Abroad  (Ausland)': NA,
        '[-1] keine Angabe': NA,
        '[-2] trifft nicht zu': NA,
        '[-3] nicht valide': NA,
        '[-4] Unzulaessige Mehrfachantwort': NA,
        '[-5] In Fragebogenversion nicht enthalten': NA,
        '[-6] Fragebogenversion mit geaenderter Filterfuehrung': NA,
        '[-7] Nur in weniger eingeschränkter Edition verfügbar': NA,
        '[-8] Frage in diesem Jahr nicht Teil des Frageprograms': NA,
    }

    df_ppath["west89"] = raw["loc1989"].map(loc1989_mapping_dict)

    df_ppath = df_ppath.dropna()

    return df_ppath



# PGEN data 
def clean_pgen_data(raw):

    df_pgen = pd.DataFrame(index = raw.index)
    df_pgen["cid"] = raw["cid"]
    df_pgen["pid"] = raw["pid"]
    df_pgen["hid"] = raw["hid"]
    df_pgen["syear"] = raw["syear"]
    df_pgen["employment_status"] = raw["pgemplst"]

    pgfamstd_mapping_dict = {
        '[1] Verheiratet, mit Ehepartner zusammenlebend': 1,
        '[2] Verheiratet, dauernd getrennt lebend': 0,
        '[3] Ledig': 0,
        '[4] Geschieden / eingetragene gleichgeschlechtliche Partnerschaft aufgehoben': 0,
        '[5] Verwitwet / Lebenspartner/-in aus eingetragener gleichgeschlechtlicher Partnerschaft verstorben': 0,
        '[6] Ehepartner im Ausland': 1,
        '[7] Eingetragene gleichgeschlechtliche Partnerschaft zusammenlebend': 1,
        '[8] Eingetragene gleichgeschlechtliche Partnerschaft getrennt lebend': 1,
        '[-1] keine Angabe': NA,
        '[-2] trifft nicht zu': NA,
        '[-3] nicht valide': NA,
        '[-4] Unzulaessige Mehrfachantwort': NA,
        '[-5] In Fragebogenversion nicht enthalten': NA,
        '[-6] Fragebogenversion mit geaenderter Filterfuehrung': NA,
        '[-7] Nur in weniger eingeschränkter Edition verfügbar': NA,
        '[-8] Frage in diesem Jahr nicht Teil des Frageprograms': NA,
    }

    df_pgen["married"] = raw["pgfamstd"].map(pgfamstd_mapping_dict)

    pgemplst_mapping_dict = {
        '[1] Voll erwerbstätig': 1,
        '[2] Teilzeitbeschäftigung': 2,
        '[3] Ausbildung, Lehre': 3,
        '[4] Unregelmässig, geringfügig erwerbstät.': 4,
        '[5] Nicht erwerbstätig': 5,
        '[6] Werkstatt für behinderte Menschen (seit 1998)': 6,
        '[7] in Kurzarbeit (seit 2021)': 7,
        '[-1] keine Angabe': NA,
        '[-2] trifft nicht zu': NA,
        '[-3] nicht valide': NA,
        '[-4] Unzulaessige Mehrfachantwort': NA,
        '[-5] In Fragebogenversion nicht enthalten': NA,
        '[-6] Fragebogenversion mit geaenderter Filterfuehrung': NA,
        '[-7] Nur in weniger eingeschränkter Edition verfügbar': NA,
        '[-8] Frage in diesem Jahr nicht Teil des Frageprograms': NA,
    }

    # cat 5 is the reference cat
    df_pgen["employment_status"] = raw["pgemplst"].map(pgemplst_mapping_dict)
    df_pgen["full_time"] = (df_pgen["employment_status"] == 1).astype(int)
    df_pgen["part_time"] = (df_pgen["employment_status"] == 2).astype(int)
    df_pgen["apprenticeship"] = (df_pgen["employment_status"] == 3).astype(int)
    df_pgen["mini_job"] = (df_pgen["employment_status"] == 4 ).astype(int)

    df_pgen = df_pgen.dropna()

    return df_pgen


# PL data 
def clean_pl_data(raw):

    df_pl = pd.DataFrame(index = raw.index)
    df_pl["cid"] = raw["cid"]
    df_pl["hid"] = raw["hid"]
    df_pl["pid"] = raw["pid"]
    df_pl["syear"] = raw["syear"]

    ls_mapping_dict = {
        '[0] 0 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 0,
        '[1] 1 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 1,
        '[2] 2 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 2,
        '[3] 3 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 3,
        '[4] 4 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 4,
        '[5] 5 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 5,
        '[6] 6 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 6,
        '[7] 7 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 7,
        '[8] 8 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 8,
        '[9] 9 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 9,
        '[10] 10 Zufrieden: Skala 0-Niedrig bis 10-Hoch': 10,
        '[-1] keine Angabe': NA,
        '[-2] trifft nicht zu': NA,
        '[-3] nicht valide': NA,
        '[-4] Unzulaessige Mehrfachantwort': NA,
        '[-5] In Fragebogenversion nicht enthalten': NA,
        '[-6] Fragebogenversion mit geaenderter Filterfuehrung': NA,
        '[-7] Nur in weniger eingeschränkter Edition verfügbar': NA,
        '[-8] Frage in diesem Jahr nicht Teil des Frageprograms': NA,
    }

    df_pl["life_satisfaction"] = raw["plh0182"].map(ls_mapping_dict)

    df_pl = df_pl.dropna()

    return df_pl


# HGEN data
def clean_hgen_data(raw):

    df_hgen = pd.DataFrame(index = raw.index)
    df_hgen["hid"] = raw["hid"]
    df_hgen["cid"] = raw["cid"]
    df_hgen["syear"] = raw["syear"].astype(int)

    hghinc_mapping_dict = {
        '[-1] keine Angabe': NA,
        '[-2] trifft nicht zu': NA,
        '[-3] nicht valide': NA,
        '-3000': NA,
        '-400': NA,
    }

    df_hgen["hh_income"] = raw["hghinc"].replace(hghinc_mapping_dict)

    df_hgen = df_hgen.dropna()

    return df_hgen

In [3]:
def merge_soep_cleaned_data(clean_ppath, clean_pgen, clean_pl, clean_hgen):
    
    merged_df = pd.merge(clean_ppath, clean_pgen, on = ["pid", "cid"], how ="inner")
    merged_df = pd.merge(merged_df, clean_pl, on = ["pid", "cid", "hid", "syear"], how = "inner")
    merged_df = pd.merge(merged_df, clean_hgen, on = ["cid", "hid", "syear"], how = "inner")

    return merged_df

In [None]:
# Clean raw data files
# From "/dohmen_soep/SOEP-CORE.v36eu_STATA/Stata"

ppath = pd.read_stata("/Volumes/dohmen_soep/SOEP-CORE.v36eu_STATA/Stata/ppath.dta")
clean_ppath = clean_ppath_data(ppath)

pgen = pd.read_stata("/Volumes/dohmen_soep/SOEP-CORE.v36eu_STATA/Stata/pgen.dta")
clean_pgen = clean_pgen_data(pgen)

pl = pd.read_stata("/Volumes/dohmen_soep/SOEP-CORE.v36eu_STATA/Stata/pl.dta")
clean_pl = clean_pl_data(pl)


# From "/dohmen_soep/", "hgen.zip"
hgen = pd.read_stata("/Volumes/dohmen_soep/hgen/hgen.dta")
clean_hgen = clean_hgen_data(hgen)


In [5]:
# Merge cleaned data files

soep_data = merge_soep_cleaned_data(clean_ppath, clean_pgen, clean_pl, clean_hgen)

In [6]:
soep_data.to_csv("/rm-project/bld/data/merged_cleaned.csv", index = False)
soep = pd.read_csv("/rm-project/bld/data/merged_cleaned.csv")
df = pd.DataFrame(soep)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569439 entries, 0 to 569438
Data columns (total 15 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   cid                569439 non-null  int64  
 1   pid                569439 non-null  int64  
 2   birth_year         569439 non-null  int64  
 3   female             569439 non-null  int64  
 4   west89             569439 non-null  int64  
 5   hid                569439 non-null  int64  
 6   syear              569439 non-null  float64
 7   employment_status  569439 non-null  int64  
 8   married            569439 non-null  int64  
 9   full_time          569439 non-null  int64  
 10  part_time          569439 non-null  int64  
 11  apprenticeship     569439 non-null  int64  
 12  mini_job           569439 non-null  int64  
 13  life_satisfaction  569439 non-null  int64  
 14  hh_income          569439 non-null  int64  
dtypes: float64(1), int64(14)
memory usage: 65.2 MB


In [None]:
# Filter and add new columns in the merged and cleaned soep data 

soep_final = df[df["syear"] > 1989]
soep_final["age"] = soep_final["syear"] - soep_final["birth_year"]
soep_final["age_sq"] = soep_final["age"] ** 2

In [None]:
# Filter, add new columns, re-order columns in the merged and cleaned soep data 

soep_final = soep_data[soep_data["syear"] > 1989]
soep_final["age"] = soep_final["syear"] - soep_final["birth_year"]
soep_final["age_sq"] = soep_final["age"] ** 2
soep_final = soep_final[["pid", "cid", "hid",
                         "syear", "west89", "female",
                         "birth_year", "age", "age_sq",
                         "life_satisfaction", "married", 
                         "full_time", "part_time", "apprenticeship", "mini_job",
                         "hh_income"]]

soep_final.to_csv("/rm-project/bld/data/soep_final.csv", index = False)


In [18]:
df = pd.read_csv("/rm-project/bld/data/soep_final.csv")
df = pd.DataFrame(df)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 510985 entries, 0 to 510984
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   pid                510985 non-null  int64  
 1   cid                510985 non-null  int64  
 2   hid                510985 non-null  int64  
 3   syear              510985 non-null  float64
 4   west89             510985 non-null  int64  
 5   female             510985 non-null  int64  
 6   birth_year         510985 non-null  int64  
 7   age                510985 non-null  float64
 8   age_sq             510985 non-null  float64
 9   life_satisfaction  510985 non-null  int64  
 10  married            510985 non-null  int64  
 11  full_time          510985 non-null  int64  
 12  part_time          510985 non-null  int64  
 13  apprenticeship     510985 non-null  int64  
 14  mini_job           510985 non-null  int64  
 15  hh_income          510985 non-null  int64  
dtypes: