In [1]:
import pandas as pd
from datetime import datetime

In [8]:
def readData(filename):
    # Daten einlesen
    df = pd.read_csv(filename,
                           sep=';',
                           header=None,
                           names=['Personalnummer', 
                                    'Anrede', 
                                    'Vorname', 
                                    'Nachname',
                                    'Geburtsdatum'],
                            encoding='latin-1') # encoding auf latin-1 da sonst probleme mit Umlauten
    return df

In [9]:
def is_valid_year(year: str):
    # Testen ob Jahr valide ist
    if year.isdigit() and len(year) == 4:
        if int(year) > 1900 and int(year) < 2006:
            return True
    return False

In [10]:
def is_correctable(birthday):
    # Prüfen ob Datum korrigierbar ist
    if isinstance(birthday, str):
        months = ['Januar','Februar', 'März', 'April', 'Mai', 'Juni', 'Juli', 'August', 'September', 'Oktober', 'November', 'Dezember']
        for m in months:
            if m in birthday:
                new_str = birthday.split(m)[1]
                years = [x for x in new_str.split(' ') if x.isdigit()]
                for year in years:
                    if is_valid_year(year):
                        return months.index(m) + 1, year
                return months.index(m) + 1, None
    return None, None

In [11]:
def get_error_types_and_clean(errorframe, fullframe):
    
    # Erstelle ein neues Dataframe mit den Fehlertypen

    for index, row in errorframe.iterrows():
        birthday = row['Geburtsdatum']
        month, year = is_correctable(birthday)
        if month is not None and year is not None:
            datensatz = 'Korrektur'
            typ = 'Monat reicht für Alter'
        elif month is not None:
            datensatz = 'Löschen'
            typ = 'Jahr fehlt'
        elif year is not None:
            datensatz = 'Löschen'
            typ = 'Monat fehlt'
        else:
            datensatz = 'Löschen'
            typ = 'Kein Datum'

        errorframe.loc[index, 'Datensatz?'] = datensatz
        errorframe.loc[index, 'Typ'] = typ


        # Entferne/Korrigiere Datensätze
        if datensatz == 'Löschen':
            fullframe = fullframe.drop(index)
        elif datensatz == 'Korrektur':
            fullframe.loc[index,'Geburtsdatum'] = '01.' + str(month) + '.' + str(year)

    return fullframe, errorframe

In [12]:
def clean(data):
    errorframe = data.loc[pd.to_datetime(data['Geburtsdatum'], format='%d.%m.%Y',errors='coerce').isna(), ['Personalnummer', 
                                    'Anrede', 
                                    'Vorname', 
                                    'Nachname',
                                    'Geburtsdatum']]
    cleaned, err = get_error_types_and_clean(errorframe, data)
    return cleaned, err

In [3]:
def get_gender_based_birthdays(data, gender=None):
    # Alle Geburtsdaten des angegebenen Geschlechts
    # Wenn kein Geschlecht angegeben ist gibt diese Funktion alle Geburtstage zurück
    if gender is not None:
        data = data[data['Anrede'] == gender]
    
    # TODO: Wirft wahrscheinlich Fehler
    
    #Stichtag
    st = datetime("31.12.2005", format="%d.%m.%Y")
    ages = []
    for index, row in data:
        birthday = datetime(data.loc[index,"Geburtsdatum"], format="%d.%m.%Y")
        pass
    
    age = data['Geburtsdatum'].apply(lambda x: 2005 - int(x.split('.')[2]))
    return age

In [25]:
def age_average(data):
    # Berechne durchschnittliches Alter
    return data.mean()

def age_variance(data):
    # Berechne altersvarianz
    variance = data.var(ddof=0)
    return variance
    
def age_standard_deviation(data):
    # Berechne Standadabweichung
    return data.std(ddof=0)

def get_median(data):
    # Berechne Median
    return data.median()

def get_range(data):
    # Berechne Range
    return data.max() - data.min()

In [15]:
dt = readData('sr_aufg_1_35.txt')

In [16]:
dt_clean, err = clean(dt)

In [17]:
err.style

Unnamed: 0,Personalnummer,Anrede,Vorname,Nachname,Geburtsdatum,Datensatz?,Typ
7,8,Herr,Siegfried Metzger,16.02.1963,,Löschen,Kein Datum
21,22,Frau,Elisabeth,Rau,im Februar 1965,Korrektur,Monat reicht für Alter
23,24,Herr,Manfred,Wagner,VHVeHvZZXM,Löschen,Kein Datum
39,40,Herr,Werner,Hartung,27.09.814,Löschen,Kein Datum
41,42,Herr,Christoph,Weiß,,Löschen,Kein Datum
54,55,Frau,Heike,Schneider,unbekannt,Löschen,Kein Datum
64,65,Herr,Oliver,Berger,xxxx,Löschen,Kein Datum
65,66,Herr,Thomas,Alt,20.11.,Löschen,Kein Datum
73,74,Herr,Jochen,Walter,24.10.2824,Löschen,Kein Datum
81,82,Frau,Dorothea,Seidel,xxxx,Löschen,Kein Datum


In [18]:
upper_limit = 2005
lower_limit = 2005-20
age_0_20 = dt_clean[lambda x: x['Geburtsdatum'].apply(lambda y: int(y.split('.')[2]) >= lower_limit and int(y.split('.')[2]) <= upper_limit)]

In [19]:
upper_limit = 2005 - 21
lower_limit = 2005 - 30
age_20_30 = dt_clean[lambda x: x['Geburtsdatum'].apply(lambda y: int(y.split('.')[2]) >= lower_limit and int(y.split('.')[2]) <= upper_limit)]

upper_limit = 2005 - 31
lower_limit = 2005 - 40
age_30_40 = dt_clean[lambda x: x['Geburtsdatum'].apply(lambda y: int(y.split('.')[2]) >= lower_limit and int(y.split('.')[2]) <= upper_limit)]

upper_limit = 2005 - 41
lower_limit = 2005 - 50
age_40_50 = dt_clean[lambda x: x['Geburtsdatum'].apply(lambda y: int(y.split('.')[2]) >= lower_limit and int(y.split('.')[2]) <= upper_limit)]

lower_limit = 2005 - 51
age_50 = dt_clean[lambda x: x['Geburtsdatum'].apply(lambda y: int(y.split('.')[2]) >= lower_limit)]

In [26]:
gbb = get_gender_based_birthdays(dt_clean,'Herr')
male_average = age_average(gbb)
male_variance = age_variance(gbb)
male_standard_deviation = age_standard_deviation(gbb)
male_median = get_median(gbb)
male_range = get_range(gbb)

gbb = get_gender_based_birthdays(dt_clean, 'Frau')
female_average = age_average(gbb)
female_variance = age_variance(gbb)
female_standard_deviation = age_standard_deviation(gbb)
female_median = get_median(gbb)
female_range = get_range(gbb)

gbb = get_gender_based_birthdays(dt_clean)
average = age_average(gbb)
variance = age_variance(gbb)
standard_deviation = age_standard_deviation(gbb)
median = get_median(gbb)
rng = get_range(gbb)

In [27]:
dat = [ {average, female_average, male_average},
        {variance, female_variance, male_variance},
        {standard_deviation, female_standard_deviation, male_standard_deviation},
        {median, female_median, male_median},
        {rng, female_range, male_range} ]

In [28]:
dataf = pd.DataFrame(dat, columns=['gesamt', 'Frauen', 'Männer'], 
        index=['Mittelwert', 'Varianz', 'Std.-Abw', 'Median', 'Spannweite'])

In [29]:
dataf.style

Unnamed: 0,gesamt,Frauen,Männer
Mittelwert,40.529412,43.9,37.288462
Varianz,177.282175,180.17,189.621684
Std.-Abw,13.314735,13.770319,13.422742
Median,36.0,47.0,39.0
Spannweite,83.0,84.0,46.0
