In [None]:
import pandas as pd
import numpy as np
import statsmodels as sm
import matplotlib.pyplot as plt
import seaborn as sns
import datetime as dt
from dateutil.parser import parse
import time
import os
import pickle

<hr>
<h1># 03 - Ergebnisdaten: Finale Aufbereitung der harmonisierten Daten:</h1>
<p><b>Hinweis:</b> Dateifpade sind absolut angegeben und müssen entsprechend der eigenen Verzeichnisstruktur angepasst werden! </p>
<hr>

In [None]:
# Pfad zu den harmonisierten Daten
data_path = '/home/paul/python_projects/masterthesis/data/wmm_data/'

file_name_harm = 'daten_wmm_all_harm.csv'

In [None]:
# Daten einlesen
df_data_csv = pd.DataFrame(pd.read_csv(data_path + file_name_harm,
    header=0, sep=';', encoding='utf-8',
    usecols=[
        'Jahr', 'Ort','Geschlecht', 'Vorname', 'Nachname','Platz','Datum','Startzeit'
        ,'T_KM_FN', 'T_KM_5', 'T_KM_10', 'T_KM_15', 'T_KM_20', 'T_KM_HM', 'T_KM_25', 'T_KM_30', 'T_KM_35', 'T_KM_40'
    ],    
    dtype={
        'Jahr':str, 'Ort':str,'Geschlecht':str, 'Vorname':str, 'Nachname':str,'Platz':int,'Datum': str, 'Startzeit':str
        ,'T_KM_FN':str, 'T_KM_5':str, 'T_KM_10':str, 'T_KM_15':str, 'T_KM_20':str, 'T_KM_HM':str, 'T_KM_25':str, 'T_KM_30':str, 'T_KM_35':str, 'T_KM_40':str
        },
    low_memory=False
))

df_data_csv.head()

In [None]:
# Dataframe kopieren
df_data = df_data_csv.copy()

# EM -Dash überall entfernen
df_data.replace('–',np.NaN,inplace=True)

In [None]:
# Datum setzen und konvertieren


# Datum: Berlin
df_data['Datum'].mask((df_data['Jahr'] == '2019') & (df_data['Ort'] == 'Berlin'),'2019-09-29',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2018') & (df_data['Ort'] == 'Berlin'),'2018-09-16',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2017') & (df_data['Ort'] == 'Berlin'),'2017-09-24',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2016') & (df_data['Ort'] == 'Berlin'),'2016-09-25',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2015') & (df_data['Ort'] == 'Berlin'),'2015-09-27',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2014') & (df_data['Ort'] == 'Berlin'),'2014-09-28',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2013') & (df_data['Ort'] == 'Berlin'),'2013-09-29',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2012') & (df_data['Ort'] == 'Berlin'),'2012-09-30',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2011') & (df_data['Ort'] == 'Berlin'),'2011-09-25',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2010') & (df_data['Ort'] == 'Berlin'),'2010-09-26',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2009') & (df_data['Ort'] == 'Berlin'),'2009-09-20',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2008') & (df_data['Ort'] == 'Berlin'),'2008-09-28',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2007') & (df_data['Ort'] == 'Berlin'),'2007-09-30',inplace=True)

# Datum: Chicago
df_data['Datum'].mask((df_data['Jahr'] == '2019') & (df_data['Ort'] == 'Chicago'),'2019-10-13',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2018') & (df_data['Ort'] == 'Chicago'),'2018-10-07',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2017') & (df_data['Ort'] == 'Chicago'),'2017-10-08',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2016') & (df_data['Ort'] == 'Chicago'),'2016-10-09',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2015') & (df_data['Ort'] == 'Chicago'),'2015-10-11',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2014') & (df_data['Ort'] == 'Chicago'),'2014-10-12',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2013') & (df_data['Ort'] == 'Chicago'),'2013-10-13',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2012') & (df_data['Ort'] == 'Chicago'),'2012-10-07',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2011') & (df_data['Ort'] == 'Chicago'),'2011-10-09',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2010') & (df_data['Ort'] == 'Chicago'),'2010-10-10',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2009') & (df_data['Ort'] == 'Chicago'),'2009-10-11',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2008') & (df_data['Ort'] == 'Chicago'),'2008-10-12',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2007') & (df_data['Ort'] == 'Chicago'),'2007-10-07',inplace=True)

# Datum: London
df_data['Datum'].mask((df_data['Jahr'] == '2019') & (df_data['Ort'] == 'London'),'2019-04-28',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2018') & (df_data['Ort'] == 'London'),'2018-04-22',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2017') & (df_data['Ort'] == 'London'),'2017-04-23',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2016') & (df_data['Ort'] == 'London'),'2016-04-24',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2015') & (df_data['Ort'] == 'London'),'2015-04-26',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2014') & (df_data['Ort'] == 'London'),'2014-04-13',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2013') & (df_data['Ort'] == 'London'),'2013-04-21',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2012') & (df_data['Ort'] == 'London'),'2012-04-22',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2011') & (df_data['Ort'] == 'London'),'2011-04-17',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2010') & (df_data['Ort'] == 'London'),'2010-04-25',inplace=True)

# Datum: NewYork -> 2012 Auf Grund eines Unwetters fand kein Marathon statt
df_data['Datum'].mask((df_data['Jahr'] == '2019') & (df_data['Ort'] == 'NewYork'),'2019-11-03..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2018') & (df_data['Ort'] == 'NewYork'),'2018-11-04..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2017') & (df_data['Ort'] == 'NewYork'),'2017-11-05..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2016') & (df_data['Ort'] == 'NewYork'),'2016-11-06..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2015') & (df_data['Ort'] == 'NewYork'),'2015-11-01..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2014') & (df_data['Ort'] == 'NewYork'),'2014-11-02..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2013') & (df_data['Ort'] == 'NewYork'),'2013-11-03..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2011') & (df_data['Ort'] == 'NewYork'),'2011-11-06..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2010') & (df_data['Ort'] == 'NewYork'),'2010-11-07..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2009') & (df_data['Ort'] == 'NewYork'),'2009-11-01..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2008') & (df_data['Ort'] == 'NewYork'),'2008-11-02..',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2007') & (df_data['Ort'] == 'NewYork'),'2007-11-04..',inplace=True)

# Datum: Tokyo
df_data['Datum'].mask((df_data['Jahr'] == '2019') & (df_data['Ort'] == 'Tokyo'),'2019-03-03',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2018') & (df_data['Ort'] == 'Tokyo'),'2018-02-25',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2017') & (df_data['Ort'] == 'Tokyo'),'2017-02-26',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2016') & (df_data['Ort'] == 'Tokyo'),'2016-02-28',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2015') & (df_data['Ort'] == 'Tokyo'),'2015-02-22',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2014') & (df_data['Ort'] == 'Tokyo'),'2014-02-23',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2013') & (df_data['Ort'] == 'Tokyo'),'2013-02-24',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2012') & (df_data['Ort'] == 'Tokyo'),'2012-02-26',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2011') & (df_data['Ort'] == 'Tokyo'),'2011-02-27',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2010') & (df_data['Ort'] == 'Tokyo'),'2010-02-28',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2009') & (df_data['Ort'] == 'Tokyo'),'2009-03-22',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2008') & (df_data['Ort'] == 'Tokyo'),'2008-02-17',inplace=True)
df_data['Datum'].mask((df_data['Jahr'] == '2007') & (df_data['Ort'] == 'Tokyo'),'2007-02-18',inplace=True)


In [None]:
df_data['Datum']= df_data['Datum'].astype('datetime64')

In [None]:
#df_data[(df_data['Ort'] == 'Tokyo') & (df_data['Jahr'] == '2018')]
df_data_2 = df_data.copy()

In [None]:
# Startzeit konvertieren
df_data_2.groupby(['Startzeit','Ort'],dropna=False, as_index=False)[['Jahr']].count()

In [None]:
# Konvertierung der NewYork Uhrzeiten
df_data_2['Startzeit'].mask((df_data_2['Startzeit'] == '12:00PM') & (df_data_2['Ort'] == 'NewYork'),'12:00:00',inplace=True) # 12:00PM
df_data_2['Startzeit'].mask((df_data_2['Startzeit'] == '8:30AM') & (df_data_2['Ort'] == 'NewYork'),'08:30:00',inplace=True) # 08:30AM
df_data_2['Startzeit'].mask((df_data_2['Startzeit'] == '9:00AM') & (df_data_2['Ort'] == 'NewYork'),'09:00:00',inplace=True) # 09:00AM

df_data_2.groupby(['Startzeit','Ort'],dropna=False, as_index=False)[['Jahr']].count()

In [None]:
# Sekunden in der Startzeit auf 00 setzen
for index, row in df_data_2.iterrows():    
    start_zeit = row['Startzeit']
    if not pd.isnull(start_zeit) and len(start_zeit) > 1:
        #print(start_zeit[0:-2] + '00')
        df_data_2.loc[index,['Startzeit']] = (start_zeit[0:-2] + '00')

df_data_2.groupby(['Startzeit','Ort'],dropna=False, as_index=False)[['Jahr']].count()
        

<h3>Setzen der fehlenden Uhrzeit</h3>
<p><b>Es wird angenommen, dass die jeweiligen Marathonläufe zu denselben Uhrzeiten beginnen. Daher werden die fehlenden Startzeiten aus den verfügbaren Zeiten der letzten oder aktuellen Läufe abgeleitet.</b></p>
<lu>
<li><b>Berlin: </b>09:15:00 (Startzeit 2021)</li>
<li><b>Tokyo: </b>09:10:00 (Startzeit der letzten Jahre)</li>
<li><b>Chicago: </b>07:30:00 (Startzeit der letzten Jahre)</li>
</lu>

In [None]:
# Fehlende Zeiten setzen

df_data_2['Startzeit'].mask((df_data_2['Ort'] == 'Berlin'),'09:15:00',inplace=True) # Berlin -> 09:15:00
df_data_2['Startzeit'].mask((df_data_2['Ort'] == 'Tokyo'),'09:10:00',inplace=True) # Tokyo -> 09:10:00
df_data_2['Startzeit'].mask((df_data_2['Ort'] == 'Chicago'),'07:30:00',inplace=True) # Chicago -> 07:30:00

In [None]:
df_data_2.groupby(['Startzeit','Ort'],dropna=False, as_index=False)['Jahr'].count()

<hr>
<h1>UTC-Zeiten</h1>
<p>Da die Wetterdaten in den UTC-Zeiten vorliegen, müssen die Startzeit zu den UTC-Zeiten konvertiert werden.</p>
<br>
<h2>Regeln der Zeitumstellung</h2>
<h3>USA</h3>
<a>https://www.nist.gov/pml/time-and-frequency-division/popular-links/daylight-saving-time-dst</a>
<p>Begins at 2:00 a.m. on the second Sunday of March (at 2 a.m. the local time time skips ahead to 3 a.m. so there is one less hour in the day)<br>
ends at 2:00 a.m. on the first Sunday of November (at 2 a.m. the local time becomes 1 a.m. and that hour is repeated, so there is an extra hour in the day)
</p>
<h3>Deutschland</h3>
<a>http://www.gesetze-im-internet.de/sozv/__2.html</a>
<p>(1) Die mitteleuropäische Sommerzeit beginnt jeweils am letzten Sonntag im März um 2 Uhr mitteleuropäischer Zeit. 
Im Zeitpunkt des Beginns der Sommerzeit wird die Stundenzählung um eine Stunde von 2 Uhr auf 3 Uhr vorgestellt.
<br>
(2) Die mitteleuropäische Sommerzeit endet jeweils am letzten Sonntag im Oktober um 3 Uhr mitteleuropäischer Sommerzeit. 
Im Zeitpunkt des Endes der Sommerzeit wird die Stundenzählung um eine Stunde von 3 Uhr auf 2 Uhr zurückgestellt. 
<br>
Die Stunde von 2 Uhr bis 3 Uhr erscheint dabei zweimal. Die erste Stunde (von 2 Uhr bis 3 Uhr mitteleuropäischer Sommerzeit) 
Wird mit 2A und die zweite Stunde (von 2 Uhr bis 3 Uhr mitteleuropäischer Zeit) mit 2B bezeichnet.
</p>
<h3>Großbritannien</h3>
<a>https://www.gov.uk/when-do-the-clocks-change</a>
<p>In the UK the clocks go forward 1 hour at 1am on the last Sunday in March, and back 1 hour at 2am on the last Sunday in October.</p>
<hr>

<h1>UTC-Zeiten setzen (mit Beachtung der Winter und Sommerzeit)</h1>
<h2>Zeiten zu UTC (Winter=normal)</h2>
<table>
<thead>
<tr><td>Stadt</td><td>Winter</td><td>Sommer</td></tr>
</thead>
<tbody>
<tr>
<td>Berlin</td>
<td>+1</td>
<td>+2</td>
</tr>
<tr>
<td>London</td>
<td>0</td>
<td>+1</td>
</tr>
<tr>
<td>New York</td>
<td>-5</td>
<td>-4</td>
</tr>
<tr>
<td>Chicago</td>
<td>-6</td>
<td>-5</td>
</tr>
<tr>
<td>Tokyo</td>
<td>+9</td>
<td>+9</td>
</tr>
</tbody>
</table>

Sommerzeit: Berlin, London und Chicago
<br>
Winterzeit(normal): NewYork (immer am Tag der Zeitumstellung), Tokyo (hat keine Zeitumstellung)
<hr>

In [None]:
df_data_3 = df_data_2.copy()

In [None]:
df_data_3.groupby(['Startzeit','Ort'],dropna=False, as_index=False)['Jahr'].count()

In [None]:
# Datum und Uhrzeit zusammenführen
df_data_3['Datum_Startzeit_UTC'] = pd.to_datetime(df_data_3['Datum'].astype('str') + 'T' + df_data_3['Startzeit'].astype('str'))

In [None]:
df_data_3.head()

In [None]:
df_data_3.info()

In [None]:
df_data_3.groupby(['Startzeit','Ort'],dropna=False, as_index=False)['Jahr'].count()

In [None]:
# Die Uhrzeit unter Berücksichtigung der Winter- und Sommerzeit auf UTC umstellen
df_data_3['Datum_Startzeit_UTC'].mask((df_data_3['Ort'] == 'Berlin'),df_data_3['Datum_Startzeit_UTC'] - dt.timedelta(hours=2),inplace=True)
df_data_3['Datum_Startzeit_UTC'].mask((df_data_3['Ort'] == 'London'),df_data_3['Datum_Startzeit_UTC'] - dt.timedelta(hours=1),inplace=True)
df_data_3['Datum_Startzeit_UTC'].mask((df_data_3['Ort'] == 'Tokyo'),df_data_3['Datum_Startzeit_UTC'] - dt.timedelta(hours=9),inplace=True)
df_data_3['Datum_Startzeit_UTC'].mask((df_data_3['Ort'] == 'Chicago'),df_data_3['Datum_Startzeit_UTC'] + dt.timedelta(hours=5),inplace=True)
df_data_3['Datum_Startzeit_UTC'].mask((df_data_3['Ort'] == 'NewYork'),df_data_3['Datum_Startzeit_UTC'] + dt.timedelta(hours=5),inplace=True)

df_data_3.head()

In [None]:
# Auskommentieren um die Uhrzeit zu prüfen
#df_data_3[df_data_3['Ort'] == 'Berlin'].groupby('Datum_Startzeit_UTC')['Jahr'].count()
#df_data_3[df_data_3['Ort'] == 'London'].groupby('Datum_Startzeit_UTC')['Jahr'].count()
#df_data_3[df_data_3['Ort'] == 'Tokyo'].groupby('Datum_Startzeit_UTC')['Jahr'].count()
#df_data_3[df_data_3['Ort'] == 'Chicago'].groupby('Datum_Startzeit_UTC')['Jahr'].count()
#df_data_3[df_data_3['Ort'] == 'NewYork'].groupby('Datum_Startzeit_UTC')['Jahr'].count()

<hr>
<h1>Zeiten in Sekunden umwandeln</h1>
<hr>

In [None]:
df_data_4 = df_data_3.copy()

In [None]:
df_data_4.head()

In [None]:
# Anzahl der angezeigten Zeilen in JNP einstellen
pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', 1000)
#df_data_4.groupby('T_KM_5',dropna=False, as_index=False)['Jahr'].count()

# Prüfen auf NaN Felder
df_data_4[df_data_4.isna().any(axis=1)]

In [None]:
# Zeitenfelder mit NaN auf 00:00:00 setzen
df_data_4.fillna('00:00:00',inplace=True)
df_data_4[df_data_4.isna().any(axis=1)]

In [None]:
# Felder für die Zeiten (in Sekunden) hinzufügen
df_data_4['S_KM_5'] = None
df_data_4['S_KM_10'] = None
df_data_4['S_KM_15'] = None
df_data_4['S_KM_20'] = None
df_data_4['S_KM_HM'] = None
df_data_4['S_KM_25'] = None
df_data_4['S_KM_30'] = None
df_data_4['S_KM_35'] = None
df_data_4['S_KM_40'] = None
df_data_4['S_KM_FN'] = None

In [None]:
# Zeiten in Sekunden umwandeln und in die daführ vorgesehenen Felder speichern
for index, row in df_data_4.iterrows():    
    km5 = time.strptime(row['T_KM_5'],'%H:%M:%S')
    km10 = time.strptime(row['T_KM_10'],'%H:%M:%S')
    km15 = time.strptime(row['T_KM_15'],'%H:%M:%S')
    km20 = time.strptime(row['T_KM_20'],'%H:%M:%S')
    kmhm = time.strptime(row['T_KM_HM'],'%H:%M:%S')
    km25 = time.strptime(row['T_KM_25'],'%H:%M:%S')
    km30 = time.strptime(row['T_KM_30'],'%H:%M:%S')
    km35 = time.strptime(row['T_KM_35'],'%H:%M:%S')
    km40 = time.strptime(row['T_KM_40'],'%H:%M:%S')
    kmfn = time.strptime(row['T_KM_FN'],'%H:%M:%S')

    df_data_4.loc[index,['S_KM_5']] = dt.timedelta(hours=km5.tm_hour, minutes=km5.tm_min, seconds=km5.tm_sec).total_seconds()
    df_data_4.loc[index,['S_KM_10']] = dt.timedelta(hours=km10.tm_hour, minutes=km10.tm_min, seconds=km10.tm_sec).total_seconds()
    df_data_4.loc[index,['S_KM_15']] = dt.timedelta(hours=km15.tm_hour, minutes=km15.tm_min, seconds=km15.tm_sec).total_seconds()
    df_data_4.loc[index,['S_KM_20']] = dt.timedelta(hours=km20.tm_hour, minutes=km20.tm_min, seconds=km20.tm_sec).total_seconds()
    df_data_4.loc[index,['S_KM_HM']] = dt.timedelta(hours=kmhm.tm_hour, minutes=kmhm.tm_min, seconds=kmhm.tm_sec).total_seconds()
    df_data_4.loc[index,['S_KM_25']] = dt.timedelta(hours=km25.tm_hour, minutes=km25.tm_min, seconds=km25.tm_sec).total_seconds()
    df_data_4.loc[index,['S_KM_30']] = dt.timedelta(hours=km30.tm_hour, minutes=km30.tm_min, seconds=km30.tm_sec).total_seconds()
    df_data_4.loc[index,['S_KM_35']] = dt.timedelta(hours=km35.tm_hour, minutes=km35.tm_min, seconds=km35.tm_sec).total_seconds()
    df_data_4.loc[index,['S_KM_40']] = dt.timedelta(hours=km40.tm_hour, minutes=km40.tm_min, seconds=km40.tm_sec).total_seconds()
    df_data_4.loc[index,['S_KM_FN']] = dt.timedelta(hours=kmfn.tm_hour, minutes=kmfn.tm_min, seconds=kmfn.tm_sec).total_seconds()

df_data_4.head()

In [None]:
# Reihenfolge der Felder ändern
df_data_5 = df_data_4[[
    'Jahr','Ort','Geschlecht','Vorname','Nachname','Platz','Datum','Startzeit','Datum_Startzeit_UTC'
    ,'T_KM_5','S_KM_5','T_KM_10','S_KM_10','T_KM_15','S_KM_15','T_KM_20','S_KM_20','T_KM_HM','S_KM_HM'
    ,'T_KM_25','S_KM_25','T_KM_30','S_KM_30','T_KM_35','S_KM_35','T_KM_40','S_KM_40','T_KM_FN','S_KM_FN'
]].copy()

In [None]:
df_data_5.head()

In [None]:
# Platzierung anpassen:
# Berlin: Anpassung der Platzierung der Frauen, da beim Berlin-Marathon keine geschlechtspezifische Platzierung gibt. Außer in den Jahren 2018 und 2019
# Tokyo: Verschiebung im Jahr 2011, da die Erstplatzierte im Jahre 2012 disqualifiziert wurde. https://de.wikipedia.org/wiki/Tatjana_Alexejewna_Arjassowa
# https://worldathletics.org/athletes/russia/tatyana-aryasova-14298087?competitorid=tatyana-aryasova-14298087&competitorid=tatyana-aryasova-14298087&competitorid=tatyana-aryasova-14298087&competitorid=tatyana-aryasova-14298087&counrty=russia&counrty=russia&counrty=russia&counrty=russia&competitorid=tatyana-aryasova-14298087&counrty=russia
df_data_5.loc[(df_data_5.Geschlecht == 'W') & (df_data_5.Ort == 'Berlin')].groupby(['Platz','Geschlecht','Ort', 'Jahr'], as_index=True).agg(
    {     
        'Platz':['count'] #,'max','min']
    }
)

In [None]:
#df_data_5['Platz'].loc[(df_data_5.Geschlecht == 'W') & (df_data_5.Ort == 'Berlin') & (df_data_5.Jahr < '2018')].rank(method='first')
df_data_5.sort_values(by=['Ort','Jahr','Geschlecht','Platz'],inplace=True)
df_data_5.reset_index(drop=True, inplace=True)
df_data_5.head()

In [None]:
# Anpassung der Platzierung - Berlin
j_prev = None
p_new = None
for i, row in df_data_5.loc[(df_data_5.Geschlecht == 'W') & (df_data_5.Ort == 'Berlin') & (df_data_5.Jahr < '2018')].iterrows():
    j_act = row['Jahr']
    if(j_prev == j_act):
        p_new = p_new + 1
        df_data_5.loc[i,['Platz']] = p_new
        #print(p_new)
    else:
        p_new = 1
        df_data_5.loc[i,['Platz']] = p_new
        #print(p_new)
    j_prev = row['Jahr']

df_data_5.loc[(df_data_5.Geschlecht == 'W') & (df_data_5.Ort == 'Berlin')]

In [None]:
df_data_5.loc[(df_data_5.Geschlecht == 'W') & (df_data_5.Ort == 'Tokyo')].groupby(['Platz','Geschlecht','Ort', 'Jahr'], as_index=True).agg(
    {     
        'Platz':['count'] #,'max','min']
    }
)

In [None]:
# Anpassung der Platzierung - Berlin
j_prev = None
p_new = None
for i, row in df_data_5.loc[(df_data_5.Geschlecht == 'W') & (df_data_5.Ort == 'Tokyo') & (df_data_5.Jahr == '2011')].iterrows():
    j_act = row['Jahr']
    if(j_prev == j_act):
        p_new = p_new + 1
        df_data_5.loc[i,['Platz']] = p_new
        #print(p_new)
    else:
        p_new = 1
        df_data_5.loc[i,['Platz']] = p_new
        #print(p_new)
    j_prev = row['Jahr']

df_data_5.loc[(df_data_5.Geschlecht == 'W') & (df_data_5.Ort == 'Tokyo')]

In [None]:
# Prüfen ob Zeiten nicht erfasst wurden bzw. auf 0.0 stehen
df_data_5.loc[df_data_5.isin([0.0]).any(axis=1)]

In [None]:
df_data_6 = df_data_5.copy()

In [None]:
# Spalte hinzufügen die Datensätze mit ungültigen Zwischenzeiten markiert.
df_data_6['ZZ_INVALID'] = 'F'

# Die enstprechenden Datensätze mit ZZ_INVALID ungültig markieren
df_data_6['ZZ_INVALID'].mask((df_data_6.isin([0.0]).any(axis=1)),'T',inplace=True)

In [None]:
df_data_6.loc[df_data_6.isin([0.0]).any(axis=1)]

In [None]:
df_data_6.head(60)

In [None]:
df_data_6.groupby(['Geschlecht'], as_index=True).agg(
    {     
        'S_KM_FN':['max','min','mean','median']
    }
)

In [None]:
# Alle Datensätze in eine CSV-Datei speichern.
file_name_prepared = data_path + "daten_wmm_all_prepared.csv"
df_data_6.to_csv(file_name_prepared, sep=';', index=False, encoding='utf8')

# Dataframe serialisieren (Pickle) für die spätere Verwendungen mit den Wetterdaten
file_name_prepared_p = data_path + "daten_wmm_all_prepared.p"
pickle.dump(df_data_6, open(file_name_prepared_p, "wb"))