In [None]:
import pandas as pd
%matplotlib inline

## Lesen der ICEs

In [None]:
df = pd.read_csv('combinedData/alltrains.csv', index_col=False, compression='zip')

In [None]:
df.head()

## Für String Spalten jeweils eine numerische Spalte anlegen
Zur späteren Umwandlung werden auch Dictinaries bereit gestellt, die mit `.map(dictinary)` auf die jeweilige Spalte angewendet werden können.  

### Entfernen aller Zeilen mit NaN Werten

In [None]:
df.count()

In [None]:
df = df.dropna()
df.count()

### Bahnhöfe
Die Nummerierung wird zunächst automatisch erstellet und anschließend wird ein Dictionary `bhf_cats` extrahiert.
Der Alte code

`
df['bhf_cat'] = pd.Categorical(df['bhf'], categories=df['bhf'].unique()).codes
bhf_df = df[['bhf', 'bhf_cat']]
bhf_df = bhf_df.drop_duplicates()
bhf_cats = {x['bhf']: x['bhf_cat'] for x in bhf_df.to_dict('records')}
`

In [None]:
bhfs = pd.read_csv("wetterdaten/bahnhof_to_weather_location.csv", index_col=False)
bhfs['bhf_cat'] = bhfs.index
bhf_cats = {x['bhf']: x['bhf_cat'] for x in bhfs.to_dict('records')}
bhf_cats

In [None]:
df['bhf_cat'] = df['bhf'].map(bhf_cats)
df[['bhf', 'bhf_cat']].drop_duplicates()

### Wochentage

Hier wird direkt das Dictionary `dayname_cats` per Hand erstellt und dann angewendet.

In [None]:
df['dayname'].unique()

In [None]:
dayname_cats = {'Monday': 0,  'Tuesday': 1,  'Wednesday': 2, 'Thursday': 3, 'Friday': 4, 'Saturday': 5, 'Sunday': 6}
df['dayname_cat'] = df['dayname'].map(dayname_cats)
df['dayname_cat'].value_counts()

### Zugnummern

Diese werden wieder zunächst automatisch generiert und dann ein Dictionary `trainno_cats` extrahiert.

In [None]:
df['trainno_cat'] = pd.Categorical(df['trainno'], categories=df['trainno'].unique()).codes

trainno_df = df[['trainno', 'trainno_cat']]
trainno_df = trainno_df.drop_duplicates()
trainno_df.count()

In [None]:
trainno_cats = {x['trainno']: x['trainno_cat'] for x in trainno_df.to_dict('records')}
trainno_cats

### Wetter

In [None]:
df['weather_condition'] = df['weather_condition'].fillna('Na')
df['weather_condition_cat'] = pd.Categorical(df['weather_condition'], categories=df['weather_condition'].unique()).codes

weather_condition_df = df[['weather_condition', 'weather_condition_cat']]
weather_condition_df = weather_condition_df.drop_duplicates()
weather_condition_df.count()

In [None]:
weather_condition_cats = {x['weather_condition']: x['weather_condition_cat'] for x in weather_condition_df.to_dict('records')}
weather_condition_cats

### Wochentage

In [None]:
daytype_cats = {'Weekend': 0,  'Weekday': 1}
df['daytype_cat'] = df['daytype'].map(daytype_cats)

### Zugtypen

In [None]:
df['type_cat'] = pd.Categorical(df['type'], categories=df['type'].unique()).codes
type_df = df[['type', 'type_cat']]
type_df = type_df.drop_duplicates()
type_df.count()

In [None]:
type_cats = {x['type']: x['type_cat'] for x in type_df.to_dict('records')}
type_cats

### Ferien und Feiertage

Hier wird wieder mit einem vorbereitetem Dictionary gearbeite (`ferien_cats` und `feiertag_cats`)

In [None]:
#df['ferien' ].value_counts()

In [None]:
#df['feiertag'].value_counts()

In [None]:
# ferien_cats = {'keine_ferien':0, 'start':1, 'mitte': 2, 'ende': 3}
# feiertag_cats = {'kein_feiertag': 0, 'feiertag': 1}
# df['feiertag_cat'] = df['feiertag'].map(feiertag_cats)
# df['ferien_cat'] = df['ferien'].map(ferien_cats)

## Abspeichern des neuen DataFrames als CSV Datei

In [None]:
df.head(100)

In [None]:
df.to_csv('combinedData/alltrains.csv',compression='zip')

## Abspeichern der Übersetzungs Dictionaries als eine Json Datei

Beim exportieren muss `ensure_ascii=False` gesetzt werden, da die Keys u.U. UTF8 Werte enthalten können!

In [None]:
cats = [x for x in globals().keys() if x.endswith('cats') and x != 'cats']
cats

In [None]:
cats_json = {x: eval(x) for x in cats}
cats_json

In [None]:
import json 
with open('newData/conversion_dicts.json', 'w') as jsonfile:
    json.dump(cats_json, jsonfile, ensure_ascii=False)

!head newData/conversion_dicts.json