<a href="https://colab.research.google.com/github/spoon-while-spoon/bike-traffic-mlpred/blob/main/ml_car_v2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [35]:
# Importieren der benötigten Bibliotheken
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
sns.set(color_codes=True) # Setzt Standardfarbcodes für Seaborn-Plots

# Konvertiert einen Integer-Zeitstempel in ein Datums-/Zeitformat
def parse_date(date_int):
    date_str = str(date_int) # Konvertiert den Integer in einen String
    return pd.to_datetime(date_str, format='%Y%m%d%H')

# Einlesen der CSV-Dateien
wind_df = pd.read_csv("wind.csv", sep=";", index_col=1, parse_dates=True, date_parser=parse_date).drop(['eor', 'STATIONS_ID', 'QUALITAETS_NIVEAU', 'STRUKTUR_VERSION', 'WINDRICHTUNG'], axis=1)
sun_df = pd.read_csv("sun.csv", sep=";", index_col=1, parse_dates=True, date_parser=parse_date).drop(['STATIONS_ID', 'QUALITAETS_NIVEAU', 'STRUKTUR_VERSION', 'eor'], axis=1)
precipation_df = pd.read_csv("precipation.csv", sep=";", index_col=1, parse_dates=True, date_parser=parse_date).drop(['STATIONS_ID', 'QUALITAETS_NIVEAU', 'STRUKTUR_VERSION', 'eor'], axis=1)
airpressure_df = pd.read_csv("airpressure.csv", sep=";", index_col=1, parse_dates=True, date_parser=parse_date).drop(['STATIONS_ID', 'QUALITAETS_NIVEAU', 'STRUKTUR_VERSION', 'LUFTDRUCK_STATIONSHOEHE', 'eor'], axis=1)
air_temp_df = pd.read_csv("air_temp.csv", sep=";", index_col=1, parse_dates=True, date_parser=parse_date).drop(['STATIONS_ID', 'QUALITAETS_NIVEAU', 'STRUKTUR_VERSION', 'LUFTTEMPERATUR_FALSCH', 'STRAHLUNGSTEMPERATUR', 'eor'], axis=1)
radverkehr_df = pd.read_csv("radverkehr_final.csv", sep=";", index_col=1, parse_dates=True, date_parser=parse_date).drop(['datum_rad'], axis=1)


### Kombinieren
Hier werden unsere erstellten Dataframes zu einem kombiniert `(df_combined)` und anschließend das Ergebnis ausgegeben mit
`print(df_combined.head())`


In [36]:
df_combined = pd.concat([wind_df, sun_df, precipation_df, airpressure_df, air_temp_df, radverkehr_df], axis=1)
print(df_combined.head())

                     WINDGESCHWINDIGKEIT  SONNENSCHEINDAUER  \
MESS_DATUM                                                    
2015-01-01 01:00:00                  NaN                NaN   
2015-01-01 02:00:00                  NaN                NaN   
2015-01-01 03:00:00                  NaN                NaN   
2015-01-01 04:00:00                  NaN                NaN   
2015-01-01 05:00:00                  NaN                NaN   

                    NIEDERSCHLAGSHOEHE  LUFTDRUCK_NN LUFTTEMPERATUR_RICHTIG  \
MESS_DATUM                                                                    
2015-01-01 01:00:00                NaN           NaN                    NaN   
2015-01-01 02:00:00                NaN           NaN                    NaN   
2015-01-01 03:00:00                NaN           NaN                    NaN   
2015-01-01 04:00:00                NaN           NaN                    NaN   
2015-01-01 05:00:00                NaN           NaN                    NaN   

    

### Bereinigen
Anschließend bereinigen wir auf Grundlage fehlender Daten. Übrig bleiben um Endergebnis nur Datenreihen in den zu allen Zeitstempeln die vollstängen Daten vorliegen.

In [37]:
df_cleaned = df_combined.dropna()
print(df_cleaned.head())

                     WINDGESCHWINDIGKEIT  SONNENSCHEINDAUER  \
MESS_DATUM                                                    
2015-08-20 01:00:00                750.0                0.0   
2015-08-20 02:00:00                810.0                0.0   
2015-08-20 03:00:00                730.0                0.0   
2015-08-20 04:00:00                740.0                0.0   
2015-08-20 05:00:00                860.0                0.0   

                    NIEDERSCHLAGSHOEHE  LUFTDRUCK_NN LUFTTEMPERATUR_RICHTIG  \
MESS_DATUM                                                                    
2015-08-20 01:00:00                  0       10224.0                   15,9   
2015-08-20 02:00:00                  0       10226.0                   15,2   
2015-08-20 03:00:00                  0       10229.0                   14,8   
2015-08-20 04:00:00                  0       10232.0                   14,6   
2015-08-20 05:00:00                  0       10237.0                     15   

    

In [38]:
num_rows = len(df_cleaned)
print("Anzahl der Zeilen:", num_rows)

Anzahl der Zeilen: 47742


### Ergebnis
Um zu überprüfen wieviele Datensätze den Anforderungen entprechen und im fertigen Datensatz übrig bleiben nutzen wir `num_rows`