# Wettercode aufarbeiten

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [2]:
# Trainingsdaten laden
train_data = pd.read_csv('data/train_data.csv')
df_wettercode_encoded = train_data.copy()
# eine Zeile anzeigen
print(df_wettercode_encoded['Wettercode'].value_counts())

Wettercode
61.0    1795
21.0     843
0.0      624
10.0     600
63.0     479
5.0      262
20.0     196
95.0     112
65.0      95
45.0      80
28.0      58
22.0      57
49.0      43
71.0      36
77.0      35
53.0      26
69.0      21
73.0      17
75.0      15
79.0       5
Name: count, dtype: int64


In [4]:


# Debug-Ausgabe
print("dtype vor Änderung:", df_wettercode_encoded['Wettercode'].dtype)

# Falls noch kein category dtype: konvertieren
if not pd.api.types.is_categorical_dtype(df_wettercode_encoded['Wettercode']):
    df_wettercode_encoded['Wettercode'] = df_wettercode_encoded['Wettercode'].astype('category')

# Jetzt sicher Kategorien hinzufügen und NaNs ersetzen
df_wettercode_encoded['Wettercode'] = df_wettercode_encoded['Wettercode'].cat.add_categories(['Keine Daten'])
df_wettercode_encoded['Wettercode'] = df_wettercode_encoded['Wettercode'].fillna('Keine Daten')

print("dtype nach Änderung:", df_wettercode_encoded['Wettercode'].dtype)
print(df_wettercode_encoded['Wettercode'].value_counts())
# ...existing code...# )

dtype vor Änderung: float64
dtype nach Änderung: category
Wettercode
Keine Daten    2088
61.0           1795
21.0            843
0.0             624
10.0            600
63.0            479
5.0             262
20.0            196
95.0            112
65.0             95
45.0             80
28.0             58
22.0             57
49.0             43
71.0             36
77.0             35
53.0             26
69.0             21
73.0             17
75.0             15
79.0              5
Name: count, dtype: int64


  if not pd.api.types.is_categorical_dtype(df_wettercode_encoded['Wettercode']):


In [None]:
# # One-Hot-Encoding des Wettercodes - erstmal mit allen Werten (und noch genullt)


# # Alle möglichen Wettercodes definieren
# alle_wettercodes = [0.0, 5.0, 10.0, 20.0, 21.0, 22.0, 28.0, 45.0, 49.0, 
#                     53.0, 61.0, 63.0, 65.0, 69.0, 71.0, 73.0, 75.0, 
#                     77.0, 79.0, 95.0, 'keine Daten']

# df_wettercode_encoded['Wettercode'] = pd.Categorical(df_wettercode_encoded['Wettercode'], categories=alle_wettercodes)

# # Ersetzt automatisch die Wettercode-Spalte durch die binären Spalten
# df_wetterencoded_merged = pd.get_dummies(df_wettercode_encoded, columns=['Wettercode'], dtype=int, prefix='Wettercode')

# df_wetterencoded_merged.to_csv('df_wettercode_encoded.csv', index=False)

# print(df_wetterencoded_merged.head())


        id       Datum  Warengruppe      Umsatz  Bewoelkung  Temperatur  \
0  1307011  2013-07-01            1  148.828353         6.0     17.8375   
1  1307013  2013-07-01            3  201.198426         6.0     17.8375   
2  1307014  2013-07-01            4   65.890169         6.0     17.8375   
3  1307015  2013-07-01            5  317.475875         6.0     17.8375   
4  1307012  2013-07-01            2  535.856285         6.0     17.8375   

   Windgeschwindigkeit  KielerWoche Feiertage  Monat  ...  Wettercode_63.0  \
0                 15.0          0.0         0      7  ...                0   
1                 15.0          0.0         0      7  ...                0   
2                 15.0          0.0         0      7  ...                0   
3                 15.0          0.0         0      7  ...                0   
4                 15.0          0.0         0      7  ...                0   

  Wettercode_65.0 Wettercode_69.0  Wettercode_71.0  Wettercode_73.0  \
0        

In [None]:
# Wettercodes in Kategorien gruppieren mit Mapping

wettercode_mapping = {
    0.0: 'Klar',
    5.0: 'Dunst',
    10.0: 'Nebel',
    20.0: 'Sprühregen_oder_Schneegriesel_aufgehoert',
    21.0: 'Regen_aufgehoert',
    22.0: 'Schnee_aufgehoert',
    28.0: 'Nebel_aufgehoert',
    45.0: 'Nebel',
    49.0: 'Nebel+Reifansatz',
    53.0: 'andauernder_Sprühregen',
    61.0: 'Mässiger_Regen',
    63.0: 'Mässiger_Regen',
    65.0: 'Mässiger_Regen',
    69.0: 'Schneeregen',
    71.0: 'Schneefall',          
    73.0: 'Schneefall',          
    75.0: 'Schneefall',
    77.0: 'Schneegriesel',
    79.0: 'Eiskörner',
    95.0: 'Gewitter',
    'Keine_Daten': 'Keine_Daten'
}


df_wettercode_encoded['Wettercode'] = df_wettercode_encoded['Wettercode'].map(wettercode_mapping)

alle_kategorien = ['Klar','Dunst','Nebel','Sprühregen_oder_Schneegriesel_aufgehoert',
                   'Regen_aufgehoert','Schnee_aufgehoert','Nebel_aufgehoert','Nebel+Reifansatz',
                   'andauernder_Sprühregen','Mässiger_Regen','Schneeregen','Schneefall',
                   'Schneegriesel','Eiskörner','Gewitter','Keine_Daten']  

df_wettercode_encoded['Wettercode'] = pd.Categorical(df_wettercode_encoded['Wettercode'], categories=alle_kategorien)

# One-Hot-Encoding auf die neuen Kategorien
df_wetterencoded_merged = pd.get_dummies(df_wettercode_encoded, columns=['Wettercode'], dtype=int, prefix='Wetter', prefix_sep='_')

print("Wetterkategorien-Verteilung:")
print(df_wettercode_encoded['Wettercode'].value_counts())


df_wetterencoded_merged.to_csv('data/df_wettercode_encoded.csv', index=False)

print(df_wetterencoded_merged.head())



Wetterkategorien-Verteilung:
Wettercode
Klar                                        0
Dunst                                       0
Nebel                                       0
Sprühregen_oder_Schneegriesel_aufgehoert    0
Regen_aufgehoert                            0
Schnee_aufgehoert                           0
Nebel_aufgehoert                            0
Nebel+Reifansatz                            0
andauernder_Sprühregen                      0
Mässiger_Regen                              0
Schneeregen                                 0
Schneefall                                  0
Schneegriesel                               0
Eiskörner                                   0
Gewitter                                    0
Keine_Daten                                 0
Name: count, dtype: int64
        id       Datum  Warengruppe      Umsatz  Bewoelkung  Temperatur  \
0  1307011  2013-07-01            1  148.828353         6.0     17.8375   
1  1307013  2013-07-01            3  201.198426 