## Preparieren des BSR Datensatzes fürs Training

um auch ein Training auf dem originalen BSR Datensatz durchführen zu können, wurde er hier dafür vorbereitet.  
Grundlage war ein zuvor schon etwas bearbeiteter Datensatz wo zum beispiel extrem Werte während des Streiks gemittelt wurden...

In [35]:
import pandas as pd
import os

file_path = os.path.join( "..", "Daten",  "basis_daten_2023_mittel.csv")

df = pd.read_csv(file_path, sep=";") 
df.head(3)

Unnamed: 0,Monat,KW,Jahr,Datum,Hof,Schicht,Tour,Tonnage,Abfallart
0,1,1,2019,02.01.19,VMF,1,1,559,BIO
1,1,1,2019,02.01.19,VMF,1,4,323,BIO
2,1,1,2019,02.01.19,VMF,1,5,568,BIO


----------------------------------------------
**Tonnage in numerischen Wert umwandeln**

In [36]:
df["Tonnage"] = df["Tonnage"].str.replace(",", ".")
df["Tonnage"] = pd.to_numeric(df["Tonnage"], errors="coerce")
print(df["Tonnage"].dtype)  # Sollte float sein
print(df.head())


float64
   Monat  KW  Jahr     Datum  Hof  Schicht  Tour  Tonnage Abfallart
0      1   1  2019  02.01.19  VMF        1     1     5.59       BIO
1      1   1  2019  02.01.19  VMF        1     4     3.23       BIO
2      1   1  2019  02.01.19  VMF        1     5     5.68       BIO
3      1   1  2019  02.01.19  VMF        1     6     5.48       BIO
4      1   1  2019  02.01.19  VMF        1     7     7.84       BIO


----------------------------------------------
**Dummy-Spalten für Abfallart anlegen**

In [37]:
# Dummy-Spalten erstellen
df_dummies = pd.get_dummies(df['Abfallart'], prefix='Abfallart')

# Dummy-Spalten in 1 und 0 umwandeln (falls nötig)
df_dummies = df_dummies.astype(int)

# Dummy-Spalten zum ursprünglichen DataFrame hinzufügen
df = pd.concat([df, df_dummies], axis=1)


In [38]:
df = df.drop('Abfallart', axis=1)

In [39]:
df.head()

Unnamed: 0,Monat,KW,Jahr,Datum,Hof,Schicht,Tour,Tonnage,Abfallart_BIO,Abfallart_HM,Abfallart_SPM Sammlung
0,1,1,2019,02.01.19,VMF,1,1,5.59,1,0,0
1,1,1,2019,02.01.19,VMF,1,4,3.23,1,0,0
2,1,1,2019,02.01.19,VMF,1,5,5.68,1,0,0
3,1,1,2019,02.01.19,VMF,1,6,5.48,1,0,0
4,1,1,2019,02.01.19,VMF,1,7,7.84,1,0,0


----------------------------------------------
**statt Datum: Tag/Monat/Jahr**

In [40]:
df['Tag'] = pd.to_datetime(df['Datum'], format='%d.%m.%y').dt.day


In [41]:
df = df.drop('Datum', axis=1)
df.head()

Unnamed: 0,Monat,KW,Jahr,Hof,Schicht,Tour,Tonnage,Abfallart_BIO,Abfallart_HM,Abfallart_SPM Sammlung,Tag
0,1,1,2019,VMF,1,1,5.59,1,0,0,2
1,1,1,2019,VMF,1,4,3.23,1,0,0,2
2,1,1,2019,VMF,1,5,5.68,1,0,0,2
3,1,1,2019,VMF,1,6,5.48,1,0,0,2
4,1,1,2019,VMF,1,7,7.84,1,0,0,2


----------------------------------------------
**Dummyspalten für Hof**

In [42]:
f_hof_encoded = pd.get_dummies(df['Hof'], prefix='Hof')

df_hof_encoded = df_hof_encoded.astype(int)
df = df.drop('Hof', axis=1)
df = pd.concat([df, df_hof_encoded], axis=1)

print(df.head())




   Monat  KW  Jahr  Schicht  Tour  Tonnage  Abfallart_BIO  Abfallart_HM  \
0      1   1  2019        1     1     5.59              1             0   
1      1   1  2019        1     4     3.23              1             0   
2      1   1  2019        1     5     5.68              1             0   
3      1   1  2019        1     6     5.48              1             0   
4      1   1  2019        1     7     7.84              1             0   

   Abfallart_SPM Sammlung  Tag  Hof_VMF  Hof_VMG  Hof_VMM  Hof_VMN  Hof_VMWSF  \
0                       0    2        1        0        0        0          0   
1                       0    2        1        0        0        0          0   
2                       0    2        1        0        0        0          0   
3                       0    2        1        0        0        0          0   
4                       0    2        1        0        0        0          0   

   Hof_VMWSM  Hof_VMWSN  
0          0          0  
1         

In [43]:
df.head()

Unnamed: 0,Monat,KW,Jahr,Schicht,Tour,Tonnage,Abfallart_BIO,Abfallart_HM,Abfallart_SPM Sammlung,Tag,Hof_VMF,Hof_VMG,Hof_VMM,Hof_VMN,Hof_VMWSF,Hof_VMWSM,Hof_VMWSN
0,1,1,2019,1,1,5.59,1,0,0,2,1,0,0,0,0,0,0
1,1,1,2019,1,4,3.23,1,0,0,2,1,0,0,0,0,0,0
2,1,1,2019,1,5,5.68,1,0,0,2,1,0,0,0,0,0,0
3,1,1,2019,1,6,5.48,1,0,0,2,1,0,0,0,0,0,0
4,1,1,2019,1,7,7.84,1,0,0,2,1,0,0,0,0,0,0


In [44]:
df.to_csv("../Daten/BSR_data_for_training.csv", index=False, encoding="utf-8")