## Titel: Import data
## Author: Achraf Aboukinana

## Beschreibung des Codes

Dieser Code dient der Analyse, Bereinigung und Kombination von Datensätzen, um eine zentrale und bereinigte Datenbasis zu erstellen. Die Hauptaufgaben sind wie folgt:

---

## **1. Datenimport**
- Die drei Datensätze `kiwo.csv`, `umsatzdaten_gekuerzt.csv` und `wetterdaten.csv` werden eingelesen.
- Die Spalte `Datum` wird als Datumsformat (`datetime`) geparst.

---

## **2. Datenexploration**
Eine Funktion `explore_data` analysiert jeden DataFrame:
- Form des DataFrames (Zeilen und Spalten).
- Vorschau der ersten fünf Zeilen.
- Spaltennamen, Datentypen und fehlende Werte pro Spalte.
- Beschreibende Statistiken.
- Anzahl der Duplikate.
- Zeitraum der Daten (falls `Datum`-Spalte vorhanden).

Diese Funktion wird auf alle Datensätze angewendet.

---

## **3. Zusammenführung der Datensätze**
- **Erster Merge**: `umsatzdaten_gekuerzt_data` und `wetter_data` werden anhand der Spalte `Datum` zusammengeführt.
- **Zweiter Merge**: Die zusammengeführten Daten werden mit `kiwo_data` kombiniert, wodurch eine neue Spalte `KielerWoche` entsteht:
  - Fehlende Werte in `KielerWoche` (für nicht-Kieler-Woche-Tage) werden mit `0` gefüllt.

---

## **4. Analyse fehlender Werte**
- Anzahl der fehlenden Werte (`NaN`) pro Spalte wird berechnet.
- Zeilen mit fehlenden Werten werden entfernt.

---

## **5. Speichern der Ergebnisse**
- Der kombinierte Datensatz wird in zwei Versionen gespeichert:
  - **Mit NaN-Werten**: `final_data_withNaN.csv`.
  - **Ohne NaN-Werte**: `final_data.csv`.

---

## **6. Vergleich der Zeilenanzahl**
- Die Anzahl der Zeilen vor und nach der Bereinigung wird verglichen, um den Verlust durch das Entfernen von `NaN`-Werten zu zeigen.

---

## **Zweck des Codes**
1. **Datenbereinigung**: Sicherstellung von konsistenten und vollständigen Daten.
2. **Kombination der Datensätze**: Erstellung einer zentralen, einheitlichen Datenbasis.
3. **Markierung besonderer Tage**: Identifikation der Kieler Woche-Tage (`KielerWoche`).
4. **Analyse-Ready**: Der bereinigte Datensatz dient als Grundlage für Analysen oder Modelle.


In [44]:
import pandas as pd
import holidays
# Import Data
kiwo_data = pd.read_csv('kiwo.csv', parse_dates=['Datum'])
umsatzdaten_gekuerzt_data = pd.read_csv('umsatzdaten_gekuerzt.csv', parse_dates=['Datum'])
wetter_data = pd.read_csv('wetterdaten.csv', parse_dates=['Datum'])


In [45]:


# Funktion zur Datenexploration
def explore_data(df, name):
    print(f"\n{'='*50}\nExploration für {name}\n{'='*50}")
    
    # Überblick
    print(f"Form: {df.shape[0]} Zeilen, {df.shape[1]} Spalten")
    print("Erste 5 Zeilen:")
    print(df.head())
    
    # Spaltennamen und Typen
    print("\nSpalten und Datentypen:")
    print(df.dtypes)
    
    # Fehlende Werte
    print("\nFehlende Werte pro Spalte:")
    print(df.isna().sum())
    
    # Beschreibende Statistik
    print("\nBeschreibende Statistik:")
    print(df.describe(include='all'))
    
    # Duplikate
    duplicate_count = df.duplicated().sum()
    print(f"\nAnzahl der Duplikate: {duplicate_count}")

    # Wichtige Spalten
    if 'Datum' in df.columns:
        print("\nZeitraum der Daten:")
        print(f"Min Datum: {df['Datum'].min()}, Max Datum: {df['Datum'].max()}")
    else:
        print("\nKeine 'Datum'-Spalte in diesem DataFrame.")


In [46]:

# Exploration der einzelnen Dateien
explore_data(kiwo_data, "Kiwo Data")
explore_data(umsatzdaten_gekuerzt_data, "Umsatzdaten Gekürzt")
explore_data(wetter_data, "Wetter Data")



Exploration für Kiwo Data
Form: 72 Zeilen, 2 Spalten
Erste 5 Zeilen:
       Datum  KielerWoche
0 2012-06-16            1
1 2012-06-17            1
2 2012-06-18            1
3 2012-06-19            1
4 2012-06-20            1

Spalten und Datentypen:
Datum          datetime64[ns]
KielerWoche             int64
dtype: object

Fehlende Werte pro Spalte:
Datum          0
KielerWoche    0
dtype: int64

Beschreibende Statistik:
                     Datum  KielerWoche
count                   72         72.0
mean   2015-12-23 00:00:00          1.0
min    2012-06-16 00:00:00          1.0
25%    2014-03-24 00:00:00          1.0
50%    2015-12-23 00:00:00          1.0
75%    2017-09-22 00:00:00          1.0
max    2019-06-30 00:00:00          1.0
std                    NaN          0.0

Anzahl der Duplikate: 0

Zeitraum der Daten:
Min Datum: 2012-06-16 00:00:00, Max Datum: 2019-06-30 00:00:00

Exploration für Umsatzdaten Gekürzt
Form: 9334 Zeilen, 3 Spalten
Erste 5 Zeilen:
       Datum  Warengrup

In [None]:


# Datei einlesen mit manuellem Trennzeichen
file_path = "inflation.csv"  # Pfad zur Datei
data = pd.read_csv(file_path, delimiter=',')

### nach paar änderungen habe ich den tabelle vorbereiten so dass wir es erstmal mergen und in unsere model benutzen 
# In eine neue CSV-Datei speichern
data.to_csv("inflation.csv", index=False)

# Daten anzeigen
print(data.head())



   Jahr  Monat  Verbraucherpreisindex  Veränderung_Vorjahresmonat  \
0  2012      1                   90.6                         2.1   
1  2012      2                   91.2                         2.1   
2  2012      3                   91.7                         2.1   
3  2012      4                   91.6                         2.0   
4  2012      5                   91.5                         1.9   

   Veränderung_Vormonat Inflation_Kategorisierung  \
0                  -0.1                   Positiv   
1                   0.7                   Positiv   
2                   0.5                   Positiv   
3                  -0.1                   Positiv   
4                  -0.1                   Positiv   

   Inflation_Kategorisierung_Neutral  Inflation_Kategorisierung_Positiv  
0                              False                               True  
1                              False                               True  
2                              False        

In [62]:
import pandas as pd
import holidays

# Merge Umsatzdaten mit Wetterdaten auf 'Datum'
merged_data = pd.merge(umsatzdaten_gekuerzt_data, wetter_data, on='Datum', how='inner')

# Füge KielerWoche-Information hinzu und ersetze fehlende Werte durch 0
final_data = pd.merge(merged_data, kiwo_data[['Datum', 'KielerWoche']], on='Datum', how='left')
final_data['KielerWoche'] = final_data['KielerWoche'].fillna(0).astype(int)

# Anzahl der NaN-Werte überprüfen
nan_counts = final_data.isna().sum()
print("Anzahl der NaN-Werte pro Spalte:")
print(nan_counts)

# Entferne Zeilen mit NaN-Werten
clean_data = final_data.dropna()

# **Zeitabhängige Variablen hinzufügen**
clean_data['Wochentag'] = clean_data['Datum'].dt.dayofweek  # Montag=0, Sonntag=6
clean_data['Monat'] = clean_data['Datum'].dt.month
clean_data['Jahreszeit'] = clean_data['Datum'].dt.month % 12 // 3 + 1  # Frühling=1, Sommer=2, Herbst=3, Winter=4

# **Wetterkategorie basierend auf Temperatur**
clean_data['Wetterkategorie'] = pd.cut(
    clean_data['Temperatur'], 
    bins=[-10, 5, 15, 30], 
    labels=['Kalt', 'Mild', 'Warm']
)

# **Dummy-Encoding für Jahreszeit und Wetterkategorie**
jahreszeit_dummies = pd.get_dummies(clean_data['Jahreszeit'], prefix="Jahreszeit")
wetter_dummies = pd.get_dummies(clean_data['Wetterkategorie'], prefix="Wetter")

# Dummy-Variablen anhängen und Originalspalten löschen
clean_data = pd.concat([clean_data, jahreszeit_dummies, wetter_dummies], axis=1)
clean_data.drop(columns=['Jahreszeit', 'Wetterkategorie'], inplace=True)

# **Feiertage hinzufügen**
def get_feiertage(year):
    de_holidays = holidays.Germany(years=year)
    return list(de_holidays.keys())

# Feiertagsinformationen für alle Jahre im Datensatz
feiertage_set = {holiday for year in clean_data['Datum'].dt.year.unique() for holiday in get_feiertage(year)}

# Feiertagsspalte erstellen
clean_data['Feiertag'] = clean_data['Datum'].apply(lambda x: 1 if x.date() in feiertage_set else 0)

# **Besondere Events (KielLauf, Kieler Triathlon) hinzufügen**
kieler_triathlon_daten = pd.to_datetime(['2013-08-04', '2014-08-03', '2015-08-02', '2016-08-07', '2017-08-06', 
                                         '2018-08-05', '2019-08-04'])
kiellauf_daten = pd.to_datetime(["2013-09-08", "2014-09-14", "2015-09-13", "2016-09-11", 
                                 "2017-09-10", "2018-09-09", "2019-09-08"])
important_games_germany = pd.to_datetime([
    # FIFA World Cup 2014
    "2014-07-08",  # Germany 7–1 Brazil (Semifinal)
    "2014-07-13",  # Germany 1–0 Argentina (Final)

    # UEFA Euro 2016
    "2016-07-02",  # Germany 1–1 Italy (6–5 on penalties, Quarterfinal)
    "2016-07-07",  # Germany 0–2 France (Semifinal)

    # FIFA Confederations Cup 2017
    "2017-06-19",  # Germany 3–2 Australia
    "2017-06-22",  # Germany 1–1 Chile
    "2017-06-25",  # Germany 3–1 Cameroon
    "2017-06-29",  # Germany 4–1 Mexico (Semifinal)
    "2017-07-02",  # Germany 1–0 Chile (Final)

    # FIFA World Cup 2018
    "2018-06-17",  # Germany 0–1 Mexico (Group stage)
    "2018-06-27",  # Germany 0–2 South Korea (Group stage, eliminated)

    # Olympic Games 2016 (Men's Football)
    "2016-08-20"   # Germany 1–1 Brazil (4–5 on penalties, Final)
])

clean_data['KielLauf'] = clean_data['Datum'].apply(lambda x: 1 if x.date() in kiellauf_daten.date else 0)
clean_data['Kieler_Triathlon'] = clean_data['Datum'].apply(lambda x: 1 if x.date() in kieler_triathlon_daten.date else 0)
clean_data['Fußball'] = clean_data['Datum'].apply(lambda x: 1 if x.date() in important_games_germany.date else 0)

# **PaycheckEffect (Gehaltszahlungen)**
clean_data['PaycheckEffect'] = clean_data['Datum'].apply(
    lambda x: 1 if x.day >= 27 or x.day <= 5 else 0
)

# Inflation sensitivity mapping based on WarenGruppe
sensitivity_mapping = {
    1: "High",   # Brot
    2: "High",   # Brötchen
    3: "Moderate",  # Croissant
    4: "Moderate",  # Konditorei
    5: "Moderate",  # Kuchen
    6: "High"    # Saisonbrot
}

# Map the sensitivity to the WarenGruppe
clean_data["InflationSensitivity"] = clean_data["Warengruppe"].map(sensitivity_mapping)

# Perform dummy encoding for sensitivity levels, excluding 'Low'
dummy_encoded = pd.get_dummies(clean_data["InflationSensitivity"], prefix="Sensitivity").drop(columns=["Sensitivity_Low"], errors="ignore")

# Concatenate the dummy columns with the original DataFrame
clean_data = pd.concat([clean_data, dummy_encoded], axis=1)


# **Windkategorie basierend auf Windgeschwindigkeit**
def wind_kategorie(wind):
    if wind < 10:
        return "Nicht windig"
    elif wind <= 20:
        return "Windig"
    else:
        return "Zu windig"

clean_data['Windkategorie'] = clean_data['Windgeschwindigkeit'].apply(wind_kategorie)

# Dummy-Variablen für Windkategorien erstellen
wind_dummies = pd.get_dummies(clean_data['Windkategorie'], prefix="Wind")
clean_data = pd.concat([clean_data, wind_dummies], axis=1)

# Originalspalten löschen
clean_data.drop(columns=['Windkategorie', 'Windgeschwindigkeit'], inplace=True)

# **Speichern der Ergebnisse**
final_data.to_csv('final_data_withNaN.csv', index=False)  # Mit NaN-Werten
clean_data.to_csv('final_data.csv', index=False)         # Ohne NaN-Werte

# Zeilenanzahl vor und nach dem Entfernen von NaN
difference = len(final_data) - len(clean_data)
print(f"Zeilen mit NaN entfernt: {difference}")

# **Zusammenfassung**
clean_data.head()
clean_data.info()
clean_data.describe()


Anzahl der NaN-Werte pro Spalte:
Datum                     0
Warengruppe               0
Umsatz                    0
Bewoelkung               54
Temperatur                0
Windgeschwindigkeit       0
Wettercode             2309
KielerWoche               0
dtype: int64


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  clean_data['Wochentag'] = clean_data['Datum'].dt.dayofweek  # Montag=0, Sonntag=6
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  clean_data['Monat'] = clean_data['Datum'].dt.month
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  clean_data['Jahreszeit'] = clean_data['Datum'].dt.month % 12 // 3 + 1  #

Zeilen mit NaN entfernt: 2309
<class 'pandas.core.frame.DataFrame'>
Index: 7009 entries, 0 to 9317
Data columns (total 27 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   Datum                 7009 non-null   datetime64[ns]
 1   Warengruppe           7009 non-null   int64         
 2   Umsatz                7009 non-null   float64       
 3   Bewoelkung            7009 non-null   float64       
 4   Temperatur            7009 non-null   float64       
 5   Wettercode            7009 non-null   float64       
 6   KielerWoche           7009 non-null   int32         
 7   Wochentag             7009 non-null   int32         
 8   Monat                 7009 non-null   int32         
 9   Jahreszeit_1          7009 non-null   bool          
 10  Jahreszeit_2          7009 non-null   bool          
 11  Jahreszeit_3          7009 non-null   bool          
 12  Jahreszeit_4          7009 non-null   bool         

Unnamed: 0,Datum,Warengruppe,Umsatz,Bewoelkung,Temperatur,Wettercode,KielerWoche,Wochentag,Monat,Feiertag,KielLauf,Kieler_Triathlon,Fußball,PaycheckEffect
count,7009,7009.0,7009.0,7009.0,7009.0,7009.0,7009.0,7009.0,7009.0,7009.0,7009.0,7009.0,7009.0,7009.0
mean,2016-03-11 22:43:34.352974592,3.100014,200.362704,5.307319,10.726434,36.900128,0.023541,3.020402,6.58111,0.009274,0.002853,0.00214,0.007847,0.308175
min,2013-07-01 00:00:00,1.0,7.051201,0.0,-8.475,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
25%,2014-12-18 00:00:00,2.0,94.681895,4.0,5.5,10.0,0.0,1.0,3.0,0.0,0.0,0.0,0.0,0.0
50%,2016-03-16 00:00:00,3.0,155.268163,6.0,10.0,28.0,0.0,3.0,7.0,0.0,0.0,0.0,0.0,0.0
75%,2017-06-19 00:00:00,4.0,271.400924,7.0,16.3875,61.0,0.0,5.0,10.0,0.0,0.0,0.0,0.0,1.0
max,2018-07-30 00:00:00,6.0,1879.461831,8.0,28.875,95.0,1.0,6.0,12.0,1.0,1.0,1.0,1.0,1.0
std,,1.497091,140.506394,2.394701,6.843793,27.095884,0.151625,1.994001,3.670157,0.09586,0.053345,0.046215,0.088242,0.461772


In [59]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd

# Bereinigte Daten laden
clean_data = pd.read_csv('final_data.csv')

# Features und Ziel definieren
# Beispiel: Ziel ist "Umsatz", Features sind andere numerische Spalten
X = clean_data.drop(columns=['Umsatz','KielerWoche','Warengruppe'])  # Features: Alle außer 'Umsatz' und 'Datum'
y = clean_data['Umsatz']  # Ziel: Umsatz

# Prüfen, ob Kategorien in numerische Werte konvertiert werden müssen
X = pd.get_dummies(X, drop_first=True)

# Train-Test-Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Lineares Regressionsmodell trainieren
model = LinearRegression()
model.fit(X_train, y_train)

# Vorhersagen
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

# Modellbewertung
mse_train = mean_squared_error(y_train, y_pred_train)
mse_test = mean_squared_error(y_test, y_pred_test)
r2_train = r2_score(y_train, y_pred_train)
r2_test = r2_score(y_test, y_pred_test)

# Ergebnisse ausgeben
print(f"Trainingsdaten: MSE = {mse_train:.2f}, R² = {r2_train:.2f}")
print(f"Testdaten: MSE = {mse_test:.2f}, R² = {r2_test:.2f}")

# Wichtige Koeffizienten und Features
coefficients = pd.DataFrame({'Feature': X.columns, 'Coefficient': model.coef_})
print("\nKoeffizienten der Features:")
print(coefficients.sort_values(by='Coefficient', ascending=False))


Trainingsdaten: MSE = 14789.79, R² = 0.24
Testdaten: MSE = 26200.27, R² = -0.25

Koeffizienten der Features:
                Feature   Coefficient
855    Datum_2016-11-14  1.074071e+11
848    Datum_2016-11-07  9.541347e+10
1155   Datum_2017-11-27  9.450462e+10
330    Datum_2014-11-27  9.351355e+10
331    Datum_2014-11-28  9.237311e+10
...                 ...           ...
251    Datum_2014-08-03 -1.058944e+11
1306   Datum_2018-05-10 -1.185600e+11
17       Wind_Zu windig -2.871500e+11
15    Wind_Nicht windig -2.877656e+11
16          Wind_Windig -3.320082e+11

[1377 rows x 2 columns]


In [49]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Angenommen, du hast bereits das final_data DataFrame

# 1. Temperaturbereich festlegen
def categorize_temperature(temp):
    if temp <= 10:
        return 'Kalt'
    elif 10 < temp <= 20:
        return 'Mild'
    else:
        return 'Warm'

# Erstelle eine neue Spalte 'Temperatur_Bereich' mit den kategorisierten Werten
final_data['Temperatur_Bereich'] = final_data['Temperatur'].apply(categorize_temperature)

# 2. Kategorisches Encoding mit LabelEncoder
label_encoder = LabelEncoder()
final_data['Temperatur_Bereich_Encoded'] = label_encoder.fit_transform(final_data['Temperatur_Bereich'])

# Alternativ: One-Hot Encoding (wenn du statt numerischer Codes Dummy-Variablen bevorzugst)
final_data = pd.get_dummies(final_data, columns=['Temperatur_Bereich'], drop_first=True)

# Anzeige der ersten Zeilen des DataFrames
print(final_data.head())

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import pandas as pd

# Bereinigte Daten laden
clean_data = final_data

# Features und Ziel definieren
# Beispiel: Ziel ist "Umsatz", Features sind andere numerische Spalten
X = clean_data.drop(columns=['Umsatz','Datum','KielerWoche','Warengruppe'])  # Features: Alle außer 'Umsatz' und 'Datum'
y = clean_data['Umsatz']  # Ziel: Umsatz

# Prüfen, ob Kategorien in numerische Werte konvertiert werden müssen
X = pd.get_dummies(X, drop_first=True)

# Train-Test-Split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Lineares Regressionsmodell trainieren
model = LinearRegression()
model.fit(X_train, y_train)

# Vorhersagen
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

# Modellbewertung
mse_train = mean_squared_error(y_train, y_pred_train)
mse_test = mean_squared_error(y_test, y_pred_test)
r2_train = r2_score(y_train, y_pred_train)
r2_test = r2_score(y_test, y_pred_test)

# Ergebnisse ausgeben
print(f"Trainingsdaten: MSE = {mse_train:.2f}, R² = {r2_train:.2f}")
print(f"Testdaten: MSE = {mse_test:.2f}, R² = {r2_test:.2f}")

# Wichtige Koeffizienten und Features
coefficients = pd.DataFrame({'Feature': X.columns, 'Coefficient': model.coef_})
print("\nKoeffizienten der Features:")
print(coefficients.sort_values(by='Coefficient', ascending=False))

       Datum  Warengruppe      Umsatz  Bewoelkung  Temperatur  \
0 2013-07-01            1  148.828353         6.0     17.8375   
1 2013-07-02            1  159.793757         3.0     17.3125   
2 2013-07-03            1  111.885594         7.0     21.0750   
3 2013-07-04            1  168.864941         7.0     18.8500   
4 2013-07-05            1  171.280754         5.0     19.9750   

   Windgeschwindigkeit  Wettercode  KielerWoche  Temperatur_Bereich_Encoded  \
0                   15        20.0            0                           1   
1                   10         NaN            0                           1   
2                    6        61.0            0                           2   
3                    7        20.0            0                           1   
4                   12         NaN            0                           1   

   Temperatur_Bereich_Mild  Temperatur_Bereich_Warm  
0                     True                    False  
1                     True

ValueError: Input X contains NaN.
LinearRegression does not accept missing values encoded as NaN natively. For supervised learning, you might want to consider sklearn.ensemble.HistGradientBoostingClassifier and Regressor which accept missing values encoded as NaNs natively. Alternatively, it is possible to preprocess the data, for instance by using an imputer transformer in a pipeline or drop samples with missing values. See https://scikit-learn.org/stable/modules/impute.html You can find a list of all estimators that handle NaN values at the following page: https://scikit-learn.org/stable/modules/impute.html#estimators-that-handle-nan-values