# erstellen neuer Features

Um zu beurteilen, ob die neuen Features gut geeignet sind, die Verkäufe vorherzusagen, analysieren wir die Korrelationsmatrix.

### Analyse der Korrelationen

1. **Hohe positive Korrelation mit `Sales`**:
   - Wenn ein neues Feature eine hohe positive Korrelation mit `Sales` hat, bedeutet dies, dass es wahrscheinlich einen starken Zusammenhang mit den Verkäufen gibt. Solche Features sind in der Regel nützlich für Vorhersagemodelle.

2. **Hohe negative Korrelation mit `Sales`**:
   - Eine hohe negative Korrelation deutet ebenfalls auf eine starke Beziehung hin, aber in die entgegengesetzte Richtung. Auch solche Features können wertvoll sein.

3. **Korrelationen mit anderen relevanten Features**:
   - Neben `Sales` können auch hohe Korrelationen mit anderen wichtigen Features wie `Customers` oder `Promo` nützlich sein.

### Bewertung der neuen Features

Anhand der im folgenden erstellten Korrelationsmatrix:

#### 1. Lag Features:
- **`lag_1`**:
  - **Sales**: 0.276397 (mäßig positiv)
  - **Customers**: 0.260692 (mäßig positiv)
  - **SchoolHoliday**: 0.033883 (sehr schwach positiv)
  - **CompetitionDistance**: -0.018596 (sehr schwach negativ)
  - **Fazit**: `lag_1` ist ein mäßiger Prädiktor für `Sales` und `Customers`, aber schwach für `SchoolHoliday` und `CompetitionDistance`. Insgesamt kann es nützlich sein, insbesondere für kurzfristige Vorhersagen.

- **`lag_7`**:
  - **Sales**: 0.662853 (hoch positiv)
  - **Customers**: 0.670439 (hoch positiv)
  - **SchoolHoliday**: 0.088015 (sehr schwach positiv)
  - **CompetitionDistance**: -0.018304 (sehr schwach negativ)
  - **Fazit**: `lag_7` ist ein starker Prädiktor für `Sales` und `Customers` und sollte im Modell verwendet werden.

- **`lag_30`**:
  - **Sales**: 0.191832 (schwach positiv)
  - **Customers**: 0.216545 (schwach positiv)
  - **SchoolHoliday**: -0.089403 (sehr schwach negativ)
  - **CompetitionDistance**: -0.016816 (sehr schwach negativ)
  - **Fazit**: `lag_30` ist ein schwacher Prädiktor und möglicherweise weniger nützlich.

#### 2. Rolling Features:
- **`rolling_mean_7`**:
  - **Sales**: 0.023603 (sehr schwach positiv)
  - **Customers**: -0.009056 (sehr schwach negativ)
  - **SchoolHoliday**: 0.054170 (sehr schwach positiv)
  - **CompetitionDistance**: -0.007355 (sehr schwach negativ)
  - **Fazit**: `rolling_mean_7` ist insgesamt ein schwacher Prädiktor.

- **`rolling_mean_30`**:
  - **Sales**: -0.012717 (sehr schwach negativ)
  - **Customers**: -0.052700 (sehr schwach negativ)
  - **SchoolHoliday**: 0.056127 (sehr schwach positiv)
  - **CompetitionDistance**: -0.004376 (sehr schwach negativ)
  - **Fazit**: `rolling_mean_30` ist ebenfalls ein schwacher Prädiktor.

- **`rolling_std_7`**:
  - **Sales**: 0.070373 (sehr schwach positiv)
  - **Customers**: 0.081538 (sehr schwach positiv)
  - **SchoolHoliday**: 0.040912 (sehr schwach positiv)
  - **CompetitionDistance**: -0.029889 (sehr schwach negativ)
  - **Fazit**: `rolling_std_7` ist ein sehr schwacher Prädiktor.

- **`rolling_std_30`**:
  - **Sales**: 0.017435 (sehr schwach positiv)
  - **Customers**: 0.002728 (sehr schwach positiv)
  - **SchoolHoliday**: 0.038144 (sehr schwach positiv)
  - **CompetitionDistance**: -0.016770 (sehr schwach negativ)
  - **Fazit**: `rolling_std_30` ist ebenfalls ein sehr schwacher Prädiktor.

#### 3. Store-spezifische Features:
- **`competition_open_since`**:
  - **Sales**: -0.004141 (sehr schwach negativ)
  - **Customers**: -0.004701 (sehr schwach negativ)
  - **SchoolHoliday**: -0.001993 (sehr schwach negativ)
  - **CompetitionDistance**: -0.017070 (sehr schwach negativ)
  - **Fazit**: `competition_open_since` ist ein sehr schwacher Prädiktor.

- **`promo2_since`**:
  - **Sales**: -0.042132 (sehr schwach negativ)
  - **Customers**: -0.107720 (sehr schwach negativ)
  - **SchoolHoliday**: -0.005633 (sehr schwach negativ)
  - **CompetitionDistance**: -0.045001 (sehr schwach negativ)
  - **Fazit**: `promo2_since` ist ein sehr schwacher Prädiktor.

#### 4. Promotion Feature:
- **`is_promo_month`**:
  - **Sales**: -0.044955 (sehr schwach negativ)
  - **Customers**: -0.069586 (sehr schwach negativ)
  - **SchoolHoliday**: 0.016409 (sehr schwach positiv)
  - **CompetitionDistance**: -0.062970 (sehr schwach negativ)
  - **Fazit**: `is_promo_month` ist ein sehr schwacher Prädiktor.

### Fazit

Auf Grundlage der Korrelationsmatrix sind insbesondere die folgenden Features nützlich:

- **`lag_7`**: Hat eine starke positive Korrelation mit `Sales` und `Customers`, sollte definitiv im Modell verwendet werden.
- **`lag_1`**: Hat eine mäßige positive Korrelation mit `Sales` und `Customers`, kann ebenfalls nützlich sein.

Die anderen neuen Features zeigen sehr schwache Korrelationen mit `Sales` und anderen wichtigen Spalten, was darauf hinweist, dass sie weniger nützlich für die Vorhersage sind.

Es kann jedoch sinnvoll sein, einige dieser Features weiterhin zu berücksichtigen und ihre Wirkung in einem tatsächlichen Modell zu testen, da die Korrelation allein nicht immer die volle Aussagekraft eines Features zeigt.

In [1]:
import pandas as pd
import numpy as np

# Daten laden
train = pd.read_csv('./rossmann-store-sales/train.csv')
store = pd.read_csv('./rossmann-store-sales/store.csv')

# Datum konvertieren und zeitliche Features erstellen
train['Date'] = pd.to_datetime(train['Date'])
train['year'] = train['Date'].dt.year
train['month'] = train['Date'].dt.month
train['day'] = train['Date'].dt.day
train['day_of_week'] = train['Date'].dt.dayofweek
train['week_of_year'] = train['Date'].dt.isocalendar().week

#Wochenenden, Feiertage und Schulferien werden als binäre Features kodiert.
train['is_weekend'] = train['day_of_week'].isin([5, 6]).astype(int)
train['is_holiday'] = (train['StateHoliday'] != '0').astype(int)
train['is_school_holiday'] = train['SchoolHoliday']

#train-Datensatz mit store-Datensatz anhand der Store-ID mergen, um store-spezifische Informationen hinzuzufügen
data = pd.merge(train, store, on='Store')

# Lag Features(Verkäufe der vorhergehenden Tage/Wochen) erstellen
data['lag_1'] = data.groupby('Store')['Sales'].shift(1)
data['lag_7'] = data.groupby('Store')['Sales'].shift(7)
data['lag_30'] = data.groupby('Store')['Sales'].shift(30)

# Rolling Features(gleitender Durchschnitt und Standardabweichung) erstellen
data['rolling_mean_7'] = data.groupby('Store')['Sales'].shift(1).rolling(window=7).mean()
data['rolling_mean_30'] = data.groupby('Store')['Sales'].shift(1).rolling(window=30).mean()
data['rolling_std_7'] = data.groupby('Store')['Sales'].shift(1).rolling(window=7).std()
data['rolling_std_30'] = data.groupby('Store')['Sales'].shift(1).rolling(window=30).std()

# Store-spezifische Features erstellen (=Dauer, seit ein Wettbewerber geöffnet hat)
data['competition_open_since'] = (
    (data['year'] - data['CompetitionOpenSinceYear']) * 12 +
    (data['month'] - data['CompetitionOpenSinceMonth'])
)

# Promotion Features erstellen (=Dauer seit eine Promotion läuft)
data['promo2_since'] = (
    (data['year'] - data['Promo2SinceYear']) * 52 +
    (data['week_of_year'] - data['Promo2SinceWeek'])
)


promo_intervals = {'Jan,Apr,Jul,Oct': [1, 4, 7, 10],
                   'Feb,May,Aug,Nov': [2, 5, 8, 11],
                   'Mar,Jun,Sept,Dec': [3, 6, 9, 12]}
#Promotionsintervalle werden in binäre Features (is_promo_month) umgewandelt, siehe Hinweis                  
data['is_promo_month'] = data.apply(lambda row: 1 if row['month'] in promo_intervals.get(row['PromoInterval'], []) else 0, axis=1)

# Dummy-Variablen für Kategorische Features erstellen
data = pd.get_dummies(data, columns=['StoreType', 'Assortment', 'StateHoliday'], drop_first=True)

# Nicht-numerische Spalten entfernen
non_numeric_columns = data.select_dtypes(include=['object']).columns
data = data.drop(columns=non_numeric_columns)

# Fehlende Werte auffüllen
data.fillna(0, inplace=True)

# Korrelation berechnen
correlation_matrix = data.corr()

# Korrelation der neuen Features mit den vorhandenen Spalten anzeigen
new_features = ['lag_1', 'lag_7', 'lag_30', 'rolling_mean_7', 'rolling_mean_30', 'rolling_std_7', 'rolling_std_30', 'competition_open_since', 'promo2_since', 'is_promo_month']
existing_features = ['Sales', 'Customers', 'Open', 'Promo', 'Promo2', 'SchoolHoliday', 'CompetitionDistance']

correlation_new_vs_existing = correlation_matrix.loc[new_features, existing_features]

print(correlation_new_vs_existing)


  train = pd.read_csv('./rossmann-store-sales/train.csv')


                           Sales  Customers      Open     Promo    Promo2  \
lag_1                   0.276397   0.260692 -0.208566  0.294136 -0.091021   
lag_7                   0.662853   0.670439  0.526126  0.026569 -0.090166   
lag_30                  0.191832   0.216545 -0.094959 -0.098374 -0.087246   
rolling_mean_7          0.023603  -0.009056 -0.274540  0.372539 -0.017115   
rolling_mean_30        -0.012717  -0.052700 -0.285845  0.383969 -0.002199   
rolling_std_7           0.070373   0.081538 -0.158349  0.218808 -0.018167   
rolling_std_30          0.017435   0.002728 -0.195727  0.255184 -0.005841   
competition_open_since -0.004141  -0.004701 -0.002709  0.001811  0.014907   
promo2_since           -0.042132  -0.107720 -0.006164  0.005354  0.633306   
is_promo_month         -0.044955  -0.069586  0.000916  0.003559  0.454996   

                        SchoolHoliday  CompetitionDistance  
lag_1                        0.033883            -0.018596  
lag_7                        0

## Hinweis:
1. Nicht-numerische Spalten entfernen: Spalten, die Zeichenketten enthalten, werden vor der Berechnung der Korrelationen entfernt.
2. Fehlende Werte auffüllen: Fehlende Werte werden mit 0 aufgefüllt, um sicherzustellen, dass keine NaN-Werte die Korrelation berechnung beeinträchtigen.

Dieser Ansatz stellt sicher, dass nur numerische Daten in die Berechnung der Korrelationen einfließen und vermeidet den ValueError.