In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import shapiro, levene
import seaborn as sns

# Warengruppen-Dictionary erstellen
warengruppen = {
    1: "Brot",
    2: "Brötchen",
    3: "Croissant",
    4: "Konditorei",
    5: "Kuchen",
    6: "Saisonbrot"
}
# Wettercodes.csv als DataFrame einlesen
# df = pd.read_csv('wettercodes.csv')

# Ausgabe der ersten Zeilen zur Überprüfung
# print(df.head())

df = pd.read_csv('umsatzdaten_gekuerzt.csv')

# 2. Vorverarbeitung
df['Datum'] = pd.to_datetime(df['Datum'])
df['Wochentag'] = df['Datum'].dt.dayofweek
df['Wochentag_Name'] = df['Wochentag'].map({
    0: 'Montag', 1: 'Dienstag', 2: 'Mittwoch', 3: 'Donnerstag', 
    4: 'Freitag', 5: 'Samstag', 6: 'Sonntag'
})
df['Warengruppe_Name'] = df['Warengruppe'].map(warengruppen)

# 3. Originaldaten speichern für späteren Vergleich
df_original = df.copy()

# Ausreißergrenzen berechnen mit 2 Standardabweichungen vom Median
median = df['Umsatz'].median()
std = df['Umsatz'].std()
upper_bound = median + 2 * std
lower_bound = max(0, median - 2 * std)  # Verhindert negative Werte

print(f"Median: {median:.2f}€, Standardabweichung: {std:.2f}€")
print(f"Obere Grenze: {upper_bound:.2f}€")
print(f"Untere Grenze: {lower_bound:.2f}€")

# Markieren von Ausreißern (sowohl nach oben als auch nach unten)
df['is_outlier'] = (df['Umsatz'] > upper_bound) | (df['Umsatz'] < lower_bound)
df['outlier_type'] = np.where(df['Umsatz'] > upper_bound, 'Hoch', 
                             np.where(df['Umsatz'] < lower_bound, 'Niedrig', 'Normal'))

# Anzahl der Ausreißer erfassen
outliers_high = sum(df['outlier_type'] == 'Hoch')
outliers_low = sum(df['outlier_type'] == 'Niedrig')
total_outliers = outliers_high + outliers_low

print(f"\nIdentifizierte Ausreißer: {total_outliers} ({total_outliers/len(df):.1%})")
print(f"  - Hohe Ausreißer: {outliers_high}")
print(f"  - Niedrige Ausreißer: {outliers_low}")

# 4. NEUE METHODE: Winsorization der Ausreißer
# Statt Entfernung werden Extremwerte auf die Grenzwerte gesetzt
df_winsorized = df.copy()
df_winsorized['Umsatz_winsorized'] = np.where(
    df_winsorized['Umsatz'] > upper_bound,
    upper_bound,
    np.where(
        df_winsorized['Umsatz'] < lower_bound,
        lower_bound,
        df_winsorized['Umsatz']
    )
)

# 5. Vergleich der ursprünglichen und winsorisierten Daten
plt.figure(figsize=(14, 6))

# Originaldaten plotten
plt.scatter(df.index, df['Umsatz'], color='blue', alpha=0.4, label='Original')

# Winsorisierte Daten plotten
plt.scatter(df_winsorized.index, df_winsorized['Umsatz_winsorized'], 
           color='green', alpha=0.6, label='Winsorisiert')

# Ausreißergrenzen anzeigen
plt.axhline(y=upper_bound, color='red', linestyle='--', 
           label=f'Obere Grenze: {upper_bound:.2f}€')
plt.axhline(y=lower_bound, color='green', linestyle='--', 
           label=f'Untere Grenze: {lower_bound:.2f}€')
plt.axhline(y=median, color='black', linestyle='-', 
           label=f'Median: {median:.2f}€')

plt.title('Vergleich: Originaldaten vs. Winsorisierte Daten')
plt.xlabel('Datenpunkt-Index')
plt.ylabel('Umsatz (€)')
plt.legend()
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

# 6. Visualisierung der Verteilungen
plt.figure(figsize=(12, 6))

# Histogramm mit zwei Achsen erstellen
ax1 = plt.subplot(121)
ax1.hist(df['Umsatz'], bins=30, color='blue', alpha=0.7, label='Original')
ax1.set_title('Originalverteilung')
ax1.set_xlabel('Umsatz (€)')
ax1.set_ylabel('Häufigkeit')
ax1.axvline(upper_bound, color='red', linestyle='--')
ax1.axvline(lower_bound, color='green', linestyle='--')
ax1.legend()

ax2 = plt.subplot(122)
ax2.hist(df_winsorized['Umsatz_winsorized'], bins=30, color='green', alpha=0.7, label='Winsorisiert')
ax2.set_title('Winsorisierte Verteilung')
ax2.set_xlabel('Umsatz (€)')
ax2.set_ylabel('Häufigkeit')
ax2.axvline(upper_bound, color='red', linestyle='--')
ax2.axvline(lower_bound, color='green', linestyle='--')
ax2.legend()

plt.tight_layout()
plt.show()

# 7. Statistische Kennzahlen vergleichen
stats_comparison = pd.DataFrame({
    'Original': df['Umsatz'].describe(),
    'Winsorisiert': df_winsorized['Umsatz_winsorized'].describe()
})

print("\nStatistische Kennzahlen im Vergleich:")
print(stats_comparison)

# 8. Testen auf Normalverteilung
# Shapiro-Wilk-Test für beide Datensätze
orig_stat, orig_p = shapiro(df['Umsatz'])
wins_stat, wins_p = shapiro(df_winsorized['Umsatz_winsorized'])

print("\nNormalverteilungstest (Shapiro-Wilk):")
print(f"Original: Statistik={orig_stat:.4f}, p-Wert={orig_p:.4f}")
print(f"Winsorisiert: Statistik={wins_stat:.4f}, p-Wert={wins_p:.4f}")
print(f"Interpretation: {'Normalverteilung wahrscheinlicher nach Winsorisierung' if wins_p > orig_p else 'Keine Verbesserung bezüglich Normalverteilung'}")

# 9. Kennzahlen nach Wochentag mit winsorisierten Daten
stats_by_day = df_winsorized.groupby('Wochentag_Name')['Umsatz_winsorized'].agg(['mean', 'count', 'std']).reset_index()
stats_by_day['sem'] = stats_by_day['std'] / np.sqrt(stats_by_day['count'])
stats_by_day['ci_95'] = 1.96 * stats_by_day['sem']
stats_by_day['order'] = stats_by_day['Wochentag_Name'].map({
    'Montag': 0, 'Dienstag': 1, 'Mittwoch': 2, 'Donnerstag': 3, 
    'Freitag': 4, 'Samstag': 5, 'Sonntag': 6
})
stats_by_day = stats_by_day.sort_values('order')

# Balkendiagramm der Umsätze pro Wochentag (winsorisiert)
plt.figure(figsize=(10, 6))
bars = plt.bar(
    stats_by_day['Wochentag_Name'], 
    stats_by_day['mean'], 
    yerr=stats_by_day['ci_95'],
    capsize=5,
    color='steelblue',
    alpha=0.7
)
plt.title('Durchschnittlicher Umsatz pro Wochentag mit 95%-Konfidenzintervall\n(winsorisierte Daten)')
plt.xlabel('Wochentag')
plt.ylabel('Durchschnittlicher Umsatz (€)')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# 10. Heatmap: Warengruppe vs Wochentag (winsorisiert)
# Pivot-Tabelle für die Heatmap erstellen (mit winsorisierten Daten)
heatmap_data = df_winsorized.pivot_table(
    index='Warengruppe_Name', 
    columns='Wochentag_Name', 
    values='Umsatz_winsorized', 
    aggfunc='mean'
)

# Sortierung der Wochentage sicherstellen
weekday_order = ['Montag', 'Dienstag', 'Mittwoch', 'Donnerstag', 'Freitag', 'Samstag', 'Sonntag']
heatmap_data = heatmap_data[heatmap_data.columns.intersection(weekday_order)]

plt.figure(figsize=(12, 8))

# Heatmap mit Seaborn für bessere Optik
ax = sns.heatmap(
    heatmap_data, 
    annot=True,  # Werte anzeigen
    fmt='.1f',   # Format der Werte (1 Dezimalstelle)
    cmap='YlGnBu',
    linewidths=.5,
    cbar_kws={'label': 'Durchschnittlicher Umsatz (€)'}
)

plt.title('Durchschnittlicher Umsatz nach Warengruppe und Wochentag\n(winsorisierte Daten)')
plt.tight_layout()
plt.show()

# 11. Tortengrafik der Warengruppen-Anteile am Gesamtumsatz (winsorisiert)
warengruppen_anteile = df_winsorized.groupby('Warengruppe_Name')['Umsatz_winsorized'].sum()
warengruppen_anteile = warengruppen_anteile.sort_values(ascending=False)

plt.figure(figsize=(10, 8))
plt.pie(
    warengruppen_anteile,
    labels=warengruppen_anteile.index,
    autopct='%1.1f%%',
    startangle=90,
    shadow=True,
    explode=[0.05] * len(warengruppen_anteile)
)
plt.title('Umsatzverteilung nach Warengruppen\n(winsorisierte Daten)')
plt.axis('equal')
plt.tight_layout()
plt.show()

print("\nVorteile der Winsorisierung gegenüber kompletter Ausreißerentfernung:")
print("1. Alle Datenpunkte bleiben erhalten - keine Reduktion der Stichprobengröße")
print("2. Die Form der Verteilung bleibt besser erhalten")
print("3. Tage mit außergewöhnlichen Umsätzen werden abgemildert, aber nicht ignoriert")
print("4. Robuster gegenüber Fehlinterpretationen durch fehlende Werte")
print("5. Bessere statistische Eigenschaften für weitere Analysen")

FileNotFoundError: [Errno 2] No such file or directory: 'umsatzdaten_gekuerzt.csv'