<a href="https://colab.research.google.com/github/Tefong35/TefongEugene/blob/main/Funktion_Datenbereinigung_Visualisierung.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Funktion für Datenbereinigung und Visualisierung

Erstellen Sie eine Funktion in Python, um einen Datensatz zu bereinigen: Gruppieren Sie den Datensatz nach Postleitzahl und berechnen Sie den Mittelwert für numerische Variablen und den Modus für kategoriale Variablen.

In [None]:
✅ Funktion: Datensatz bereinigen & aggregieren nach PLZ

```python
import pandas as pd
from scipy.stats import mode

def bereinige_und_agg_plz(df, plz_col='PLZ'):
    """
    Bereinigt den Datensatz:
    - Gruppiert nach Postleitzahl (PLZ)
    - Berechnet den Mittelwert für numerische Spalten
    - Berechnet den Modus (häufigster Wert) für kategorische Spalten

    Gibt den aggregierten DataFrame zurück.
    """
    # Numerische und kategorische Spalten erkennen
    num_cols = df.select_dtypes(include='number').columns.tolist()
    cat_cols = df.select_dtypes(include='object').columns.tolist()

    # Gruppierung nach PLZ
    grouped = df.groupby(plz_col)

    # Numerische Werte: Mittelwert berechnen
    df_num = grouped[num_cols].mean()

    # Kategorische Werte: Modus (häufigster Wert)
    df_cat = grouped[cat_cols].agg(lambda x: mode(x, nan_policy='omit')[0][0])

    # Index zurücksetzen und zusammenführen
    df_final = pd.concat([df_num, df_cat], axis=1).reset_index()

    return df_final
```
📥 Anwendung

```python
Beispiel-Datensatz laden
df = pd.read_csv("kunden.csv")

Funktion aufrufen
df_cleaned = bereinige_und_agg_plz(df)

Ausgabe anzeigen
print(df_cleaned.head())
```

In [None]:
## Top 10 oder 20
📊 Visualisierung mit Matplotlib

🔧 Vorbereitung

Wenn du die vorherige Funktion schon verwendet hast und `df_cleaned` vorliegt:

```python
import matplotlib.pyplot as plt

Sicherstellen, dass PLZ als string für bessere Achsenticks dargestellt wird
df_cleaned['PLZ'] = df_cleaned['PLZ'].astype(str)

Sortieren nach Umsatz (optional)
df_cleaned = df_cleaned.sort_values('Umsatz', ascending=False)

🎨 Balkendiagramm: Durchschnittlicher Umsatz je PLZ
plt.figure(figsize=(12, 6))
plt.bar(df_cleaned['PLZ'], df_cleaned['Umsatz'], color='teal')
plt.xlabel('Postleitzahl')
plt.ylabel('Durchschnittlicher Umsatz')
plt.title('Durchschnittlicher Umsatz pro PLZ')
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()
```

In [None]:
🗺️ Interaktive PLZ-Karte mit Folium

🔧 Voraussetzungen

Stelle sicher, dass du die folgenden Bibliotheken installiert hast:


```bash
pip install pandas folium
```


📁 Benötigte Dateien

1. *Aggregierte Kundendaten*: Eine CSV-Datei (`df_cleaned.csv`) mit den Spalten:
   - `PLZ`: Postleitzahl
   - `Umsatz`: Durchschnittlicher Umsatz

2. *GeoJSON-Datei*: Eine Datei (`plz-geo.json`), die die geometrischen Umrisse der deutschen Postleitzahlengebiete enthält.

In [None]:
🧪 Beispielcode


```python
import pandas as pd
import folium

Aggregierte Kundendaten laden
df = pd.read_csv("df_cleaned.csv")
df['PLZ'] = df['PLZ'].astype(str)

Karte initialisieren (Zentrum: Deutschland)
m = folium.Map(location=[51.1657, 10.4515], zoom_start=6, tiles='cartodb positron')

Choroplethen-Karte hinzufügen
folium.Choropleth(
    geo_data='plz-geo.json',
    name='Choropleth',
    data=df,
    columns=['PLZ', 'Umsatz'],
    key_on='feature.properties.PLZ',
    fill_color='YlGnBu',
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name='Durchschnittlicher Umsatz pro PLZ'
).add_to(m)
17.04.25, 07:13 - ChatGPT: Karte speichern
m.save("umsatz_pro_plz_karte.html")
```


📌 Hinweise

- *GeoJSON-Datei*: Stelle sicher, dass die `plz-geo.json` Datei die PLZ-Gebiete korrekt abbildet und die PLZs als Strings gespeichert sind.

- *PLZ-Format*: Achte darauf, dass die PLZs in beiden Dateien (CSV und GeoJSON) im gleichen Format vorliegen (z. B. als Strings mit führenden Nullen).

---
## https://www.suche-postleitzahl.org/downloads?utm_source=chatgpt.com

In [None]:
Nachdem du die gewünschte GeoJSON-Datei heruntergeladen hast, kannst du sie in deinem Python-Projekt wie folgt verwenden:


```python
import folium
import pandas as pd

Aggregierte Kundendaten laden
df = pd.read_csv("df_cleaned.csv")
df['PLZ'] = df['PLZ'].astype(str)

Karte initialisieren
m = folium.Map(location=[51.1657, 10.4515], zoom_start=6)

Choroplethen-Karte hinzufügen
folium.Choropleth(
    geo_data='path_to_your_geojson_file.geojson',
    name='choropleth',
    data=df,
    columns=['PLZ', 'Umsatz'],
    key_on='feature.properties.PLZ',
    fill_color='YlGnBu',
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name='Durchschnittlicher Umsatz pro PLZ'
).add_to(m)

Karte speichern
17.04.25, 07:18 - ChatGPT: m.save('umsatz_pro_plz_karte.html')
## Stelle sicher, dass die PLZ-Codes in deiner GeoJSON-Datei und deinem DataFrame im gleichen Format vorliegen (z. B. als Strings mit führenden Nullen), damit die Zuordnung korrekt funktioniert.


Ich möchte die explorative Datenanalyse für das Nutzerverhalten durchführen.

Bitte schreibe eine Funktion in Python, um die Benutzerinteraktion zu visualisieren.

Nimm einen Monat als Ausgangspunkt und stelle die Gesamtzahl der Nutzer als Balkendiagramm dar. Berechne für den nächsten Monat die Anzahl der neuen Nutzer, die Anzahl der abgewanderten Nutzer und stelle alles als Balkendiagramm dar, d.h. die Gesamtzahl des letzten Monats wird als Anzahl dargestellt und dann die Anzahl der neu hinzugekommenen Nutzer, die Anzahl der abgewanderten Nutzer und die Gesamtzahl. Fahre so für ein Jahr fort und stelle alle Diagramme zusammen.

In [None]:
Für die Berechnung berücksichtige die Kunden_ID
17.04.25, 20:33 - ChatGPT: Top Use Case für *Explorative Datenanalyse (EDA)* im Kundenverhalten! 🔍
Du willst die *Nutzerinteraktionen im Monatsverlauf* analysieren – mit Fokus auf:

- 📌 *Gesamtanzahl Nutzer pro Monat*
- 🟢 *Neue Nutzer* (Zuwanderung)
- 🔴 *Abgewanderte Nutzer* (Auswanderung)

Das Ganze soll visuell als Barplot über *12 Monate* dargestellt werden – nice!

---

🧠 Vorgehen

Wir brauchen:

1. Einen Datensatz mit einer *Spalte `Kunde_ID`* und einer *Datumsangabe*
2. Einen Startmonat
3. Eine *rollierende Berechnung* für:
   - Nutzer gesamt
   - Neue Nutzer
   - Nutzer, die den Dienst nicht mehr nutzen (nicht mehr aktiv im nächsten Monat)

---

In [None]:
✅ Python-Funktion zur Analyse & Visualisierung

```python
import pandas as pd
import matplotlib.pyplot as plt

def nutzerentwicklung_visualisieren(df, datum_col='Datum', id_col='Kunde_ID'):
    """
    Visualisiert die Nutzerentwicklung über 12 Monate:
    - Gesamtanzahl der Nutzer
    - Neue Nutzer (Zuwanderung)
    - Abgewanderte Nutzer (Auswanderung)
    """
    df[datum_col] = pd.to_datetime(df[datum_col])
    df['Monat'] = df[datum_col].dt.to_period('M')

    monate = sorted(df['Monat'].unique())
    daten = []

    for i in range(len(monate) - 1):
        monat_aktuell = monate[i]
        monat_nachher = monate[i+1]
        # Aktuelle und nächste Nutzergruppe
        user_aktuell = set(df[df['Monat'] == monat_aktuell][id_col])
        user_nachher = set(df[df['Monat'] == monat_nachher][id_col])

        # Neue & abgewanderte Nutzer
        neue_nutzer = user_nachher - user_aktuell
        abgewandert = user_aktuell - user_nachher
        gesamt = len(user_aktuell)

        daten.append({
            'Monat': str(monat_aktuell),
            'Gesamt': gesamt,
            'Zuwanderung': len(neue_nutzer),
            'Abwanderung': len(abgewandert)
        })

    df_plot = pd.DataFrame(daten)

    # 📊 Visualisierung
    plt.figure(figsize=(14, 6))
    plt.bar(df_plot['Monat'], df_plot['Gesamt'], label='Gesamt', color='gray')
    plt.bar(df_plot['Monat'], df_plot['Zuwanderung'], label='Zuwanderung', color='green', bottom=df_plot['Gesamt'])
    plt.bar(df_plot['Monat'], -df_plot['Abwanderung'], label='Abwanderung', color='red')

    plt.axhline(0, color='black', linewidth=0.8)
    plt.xticks(rotation=45)
    plt.ylabel('Anzahl Kunden')
    plt.title('Kundenentwicklung (12 Monate)')
    plt.legend()
    plt.tight_layout()
    plt.show()
```


In [None]:

📥 Anwendung

```python
df = pd.read_csv("kunden.csv")  # Enthält Kunde_ID und Datum
nutzerentwicklung_visualisieren(df)
```

In [None]:
Hier ist eine erweiterte Python-Funktion, die mithilfe von Plotly eine interaktive Visualisierung der Nutzerentwicklung über 12 Monate erstellt. Die Grafik zeigt:

- *Gesamtanzahl der Nutzer pro Monat*
- *Neue Nutzer (Zuwanderung)*
- *Abgewanderte Nutzer (Auswanderung)*

Diese Daten werden in einem gestapelten Balkendiagramm dargestellt, das eine klare Übersicht über die Nutzerbewegungen im Zeitverlauf bietet.



In [None]:
📊 Interaktive Visualisierung mit Plotly

🔧 Voraussetzungen

Stelle sicher, dass du die erforderlichen Bibliotheken installiert hast:


```bash
pip install pandas plotly
```


🧪 Funktion zur Analyse und Visualisierung

```python
import pandas as pd
import plotly.graph_objects as go

def nutzerentwicklung_visualisieren_interaktiv(df, datum_col='Datum', id_col='Kunde_ID'):
    """
    Visualisiert die Nutzerentwicklung über 12 Monate interaktiv:
    - Gesamtanzahl der Nutzer
    - Neue Nutzer (Zuwanderung)
    - Abgewanderte Nutzer (Auswanderung)
    """
    df[datum_col] = pd.to_datetime(df[datum_col])
    df['Monat'] = df[datum_col].dt.to_period('M')

    monate = sorted(df['Monat'].unique())
    daten = []

    for i in range(len(monate) - 1):
        monat_aktuell = monate[i]
        monat_nachher = monate[i+1]
        # Aktuelle und nächste Nutzergruppe
        user_aktuell = set(df[df['Monat'] == monat_aktuell][id_col])
        user_nachher = set(df[df['Monat'] == monat_nachher][id_col])

        # Neue & abgewanderte Nutzer
        neue_nutzer = user_nachher - user_aktuell
        abgewandert = user_aktuell - user_nachher
        gesamt = len(user_aktuell)

        daten.append({
            'Monat': str(monat_aktuell),
            'Gesamt': gesamt,
            'Zuwanderung': len(neue_nutzer),
            'Abwanderung': len(abgewandert)
        })

    df_plot = pd.DataFrame(daten)

    # 📊 Interaktive Visualisierung mit Plotly
    fig = go.Figure()
    fig.add_trace(go.Bar(
        x=df_plot['Monat'],
        y=df_plot['Gesamt'],
        name='Gesamt',
        marker_color='gray'
    ))
    fig.add_trace(go.Bar(
        x=df_plot['Monat'],
        y=df_plot['Zuwanderung'],
        name='Zuwanderung',
        marker_color='green'
    ))
    fig.add_trace(go.Bar(
        x=df_plot['Monat'],
        y=-df_plot['Abwanderung'],
        name='Abwanderung',
        marker_color='red'
    ))

    fig.update_layout(
        title='Kundenentwicklung (12 Monate)',
        xaxis_title='Monat',
        yaxis_title='Anzahl Kunden',
        barmode='relative',
        bargap=0.15,
        bargroupgap=0.1,
        template='plotly_white'
    )

    fig.show()
```


In [None]:
📥 Anwendung


```python
Beispiel-Datensatz laden
df = pd.read_csv("kunden.csv")  # Enthält Kunde_ID und Datum

Funktion aufrufen
nutzerentwicklung_visualisieren_interaktiv(df)
```


---

Diese interaktive Visualisierung ermöglicht es dir, die Dynamik der Nutzerbasis über ein Jahr hinweg zu analysieren.
Du kannst leicht erkennen, in welchen Monaten die Nutzerzahl gestiegen oder gesunken ist und wie sich die Zuwanderung und Abwanderung entwickelt haben.

In [None]:
Statt die Zuwanderung und Abwanderung *relativ zu Gesamt* (also gestapelt) darzustellen, kannst du *alle Werte unabhängig als Balken zeigen*, damit man direkt sieht:

- 📦 *Gesamtanzahl Nutzer im Monat*
- 🟢 *Neue Kunden (Zuwanderung)*
- 🔴 *Verlorene Kunden (Abwanderung)*

---

🔄 Neue Version: *Absolute Fallzahlen als nebeneinanderliegende Balken*

Hier kommt die angepasste *Plotly-Visualisierung*:

```python
import pandas as pd
import plotly.graph_objects as go

def nutzerentwicklung_absolut(df, datum_col='Datum', id_col='Kunde_ID'):
    """
    Visualisiert absolute Nutzerzahlen je Monat:
    - Gesamtanzahl der Kunden
    - Neue Kunden (Zuwanderung)
    - Verlorene Kunden (Abwanderung)
    """
    df[datum_col] = pd.to_datetime(df[datum_col])
    df['Monat'] = df[datum_col].dt.to_period('M')

    monate = sorted(df['Monat'].unique())
    daten = []

    for i in range(len(monate) - 1):
        monat_aktuell = monate[i]
        monat_nachher = monate[i + 1]

        kunden_aktuell = set(df[df['Monat'] == monat_aktuell][id_col])
        kunden_nachher = set(df[df['Monat'] == monat_nachher][id_col])

        neue_kunden = kunden_nachher - kunden_aktuell
        abgewanderte_kunden = kunden_aktuell - kunden_nachher
        gesamt = len(kunden_aktuell)
        daten.append({
            'Monat': str(monat_aktuell),
            'Gesamt': gesamt,
            'Zuwanderung': len(neue_kunden),
            'Abwanderung': len(abgewanderte_kunden)
        })

    df_plot = pd.DataFrame(daten)

    # 📊 Plotly: Nebeneinanderliegende Balken (barmode = group)
    fig = go.Figure(data=[
        go.Bar(name='Gesamt', x=df_plot['Monat'], y=df_plot['Gesamt'], marker_color='steelblue'),
        go.Bar(name='Zuwanderung', x=df_plot['Monat'], y=df_plot['Zuwanderung'], marker_color='green'),
        go.Bar(name='Abwanderung', x=df_plot['Monat'], y=df_plot['Abwanderung'], marker_color='crimson')
    ])

    fig.update_layout(
        title='Nutzerbewegung – Absolute Zahlen je Monat',
        xaxis_title='Monat',
        yaxis_title='Anzahl Kunden',
        barmode='group',  # nebeneinander statt gestapelt
        bargap=0.2,
        template='plotly_white'
    )

    fig.show()
```

In [None]:
🔧 Anwendung

```python
df = pd.read_csv("kunden.csv")
nutzerentwicklung_absolut(df)
```

---

Das ist besonders hilfreich, wenn du Entwicklungen *transparent kommunizieren* oder *Businessentscheidungen begründen* willst.

In [None]:
Ich möchte dazu auch gleich *Retention-Rate*, *Churn-Rate* oder *Kundenwachstum in Prozent* mit anzeigen? 💡

Dann erweitern wir die Funktion, um zusätzlich folgende *KPI-Metriken* pro Monat zu berechnen und darzustellen:

---

📈 Was wird neu berechnet?

| Metrik             | Bedeutung                                             |
|--------------------|--------------------------------------------------------|
| 📊 *Gesamt*      | Anzahl Kunden im aktuellen Monat                      |
| 🟢 *Zuwanderung* | Neue Kunden, die im aktuellen Monat hinzugekommen sind |
| 🔴 *Abwanderung* | Kunden, die im nächsten Monat nicht mehr aktiv sind    |
| 🔁 *Retention-Rate* | Anteil der Kunden, die geblieben sind (im nächsten Monat wieder da) |
| ❌ *Churn-Rate*  | Anteil der Kunden, die abgewandert sind               |
| 📈 *Wachstum (%)* | Netto-Veränderung gegenüber dem Vormonat              |

In [None]:

✅ Funktion: Nutzerentwicklung + KPI-Analyse

```python
import pandas as pd
import plotly.graph_objects as go

def nutzerentwicklung_kpi(df, datum_col='Datum', id_col='Kunde_ID'):
    df[datum_col] = pd.to_datetime(df[datum_col])
    df['Monat'] = df[datum_col].dt.to_period('M')

    monate = sorted(df['Monat'].unique())
    daten = []

    for i in range(len(monate) - 1):
        monat_aktuell = monate[i]
        monat_nachher = monate[i + 1]
        kunden_aktuell = set(df[df['Monat'] == monat_aktuell][id_col])
        kunden_nachher = set(df[df['Monat'] == monat_nachher][id_col])

        neue_kunden = kunden_nachher - kunden_aktuell
        abgewanderte_kunden = kunden_aktuell - kunden_nachher
        geblieben = kunden_aktuell & kunden_nachher

        gesamt = len(kunden_aktuell)
        retention = len(geblieben) / gesamt if gesamt else 0
        churn = len(abgewanderte_kunden) / gesamt if gesamt else 0
        wachstum = (len(kunden_nachher) - gesamt) / gesamt if gesamt else 0

        daten.append({
            'Monat': str(monat_aktuell),
            'Gesamt': gesamt,
            'Zuwanderung': len(neue_kunden),
            'Abwanderung': len(abgewanderte_kunden),
            'RetentionRate': round(retention * 100, 2),
            'ChurnRate': round(churn * 100, 2),
            'Wachstum': round(wachstum * 100, 2)
        })

    df_plot = pd.DataFrame(daten)

    # 📊 Balkendiagramm für absolute Nutzerzahlen
    fig = go.Figure()
    fig.add_trace(go.Bar(name='Gesamt', x=df_plot['Monat'], y=df_plot['Gesamt'], marker_color='steelblue'))
    fig.add_trace(go.Bar(name='Zuwanderung', x=df_plot['Monat'], y=df_plot['Zuwanderung'], marker_color='green'))
    fig.add_trace(go.Bar(name='Abwanderung', x=df_plot['Monat'], y=df_plot['Abwanderung'], marker_color='crimson'))

    # 🔁 Sekundärachse für KPIs: Retention, Churn, Wachstum
    fig.update_layout(
        title='Nutzerentwicklung und KPIs je Monat',
        xaxis_title='Monat',
        yaxis_title='Anzahl Kunden',
        barmode='group',
        template='plotly_white'
    )

    # 📈 KPI-Linienplot
    fig.add_trace(go.Scatter(
        name='RetentionRate (%)',
        x=df_plot['Monat'],
        y=df_plot['RetentionRate'],
        yaxis='y2',
        mode='lines+markers',
        line=dict(color='orange', width=2, dash='dash')
    ))

    fig.add_trace(go.Scatter(
        name='ChurnRate (%)',
        x=df_plot['Monat'],
        y=df_plot['ChurnRate'],
        yaxis='y2',
        mode='lines+markers',
        line=dict(color='red', width=2)
    ))

    fig.add_trace(go.Scatter(
        name='Wachstum (%)',
        x=df_plot['Monat'],
        y=df_plot['Wachstum'],
        yaxis='y2',
        mode='lines+markers',
        line=dict(color='green', width=2)
    ))

    # Sekundärachse konfigurieren
    fig.update_layout(
        yaxis2=dict(
            title='Prozentwerte',
            overlaying='y',
            side='right'
        )
    )

    fig.show()
```


In [None]:
📥 Anwendung

```python
df = pd.read_csv("kunden.csv")
nutzerentwicklung_kpi(df)
```