## 1. Setup & Imports

In diesem Schritt werden die ben√∂tigten Libraries importiert und die Dateipfade definiert.
Die Daten liegen au√üerhalb des Notebooks im `/data` Ordner ‚Äî dadurch bleibt das Notebook portabel
und die Rohdaten werden nicht versehentlich versioniert.

> ‚ÑπÔ∏è **Disclaimer:**  
> Dieses Notebook dient prim√§r der **explorativen Datenanalyse (EDA)** und der **Dokumentation der Gedankeng√§nge** im Analyseprozess.  
> 
> Es ist **nicht f√ºr den produktiven Einsatz oder die Automatisierung** vorgesehen.  
> Daher wurde bewusst auf Elemente wie `try/except`-Bl√∂cke oder generische Fehlerbehandlung verzichtet.  
> 
> Ebenso wurden **Performance-Optimierungen** bewusst ausgelassen,  
> da das Datenvolumen √ºberschaubar ist und der Fokus auf **Nachvollziehbarkeit und Transparenz der Analyse** liegt.  


In [2]:
from pathlib import Path
import pandas as pd
from IPython.display import display
import numpy as np

# Data directory relativ zu notebooks/
DATA_DIR = Path("../data")

umsatz_file = DATA_DIR / "Umsatzdaten.xlsx"
tracking_file = DATA_DIR / "Trackingdaten.xlsx"

umsatz_file, tracking_file


(WindowsPath('../data/Umsatzdaten.xlsx'),
 WindowsPath('../data/Trackingdaten.xlsx'))

## 2. Laden der Rohdaten

Die Excel-Dateien werden eingelesen:
- `Umsatzdaten.xlsx`: enth√§lt Bestellungen/Ums√§tze
- `Trackingdaten.xlsx`: enth√§lt Klick / Bewerbung Tracking

Beide werden als pandas DataFrames eingelesen und ausgegeben, um einen ersten Eindruck zu gewinnen.

In [3]:
df_sales = pd.read_excel(umsatz_file)
df_track = pd.read_excel(tracking_file)

display(df_sales.head(2))
display(df_track.head(2))



Unnamed: 0,DATE,POSITION_NUMBER,BC_NUMBER,PRODUCT_NAME,TARIFF_NAME,COMPANY_NAME,HEADLINE,SALE_PRICE
0,2024-12-15 00:00:00,245329553AC,245329553A3,indeed.com,30 Tage / 360 ‚Ç¨ Budget,Medizinisches Zentrum S√ºd,IT-Sicherheitsbeauftragte / IT-Sicherheitsbeau...,360.0
1,2024-12-15 00:00:00,215429626AA,215429626A9,indeed.com,30 Tage / 360 ‚Ç¨ Budget,Medizinisches Zentrum S√ºd,MTA (w/m/d),360.0


Unnamed: 0,DATE,BC_NUMBER,SUPPLIER,VIEWS
0,2025-07-22 00:00:00,284281037A3,StepStone,195
1,2025-02-05 00:00:00,203293100A2,indeed,134


### 3. Struktur & Datentypen pr√ºfen

Bevor wir mit der Bereinigung starten, pr√ºfen wir:

- welche Spalten vorhanden sind
- wie viele Zeilen / Speicherbedarf
- welche Datentypen Pandas erkannt hat

‚û°Ô∏è Ziel: Verst√§ndnis √ºber das Rohformat, bevor wir Felder konvertieren.

In [4]:
df_sales.info()
print("-" * 60)
df_track.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1611 entries, 0 to 1610
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   DATE             1611 non-null   object 
 1   POSITION_NUMBER  1611 non-null   object 
 2   BC_NUMBER        1611 non-null   object 
 3   PRODUCT_NAME     1611 non-null   object 
 4   TARIFF_NAME      1611 non-null   object 
 5   COMPANY_NAME     1611 non-null   object 
 6   HEADLINE         1611 non-null   object 
 7   SALE_PRICE       1611 non-null   float64
dtypes: float64(1), object(7)
memory usage: 100.8+ KB
------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57127 entries, 0 to 57126
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   DATE       57127 non-null  object
 1   BC_NUMBER  57127 non-null  object
 2   SUPPLIER   57127 non-null  object
 3   VIEWS      

‚û°Ô∏è Ergebnis: Die meisten Felder wurden als `object` eingelesen (= Excel-typisch).
Im n√§chsten Schritt konvertieren wir Datumsfelder und pr√ºfen fehlende Werte & Duplikate.

##  4. Data Quality & Preprocessing 
Wir pr√ºfen und bereinigen in klaren Schritten. Nichts wird ‚Äûblind‚Äú gel√∂scht; jede Entscheidung ist dokumentiert.

In [5]:

df_sales_clean = df_sales.copy()
df_track_clean = df_track.copy()


### 4.1 Datumsfelder sicher konvertieren
DATE muss f√ºr Zeitlogik nutzbar sein. Fehlerhafte Werte werden als NaT markiert (keine Exceptions).

In [6]:
for df in (df_sales_clean, df_track_clean):
    df["DATE_raw"] = df["DATE"]  # Originalwert sichern
    df["DATE"] = pd.to_datetime(df["DATE"], errors="coerce")

## 4. Data Quality Checks

> ‚ÑπÔ∏è **Ziel:**  
> In diesem Schritt pr√ºfen wir die Datenqualit√§t, insbesondere fehlende Werte.  
> Zuerst erfolgt eine Gesamt√ºbersicht pro Spalte, anschlie√üend eine detaillierte Betrachtung nach Quelle (`SUPPLIER` bzw. `COMPANY_NAME`),  
> um Muster und potenzielle Datenherkunftsprobleme zu erkennen.

In [7]:
# √úbersicht fehlender Werte pro Spalte
print("Missing per column ‚Äì Sales")
display(df_sales_clean.isna().sum())

print("\nMissing per column ‚Äì Tracking")
display(df_track_clean.isna().sum())


# --- Detailanalyse: Fehlende DATE-Werte nach SUPPLIER ---
print("\nTracking: fehlendes DATE nach SUPPLIER")

df_missing_tracking = (
    df_track_clean
    .assign(is_missing=df_track_clean["DATE"].isna())
    .groupby("SUPPLIER", dropna=False)
    .agg(
        total=("DATE", "size"),
        missing=("is_missing", "sum")
    )
    .assign(missing_pct=lambda x: (x["missing"] / x["total"] * 100).round(1))
    .sort_values("missing", ascending=False)  # Sortierung nach absolutem Impact
    .query("missing>0")
)

display(df_missing_tracking)

# --- Optional: Gleiche Logik f√ºr Sales-Daten ---
if "COMPANY_NAME" in df_sales_clean.columns:
    print("\nSales: fehlendes DATE nach COMPANY_NAME")

    df_missing_sales = (
        df_sales_clean
        .assign(is_missing=df_sales_clean["DATE"].isna())
        .groupby("COMPANY_NAME", dropna=False)
        .agg(
            total=("DATE", "size"),
            missing=("is_missing", "sum")
        )
        .assign(missing_pct=lambda x: (x["missing"] / x["total"] * 100).round(1))
        .sort_values("missing", ascending=False)
        .query("missing>0")
    )

    display(df_missing_sales.head(10))


Missing per column ‚Äì Sales


DATE               2
POSITION_NUMBER    0
BC_NUMBER          0
PRODUCT_NAME       0
TARIFF_NAME        0
COMPANY_NAME       0
HEADLINE           0
SALE_PRICE         0
DATE_raw           0
dtype: int64


Missing per column ‚Äì Tracking


DATE         277
BC_NUMBER      0
SUPPLIER       0
VIEWS          0
DATE_raw       0
dtype: int64


Tracking: fehlendes DATE nach SUPPLIER


Unnamed: 0_level_0,total,missing,missing_pct
SUPPLIER,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
StepStone,25942,122,0.5
jobware,5953,29,0.5
indeed,5299,29,0.5
stellenanzeigen,4499,24,0.5
academicsde,3770,22,0.6
monster,2075,11,0.5
opportunoDE,837,4,0.5
ingenieurkarriere,1091,4,0.4
aerztestellenDE,546,3,0.5
springermedizin,384,3,0.8



Sales: fehlendes DATE nach COMPANY_NAME


Unnamed: 0_level_0,total,missing,missing_pct
COMPANY_NAME,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Fachhochschule Mitte,44,1,2.3
Kommunalverwaltung Ost,20,1,5.0


> üîç **Interpretation:**  
> Die Tabelle ist nach absoluter Anzahl fehlender `DATE`-Werte sortiert.  
> So werden die **gr√∂√üten Problemquellen** zuerst sichtbar (z. B. Lieferanten mit vielen Eintr√§gen, bei denen das Datum fehlt).  
> 
> Der Prozentwert (`missing_pct`) erg√§nzt diese Sicht, um zu erkennen,  
> ob das Problem fl√§chendeckend (hoher Anteil) oder nur punktuell (geringer Anteil) auftritt.

> üìà **Erkenntnisse & n√§chste Schritte:**  
> Die Analyse zeigt, dass insbesondere gro√üe Anbieter wie `StepStone`, `jobware` und `indeed` den Gro√üteil der fehlenden `DATE`-Werte verursachen.  
> Obwohl der relative Anteil gering ist (~0.5 %), ist der **absolute Impact** aufgrund der hohen Datenmenge relevant.  
>
> In den n√§chsten Schritten soll daher eine **gezielte Ursachenanalyse** f√ºr die Top-Verursacher erfolgen,  
> z. B. um zu pr√ºfen, ob die fehlenden Datumswerte systematisch sind (z. B. bestimmte Wochen, Kampagnen oder Datenquellen).  
>
> Anbieter mit nur vereinzelten Fehlwerten (< 5 F√§lle) werden zun√§chst **nicht weiter untersucht**,  
> da deren Einfluss auf die Gesamtanalyse als vernachl√§ssigbar einzusch√§tzen ist.

# Ung√ºltige Datumswerte im Umsatzdataset
invalid_sales = df_sales_clean.loc[df_sales_clean["DATE"].isna(), "DATE_raw"].unique()
print("‚ùó Ung√ºltige Datumseintr√§ge in Umsatzdaten:", invalid_sales)

# Ung√ºltige Datumswerte im Trackingdataset
invalid_track = df_track_clean.loc[df_track_clean["DATE"].isna(), "DATE_raw"].unique()
print("‚ùó Ung√ºltige Datumseintr√§ge in Trackingdaten:", invalid_track)

print("\nüìå Insight:")
print(
    "Die oben gezeigten Werte konnten nicht in ein g√ºltiges Datumsformat konvertiert werden.\n"
    "Auff√§llig ist, dass sowohl im Umsatz- als auch im Trackingdataset der Wert '29.02.2025'\n"
    "auftritt. Da das Jahr 2025 kein Schaltjahr ist, ist der 29. Februar ein nicht existierendes\n"
    "Datum ‚Äì dies f√ºhrt bei der Konvertierung entsprechend zu NaT.\n"
)


In [8]:
# Ung√ºltige Datumswerte im Umsatzdataset
invalid_sales = df_sales_clean.loc[df_sales_clean["DATE"].isna(), "DATE_raw"].unique()
print("‚ùó Ung√ºltige Datumseintr√§ge in Umsatzdaten:", invalid_sales)

# Ung√ºltige Datumswerte im Trackingdataset
invalid_track = df_track_clean.loc[df_track_clean["DATE"].isna(), "DATE_raw"].unique()
print("‚ùó Ung√ºltige Datumseintr√§ge in Trackingdaten:", invalid_track)

print("\nüìå Insight:")
print(
    "Die oben gezeigten Werte konnten nicht in ein g√ºltiges Datumsformat konvertiert werden.\n"
    "Auff√§llig ist, dass sowohl im Umsatz- als auch im Trackingdataset der Wert '29.02.2025'\n"
    "auftritt. Da das Jahr 2025 kein Schaltjahr ist, ist der 29. Februar ein nicht existierendes\n"
    "Datum ‚Äì dies f√ºhrt bei der Konvertierung entsprechend zu NaT.\n"
)


‚ùó Ung√ºltige Datumseintr√§ge in Umsatzdaten: ['29.02.2025']
‚ùó Ung√ºltige Datumseintr√§ge in Trackingdaten: ['29.02.2025']

üìå Insight:
Die oben gezeigten Werte konnten nicht in ein g√ºltiges Datumsformat konvertiert werden.
Auff√§llig ist, dass sowohl im Umsatz- als auch im Trackingdataset der Wert '29.02.2025'
auftritt. Da das Jahr 2025 kein Schaltjahr ist, ist der 29. Februar ein nicht existierendes
Datum ‚Äì dies f√ºhrt bei der Konvertierung entsprechend zu NaT.



### Schlussfolgerung

Die Untersuchung zeigt, dass alle NaT-Werte in beiden Datens√§tzen auf denselben
fehlerhaften Rohwert zur√ºckzuf√ºhren sind:

29.02.2025 ‚Äî ein Datum, das nicht existiert, da 2025 kein Schaltjahr ist.

Das bedeutet:

Der Fehler ist systematisch und tritt in beiden Quellen auf

M√∂gliche Ursache: Eingabefehler, Exportfehler, oder ein Platzhalterdatum f√ºr ‚ÄûEnde Februar‚Äú

Die Anzahl der betroffenen Zeilen ist sehr gering ‚Üí geringer Einfluss aufs Gesamtergebnis

F√ºr ein sp√§teres Data Cleaning ergeben sich folgende Optionen:

Mapping auf ein g√ºltiges Datum (z. B. 28.02.2025), falls der Tag wichtig ist

Interpretation auf Monatsebene (Februar 2025), falls der exakte Tag irrelevant ist

Droppen der Zeilen, falls der Anteil vernachl√§ssigbar ist

Oder Einbau einer Datenqualit√§ts-Flag f√ºr Transparenz

Im aktuellen EDA-Schritt ist jedoch lediglich wichtig,
den Fehler zu erkennen und korrekt einzuordnen, ohne ihn bereits zu beheben.

### Plausibilit√§tscheck der Datenqualit√§t

Nachdem die problematischen Datumswerte bereits identifiziert wurden, f√ºhren wir jetzt einen zus√§tzlichen Plausibilit√§tscheck durch, um sicherzustellen, dass beide Datens√§tze inhaltlich konsistent und zuverl√§ssig nutzbar sind.

Der Fokus liegt auf:

Dubletten (ganze Zeilen)

Dubletten in Schl√ºsselspalten (z. B. BC_NUMBER)

Fehlenden Werten

Unplausiblen numerischen Werten

Auff√§lligen strukturellen Mustern

Cross-Dataset-Konsistenz (nur vorbereitend)

Dieser Schritt dient dazu, m√∂gliche Datenqualit√§tsprobleme fr√ºhzeitig zu erkennen, bevor wir darauf basierende KPIs oder BI-Modelle bauen.

In [10]:
def plausi_check(df, title):
    print(f"\n===== {title.upper()} =====")
    
    dup_rows = pd.DataFrame({"duplicate_rows": [df.duplicated().sum()]})
    
    if "BC_NUMBER" in df.columns:
        dup_bc = pd.DataFrame({"duplicate_BC_NUMBER": [df["BC_NUMBER"].duplicated().sum()]})
    else:
        dup_bc = pd.DataFrame({"duplicate_BC_NUMBER": ["n/a"]})
    
    
    numeric_summary = df.select_dtypes(include=["int64","float64"]).describe()
    
    
    empty = {
        col: (df[col].astype(str).str.strip() == "").sum()
        for col in df.select_dtypes(include="object").columns
    }
    empty_df = pd.DataFrame.from_dict(empty, orient="index", columns=["empty_strings"])
    
    # ---- DISPLAY CLEAN ----   
    print("\nüîπ Duplicate Rows:")
    display(dup_rows)
    
    print("\nüîπ Duplicate BC_NUMBER:")
    display(dup_bc)
    
    print("\nüîπ Numeric Summary:")
    display(numeric_summary)
    
    print("\nüîπ Empty String Checks:")
    display(empty_df)

# Run for both dataframes
plausi_check(df_sales_clean, "Umsatzdaten")
plausi_check(df_track_clean, "Trackingdaten")




===== UMSATZDATEN =====

üîπ Duplicate Rows:


Unnamed: 0,duplicate_rows
0,0



üîπ Duplicate BC_NUMBER:


Unnamed: 0,duplicate_BC_NUMBER
0,820



üîπ Numeric Summary:


Unnamed: 0,SALE_PRICE
count,1611.0
mean,703.044494
std,858.624735
min,0.0
25%,360.0
50%,549.0
75%,850.0
max,14524.0



üîπ Empty String Checks:


Unnamed: 0,empty_strings
POSITION_NUMBER,0
BC_NUMBER,0
PRODUCT_NAME,0
TARIFF_NAME,0
COMPANY_NAME,0
HEADLINE,0
DATE_raw,0



===== TRACKINGDATEN =====

üîπ Duplicate Rows:


Unnamed: 0,duplicate_rows
0,1



üîπ Duplicate BC_NUMBER:


Unnamed: 0,duplicate_BC_NUMBER
0,56541



üîπ Numeric Summary:


Unnamed: 0,VIEWS
count,57127.0
mean,207.106395
std,241.426636
min,1.0
25%,46.0
50%,153.0
75%,286.0
max,2648.0



üîπ Empty String Checks:


Unnamed: 0,empty_strings
BC_NUMBER,0
SUPPLIER,0
DATE_raw,0


### Duplikate & Struktur
Umsatzdaten

Keine vollst√§ndigen Duplikate

BC_NUMBER kommt mehrfach vor ‚Üí eine BC_NUMBER steht f√ºr mehrere Positionen (logisch).

Trackingdaten

Ein vollst√§ndiges Duplikat (vernachl√§ssigbar)

BC_NUMBER kommt sehr h√§ufig vor ‚Üí entspricht der Natur von View-Events (mehrere Aufrufe pro Anzeige).

Insight:
Zwischen Umsatz- und Trackingdaten besteht ein many-to-many Verh√§ltnis √ºber BC_NUMBER.
F√ºr sp√§tere Analysen m√ºssen beide Seiten zun√§chst pro BC_NUMBER aggregiert werden (z. B. Umsatz summieren, Views summieren).

### Datumswerte

In beiden Datens√§tzen tritt derselbe ung√ºltige Wert auf:

29.02.2025 ‚Äì nicht g√ºltig, da 2025 kein Schaltjahr ist.

Dies f√ºhrt beim Konvertieren zu NaT.
Der Fehler ist geringf√ºgig, aber sollte sp√§ter gezielt korrigiert oder vereinheitlicht werden.

### Fazit

Die Daten sind insgesamt gut strukturiert und stabil.
Einziger relevanter Punkt ist der Schaltjahrfehler in den Datumswerten sowie die notwendige Aggregation √ºber BC_NUMBER, bevor die Datens√§tze sinnvoll zusammengef√ºhrt oder analysiert werden k√∂nnen.

### Korrektur ung√ºltiger Datumswerte

Bei der Pr√ºfung der DATE-Spalten fiel in beiden Datens√§tzen derselbe ung√ºltige Wert auf:

29.02.2025 ‚Äì nicht existent, da 2025 kein Schaltjahr ist.

Damit die Daten f√ºr die weitere Analyse sauber genutzt werden k√∂nnen, wird dieser Wert konsistent auf ein g√ºltiges Datum gemappt:

‚û°Ô∏è 28.02.2025

Das Mapping betrifft nur wenige Zeilen und stellt sicher, dass sp√§ter keine NaT-Werte entstehen und Zeitreihen sauber ausgewertet werden k√∂nnen.

In [None]:
# Ung√ºltiges Datum in beiden DFs auf g√ºltiges Datum setzen
for df in (df_sales_clean, df_track_clean):
    df.loc[df["DATE_raw"] == "29.02.2025", "DATE"] = pd.to_datetime("2025-02-28")




(np.int64(0), np.int64(0))

## Weiter mit der Analyse

Nach Korrektur der Datumswerte und Kl√§rung der Datenstruktur k√∂nnen die Datens√§tze jetzt ohne Einschr√§nkungen analysiert werden.

Die n√§chsten Schritte konzentrieren sich auf:

Zeitliche Struktur (Monate, Zeitr√§ume, Trends)

Umsatz- und Kundenanalyse

Inaktivit√§tserkennung

BC_NUMBER-Aggregation als Vorbereitung f√ºr Power BI

Damit schaffen wir eine solide Grundlage f√ºr Reporting, Visualisierung und sp√§tere KPI-Definitionen.

## Zeitliche Struktur der Daten

Im ersten Schritt wird gepr√ºft, welche Zeitr√§ume die Daten abdecken und wie die zeitliche Verteilung aussieht. 
Dies ist wichtig f√ºr:
- sp√§tere Monatsanalysen,
- Trendbewertungen,
- und die Ableitung von Inaktivit√§t (z. B. Kunde ohne Umsatz seit X Monaten).


In [13]:
# Zeitliche √úbersicht f√ºr beide Datens√§tze
def time_overview(df, name):
    print(f"\n===== {name} =====")
    print("Min DATE:", df["DATE"].min())
    print("Max DATE:", df["DATE"].max())
    print("\nAnzahl Eintr√§ge pro Monat:")
    display(df["DATE"].dt.to_period("M").value_counts().sort_index())

time_overview(df_sales_clean, "Umsatzdaten")
time_overview(df_track_clean, "Trackingdaten")



===== Umsatzdaten =====
Min DATE: 2024-08-21 00:00:00
Max DATE: 2025-10-11 00:00:00

Anzahl Eintr√§ge pro Monat:


DATE
2024-08     59
2024-09    163
2024-10    188
2024-11    139
2024-12    142
2025-01    160
2025-02    117
2025-03    111
2025-04    127
2025-05    114
2025-06    112
2025-07    108
2025-08     64
2025-09      3
2025-10      4
Freq: M, Name: count, dtype: int64


===== Trackingdaten =====
Min DATE: 2024-08-21 00:00:00
Max DATE: 2025-07-31 00:00:00

Anzahl Eintr√§ge pro Monat:


DATE
2024-08      120
2024-09      531
2024-10      551
2024-11     2027
2024-12     1877
2025-01     3954
2025-02     5152
2025-03     5430
2025-04     6690
2025-05     5046
2025-06     8355
2025-07    17394
Freq: M, Name: count, dtype: int64

## Umsatzanalyse

Im n√§chsten Schritt wird der Umsatz zeitlich und nach Kunden analysiert. 
Diese Basis-Insights sind wichtig f√ºr:
- monatliche KPIs,
- Kundenranking,
- und sp√§tere Inaktivit√§tsbewertungen.


In [14]:
# Umsatz pro Monat
umsatz_monat = (
    df_sales_clean
    .groupby(df_sales_clean["DATE"].dt.to_period("M"))["SALE_PRICE"]
    .sum()
    .reset_index()
    .rename(columns={"DATE": "MONTH", "SALE_PRICE": "TOTAL_REVENUE"})
)

display(umsatz_monat)


Unnamed: 0,MONTH,TOTAL_REVENUE
0,2024-08,47094.96
1,2024-09,110123.71
2,2024-10,114386.49
3,2024-11,89219.19
4,2024-12,88183.02
5,2025-01,140866.99
6,2025-02,94637.0
7,2025-03,74735.0
8,2025-04,83929.7
9,2025-05,81764.0


## Umsatz pro Kunde

Zur Identifikation der umsatzst√§rksten Kunden wird der Gesamtumsatz nach
COMPANY_NAME aggregiert. Diese Kennzahl dient u. a. der sp√§teren Priorisierung
und Segmentierung im BI-Dashboard.


In [15]:
# Umsatz pro Kunde
umsatz_kunde = (
    df_sales_clean
    .groupby("COMPANY_NAME")["SALE_PRICE"]
    .sum()
    .reset_index()
    .rename(columns={"SALE_PRICE": "TOTAL_REVENUE"})
    .sort_values("TOTAL_REVENUE", ascending=False)
)

display(umsatz_kunde.head(10))


Unnamed: 0,COMPANY_NAME,TOTAL_REVENUE
14,Medizinisches Zentrum S√ºd,443980.0
3,Bildungsinstitut West,256245.62
10,Kommunalverwaltung Nord,204388.08
9,Katholische Kliniken GmbH,48456.0
5,Fachhochschule Mitte,44726.0
13,Medizinisches Zentrum Mitte,44652.01
6,Fraktionsb√ºro B√ºndnis - Personalabteilung -,40587.99
11,Kommunalverwaltung Ost,17947.98
17,Steuerberatung & Partner GmbH,7117.0
4,Desinfektionsl√∂sungen GmbH,5592.0


## Letzte Aktivit√§t pro Kunde

Sowohl Umsatz- als auch Trackingdaten liefern Informationen zur Kundenaktivit√§t.
Zun√§chst wird das letzte Umsatzdatum je Kunde berechnet.


In [48]:
letzter_umsatz = (
    df_sales_clean.groupby("COMPANY_NAME")["DATE"]
    .max()
    .reset_index(name="LAST_SALE_DATE")
)
display(letzter_umsatz.head())


Unnamed: 0,COMPANY_NAME,LAST_SALE_DATE
0,Autohandel West GmbH & Co. KG,2025-07-02
1,Bauunternehmen Mitte GmbH,2025-01-18
2,Bildungsakademie GmbH,2025-01-26
3,Bildungsinstitut West,2025-10-11
4,Desinfektionsl√∂sungen GmbH,2024-09-11


## Eindeutiges Mapping von Trackingdaten √ºber BC_NUMBER

### Eindeutiges Mapping √ºber BC_NUMBER

Da Trackingdaten keinen Kundennamen enthalten, erfolgt die Zuordnung
√ºber BC_NUMBER. Eine Pr√ºfung zeigt, dass jede BC_NUMBER eindeutig einem
Kunden zugeordnet ist (nunique = 1). Tracking-BC_NUMBERs ohne Sales werden
daher logisch zu NaN (z. B. Vorschau-Anzeigen, Testschaltungen).


In [49]:
# Pr√ºfen der Eindeutigkeit
bc_check = (
    df_sales_clean.groupby("BC_NUMBER")["COMPANY_NAME"]
    .nunique()
    .eq(1)
    .all()
)
print("BC_NUMBER-Mapping eindeutig:", bc_check)

# Mapping-Tabelle
bc_map = df_sales_clean[["BC_NUMBER", "COMPANY_NAME"]].drop_duplicates()


BC_NUMBER-Mapping eindeutig: True


### Anreicherung der Trackingdaten um Kundennamen

In [52]:
df_track_mapped = df_track_clean.merge(bc_map, on="BC_NUMBER", how="left")


## Letztes Trackingdatum pro Kunde

Das letzte Trackingdatum zeigt die j√ºngste Nutzerinteraktion pro Kunde.
Trackingdaten liegen bis 31.07.2025 vor, daher haben viele Kunden dieses Datum
als LAST_TRACK_DATE.

In [53]:
df_track_valid = df_track_mapped[~df_track_mapped["COMPANY_NAME"].isna()]

letztes_tracking = (
    df_track_valid.groupby("COMPANY_NAME")["DATE"]
    .max()
    .reset_index(name="LAST_TRACK_DATE")
)
display(letztes_tracking.head())


Unnamed: 0,COMPANY_NAME,LAST_TRACK_DATE
0,Autohandel West GmbH & Co. KG,2025-07-31
1,Bauunternehmen Mitte GmbH,2025-07-31
2,Bildungsakademie GmbH,2025-07-31
3,Bildungsinstitut West,2025-07-31
4,Desinfektionsl√∂sungen GmbH,2025-07-31


## 5. Plausibilit√§tschecks

Um sicherzustellen, dass das sp√§tere Dashboard korrekt arbeitet, wurden
Plausibilit√§tspr√ºfungen durchgef√ºhrt:

- **BC_NUMBER eindeutig:** keine Mehrfachzuordnung
- **Tracking-Only BC_NUMBERs:** logisch erkl√§rbare NaNs
- **Merge-Konsistenz:** NaNs entstehen ausschlie√ülich bei BC_NUMBERs ohne Sales
- **Datumskonsistenz:** Tracking bis 31.07.2025, keine Werte dar√ºber

Diese Tests erh√∂hen die Datenkonfidenz und eignen sich sp√§ter f√ºr
automatisierte Data Quality Checks.


In [54]:
# Welche BC_NUMBERs kommen nur in Tracking vor?
missing_bc = set(df_track_clean["BC_NUMBER"]) - set(df_sales_clean["BC_NUMBER"])

# Erwartete Zeilenanzahl mit NaN
expected_na = df_track_clean[df_track_clean["BC_NUMBER"].isin(missing_bc)].shape[0]
actual_na = df_track_mapped["COMPANY_NAME"].isna().sum()

print("Erwartete NaNs:", expected_na)
print("Tats√§chliche NaNs:", actual_na)
print("Plausibel:", expected_na == actual_na)


Erwartete NaNs: 1510
Tats√§chliche NaNs: 1510
Plausibel: True


In [73]:
df_sales["HEADLINE"].unique()


array(['IT-Sicherheitsbeauftragte / IT-Sicherheitsbeauftragter (w/m/d)',
       'MTA (w/m/d)', 'Leiter HMK und externe Kommunikation (w/m/d)',
       'Hausmeister / Hausmeisterin (w/m/d)',
       'Professorship in Regenerative Biology (W2 permanent or tenure track) (f/m/d)',
       'Professorship in Applied Geophysics (W2) (f/m/d)',
       'Werkstudent:in Patientenmanagement (m/w/d)',
       'Fachbereichsbetreuer*in HPC im Tarifbesch√§ftigten- oder Beamtenverh√§ltnis',
       'Beamt*in Abteilung Personalmanagement / HR ',
       'Sekret√§rin / Sekret√§r / Verwaltungskraft (w/m/d)',
       'Apothekerin / Apotheker (w/m/d)',
       'Assistenz√§rztin / Assistenzarzt (w/m/d) Institut f√ºr Pathologie und Neuropathologie',
       'PKA oder Kauffrau / Kaufmann im Gesundheitswesen (w/m/d)',
       'Projekt- und Inbetriebnahmekoordination (w/m/d) Abteilung Projekte, Consulting & Inbetriebnahme',
       'Fachkraft (w/m/d) f√ºr Arbeitssicherheit',
       'PhD / Postdoc / PhD Student (w/m/d) Zentr