## 1. Setup & Imports

In diesem Schritt werden die benötigten Libraries importiert und die Dateipfade definiert.
Die Daten liegen außerhalb des Notebooks im `/data` Ordner — dadurch bleibt das Notebook portabel
und die Rohdaten werden nicht versehentlich versioniert.

In [9]:
from pathlib import Path
import pandas as pd
from IPython.display import display

# Data directory relativ zu notebooks/
DATA_DIR = Path("../data")

umsatz_file = DATA_DIR / "Umsatzdaten.xlsx"
tracking_file = DATA_DIR / "Trackingdaten.xlsx"

umsatz_file, tracking_file


(WindowsPath('../data/Umsatzdaten.xlsx'),
 WindowsPath('../data/Trackingdaten.xlsx'))

## 2. Laden der Rohdaten

Die Excel-Dateien werden eingelesen:
- `Umsatzdaten.xlsx`: enthält Bestellungen/Umsätze
- `Trackingdaten.xlsx`: enthält Klick / Bewerbung Tracking

Beide werden als pandas DataFrames eingelesen und ausgegeben, um einen ersten Eindruck zu gewinnen.

In [8]:
df_sales = pd.read_excel(umsatz_file)
df_track = pd.read_excel(tracking_file)

display(df_sales.head(2))
display(df_track.head(2))


Unnamed: 0,DATE,POSITION_NUMBER,BC_NUMBER,PRODUCT_NAME,TARIFF_NAME,COMPANY_NAME,HEADLINE,SALE_PRICE
0,2024-12-15 00:00:00,245329553AC,245329553A3,indeed.com,30 Tage / 360 € Budget,Medizinisches Zentrum Süd,IT-Sicherheitsbeauftragte / IT-Sicherheitsbeau...,360.0
1,2024-12-15 00:00:00,215429626AA,215429626A9,indeed.com,30 Tage / 360 € Budget,Medizinisches Zentrum Süd,MTA (w/m/d),360.0


Unnamed: 0,DATE,BC_NUMBER,SUPPLIER,VIEWS
0,2025-07-22 00:00:00,284281037A3,StepStone,195
1,2025-02-05 00:00:00,203293100A2,indeed,134


## 3. Struktur & Datentypen prüfen

In [10]:
df_sales.info()
print("-" * 60)
df_track.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1611 entries, 0 to 1610
Data columns (total 8 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   DATE             1611 non-null   object 
 1   POSITION_NUMBER  1611 non-null   object 
 2   BC_NUMBER        1611 non-null   object 
 3   PRODUCT_NAME     1611 non-null   object 
 4   TARIFF_NAME      1611 non-null   object 
 5   COMPANY_NAME     1611 non-null   object 
 6   HEADLINE         1611 non-null   object 
 7   SALE_PRICE       1611 non-null   float64
dtypes: float64(1), object(7)
memory usage: 100.8+ KB
------------------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57127 entries, 0 to 57126
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   DATE       57127 non-null  object
 1   BC_NUMBER  57127 non-null  object
 2   SUPPLIER   57127 non-null  object
 3   VIEWS      

> ℹ️ **Hinweis zur Interpretation**
>
> `pandas.info()` zeigt nur die *technischen* Datentypen (z. B. `object`, `float64`).
> Ein `object`-Typ bedeutet jedoch nicht automatisch „Text“, sondern kann
> auch numerische Werte oder IDs enthalten.
>
> Daher prüfen wir im nächsten Schritt, **ob die Datentypen auch fachlich korrekt sind**
> (z. B. ob Spalten numerisch sein sollten oder kategorische IDs darstellen).

➡️ Ergebnis:
Die meisten Spalten wurden als `object` eingelesen. Das ist typisch bei Excel-Dateien,
da Pandas nicht sicher ableiten kann, ob z. B. `POSITION_NUMBER` eine Zahl oder ID ist.

Wir validieren die Spalten deshalb manuell und konvertieren nur dort,
wo es **fachlich sinnvoll und analytisch notwendig** ist.