# MLOps Workshop: Datenexploration & Validierung

## 1. Einführung
In diesem Notebook werden wir uns mit der Exploration und Validierung von Daten beschäftigen. Dies ist ein grundlegender erster Schritt in der MLOps-Pipeline, da das Verständnis unserer Daten und die Sicherstellung ihrer Qualität alle nachfolgenden Schritte beeinflusst.

## 2. Lernziele
Nach Abschluss dieses Notebooks werden Sie:
- Eine strukturierte Herangehensweise an die Datenexploration kennen
- Methoden zur Datenvalidierung mit Great Expectations beherrschen
- Ein grundlegendes Daten-Profiling erstellen können
- Die Bedeutung der Datenqualität im MLOps-Kontext verstehen

## 3. Theoretische Grundlagen

### 3.1 Bedeutung der Datenexploration in MLOps
Die Datenexploration ist aus mehreren Gründen entscheidend:

1. **Datenverständnis**
   - Erkennen von Mustern und Zusammenhängen
   - Identifizierung von Ausreißern
   - Verständnis der Datenverteilungen

2. **Qualitätssicherung**
   - Erkennung von Datenproblemen
   - Überprüfung der Datenvollständigkeit
   - Identifikation von Inkonsistenzen

3. **Geschäftlicher Kontext**
   - Überprüfung der Business-Anforderungen
   - Identifikation relevanter Merkmale
   - Verständnis der Domäne

### 3.2 Systematische Vorgehensweise
Für eine effektive Datenexploration empfiehlt sich folgende Vorgehensweise:

1. **Erste Analyse**
   - Überblick über die Datenstruktur
   - Prüfung der Datentypen
   - Identifikation fehlender Werte

2. **Detaillierte Untersuchung**
   - Statistische Kennzahlen
   - Verteilungsanalysen
   - Korrelationsanalysen

3. **Qualitätsprüfung**
   - Datenvalidierung
   - Konsistenzprüfungen
   - Dokumentation von Auffälligkeiten

## 4. Praktische Umsetzung

### 4.1 Notwendige Bibliotheken importieren

In [19]:
# Benötigte Bibliotheken importieren
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import great_expectations as ge
from great_expectations.dataset import PandasDataset

#  Ausgaben für Plots
plt.rcParams['axes.formatter.use_locale'] = True
plt.style.use('seaborn-v0_8-darkgrid')  

### 4.2 Datensatz laden

In [20]:
# Telco Customer Churn Datensatz laden
df = pd.read_csv('../data/raw/telco_customer_churn.csv')
print(f"Datensatz erfolgreich geladen. Form: {df.shape}")

Datensatz erfolgreich geladen. Form: (7043, 21)


### 4.3 Erste Dateninspektion


Führen sie eine erste Dateninspektion durch.

### 4.4 Explorative Datenanalyse

Führen Sie nun eine explorative Datenanalyse durch:

#### 4.4.1 Kategorische Variablen analysieren

Schauen sie sich zunächst die kategorischen Variablen an.
Erstellen sie Balkendiagramme für jede kategorische Variable.

In [23]:
# Identifizierung kategorischer Spalten
kategorische_spalten = df.select_dtypes(include=['object']).columns

#### 4.4.2 Numerische Variablen analysieren

Analysieren sie nun die numerischen Variablen.
Erstellen Sie Histogramme für die numerischen Variablen und eine Korrelationsmatrix. 

In [25]:
# Identifizierung numerischer Spalten
numerische_spalten = df.select_dtypes(include=['int64', 'float64']).columns

### 4.5 Datenvalidierung mit Great Expectations

#### 4.5.1 Great Expectations Dataset erstellen

In [27]:
# Pandas DataFrame in Great Expectations Dataset umwandeln
ge_df = ge.from_pandas(df)

#### 4.5.2 Grundlegende Erwartungen definieren

Definieren sie Grundlegende Erwartungen an den Datensatz. 

#### 4.5.3 Erwartungssuite erstellen

Erstellen sie eine Erwartungssuite und validieren sie ihre Erwartungen an den Datensatz.

## 5. Übungen

### Übung 1: Datenverständnis
Analysieren Sie den Datensatz und beantworten Sie folgende Fragen:
1. Wie hoch ist die Kundenabwanderungsrate (Churn Rate) insgesamt?
2. Welche Dienstleistungen werden am häufigsten genutzt?
3. Gibt es einen Zusammenhang zwischen Vertragslaufzeit und Kundenabwanderung?

### Übung 2: Datenvalidierung
1. Erstellen Sie drei neue Erwartungen für den Datensatz
2. Überprüfen Sie die Wertebereiche aller numerischen Spalten
3. Untersuchen Sie die Verteilungsmuster in kategorischen Spalten

## 6. Weiterführende Ressourcen
- [Great Expectations Dokumentation](https://docs.greatexpectations.io/)
- [Pandas Dokumentation](https://pandas.pydata.org/docs/)
- [Seaborn Dokumentation](https://seaborn.pydata.org/)

## 7. Nächste Schritte
- Datenvorverarbeitung und Feature Engineering
- Implementierung der Datenvalidierung in die MLOps-Pipeline
- Aufsetzen kontinuierlicher Datenqualitätsüberwachung