# Datenprofilierung in Power BI

Die **Datenprofilierung** ist ein wichtiger Schritt in der Datenaufbereitung, um einen Überblick über Qualität, Struktur und Inhalt von Daten zu gewinnen. In Power BI steht hierfür im **Power Query Editor** eine integrierte Funktion zur Verfügung, die verschiedene statistische und qualitative Informationen zu deinen Spalten liefert. Dies erleichtert das **Erkennen von Ausreißern**, **Datenfehlern** oder **fehlenden Werten**, und bildet die Grundlage für eine effiziente Datenbereinigung und -modellierung.

---

## Einführung und Begriffserklärung

- **Datenprofilierung**: Der Prozess des systematischen Sammelns und Analysierens von Informationen über Datensätze. Ziel ist es, Probleme wie Ungültigkeiten, Duplikate oder fehlende Werte frühzeitig zu erkennen.  
- **Warum Datenprofilierung?**: Daten fehlerfrei und im richtigen Format zu haben, ist unverzichtbar für aussagekräftige Analysen und Visualisierungen. Mit den Profilierungstools in Power BI lassen sich potenzielle Probleme schnell identifizieren und beheben.

In Power BI gliedert sich die Datenprofilierung (Data Profiling) in drei zentrale Anzeigen bzw. **Möglichkeiten**:

1. **Spaltenverteilung** (Column Distribution)  
2. **Spaltenqualität** (Column Quality)  
3. **Spaltenprofil** (Column Profile)

Diese Funktionen aktivierst du im **Power Query Editor** in der oberen Menüleiste unter **„Ansicht“** (View). Dort kannst du auswählen, welche Profilierungsinformationen angezeigt werden sollen.

---

## 1. Spaltenverteilung

### Was wird dargestellt?
Unter **Spaltenverteilung** siehst du eine **grafische Verteilung** der Werte in einer Spalte. Power BI zeigt hierbei **häufigkeitsbasierte Balken** über den verschiedenen Werten in der Spalte an. So kannst du direkt erkennen, wie oft ein Wert vorkommt bzw. ob einzelne Werte dominieren.

### Wozu dient die Spaltenverteilung?
- **Schnelles Erkennen von Ausreißern**: Wenn eine Spalte zum Beispiel einen Wert hat, der überdurchschnittlich häufig oder sehr selten vorkommt, fällt das sofort auf.  
- **Überblick über Wertvielfalt**: Ob viele unterschiedliche Werte vorliegen (hohe Kardinalität) oder nur wenige (geringere Kardinalität), ist relevant für Effizienz und Performance.  
- **Aufdeckung von Datenfehlern**: Insbesondere Tippfehler oder inkonsistente Formatierungen (z. B. verschiedene Schreibweisen desselben Produkts) lassen sich häufig anhand der Verteilung identifizieren.

### Wie und Wo wird es aktiviert?
1. **Power Query Editor öffnen**: Klicke in Power BI auf **„Daten transformieren“**, um den Query Editor zu starten.  
2. **Ansicht → Spaltenverteilung**: Aktiviere im Menü **„Ansicht“** die Option **„Spaltenverteilung“**.  
3. **Anzeige im oberen Bereich**: Oberhalb jeder Spalte erscheint nun ein Balkendiagramm, das die Verteilung der Werte darstellt.

#### Verschiedene Datenformate in Spaltenverteilung
- **Textdaten**: Die Balkenhöhe zeigt dir, wie oft ein bestimmter Textwert vorkommt.  
- **Zahlen**: Hier fällt schnell auf, ob manche Zahlen ungewöhnlich oft auftreten oder ob sich Ausreißer abzeichnen.  
- **Datumswerte**: Daran lässt sich beispielsweise sehen, welche Daten am häufigsten vertreten sind.

#### Eindeutige Daten
In der Spaltenverteilung zeigt dir Power BI außerdem an, wie viele **eindeutige Werte (Distinct Values)** in einer Spalte existieren. Das hilft insbesondere bei der Bewertung, ob sich eine Spalte als Schlüsselspalte eignet oder wie hoch die Kardinalität ist.

---

## 2. Spaltenqualität

### Wozu dient die Spaltenqualität?
Die **Spaltenqualität** informiert dich darüber, ob Werte in einer Spalte **gültig**, **fehlerhaft** oder **leer** (Null-Werte) sind. Diese Klassifizierung ist für Datenbereinigung und -validierung unabdingbar.

### Wann ist Spaltenqualität wichtig?
- **Datenbereinigung**: Wenn du wissen möchtest, wie viele Einträge potenziell korrigiert oder entfernt werden müssen.  
- **Validierung**: Bei Pflichtfeldern, die niemals leer sein dürfen, kannst du schnell feststellen, ob alle Werte tatsächlich vorhanden sind.  
- **Erkennung von Fehlern**: Wenn eine Spalte numerische Werte enthalten sollte, aber Text oder spezielle Zeichen aufweist, gilt das für Power BI als „Fehler“.

### Wie funktioniert die Spaltenqualität?
1. **Ansicht → Spaltenqualität**: Im Power Query Editor kannst du die Spaltenqualität aktivieren.  
2. **Prozentangaben**: Über jeder Spalte siehst du nun prozentuale Angaben für **„Valid“** (gültig), **„Error“** (fehlerhaft) und **„Empty“** (leer).  
3. **Interaktion**: Klickst du auf **„Error“** oder **„Empty“**, kannst du direkt in die fehlerhaften oder leeren Zeilen navigieren und die Probleme korrigieren (z. B. Daten ergänzen, fehlerhafte Zeilen entfernen).

#### Gültige Werte („Valid“)
- Entsprechen dem erwarteten Datentyp, z. B. Zahlenfelder mit numerischen Werten.  

#### Fehler („Error“)
- Power BI konnte den Wert nicht interpretieren oder konvertieren (z. B. „abc“ in einer Spalte, die nur Zahlen erwartet).  

#### Leer („Empty“)
- Hier liegt kein Wert vor (NULL). Solche Einträge können bewusst sein (echte fehlende Daten) oder ein Problem in der Datenquelle signalisieren.

---

## 3. Spaltenprofil

### Was ist das Spaltenprofil?
Das **Spaltenprofil** liefert eine **detaillierte statistische Übersicht** über eine markierte Spalte. Neben Informationen zur Verteilung und Qualität zeigt Power BI hier zusätzliche Kennzahlen an. Diese sind abhängig vom Datentyp, umfassen aber oft:

- **Minimum und Maximum**  
- **Durchschnittswert** (bei numerischen Spalten)  
- **Anzahl eindeutiger Werte**  
- **Anzahl leerer Werte**  
- **Datenbeispiele** (Preview der häufigsten Werte)

### Wie wird das Spaltenprofil genutzt?
1. **Ansicht → Spaltenprofil**: Im Power Query Editor kannst du die Funktion unter **„Ansicht“** → **„Spaltenprofil“** aktivieren.  
2. **Spalte markieren**: Wählst du eine Spalte aus, so erscheint (meist im unteren Bereich des Editors) ein detailliertes Statistik-Fenster.  
3. **Angezeigte Werte**: Je nach Datentyp werden dir unterschiedliche Metriken angezeigt (z. B. Minimum, Maximum, Durchschnitt bei numerischen Daten).

### Wo liegt der Nutzen?
- **Ausreißeridentifikation**: Mit Minimun und Maximum kannst du schnell erkennen, ob du extreme Werte in deinen Daten hast.  
- **Qualitätscheck**: Die Anzahl eindeutiger Werte sagt dir sofort, ob eine Spalte zu viele Duplikate enthält.  
- **Analysevorbereitung**: Für weitere Berechnungen (z. B. in DAX) ist es hilfreich, schon im Vorfeld einen Einblick in Verteilungen und Extremwerte zu haben.

---

## Beispiele für das Spaltenprofil

- **Beispiel: Mindest- und Höchstwert**  
  Angenommen du hast eine Spalte „Preis“. Das Spaltenprofil zeigt dir an, dass der niedrigste Preis 1 € und der höchste 10.000 € beträgt. So fällt dir vielleicht auf, dass es einen Ausreißer (10.000 €) gibt, den du genauer prüfen musst.  
- **Beispiel: Fehler basierend auf Spalte**  
  Wenn 5 % der Werte in der „Preis“-Spalte nicht zugeordnet werden können (z. B. Text in einer Zahlenspalte), tauchen diese als „Fehler“ auf. Hier solltest du die fehlerhaften Einträge untersuchen und entsprechend bereinigen.

---

## Fazit

Die **Datenprofilierung** in Power BI, unterteilt in **Spaltenverteilung**, **Spaltenqualität** und **Spaltenprofil**, ist ein unverzichtbares Werkzeug für die Datenaufbereitung. Sie bietet:

1. **Visuelle Übersicht** über Wertverteilungen und mögliche Ausreißer.  
2. **Automatischen Check** auf Fehler, Leerwerte und ungültige Einträge.  
3. **Statistische Kennzahlen** für eine umfassende Bewertung deiner Daten.

Dadurch kannst du **frühzeitig** Probleme erkennen, Zielstrukturen planen und sicherstellen, dass dein Datenmodell **verlässliche** und **korrekt formatierte** Informationen erhält. Ob du doppelte Datensätze entfernen, fehlende Einträge korrigieren oder Ausreißer auffinden möchtest – die Datenprofilierung ist dein Startpunkt für eine erfolgreiche Datenbereitstellung in Power BI.  
