Block 1: Data Acqusation and PreProcessin

Data Validation and Integrity

- Objective 1.3.1 – Execute and understand basic data validation methods.
    - Perform type, range, and cross-reference checks.
- Objective 1.3.2 – Establish and maintain data integrity through clear validation rules.
    - Understand the concept of data integrity and its importance in maintaining reliable and accurate databases.
    
    - Apply clear validation rules that enforce the correctness and consistency of data.

# Datenvalidierung – Typen-, Bereichs- und Querverweisprüfungen

### 2.1 Typprüfungen (Type Checking)

- Konzepte:
    - Überprüfen, ob die Datentypen korrekt sind (z.B. String, Integer, Float).
    - Python bietet verschiedene Funktionen zur Überprüfung von Datentypen.

Warum ist die Datenvalidierung und Datenintegrität so wichtig?

vgl. https://www.astera.com/de/type/blog/data-integrity-vs-data-quality/


#### Beispiel

In [1]:
import pandas as pd

# Beispiel-Daten
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'Jimy'],
    'Alter': [25, 30, 'NaN', 19],  # Ungültiger Wert
    'Gehalt': [50000.0, 60000.5, '70k', -1]  # Ungültiger Wert
})

# Überprüfen des Typs der Spalte 'Alter'
if not pd.api.types.is_numeric_dtype(df['Alter']):
    print("Fehler: 'Alter' enthält nicht-numerische Werte.")


Fehler: 'Alter' enthält nicht-numerische Werte.


### 2.2 Bereichsprüfungen (Range Checking)

- Konzepte:
    - Überprüfen, ob numerische Werte innerhalb eines akzeptablen Bereichs liegen (z.B. Alter > 0, Gehalt > 0).


Python Beispiel:

In [2]:
# Überprüfen, ob die Alterswerte innerhalb eines akzeptablen Bereichs liegen
if df['Alter'].apply(pd.to_numeric, errors='coerce').min() < 0:
    print("Fehler: Das Alter enthält ungültige Werte.")


2.3 Querverweisprüfungen (Cross-Reference Checking)

- Konzepte:
    - Überprüfen von Beziehungen zwischen Spalten, z.B. dass das Gehalt eines Mitarbeiters nicht negativ sein darf, wenn das Alter größer als 18 ist.
    


Python Beispiel:

In [3]:
import pandas as pd

# Konvertiere 'Alter' und 'Gehalt' in numerische Werte
df['Alter'] = pd.to_numeric(df['Alter'], errors='coerce')
df['Gehalt'] = pd.to_numeric(df['Gehalt'], errors='coerce')

# Überprüfen von Cross-Reference-Regeln (z.B. Gehalt > 0 für Alter > 18)
invalid_entries = df[(df['Alter'] > 18) & (df['Gehalt'] <= 0)]

# Überprüfung, ob es ungültige Einträge gibt
if not invalid_entries.empty:
    print("Fehler: Es gibt Mitarbeiter über 18 mit ungültigem Gehalt.")


Fehler: Es gibt Mitarbeiter über 18 mit ungültigem Gehalt.


3. Sicherstellung der Datenintegrität

3.1 Definition und Bedeutung der Datenintegrität

- Konzepte:

    - Datenintegrität bedeutet, dass die Daten über den gesamten Lebenszyklus hinweg genau, vollständig und zuverlässig sind.
    - Warum ist das wichtig?: Inkonsistente oder falsche Daten führen zu falschen Entscheidungen und unzuverlässigen Analysen.

- Beispiele:
    - Referenzielle Integrität: Stellen Sie sicher, dass es keine „Waiseneinträge“ in verknüpften Tabellen gibt.
    - Einschränkungen und Regeln: Durchsetzen von Regeln wie Eindeutigkeit, NULL-Werte verhindern.

3.2 Anwendung klarer Validierungsregeln

- Konzepte:

    - Eindeutigkeit: Stellen Sie sicher, dass wichtige Felder (z.B. Mitarbeiter-ID, E-Mail) eindeutig sind.
    - NULL-Werte vermeiden: Validieren, dass Felder, die nicht NULL sein dürfen, auch nicht NULL sind.




Python Beispiel:

In [4]:
import pandas as pd

# Beispiel-DatenFrame mit Email-Adressen, einigen doppelten und einem fehlenden Wert
df = pd.DataFrame({
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Email': ['alice@example.com', 'bob@example.com', 'charlie@example.com', 'bob@example.com', None]  # Doppelte und fehlende E-Mail
})

print("Originaler DataFrame:")
print(df)

# Überprüfen auf doppelte Werte in der Spalte 'E-Mail'
if df['Email'].duplicated().any():
    print("Fehler: Es gibt doppelte E-Mail-Adressen.")

# Überprüfen auf NULL-Werte in einer obligatorischen Spalte
if df['Email'].isnull().any():
    print("Fehler: Es gibt fehlende E-Mail-Adressen.")


Originaler DataFrame:
      Name                Email
0    Alice    alice@example.com
1      Bob      bob@example.com
2  Charlie  charlie@example.com
3    David      bob@example.com
4      Eve                 None
Fehler: Es gibt doppelte E-Mail-Adressen.
Fehler: Es gibt fehlende E-Mail-Adressen.


4. Praktische Anwendung von Datenvalidierung und -integrität

Fallstudie:
- Beispiel eines Unternehmens, das durch mangelnde Datenvalidierung und fehlende Integrität falsche Entscheidungen getroffen hat.
- Diskussion der Fehler und wie sie durch klare Validierungsregeln und Integritätsprüfungen vermieden werden könnten.




5. Zusammenfassung:

- Die Bedeutung der Datenvalidierung und -integrität für den Erfolg jeder datengetriebenen Entscheidung.
- Vorstellung der wichtigsten Techniken, die in Python verwendet werden, um Typ-, Bereichs- und Querverweisprüfungen durchzuführen.
- Diskussion, wie man durch klare Regeln und Constraints sicherstellt, dass Daten genau und zuverlässig bleiben.




Wichtige Erkenntnisse:

- Datenvalidierung ist entscheidend, um sicherzustellen, dass die Daten korrekt, konsistent und vollständig sind, bevor sie in Analysen oder Algorithmen verwendet werden.
- Datenintegrität sorgt dafür, dass Daten über ihren gesamten Lebenszyklus hinweg genau bleiben und dass keine fehlerhaften oder ungenauen Daten in die Datenbank gelangen.
- Typ-, Bereichs- und Querverweisprüfungen sind einfache, aber effektive Methoden, um sicherzustellen, dass die Daten den vorgegebenen Anforderungen entsprechen.

Übungsaufgabe:

1.) Range Validation (Bereichsvalidierung)

Die Bereichsvalidierung überprüft, ob die Daten innerhalb eines bestimmten zulässigen Bereichs liegen.

Überprüfe, ob Alter zwischen 0 und 100 liegen

In [26]:
import pandas as pd

# Beispiel-Daten
data = {'Alter': [25, 30, -5, 100, 40]}
df = pd.DataFrame(data)

# Bereichsvalidierung (Alter sollte zwischen 0 und 100 liegen)
# valid_range = df[(df['Alter'] > 0) & (df['Alter'] <= 100)]

valid_range = df[(df['Alter'] > 0) & (df['Alter'] <= 100)]

try: 
    print(df[~valid_range])
except Exception as error:
    print(f"Ungültige Werte: {error}")

Ungültige Werte: Boolean array expected for the condition, not object


In [27]:
import pandas as pd
 
# Beispiel-Daten
data = {'Alter': [25, 30, -5, 100, 40]}
df = pd.DataFrame(data)
 
# Bereichsvalidierung (Alter sollte zwischen 0 und 100 liegen)
valid_range = df['Alter'].between(0, 100)
 
print("Ungültige Werte:")
print(df[~valid_range])
 

Ungültige Werte:
   Alter
2     -5


2.) Format Validation (Formatvalidierung)

Formatvalidierung stellt sicher, dass bestimmte Felder einem festgelegten Format entsprechen, wie z.B. E-Mail-Adressen, Telefonnummern oder Datumsangaben.

Versuchen Sie den Code zu verstehen!

In [None]:
import re

# Beispiel-Daten
emails = ['test@example.com', 'invalid-email', 'user@domain.com']

# Funktion zur Überprüfung des E-Mail-Formats
def is_valid_email(email):
    return re.match(r".....", email) is not None   # Muster für eine Email-Prpfung!


# Überprüfung der E-Mails
valid_emails = [email for email in emails if is_valid_email(email)]



Befehl


In [28]:
import re
 
# Beispiel-Daten
emails = ['test@example.com', 'invalid-email', 'user@domain.com']
 
# Funktion zur Überprüfung des E-Mail-Formats
def is_valid_email(email):
    return re.match(r"^[\w\.-]+@[\w\.-]+\.\w+$", email) is not None  # Muster für eine E-Mail-Prüfung!
 
# Überprüfung der E-Mails
valid_emails = [email for email in emails if is_valid_email(email)]
 
print("Gültige E-Mail-Adressen:")
print(valid_emails)

Gültige E-Mail-Adressen:
['test@example.com', 'user@domain.com']


https://stackoverflow.com/questions/19900202/how-to-determine-whether-a-column-variable-is-numeric-or-not-in-pandas-numpy

4. Data Type Validation (Datentypvalidierung)

Datentypvalidierung überprüft, ob die Daten dem erwarteten Datentyp entsprechen, wie z.B. Integer, Float oder String.

Beispiel:

Überprüfe ob die Werte Integer sind

In [None]:
# Beispiel-Daten
data = {'Wert': [10, 'zwanzig', 30, 'vierzig']}

df = pd.DataFrame(data)

# Funktion zur Überprüfung, ob der Wert ein Integer ist
df['Wert_is_valid'] = df['Wert'].apply(lambda x: .... )

print(df)


4. Completeness Validation (Vollständigkeitsvalidierung)

Vollständigkeitsvalidierung stellt sicher, dass keine wichtigen Felder leer oder null sind.

Beispiel:

In [None]:
# Beispiel-Daten
data = {'Name': ['Alice', 'Bob', None, 'David'], 'Alter': [25, 30, None, 40]}
df = pd.DataFrame(data)

# Überprüfen auf fehlende Werte
missing_data = df. ....

print("Fehlende Werte:")
print(missing_data)


5.) Cross-Reference Checking (Validierung durch Querverweise) 

Man bezieht sich auf das Überprüfen von Daten, um sicherzustellen, dass sie in mehreren Feldern oder Datensätzen konsistent sind. In einfachen Worten: Es wird überprüft, ob Daten, die in einem Feld oder einer Spalte vorkommen, auch in einem anderen verwandten Feld korrekt referenziert werden. Dies wird oft verwendet, um sicherzustellen, dass z.B. Fremdschlüssel in Datenbanken korrekt sind oder dass eine ID in einer Tabelle mit einer ID in einer anderen Tabelle übereinstimmt.

In [None]:
import pandas as pd

# Beispiel-Daten: Kundenliste
kunden_df = pd.DataFrame({
    'Customer ID': [1, 2, 3, 4],
    'Name': ['Alice', 'Bob', 'Charlie', 'David']
})

# Beispiel-Daten: Bestellliste
bestellungen_df = pd.DataFrame({
    'Order ID': [101, 102, 103, 104],
    'Customer ID': [1, 2, 5, 3],
    'Amount': [250, 150, 300, 500]
})

# Cross-Reference Checking: Überprüfen, ob jede 'Customer ID' in der Bestellliste auch in der Kundenliste existiert
valid_customers = bestellungen_df['Customer ID'].isin(.....)

# Ausgabe von gültigen und ungültigen Bestellungen
print("Gültige Bestellungen:")
print(bestellungen_df[valid_customers])

print("\nUngültige Bestellungen (Customer ID nicht gefunden):")
print(bestellungen_df[~valid_customers])


https://docs.python.org/3/library/re.html

In [29]:
import pandas as pd
 
# Beispiel-Daten: Kundenliste
kunden_df = pd.DataFrame({
    'Customer_ID': [1, 2, 3, 4],
    'Name': ['Alice', 'Bob', 'Charlie', 'David']
})
 
# Beispiel-Daten: Bestellliste
bestellungen_df = pd.DataFrame({
    'Order_ID': [101, 102, 103, 104],
    'Customer_ID': [1, 2, 5, 3],
    'Amount': [250, 150, 300, 500]
})
 
# Cross-Reference Checking: Überprüfen, ob jede 'Customer ID' in der Bestellliste auch in der Kundenliste existiert
valid_customers = bestellungen_df['Customer_ID'].isin(kunden_df['Customer_ID'])
 
# Ausgabe von gültigen und ungültigen Bestellungen
print("Gültige Bestellungen:")
print(bestellungen_df[valid_customers])
 
print("\nUngültige Bestellungen (Customer_ID nicht gefunden):")
print(bestellungen_df[~valid_customers])

Gültige Bestellungen:
   Order_ID  Customer_ID  Amount
0       101            1     250
1       102            2     150
3       104            3     500

Ungültige Bestellungen (Customer_ID nicht gefunden):
   Order_ID  Customer_ID  Amount
2       103            5     300
