# Syllabus

Address challenges in data aggregation, including data format disparities and alignment issues.

---

# Herausforderungen bei der Datenaggregation

<br>

## Heterogene Datenquellen
Daten können aus unterschiedlichen Quellen stammen und in verschiedenen Formaten vorliegen. Diese Unterschiede erschweren die direkte Zusammenführung.

- **Quellen**
  - z.B. Datenbanken, CSV, JSON, APIs, Web Scraping etc.
- **unterschiedliche Formate**
   - z.B. eine CSV-Datei hat Text als Datentyp, während eine API JSON zurückgibt 
   - jedes der Formate hat eigene Besonderheiten und Regeln, wie Daten gespeichert und abgerufen werden -> erfordert einheitliche Formatierung und Umwandlung der Daten in einen konsistenten Typ
- **unterschiedliche Maßeinheiten**
   - z.B. Meter, Meilen, Pfund, Kilogramm etc. -> umrechnen

**Beispiel**: <br>
Eine Finanzabteilung speichert ihre Daten in Excel-Dateien, während die Verkaufsabteilung eine relationale Datenbank verwendet. Bevor diese Daten aggregiert werden können, muss ein Weg gefunden werden, um die Excel-Daten in ein datenbankkompatibles Format zu überführen.

<br>

## Ausrichtungsprobleme
   
- **Unterschiedliche Zeitstempel**
  - genaue Übereinstimmung der Zeitstempel bei zeitbasierten Daten oft ein Problem
  - z.B. unterschiedliche Zeitzonen oder Zeitintervallschritte -> Neuausrichtung der Zeitstempel (z. B. durch Resampling oder Interpolation)
- **Unterschiedliche Granularität**:
  - oft unterschiedliche Detaillierungsgrade
  - z.B. in Quelle 1 Datenmessung im Minutentakt, in Quelle 2 im Stundentakt -> Entscheidung über Umgang damit muss getroffen werden

<br>

## Fehlende oder nicht übereinstimmende Schlüssel

Datenquellen müssen in der Regel auf der Basis gemeinsamer Schlüssel zusammengeführt werden. Wenn diese Schlüssel fehlen oder nicht übereinstimmen (z. B. durch unterschiedliche Benennungen oder Formate), wird die Aggregation schwierig.

- **Schlüssel**
  - z.B. eine ID, ein Datum, eine Kategorie etc.
- **Lösung**
   - **Datenmapping** oder **Schlüsselerstellung**, um übereinstimmende Schlüssel zwischen den Quellen zu erzeugen oder zu standardisieren

<br>

## Skalierbarkeit und Performance

Bei der Arbeit mit großen Datenmengen können Performance-Probleme auftreten, insbesondere bei der Aggregation komplexer oder verteilter Datensätze. Die Verarbeitung großer Mengen an Daten erfordert möglicherweise eine hohe Rechenleistung und speicherintensive Algorithmen.

- verlangsamte Verarbeitung bei großen Datensätzen oder komplexen Aggregationen -> 
- **Lösung**
   - effiziente Speichertechniken z.B. **Parallelisierung** oder **Chunking**
   - **Big-Data-Technologien** z.B. Hadoop oder Spark
   - Optimierung der Abfragen und Algorithmen

<br>

## Datenqualität und -konsistenz

Die Datenqualität variiert häufig zwischen den Quellen, was Probleme verursacht. Inkonsistente oder unvollständige Daten können zu fehlerhaften Aggregationsergebnissen führen.

- z.B. fehlende oder ungenaue Werte, Duplikate, unterschiedliche Benennungen von Spalten- oder Kategorienamen, fehlerhafte Daten etc.
- **Lösung**
   - vor Aggregation -> **Datenbereinigung** 
   - z.B. Duplikate entfernen, fehlende Werte imputieren, Einheiten und Formaten standardisieren

<br>

## Kontext und Semantik der Daten

- unterschiedliche Definitionen von Variablen zwischen den Datenquellen
- z.B. "Umsatz" in Quelle 1 in Netto, in Quelle 2 in Brutto
- **Lösung**
  - klare Definitionen und **Metadaten-Management**, damit korrekt interpretiert und aggregiert werden kann

<br>

## Datenaktualität und Synchronisation

Datenquellen können in Echtzeit, in unterschiedlichen Zeitintervallen oder auf Abruf aktualisiert werden. Die Sicherstellung, dass alle Datenquellen auf dem gleichen Stand sind und zeitlich korrekte Daten enthalten, kann herausfordernd sein.

- nicht synchronisierte Datenquellen führen zu inkonsistenten Aggregationsergebnissen
- **Lösung**
  - **Automatisierte Datenaktualisierungen** und **Monitoring** der Datenquellen

<br>

## Datenredundanz und Duplikate

- redundante oder doppelte Informationen
- wenn nicht erkannt und entfernt, können sie zu verzerrten Aggregationsergebnissen führen
- **Lösung**
  - **Duplikaterkennung** und -entfernung, sowie strenge Datenbereinigung vor der Aggregation

<br>

## Datenschutz und Sicherheitsbedenken

- bei personenbezogene Daten -> Datenschutzbestimmungen einhalten
- auch aggregierte Daten können Rückschlüsse auf individuelle Datensätze zulassen
- vertrauliche oder personenbezogene Informationen dürfen nicht versehentlich offengelegt werden
- **Lösung**
  - **Anonymisierung** oder **Pseudonymisierung**

<br>

## Konflikte bei Aggregationsregeln

Bei der Aggregation müssen oft Regeln definiert werden, wie mit widersprüchlichen Informationen umgegangen werden soll (z. B. welcher Wert priorisiert wird). Wenn die Regeln nicht klar definiert sind, können Aggregationsergebnisse verfälscht oder widersprüchlich sein.

- definieren von Regeln zur Behandlung widersprüchlicher Daten
- **Lösung**
  - klare Aggregationslogik z. B. Priorisierung bestimmter Quellen oder Werte, um eine konsistente Datenintegration zu gewährleisten

<br>

## Überaggregation

- Risiko dex Verlusts wertvoller Details und Informationen durch zu starke Aggreation
- Muster und Ausreißer können schwer identifizierbar sein wenn die Daten zu stark verdichtet werden
- **Lösung**
  - richtige Balance zwischen Verdichtung und Detailgenauigkeit finden
  - möglicherweise ist es hilfreich, verschiedene Aggregationsebenen zu speichern

<br>

## Datenintegration aus unstrukturierten Quellen

Manchmal müssen Daten aus unstrukturierten Quellen (z. B. Textdokumente, Social Media) aggregiert werden. Die Extraktion relevanter Informationen aus solchen Quellen kann schwierig sein, da sie nicht in tabellarischen oder strukturierten Formaten vorliegen.

- unstrukturierte Daten erfordern komplexe Vorverarbeitungsmethoden wie Natural Language Processing (NLP), um sie in ein aggregierbares Format zu bringen
- **Lösung**
  - **Text-Mining-Techniken** und NLP-Algorithmen, um Informationen zu extrahieren

---

# Beispiel 
Beispiel für Ausrichtungsprobleme und Lösung in Python:

In [1]:
import pandas as pd

# Datenquelle 1: Verkaufsdaten
sales_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4],
    'product': ['Product_A', 'Product_B', 'Product_C', 'Product_D'],
    'sales_amount': [120, 150, 130, 170]
})

# Datenquelle 2: Kundendaten (API oder CSV)
customer_data = pd.DataFrame({
    'id': [1, 2, 3, 5],  # customer_id und id sind unterschiedliche Schlüssel
    'name': ['John Doe', 'Jane Smith', 'Emily Davis', 'Chris Brown'],
    'email': ['john@example.com', 'jane@example.com', 'emily@example.com', 'chris@example.com']
})

# Anpassen der Schlüssel für die Zusammenführung
customer_data.rename(columns={'id': 'customer_id'}, inplace=True)

# Daten zusammenführen (inner join)
merged_data = pd.merge(sales_data, customer_data, on='customer_id', how='inner')

# Zusammengeführte Daten anzeigen
print(merged_data)


   customer_id    product  sales_amount         name              email
0            1  Product_A           120     John Doe   john@example.com
1            2  Product_B           150   Jane Smith   jane@example.com
2            3  Product_C           130  Emily Davis  emily@example.com
