# Syllabus

Explain techniques for combining data from various sources, such as databases, APIs, and file-based storage.

---

# Was bedeutet Datenaggregation?

- Datenaggregation ist der Prozess, bei dem Daten aus mehreren Quellen zusammengeführt werden, um einen umfassenden Datensatz zu erstellen.
- Typische Quellen umfassen:
    - **Datenbanken:** <br>
    Strukturierte Daten aus relationalen oder NoSQL-Datenbanken.
    - **APIs:** <br>
    Daten von externen Services oder Plattformen.
    - **Dateibasierte Speicherung:** <br>
    Daten in Dateien wie CSV, Excel oder JSON.

**Beispiel:**
Ein Unternehmen sammelt Daten aus internen Verkaufsdatenbanken, kombiniert sie mit Kundendaten aus einer externen CRM-API und fügt zusätzliche Marktanalysen hinzu, die in CSV-Dateien vorliegen.

---

# Ablauf Datenkombination aus verschiedenen Quwllwn

Um Daten aus verschiedenen Quellen zu kombinieren, gibt es eine Reihe von Techniken und Werkzeugen, die je nach Anwendungsfall und Datenquelle zum Einsatz kommen:

1. **Datenextraktion**
   - **Datenbanken**: <br>
     - über SQL-Abfragen aus relationalen Datenbanken
     - durch Tools wie **Pandas** können SQL-Abfragen direkt ausgeführt und die Ergebnisse in DataFrames geladen werden
   - **APIs**: <br>
     - eine HTTP-basierte Schnittstelle verwendet
     - Daten mit Tools wie **requests** können darüber abgerufen werden
     - die Daten liegen oft im JSON- oder XML-Format vor
   - **Dateibasierte Speicher**: <br>
     - Daten aus CSV-, Excel-, JSON- oder anderen dateibasierten Formaten
     - können mit Bibliotheken wie **Pandas** für CSV/Excel oder **json** für JSON-Dateien gelesen werden

<br>

2. **Datenvorbereitung** <br>

   Sobald die Daten extrahiert sind, müssen sie für die Kombination vorbereitet werden. Dazu gehören:
   - **Datentypen prüfen**: <br>
   Sicherstellen, dass die relevanten Spalten gleiche oder kompatible Datentypen haben (z. B. Datum, Text, numerisch).
   - **Fehlende Werte behandeln**: <br>
   Umgang mit fehlenden Werten, entweder durch Auffüllen (Imputation), Löschen oder andere Techniken.
   - **Duplikate entfernen**: <br>
   Falls Daten mehrfach extrahiert wurden, sollten Duplikate entfernt werden.

<br>

3. **Datenzusammenführung** <br>

   Es gibt mehrere Ansätze, um Daten zu kombinieren, abhängig von der Struktur und den Beziehungen zwischen den Datensätzen:
   
   - **Joins**: <br>
   Daten können ähnlich wie in SQL-Tabellen durch **inner**, **outer**, **left** oder **right joins** zusammengeführt werden. In Python geschieht dies z. B. mit Pandas durch die Funktion `merge()`.
     - **Inner Join**: <br>
     Nur gemeinsame Daten in beiden Datensätzen werden kombiniert.
     - **Left/Right Join**: <br>
     Alle Daten aus einem Datensatz werden behalten, auch wenn es keine Übereinstimmung im anderen gibt.
     - **Outer Join**: <br>
     Alle Daten aus beiden Quellen werden kombiniert, auch wenn es keine Übereinstimmungen gibt.
   
   - **Concatenation**: <br>
   Daten können auch einfach untereinandergehängt (vertikal) oder nebeneinander (horizontal) kombiniert werden, falls sie eine ähnliche Struktur aufweisen. Mit **Pandas** lässt sich dies durch die Funktion `concat()` umsetzen.
   
   - **Mapping**: <br>
   Daten aus verschiedenen Quellen können basierend auf einer gemeinsamen Schlüsselspalte gemappt werden, um neue Informationen anzureichern (z. B. Daten aus einer API zu bestehenden Daten in einer Datenbank hinzufügen).

In [1]:
# Beispiel Inner Join

import pandas as pd

# Datenquellen
df1 = pd.DataFrame({'id': [1, 2, 3], 'name': ['Alice', 'Bob', 'Charlie']})
df2 = pd.DataFrame({'id': [2, 3, 4], 'score': [85, 90, 88]})

# Inner Join
df_combined = pd.merge(df1, df2, on='id', how='inner')
print(df_combined)


   id     name  score
0   2      Bob     85
1   3  Charlie     90


In [2]:
# Beispiel Konkatenation

# Vertikale Konkatenation
df_combined = pd.concat([df1, df2], axis=0)

# Horizontale Konkatenation
df_combined = pd.concat([df1, df2], axis=1)


<br>

4. **Transformation** <br>

   Nach der Zusammenführung müssen die Daten möglicherweise transformiert werden, um für die Analyse nutzbar zu sein:
   - **Normalisierung**: <br>
   Daten, die in unterschiedlichen Formaten (z. B. Währungen, Zeitzonen) vorliegen, müssen in ein einheitliches Format umgewandelt werden.
   - **Aggregation**: <br>
   Daten, die auf einer granularen Ebene vorliegen, können aggregiert werden, um aussagekräftige Kennzahlen zu erhalten.
   - **Feature Engineering**: <br>
   Neue Merkmale können aus bestehenden Daten abgeleitet werden, z. B. das Berechnen von Durchschnittswerten oder das Erstellen von Kategorien.

<br>

  **Werkzeuge für die Integration**
   - **ETL-Tools (Extract, Transform, Load)**: <br>
   Tools wie **Apache Nifi**, **Talend** oder **Airflow** helfen bei der Automatisierung von Datenextraktions-, Transformations- und Ladeprozessen.
   - **Datenpipelines**: <br>
   Automatisierte Workflows, die verschiedene Datenquellen periodisch abrufen, verarbeiten und integrieren, um eine fortlaufende Datenintegration zu ermöglichen.
   - **API-Orchestrierung**: <br>
   Tools wie **GraphQL** können verwendet werden, um Daten aus mehreren APIs zu kombinieren und die Anfragen zu optimieren.

<br>

  **Herausforderungen**
   - **Dateninkonsistenzen**: <br>
   Unterschiedliche Datenformate und Standards zwischen den Quellen.
   - **Datenvolumen**: <br>
   Große Datenmengen aus verschiedenen Quellen zu verarbeiten, erfordert effiziente Speicher- und Verarbeitungsstrategien.
   - **API-Limits**: <br>
   Bei der Arbeit mit APIs können Begrenzungen in Bezug auf die Anzahl der Anfragen pro Zeiteinheit bestehen.


---

# Quellenarten

## Datenbanken

- Datenbanken (z.B. MySQL, PostgreSQL, MongoDB) speichern strukturierte Daten, die für Analysen genutzt werden können.
- **Beispiel**<br>
  Erstellen der Datenbank, SQL-Abfrage und Daten anzeigen lassen:

In [6]:
import sqlite3
import pandas as pd

# Verbindung zur Datenbank herstellen (wenn sie nicht existiert, wird sie erstellt)
conn = sqlite3.connect('sales.db')
cursor = conn.cursor()

# Tabelle sales_data erstellen
create_table_query = '''
CREATE TABLE IF NOT EXISTS sales_data (
    customer_id INTEGER,
    product TEXT,
    sales_amount REAL,
    sales_date TEXT
)
'''
cursor.execute(create_table_query)

# Beispiel-Daten einfügen
sales_data = [
    (1, 'Product_A', 120.0, '2023-01-01'),
    (2, 'Product_B', 150.0, '2023-01-02'),
    (3, 'Product_C', 130.0, '2023-01-03'),
    (4, 'Product_D', 170.0, '2023-01-04')
]

insert_query = 'INSERT INTO sales_data (customer_id, product, sales_amount, sales_date) VALUES (?, ?, ?, ?)'
cursor.executemany(insert_query, sales_data)

# Änderungen speichern
conn.commit()

# Daten abfragen und anzeigen
query = "SELECT * FROM sales_data"
sales_data_df = pd.read_sql(query, conn)
print(sales_data_df)

# Verbindung schließen
conn.close()


   customer_id    product  sales_amount  sales_date
0            1  Product_A         120.0  2023-01-01
1            2  Product_B         150.0  2023-01-02
2            3  Product_C         130.0  2023-01-03
3            4  Product_D         170.0  2023-01-04


## APIs

= Application Programming Interfaces

APIs ermöglichen den Zugriff auf Daten von Drittanbietern oder internen Systemen.

Beispiele für APIs:
- https://jsonplaceholder.typicode.com/

- https://openweathermap.org/api   zahlungspflichtig!

- https://api.coingecko.com/api/v3/


Beispiele in Python:

In [None]:
import requests
import pandas as pd

# Daten von der Random User API abrufen
response = requests.get('https://randomuser.me/api/?results=10')

# Überprüfen, ob die Anfrage erfolgreich war
if response.status_code == 200:
    api_data = response.json()  # Die API gibt JSON-Daten zurück
    customers_data = pd.DataFrame(api_data['results'])  # In einen DataFrame umwandeln
    print(customers_data.head())
else:
    print(f"Fehler bei der Anfrage: {response.status_code}")


In [None]:
import requests
import pandas as pd

# Daten von der JSONPlaceholder API abrufen
response = requests.get('https://jsonplaceholder.typicode.com/users')

# Überprüfen, ob die Anfrage erfolgreich war
if response.status_code == 200:
    users_data = response.json()
    users_df = pd.DataFrame(users_data)
    print(users_df.head())
else:
    print(f"Fehler bei der Anfrage: {response.status_code}")


In [11]:
# zahlungspflichtig!

import requests

# Ersetze 'your_api_key' durch deinen OpenWeatherMap API-Schlüssel
api_key = 'your_api_key'
city = 'Berlin'
url = f'http://api.openweathermap.org/data/2.5/weather?q={city}&appid={api_key}'

# Wetterdaten abrufen
response = requests.get(url)

# Überprüfen, ob die Anfrage erfolgreich war
if response.status_code == 200:
    weather_data = response.json()
    print(weather_data)
else:
    print(f"Fehler bei der Anfrage: {response.status_code}")


Fehler bei der Anfrage: 401


In [12]:
import requests
import pandas as pd

# Daten von der CoinGecko API abrufen
response = requests.get('https://api.coingecko.com/api/v3/coins/markets', 
                        params={'vs_currency': 'usd', 'order': 'market_cap_desc', 'per_page': 10})

# Überprüfen, ob die Anfrage erfolgreich war
if response.status_code == 200:
    crypto_data = response.json()
    crypto_df = pd.DataFrame(crypto_data)
    print(crypto_df[['id', 'symbol', 'current_price', 'market_cap']].head())
else:
    print(f"Fehler bei der Anfrage: {response.status_code}")


            id symbol  current_price     market_cap
0      bitcoin    btc      67293.000  1330070002030
1     ethereum    eth       2608.590   314016997202
2       tether   usdt          1.001   120056206419
3  binancecoin    bnb        591.490    86278115429
4       solana    sol        150.620    70752025139


## Dateibasierte Speicherung

Dateibasierte Daten wie CSV oder Excel werden häufig zur Speicherung und Übertragung von Daten verwendet.


Beispiel in Python:

In [13]:
import pandas as pd

# CSV-Datei laden
csv_data = pd.read_csv('sales_data.csv')

# Daten anzeigen
print(csv_data.head())


   customer_id    product  sales_amount  sales_date
0            1  Product_A           120  2023-01-01
1            2  Product_B           150  2023-01-02
2            3  Product_C           130  2023-01-03


---

# Techniken zur Kombination von Datenquellen

Es gibt mehrere Techniken, um Daten aus verschiedenen Quellen zu kombinieren:

1. **Datenzusammenführung (Merge/Join)** <br>
   Eine häufig verwendete Methode, bei der Daten basierend auf gemeinsamen Attributen (z. B. einem eindeutigen Identifikator wie einer Kundennummer) kombiniert werden.

    - Inner Join: Nur Datensätze, die in beiden Quellen vorhanden sind, werden kombiniert.
    - Outer Join: Beinhaltet alle Datensätze aus beiden Quellen, auch wenn eine Quelle keine Übereinstimmung aufweist.

<br>

2. **Datenkonsolidierung** <br>
   Daten aus mehreren Quellen werden in einer einzigen Datenbank oder einem Datensatz konsolidiert, um Redundanzen zu vermeiden und die Analyse zu vereinfachen.

<br>

3. **ETL (Extract, Transform, Load)** <br>
   Ein Prozess, bei dem Daten aus mehreren Quellen extrahiert, in eine einheitliche Struktur transformiert und dann in eine zentrale Datenbank oder ein Data Warehouse geladen werden.

<br>

4. **Datenfusion** <br>
   Zusammenführen von Daten aus verschiedenen Quellen, die sich teilweise überschneiden, aber nicht identisch sind.
   Oft verwendet für die Kombination unterschiedlicher Datentypen (z. B. numerische und textuelle Daten).

<br>

5. **Datenharmonisierung** <br>
   Anpassung von Daten aus verschiedenen Quellen, damit sie eine einheitliche Struktur und Bedeutung haben (z. B. Standardisierung von Formaten oder Einheiten).

---

# Warum ist es wichtig, Daten aus mehreren Quellen zu kombinieren?

Die Quellenkombination ermöglicht tiefere und genauere Erkenntnisse, die durch die Analyse einzelner Datenquellen nicht erreicht werden können.

<br>

1. **Umfassendere Perspektive**
- Daten aus nur einer Quelle bieten oft nur begrenzten oder isolierten Blick auf Problem oder Fragestellung
- durch Kombination mehrerer Datenquellen kann ein vollständigeres Bild der Situation entstehen
- verschiedene Datenquellen können unterschiedliche Aspekte desselben Phänomens abdecken -> lässt umfassendere Analyse zu
- **Beispiel**<br>
  Ein Unternehmen könnte Verkaufsdaten, Marketingdaten und Kundenzufriedenheitsdaten kombinieren, um zu verstehen, wie Werbekampagnen den Umsatz und die Kundenzufriedenheit beeinflussen.

<br>

 2. **Erhöhte Datenqualität**
- Inkonsistenzen, Fehler oder Lücken in den einzelnen Datenquellen können erkannt und behoben werden
- eine Quelle könnte fehlende Daten liefern, während eine andere Quelle diese Information enthält
- erhöht Zuverlässigkeit und Genauigkeit der analysierten Daten
- **Beispiel**<br>
  Fehlende demografische Informationen in einer Kundendatenbank könnten durch eine externe Quelle wie Social-Media-Daten ergänzt werden, um ein vollständiges Kundenprofil zu erstellen.

<br>

 3. **Erweiterung des Analysepotenzials**
- neue Analysewege, die mit einer einzelnen Quelle nicht möglich wären
- Möglichkeiten zur Analyse von Beziehungen, Korrelationen und Mustern entsehen, die nur durch Zusammenfügen von Daten aus verschiedenen Quellen erkennbar werden
- **Beispiel**<br>
  Das Kombinieren von Web-Traffic-Daten mit Verkaufszahlen ermöglicht es, zu analysieren, wie sich bestimmte Nutzerinteraktionen auf der Website auf Kaufentscheidungen auswirken.

<br>

 4. **Bessere Entscheidungsgrundlagen**
- fundiertere Entscheidungsgrundlage, die mehr Aspekte und Faktoren berücksichtigt
- reduziert das Risiko, falsche oder voreilige Entscheidungen zu treffen
- **Beispiel**<br>
  Ein Unternehmen könnte Finanzdaten, Kundendaten und Markttrends zusammenführen, um fundierte Entscheidungen über Produktentwicklungen oder Investitionen zu treffen.

<br>

 5. **Erkennung von Mustern und Trends**
- kann helfen, Muster und Trends zu erkennen, die in einer einzelnen Quelle möglicherweise nicht erkennbar sind
- besonders nützlich beim maschinellen Lernen, wo die Kombination verschiedener Merkmale (Features) das Training genauerer Modelle ermöglicht
- **Beispiel**<br>
  Im Gesundheitswesen könnten Patientendaten aus Krankenakten, genetische Informationen und Umweltfaktoren kombiniert werden, um neue Zusammenhänge zwischen Lebensstil und Krankheitsentwicklung zu identifizieren.

<br>

 6. **Kontextualisierung von Daten**
- Daten aus einer Quelle oft schwer zu interpretieren, wenn sie isoliert betrachtet werden
- besserer Kontext durch Kombination mit weiteren Informationen, der zu präziseren Schlussfolgerungen führt
- **Beispiel**<br>
  Verkaufszahlen könnten zusammen mit regionalen Wirtschaftsdaten kombiniert werden, um den Einfluss lokaler wirtschaftlicher Bedingungen auf den Umsatz zu analysieren.

<br>

 7. **Identifikation von Anomalien**
- Abweichungen oder Ausreißer, die nur in einer Quelle auftreten, können leichter erkannt werden
- nützlich, um potenzielle Probleme oder Anomalien in den Daten frühzeitig zu identifizieren
- **Beispiel**<br>
  Wenn die Verkaufsdaten einer Filiale stark von den Personaldaten oder den Kundenzufriedenheitswerten abweichen, könnte dies auf ein betriebliches Problem hinweisen, das sonst unentdeckt geblieben wäre.

<br>

 8. **Effizienzsteigerung**
- Redundanzen werden reduziert und Prozesse optimiert
- Analysen und Berichte können automatisiert und effizienter gestaltet werden
- **Beispiel**<br>
  Ein Logistikunternehmen könnte Lagerbestandsdaten, Verkehrsdaten und Wetterdaten kombinieren, um Lieferkettenprozesse zu optimieren und Lieferzeiten zu reduzieren.

<br>

 9. **Innovationsförderung**
- neue Ideen und Innovationen können entstehen
- kann völlig neue Perspektiven bieten und die Entwicklung neuer Produkte, Dienstleistungen oder Geschäftsmodelle unterstützen
- **Beispiel**<br>
  Ein Tech-Startup könnte IoT-Daten (z. B. Sensordaten von Smart-Geräten) mit maschinellen Lernmodellen kombinieren, um innovative Lösungen für das Smart Home zu entwickeln.

<br>

 10. **Skalierbare Analysen**
- skalierbare Modelle und Analysen können erstellt werden
- besonders wichtig in großen, dynamischen Umgebungen, in denen Daten aus verschiedenen Systemen ständig aktualisiert und erweitert werden müssen
- **Beispiel**<br>
  In der Finanzbranche werden Echtzeit-Marktdaten mit historischen Daten kombiniert, um Algorithmen für den Hochfrequenzhandel zu trainieren.

<br>

 11. **Bessere Personaliserung**
- personalisierte Produkte, Dienstleistungen oder Kampagnen können entwickelt werden
- besonders nützlich im Marketing und in der Kundenbetreuung, um individuelle Bedürfnisse und Präferenzen besser zu verstehen
- **Beispiel**<br>
  Ein E-Commerce-Unternehmen könnte das Kaufverhalten, die Browsing-Historie und die demografischen Daten eines Kunden zusammenführen, um gezielte Produktvorschläge zu machen.

<br>

 12. **Compliance und Risikoüberwachung**
- Unternehmen sind oft verpflichtet, verschiedene Datenquellen zusammenzuführen, um regulatorische Anforderungen zu erfüllen oder Risiken zu überwachen
- durch die Aggregation von Daten aus verschiedenen operativen und finanziellen Systemen können Unternehmen sicherstellen, dass sie den gesetzlichen Anforderungen entsprechen
- **Beispiel**<br>
  In der Finanzbranche müssen oft Daten aus verschiedenen Abteilungen (z. B. Compliance, Risiko, Finanzen) kombiniert werden, um umfassende regulatorische Berichte zu erstellen.

---


# Beispiel: Integration von Daten aus verschiedenen Quellen

In [5]:
# Installation von openpyxl notwendig

import pandas as pd

# Beispieldatenquelle 1 (CSV)
data1 = pd.read_csv('sales_data.csv')

# Beispieldatenquelle 2 (Excel)
data2 = pd.read_excel('customer_data.xlsx')

# Daten kombinieren (nach einer gemeinsamen Spalte)
merged_data = pd.merge(data1, data2, on='customer_id')

# Kombinierte Daten anzeigen
print(merged_data.head())

   customer_id    product  sales_amount  sales_date customer_name  \
0            1  Product_A           120  2023-01-01      John Doe   
1            2  Product_B           150  2023-01-02    Jane Smith   
2            3  Product_C           130  2023-01-03     Tom Brown   

              email  
0  john@example.com  
1  jane@example.com  
2   tom@example.com  


In [2]:
import pandas as pd

# Datenquelle 1: Verkaufsdaten
sales_data = pd.DataFrame({
    'customer_id': [1, 2, 3, 4],
    'product': ['Product_A', 'Product_B', 'Product_C', 'Product_D'],
    'sales_amount': [120, 150, 130, 170]
})

# Datenquelle 2: Kundendaten (API oder CSV)
customer_data = pd.DataFrame({
    'id': [1, 2, 3, 5],  # customer_id und id sind unterschiedliche Schlüssel
    'name': ['John Doe', 'Jane Smith', 'Emily Davis', 'Chris Brown'],
    'email': ['john@example.com', 'jane@example.com', 'emily@example.com', 'chris@example.com']
})

# Anpassen der Schlüssel für die Zusammenführung
customer_data.rename(columns={'id': 'customer_id'}, inplace=True)

# Daten zusammenführen (inner join)
merged_data = pd.merge(sales_data, customer_data, on='customer_id', how='inner')

# Zusammengeführte Daten anzeigen
print(merged_data)


   customer_id    product  sales_amount         name              email
0            1  Product_A           120     John Doe   john@example.com
1            2  Product_B           150   Jane Smith   jane@example.com
2            3  Product_C           130  Emily Davis  emily@example.com


1. Daten  sales.db aufrufen
2. Daten market_data.csv aufrufen
3. Daten mergen mit der Spalte 'product' 
4. Daten ausgeben
5. Durchschnittlicher Verkaufsbetrag pro Produkt ausgeben

In [5]:
import sqlite3
import requests
import pandas as pd

# Verbindung zur Datenbank herstellen und Daten abrufen
conn = sqlite3.connect('sales.db')
sales_data = pd.read_sql("SELECT * FROM sales_data", conn)


print(sales_data.head())
# CSV-Datei mit Marktdaten laden
market_data = pd.read_csv('market_data.csv')

# Daten zusammenführen
# Angenommen, alle Datensätze enthalten 'customer_id'
merged_data = pd.merge(sales_data, market_data, on='product')

# Zusammengeführte Daten anzeigen
print(merged_data.head())

# Datenanalyse: Durchschnittlicher Verkaufsbetrag pro Produkt
average_sales = merged_data.groupby('product')['sales_amount'].mean()
print(average_sales)


   customer_id    product  sales_amount  sales_date
0            1  Product_A         120.0  2023-01-01
1            2  Product_B         150.0  2023-01-02
2            3  Product_C         130.0  2023-01-03
3            4  Product_D         170.0  2023-01-04
   customer_id    product  sales_amount  sales_date  market_price market_trend
0            1  Product_A         120.0  2023-01-01         125.0           up
1            2  Product_B         150.0  2023-01-02         155.0         down
2            3  Product_C         130.0  2023-01-03         135.0           up
3            4  Product_D         170.0  2023-01-04         175.0       stable
product
Product_A    120.0
Product_B    150.0
Product_C    130.0
Product_D    170.0
Name: sales_amount, dtype: float64
