https://inics.de/data-lake-vs-data-warehouse/

# Syllabus

Distinguish between the concepts of data warehouses, data lakes, and file-based storage options like CSV and Excel.

# Data Warehouses

- **spezialisierte Systeme für die Speicherung und Analyse großer Mengen strukturierter Daten**
- sammeln Daten aus verschiedenen operativen Systemen, bereinigen und strukturieren sie für die Analyse
- typischerweise werden Data Warehouses für Business Intelligence und Berichterstattung verwendet
- **Merkmale**:
    - Strukturiert: Daten sind in einer festen Struktur gespeichert (Tabellen).
    - Ziel: Optimiert für schnelle Abfragen und Analysen.
    - Beispiele: Amazon Redshift, Google BigQuery, Microsoft Azure Synapse Analytics.

**Beispiel**: Ein Unternehmen könnte ein Data Warehouse verwenden, um standardisierte Berichte zu erstellen

---

# Data Lakes

- Speicherlösungen, die Rohdaten in ihrem ursprünglichen Format speichern
- können strukturierte, semistrukturierte und unstrukturierte Daten aufnehmen
- werden verwendet, um große Mengen an Daten zu speichern, die später analysiert oder verarbeitet werden können
- **Merkmale**:
    - Unstrukturiert oder semistrukturiert: Daten können in beliebigen Formaten gespeichert werden (z.B. Videos, Bilder, Text).
    - Ziel: Flexibilität bei der Verarbeitung und Analyse von Daten zu einem späteren Zeitpunkt.
    - Beispiele: AWS Lake Formation, Azure Data Lake, Hadoop.

**Beispiel**: Ein Unternehmen könnte einen Data Lake verwenden, um Rohdaten aus Sensoren oder sozialen Medien zu speichern, die später analysiert werden.

---

# Dateibasierte Speicheroptionen: CSV, Excel und JSON

**CSV-Dateien:**

- CSV-Dateien speichern tabellarische Daten in Textform, wobei die Werte durch Kommas getrennt sind
- ist ein einfacher und weit verbreiteter Datenspeicher für kleinere Datensätze
- Vorteile: Leicht, einfach zu lesen und in fast jedem Programm verarbeitbar

<br>

**Excel-Dateien:**

- Excel-Dateien bieten eine tabellarische Speicherung und sind weit verbreitet für kleinere Datenmengen in der Geschäftsanalyse
- Vorteile: Mehr Flexibilität als CSV, unterstützt Formatierungen und Diagramme.

<br>

**JSON-Dateien:**

- JSON (JavaScript Object Notation) speichert Daten in einem menschen- und maschinenlesbaren Format, das hierarchische Datenstrukturen unterstützt.
- Verwendung: Oft verwendet, um API-Daten zu übertragen.



In [1]:
import pandas as pd

# CSV-Datei speichern und laden
data = {'customer_id': [1, 2, 3], 'product': ['Product_A', 'Product_B', 'Product_C'], 'sales': [100, 150, 200]}
df = pd.DataFrame(data)

# CSV-Datei speichern
df.to_csv('sales_data.csv', index=False)

# CSV-Datei laden
csv_data = pd.read_csv('sales_data.csv')
print(csv_data)

# Excel-Datei speichern
df.to_excel('sales_data.xlsx', index=False)

# JSON-Datei speichern
df.to_json('sales_data.json', orient='records')

# JSON-Datei laden
json_data = pd.read_json('sales_data.json')
print(json_data)


   customer_id    product  sales
0            1  Product_A    100
1            2  Product_B    150
2            3  Product_C    200
   customer_id    product  sales
0            1  Product_A    100
1            2  Product_B    150
2            3  Product_C    200


## Szenarien, in denen CSV, JSON oder Excel besser geeignet sind als Datenbanken
CSV, JSON und Excel sind geeignet für kleine, einfache, temporäre Daten, wo keine komplexen Abfragen oder dauerhafte Speicherung nötig sind.

<br>

1. **Kleine Datenmengen:**
   - Ideal für Daten unter einigen tausend Zeilen. Keine Notwendigkeit für komplexe Datenbankinfrastrukturen.
   - **Beispiel:** Kleine Listen wie Kontakte oder Verkaufszahlen.

<br>

2. **Einfache Datenstruktur:**
   - Für Daten ohne komplexe Beziehungen. CSV, JSON und Excel sind einfach und effizient.
   - **Beispiel:** Flache Tabellen oder unstrukturierte JSON-Daten.

<br>

3. **Ad-hoc-Analyse:**
   - Schnell und einfach für einmalige oder gelegentliche Analysen.
   - **Beispiel:** Export von Daten für kurzfristige Auswertungen.

<br>

4. **Datenaustausch:**
   - Leicht zwischen Systemen zu übertragen, standardisierte Formate.
   - **Beispiel:** Austausch von Berichten oder Daten zwischen Partnern.

<br>

5. **Benutzerfreundlichkeit:**
   - Keine technischen Kenntnisse erforderlich, einfaches Bearbeiten.
   - **Beispiel:** Nutzung von Excel oder JSON durch nicht-technische Benutzer.

<br>

6. **Einmaliger Gebrauch:**
   - Für einmalige oder gelegentliche Datenbedürfnisse sind Datenbanken überdimensioniert.
   - **Beispiel:** Umfragedaten in JSON oder Excel für eine einmalige Auswertung.

---

<br>

## Wann sollte man CSV, JSON oder Excel verwenden?

1. **CSV (Comma-Separated Values):**
   - **Wann verwenden:** 
     - Bei einfachen, tabellarischen Daten ohne Hierarchien oder komplexe Strukturen.
     - Für den Austausch von Daten zwischen verschiedenen Systemen (interoperabel)
   - **Vorteile:** 
     - Leicht zu erstellen und zu lesen.
     - Sehr platzsparend.
   - **Beispiel:** Export von Verkaufszahlen oder Produktlisten.

<br>

2. **JSON (JavaScript Object Notation):**
   - **Wann verwenden:**
     - Für semistrukturierte Daten oder Daten mit Hierarchien (z.B. verschachtelte Objekte).
     - Ideal für APIs oder Webanwendungen, die strukturiert und hierarchisch gespeichert werden müssen
   - **Vorteile:** 
     - Kann komplexe, strukturierte Daten abbilden (verschachtelte Strukturen).
     - Leicht von Programmiersprachen verarbeitet.
   - **Beispiel:** Speichern von Nutzerdaten mit mehreren Attributen, wie Name, Adresse, und Bestellhistorie.

<br>

3. **Excel:**
   - **Wann verwenden:**
     - Für tabellarische Daten, wenn Formatierung, Formeln oder Diagramme benötigt werden.
     - Geeignet für komplexere Analysen, Berichte und Endbenutzer
   - **Vorteile:** 
     - Bietet Datenvisualisierungen (Diagramme) und integrierte Analysefunktionen (Formeln).
     - Benutzerfreundlich für nicht-technische Anwender.
   - **Beispiel:** Erstellen von Berichten mit Diagrammen und Formeln, z.B. Finanzberichte.



In [2]:

import pandas as pd

# Beispiel-Daten
data = {'customer_id': [1, 2, 3], 'product': ['Product_A', 'Product_B', 'Product_C'], 'sales': [100, 150, 200]}
df = pd.DataFrame(data)

# CSV-Datei speichern
df.to_csv('sales_data_1.csv', index=False)
print("CSV-Datei gespeichert.")

# CSV-Datei laden
csv_data = pd.read_csv('sales_data_1.csv')
print("\nCSV-Datei geladen:")
print(csv_data)

# Excel-Datei speichern
df.to_excel('sales_data_1.xlsx', index=False)
print("\nExcel-Datei gespeichert.")

# Excel-Datei laden
excel_data = pd.read_excel('sales_data_1.xlsx')
print("\nExcel-Datei geladen:")
print(excel_data)

# JSON-Datei speichern
df.to_json('sales_data_1.json', orient='records')
print("\nJSON-Datei gespeichert.")

# JSON-Datei laden
json_data = pd.read_json('sales_data_1.json')
print("\nJSON-Datei geladen:")
print(json_data)




CSV-Datei gespeichert.

CSV-Datei geladen:
   customer_id    product  sales
0            1  Product_A    100
1            2  Product_B    150
2            3  Product_C    200

Excel-Datei gespeichert.

Excel-Datei geladen:
   customer_id    product  sales
0            1  Product_A    100
1            2  Product_B    150
2            3  Product_C    200

JSON-Datei gespeichert.

JSON-Datei geladen:
   customer_id    product  sales
0            1  Product_A    100
1            2  Product_B    150
2            3  Product_C    200
