## Projekt 2:
  
1.)	Laden Sie das Python-File ml_block_4_elt_1.ipynb  
2.)	Aufgabe: Erläutern Sie das Python-File ml_block_4_elt_1.ipynb  
3.)	Wo kommt der ELT-Prozess vor?  Sind wir hier flexibler wie bei dem ETL-Prozess?   
4.)	Kann man den ELT-Prozess mit der Google Cloud erstellen?  
  
### Erstellen eines ELT-Prozesses  
  
Mit der CSV-Datei und Abspeichern der CSV-Datei in den Ordner raw  

In [None]:
#!pip install pandas #Pandas installieren

In [None]:
import pandas as pd
import os

# Step 1: Extract
# Dummy-Daten werden in ein Dictionary "Web-Logs" erstellt.

web_logs = {
    'user_id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'login_time': [10, 20, 15, 30, 50, 70, 40, 25, 35, 45],
    'logout_time': [30, 50, 25, None, 70, 90, None, 50, 60, 70],
    'activity': ['browse', 'search', 'browse', 'browse', 'purchase', 'browse', 'search', 'browse', 'purchase', 'search']
}

# Daten speichern
# Diese Daten werden in ein Pandas DataFrame umgewandelt und als CSV-Datei (web_logs.csv) gespeichert. 
# Dies simuliert den Extraktionsschritt, bei dem Rohdaten aus einer Quelle(hier: Dictionary) extrahiert werden und
# in einem speicherbaren Format (hier: csv) organisiert werden
web_logs_df = pd.DataFrame(web_logs)
web_logs_csv = 'web_logs.csv'
web_logs_df.to_csv(web_logs_csv, index=False)
print(f"Extrahierte Daten gespeichert in {web_logs_csv}.")

print("Roh Daten")
print(web_logs_df)


# Step 2: Load (Raw Data)
# Normalerweise würde hier ein Data Lake wie Amazon S3 verwendet werden.
# Wir simulieren dies durch einfaches Speichern der Datei in einem Raw-Ordner.
raw_data_path = 'raw/' # Ein Verzeichnis namens raw/ wird erstellt
os.makedirs(raw_data_path, exist_ok=True)  # Ordner erstellen, falls nicht vorhanden

# Der Code überprüft, ob die Datei bereits im raw/-Ordner existiert. 
# Wenn nicht, wird die CSV-Datei dorthin verschoben. 
# Dies stellt sicher, dass die Rohdaten an einem zentralen Ort gespeichert werden, ähnlich wie in einem Data Lake.
destination_file = os.path.join(raw_data_path, web_logs_csv)
if not os.path.exists(destination_file):
    os.rename(web_logs_csv, destination_file)
    print(f"Rohdaten in '{raw_data_path}' gespeichert.")
else:
    print(f"Datei '{destination_file}' existiert bereits. Verschieben übersprungen.")


# Step 3: Transform (on-demand)
# Die Rohdaten werden aus der CSV-Datei im raw/-Ordner geladen
# Die Session-Dauer wird berechnet, indem die logout_time von der login_time subtrahiert wird. 
# Dies wird in einer neuen Spalte session_duration gespeichert.
# Fehlende Werte (NaN) in der session_duration-Spalte werden entfernt, 
# um sicherzustellen, dass nur vollständige Datensätze für die weitere Analyse verwendet werden.
raw_web_logs_path = os.path.join(raw_data_path, 'web_logs.csv')
transformed_data_path = 'transformed_web_logs.csv'

raw_data = pd.read_csv(raw_web_logs_path)
raw_data['session_duration'] = raw_data['logout_time'] - raw_data['login_time'] 
cleaned_data = raw_data.dropna(subset=['session_duration'])

print("Cleaned Data")
print(cleaned_data)

# Transformierte Daten speichern
# Die bereinigten und transformierten Daten werden in einer neuen CSV-Datei (transformed_web_logs.csv) gespeichert
cleaned_data.to_csv(transformed_data_path, index=False)
print(f"Transformierte Daten gespeichert in {transformed_data_path}.")

# ELT-Prozess abgeschlossen
print("ELT-Prozess erfolgreich abgeschlossen.")

# Anwendungsbeispiel: 
# Solch ein Prozess könnte in einem Web-Analyse-Tool verwendet werden, 
# um Benutzeraktivitäten zu verfolgen und zu analysieren, wie lange Benutzer auf einer Website aktiv sind.


Extrahierte Daten gespeichert in web_logs.csv.
Roh Daten
   user_id  login_time  logout_time  activity
0        1          10         30.0    browse
1        2          20         50.0    search
2        3          15         25.0    browse
3        4          30          NaN    browse
4        5          50         70.0  purchase
5        6          70         90.0    browse
6        7          40          NaN    search
7        8          25         50.0    browse
8        9          35         60.0  purchase
9       10          45         70.0    search
Rohdaten in 'raw/' gespeichert.
Cleaned Data
   user_id  login_time  logout_time  activity  session_duration
0        1          10         30.0    browse              20.0
1        2          20         50.0    search              30.0
2        3          15         25.0    browse              10.0
4        5          50         70.0  purchase              20.0
5        6          70         90.0    browse              20.0
7       

### 3.)	a) Wo kommt der ELT-Prozess vor?  b) Sind wir hier flexibler wie bei dem ETL-Prozess?   

#### a) Typische Anwendungsfälle:

**Big-Data-Analysen**:   
Verarbeitung großer Datenmengen wie Kundendaten oder IoT-Sensordaten.

**Echtzeit-Analysen**:   
Live-Metriken für Marketingkampagnen

**Datenlakes**:   
Speicherung unstrukturierter Rohdaten für spätere Nutzung.    

**KI/ML-Projekte**:  
Nutzung roher Daten für Trainingsmodelle und maschinelles Lernen

  
    
      
  
#### b) Ja, ELT-Prozesse sind flexibler als der traditionelle ETL-Prozess:
* **Daten zuerst laden**: Rohdaten werden direkt in ein Zielsystem (z.B. Data Warehouse) geladen, bevor sie bearbeitet werden.  
  
* **Ad-hoc-Analysen**: Nutzer können sofort mit den Rohdaten arbeiten und bei Bedarf Anpassungen vornehmen.  
  
* **Skalierbarkeit**: Moderne Data Warehouses können große Datenmengen schnell verarbeiten, ohne vorherige Aufbereitung.  
  
* **Vielfältige Transformationen**: Nutzer können die Daten nach Bedarf anpassen, ohne sie erneut hochladen zu müssen.    


 

### 4.)	Kann man den ELT-Prozess mit der Google Cloud erstellen?   
  
**Extract**: Daten aus Quellen (z.B. Datenbank, CSV, API) holen → in Cloud Storage ablegen  (Speicher)
  
**Load**: Rohdaten in BigQuery laden (Data warehouse). LAden kann automatisch, per Zeitplan od. Echzeit erfolgen 
  
**Transform**: Die Umwandlung der Daten findet in BigQuery statt. (zB Filtern, bereinigen, zusammen...)  