# Vorbereitung und Installation der erforderlichen Pakete

In diesem Notebook werden die erforderlichen Pakete für PySpark und Google Cloud Storage installiert.


In [None]:
# Installiere die erforderlichen Pakete
!pip install pyspark
!pip install google-cloud-storage
!pip install google-auth

# Initialisierung der SparkSession

In diesem Notebook wird die SparkSession, die für die Verarbeitung mit PySpark benötigt wird installiert.

In [None]:
from pyspark.sql import SparkSession

# Initialisiere die SparkSession
spark = SparkSession.builder \
    .appName("ETL Pipeline Structure Creation") \
    .getOrCreate()

# Überprüfen der SparkSession
spark

# Google Cloud Storage Konfiguration und Authentifizierung

In diesem Notebook wird die Verbindung zu Google Cloud Storage und authentifizieren uns mit einem Dienstkonto konfiguriert.

In [None]:
from google.oauth2 import service_account
from google.cloud import storage

# Dienstkonto-Datei laden
credentials = service_account.Credentials.from_service_account_file(
    '/Users/Kevin/Documents/GitHub/Transferarbeit/Setup/prototyp-etl-pipline-d6cbb438aa70.json')

# Google Cloud Storage Client initialisieren
client = storage.Client(credentials=credentials, project= 'prototyp-etl-pipline')

# Überprüfen des Clients
client


# Funktion zur Erstellung von Verzeichnissen in Google Cloud Storage

In diesem Notebook wird eine Funktion, um Verzeichnisse in Google Cloud Storage zu erstellen definiert.


In [None]:
# Funktion zur Erstellung eines Verzeichnisses in GCS, wenn es nicht bereits existiert
def create_directory(bucket_name, directory_name):
    bucket = client.get_bucket(bucket_name)
    blob = bucket.blob(directory_name)
    
    if not blob.exists():  # Überprüfen, ob das Verzeichnis bereits existiert
        blob.upload_from_string('')
        print(f'Created directory: {directory_name}')
    else:
        print(f'Directory already exists: {directory_name}')

# Testen der Funktion
create_directory(bucket_name, 'test/')

# Erstellung der Verzeichnisstruktur für die ETL-Pipeline

In diesem Notebook wird die Verzeichnisstruktur für Bronze, Sensitive Data, Silver und Gold in Google Cloud Storage erstellt.


In [None]:
# Pfade für die Verzeichnisse definieren
bronze_path = f'gs://{bucket_name}/bronze/'
sensitive_path = f'gs://{bucket_name}/sensitive/'
silver_path = f'gs://{bucket_name}/silver/'
gold_path = f'gs://{bucket_name}/gold/'

# Erstelle die Verzeichnisse
create_directory(bucket_name, 'bronze/')
create_directory(bucket_name, 'sensitive/')
create_directory(bucket_name, 'silver/')
create_directory(bucket_name, 'gold/')

# Schliessen der SparkSession

In diesem Notebook wird die SparkSession, nachdem die Verzeichnisse erstellt wurde geschlossen.


In [None]:
# Schliessen der SparkSession
spark.stop()