# Vorbereitung und Installation der erforderlichen Pakete

In diesem Notebook werden die erforderlichen Pakete für PySpark und Google Cloud Storage istalliert.


In [1]:
# Installiere die erforderlichen Pakete
!pip install pyspark
!pip install google-cloud-storage
!pip install google-auth

Collecting google-cloud-storage
  Downloading google_cloud_storage-2.17.0-py2.py3-none-any.whl.metadata (6.6 kB)
Collecting google-auth<3.0dev,>=2.26.1 (from google-cloud-storage)
  Downloading google_auth-2.30.0-py2.py3-none-any.whl.metadata (4.7 kB)
Collecting google-api-core<3.0.0dev,>=2.15.0 (from google-cloud-storage)
  Downloading google_api_core-2.19.0-py3-none-any.whl.metadata (2.7 kB)
Collecting google-cloud-core<3.0dev,>=2.3.0 (from google-cloud-storage)
  Downloading google_cloud_core-2.4.1-py2.py3-none-any.whl.metadata (2.7 kB)
Collecting google-resumable-media>=2.6.0 (from google-cloud-storage)
  Downloading google_resumable_media-2.7.1-py2.py3-none-any.whl.metadata (2.2 kB)
Collecting google-crc32c<2.0dev,>=1.0 (from google-cloud-storage)
  Downloading google_crc32c-1.5.0-cp311-cp311-macosx_10_9_universal2.whl.metadata (2.3 kB)
Collecting proto-plus<2.0.0dev,>=1.22.3 (from google-api-core<3.0.0dev,>=2.15.0->google-cloud-storage)
  Downloading proto_plus-1.23.0-py3-none-an

# Initialisierung der SparkSession

In diesem Notebook wird die SparkSession, die für die Verarbeitung mit PySpark benötigt wird installiert.

In [2]:
from pyspark.sql import SparkSession

# Initialisiere die SparkSession
spark = SparkSession.builder \
    .appName("ETL Pipeline Structure Creation") \
    .getOrCreate()

# Überprüfen der SparkSession
spark

24/06/15 18:32:10 WARN Utils: Your hostname, MacBook-Pro-3.local resolves to a loopback address: 127.0.0.1; using 10.0.152.24 instead (on interface en0)
24/06/15 18:32:10 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/06/15 18:32:10 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


24/06/15 18:32:21 WARN GarbageCollectionMetrics: To enable non-built-in garbage collector(s) List(G1 Concurrent GC), users should configure it(them) to spark.eventLog.gcMetrics.youngGenerationGarbageCollectors or spark.eventLog.gcMetrics.oldGenerationGarbageCollectors


# Google Cloud Storage Konfiguration und Authentifizierung

In diesem Notebook wird die Verbindung zu Google Cloud Storage und authentifizieren uns mit einem Dienstkonto konfiguriert.

In [None]:
from google.oauth2 import service_account
from google.cloud import storage

# Dienstkonto-Datei laden
credentials = service_account.Credentials.from_service_account_file(
    '/Users/Kevin/Documents/GitHub/Transferarbeit/Setup/prototyp-etl-pipline-d6cbb438aa70.json')

# Google Cloud Storage Client initialisieren
client = storage.Client(credentials=credentials, project='your-project-id')

# Überprüfen des Clients
client


# Google Cloud Storage Konfiguration

In diesem Notebook wird die Verbindung zu Google Cloud Storage konfiguriert.

In [None]:
from google.cloud import storage

# Google Cloud Storage Konfiguration
bucket_name = 'dein-bucket-name'  # Ersetze durch deinen Bucket-Namen

# Initialisiere den Google Cloud Storage Client
client = storage.Client()

# Überprüfen des Clients
client

# Funktion zur Erstellung von Verzeichnissen in Google Cloud Storage

In diesem Notebook wird eine Funktion, um Verzeichnisse in Google Cloud Storage zu erstellen definiert.


In [None]:
# Funktion zur Erstellung eines Verzeichnisses in GCS, wenn es nicht bereits existiert
def create_directory(bucket_name, directory_name):
    bucket = client.get_bucket(bucket_name)
    blob = bucket.blob(directory_name)
    
    if not blob.exists():  # Überprüfen, ob das Verzeichnis bereits existiert
        blob.upload_from_string('')
        print(f'Created directory: {directory_name}')
    else:
        print(f'Directory already exists: {directory_name}')

# Testen der Funktion
create_directory(bucket_name, 'test/')

# Erstellung der Verzeichnisstruktur für die ETL-Pipeline

In diesem Notebook wird die Verzeichnisstruktur für Bronze, Sensitive Data, Silver und Gold in Google Cloud Storage erstellt.


In [None]:
# Pfade für die Verzeichnisse definieren
bronze_path = f'gs://{bucket_name}/bronze/'
sensitive_path = f'gs://{bucket_name}/sensitive/'
silver_path = f'gs://{bucket_name}/silver/'
gold_path = f'gs://{bucket_name}/gold/'

# Erstelle die Verzeichnisse
create_directory(bucket_name, 'bronze/')
create_directory(bucket_name, 'sensitive/')
create_directory(bucket_name, 'silver/')
create_directory(bucket_name, 'gold/')

# Schliessen der SparkSession

In diesem Notebook wird die SparkSession, nachdem die Verzeichnisse erstellt wurde geschlossen.


In [None]:
# Schliessen der SparkSession
spark.stop()