# Vorbereitung und Installation der erforderlichen Pakete

In diesem Notebook werden die erforderlichen Pakete für PySpark und Google Cloud Storage installiert.


In [1]:
# Installiere die erforderlichen Pakete
!pip install pyspark
!pip install google-cloud-storage
!pip install google-auth



# Initialisierung der SparkSession

In diesem Notebook wird die SparkSession, die für die Verarbeitung mit PySpark benötigt wird installiert.

In [2]:
from pyspark.sql import SparkSession

# Initialisiere die SparkSession
spark = SparkSession.builder \
    .appName("ETL Pipeline Structure Creation") \
    .getOrCreate()

# Überprüfen der SparkSession
spark

24/06/16 08:42:20 WARN Utils: Your hostname, MacBook-Pro-3.local resolves to a loopback address: 127.0.0.1; using 192.168.1.229 instead (on interface en0)
24/06/16 08:42:20 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/06/16 08:42:21 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


# Google Cloud Storage Konfiguration und Authentifizierung

In diesem Notebook wird die Verbindung zu Google Cloud Storage und authentifiziert und mit einem Dienstkonto konfiguriert. Weiter wird eine Funktion, um Verzeichnisse in Google Cloud Storage zu erstellen definiert.


In [15]:
from google.oauth2 import service_account
from google.cloud import storage

# Dienstkonto-Datei laden
credentials = service_account.Credentials.from_service_account_file(
    '/Users/Kevin/Documents/GitHub/Transferarbeit/Prototyp_Transferarbeit_Lokal/Setup/prototyp-etl-pipline-d6cbb438aa70.json')

# Google Cloud Storage Client initialisieren
client = storage.Client(credentials=credentials, project='prototyp-etl-pipline')

# Überprüfen des Clients
print(client)

# Funktion zur Erstellung eines Verzeichnisses in GCS, wenn es nicht bereits existiert
def create_directory(bucket_name, directory_name):
    bucket = client.get_bucket(bucket_name)
    blob = bucket.blob(directory_name)
    
    if not blob.exists():  # Überprüfen, ob das Verzeichnis bereits existiert
        blob.upload_from_string('')
        print(f'Created directory: {directory_name}')
    else:
        print(f'Directory already exists: {directory_name}')


<google.cloud.storage.client.Client object at 0x1250d8290>
Created directory: test/


# Erstellung der Verzeichnisstruktur für die ETL-Pipeline

In diesem Notebook wird die Verzeichnisstruktur für Bronze, Sensitive Data, Silver und Gold in Google Cloud Storage erstellt.


In [16]:
# Pfade für die Verzeichnisse definieren
bronze_path = f'gs://{bucket_name}/bronze/'
sensitive_path = f'gs://{bucket_name}/sensitive/'
silver_path = f'gs://{bucket_name}/silver/'
gold_path = f'gs://{bucket_name}/gold/'

# Erstelle die Verzeichnisse
create_directory(bucket_name, 'bronze/')
create_directory(bucket_name, 'sensitive/')
create_directory(bucket_name, 'silver/')
create_directory(bucket_name, 'gold/')

Created directory: bronze/
Created directory: sensitive/
Created directory: silver/
Created directory: gold/


# Schliessen der SparkSession

In diesem Notebook wird die SparkSession, nachdem die Verzeichnisse erstellt wurde geschlossen.


In [17]:
# Schliessen der SparkSession
spark.stop()