# Pipeline

1. Maak SQL scripts voor schema's: RAW, ARCHIVED, CLEANSED
2. Importeer source data in RAW
3. Data cleaning => RAW naar ARCHIVED en CLEANSED
4. Maak SQL scripts voor Data Warehouse / Ster schema
5. Import van CLEANSED naar DWH
6. Prep Data lake: export tabellen naar Parquet files
7. Upload Parquet files naar S3 (eerst bucket aanmaken)
8. Maak Athena tables
9. Gebruik Athena in BI tool naar keuze

In [1]:
%pip install -q pandas sqlalchemy psycopg2-binary

Note: you may need to restart the kernel to use updated packages.


## Stap 1: SQL scripts

In [8]:
import psycopg2

# Verbindingsgegevens
host = "localhost"
dbname = "postgres"
user = "postgres"
password = "Newpassword"
port = "5432"  # Standaard PostgreSQL poort

# Maak de verbinding
conn = psycopg2.connect(
    host=host,
    dbname=dbname,
    user=user,
    password=password,
    port=port
)

# Maak een cursor aan
cur = conn.cursor()
# Open het SQL-bestand
with open('./sql_scripts/raw.sql', 'r') as file:
    sql_script = file.read()
cur.execute(sql_script)

with open('./sql_scripts/archived.sql', 'r') as file:
    sql_script = file.read()
cur.execute(sql_script)

with open('./sql_scripts/cleansed.sql', 'r') as file:
    sql_script = file.read()
cur.execute(sql_script)

conn.commit()  # Vergeet niet te committeren als het script wijzigingen maakt



## Stap 2: raw importeren

In [9]:
from sqlalchemy import create_engine, types as sqlalchemytypes

# Vervang 'username', 'password', 'host', 'port', en 'database' met jouw databasegegevens
engine = create_engine('postgresql://postgres:Newpassword@localhost:5432/postgres')

import pandas as pd

# Pas het pad naar je CSV-bestand aan
df = pd.read_csv('./source_data/export_aankomst.txt', sep='\t', dtype=str)

df.to_sql('aankomst', con=engine, schema='raw', if_exists='append', index=False, dtype={
     "Vluchtid": sqlalchemytypes.String,
    "Vliegtuigcode": sqlalchemytypes.String,
    "Terminal": sqlalchemytypes.String,
    "Gate": sqlalchemytypes.String,
    "Baan": sqlalchemytypes.String,
    "Bezetting": sqlalchemytypes.String,
    "Vracht": sqlalchemytypes.String,
    "Aankomsttijd": sqlalchemytypes.String,
})


61

# Data Cleaning

In [None]:
import pandas as pd

# Laad de data
df = pd.read_csv('./source_data/export_aankomst.txt', sep='\t', dtype=str)

# Verwijder duplicaten
df.drop_duplicates(inplace=True)

# Verwijder rijen met ontbrekende waarden
df.dropna(inplace=True)

# Converteer numerieke kolommen naar het juiste datatypen
numeric_columns = ["Vluchtid", "Bezetting", "Vracht"]
df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce')

# Converteer datums naar datetime objecten
df['Aankomsttijd'] = pd.to_datetime(df['Aankomsttijd'])

# Controleer het resultaat
print(df.info())

# Opslaan van de schoongemaakte data
df.to_csv('./cleaned_data/aankomst_cleaned.csv', index=False)
