# Databricks Markdown Notebook: Python Basics for Data Engineers at Menzis

## 1. Basis Syntaxis

In [1]:
# Variabelen en datatypes
aantal_patienten = 1500  # Integer
zorgkosten = 12345.67  # Float
zorginstelling = "Menzis"  # String
print(f"{zorginstelling} heeft {aantal_patienten} patienten met een totale zorgkosten van €{zorgkosten}.")


Menzis heeft 1500 patienten met een totale zorgkosten van €12345.67.


## 2. String Expressies

In [None]:
# String manipulatie
patient_naam = "Jan Jansen"
print(patient_naam.upper())  # Alles in hoofdletters
print(patient_naam.lower())  # Alles in kleine letters
print(patient_naam.replace("Jan", "Piet"))  # Naam vervangen


## 3. Number Expressies

In [None]:
# Basis wiskunde
medicatie_kosten = 49.99
verzekering_korting = 10  # In procenten
totale_kosten = medicatie_kosten * (1 - verzekering_korting / 100)
print(round(totale_kosten, 2))  # Afronden op 2 decimalen


## 4. DateTime Expressies

In [None]:
from datetime import datetime, timedelta

# Huidige datum en tijd
nu = datetime.now()
print("Huidige datum en tijd:", nu)

# Datum manipuleren (bijv. 30 dagen vooruit)
toekomstige_datum = nu + timedelta(days=30)
print("Toekomstige datum:", toekomstige_datum.strftime('%Y-%m-%d'))


## 5. Logische Expressies

In [None]:
# If-statements
leeftijd = 70
if leeftijd >= 65:
    print("Deze patiënt komt in aanmerking voor extra zorgondersteuning.")
else:
    print("Geen extra ondersteuning vereist.")


## 6. List Expressies

In [None]:
# Werken met lijsten
patiënten = ["Jan", "Piet", "Marie"]
patiënten.append("Karin")  # Toevoegen
print(patiënten)
print(patiënten[1])  # Tweede patiënt


## 7. Dictionary Expressies

In [None]:
# Key-Value Data
patiënt_data = {"naam": "Jan Jansen", "leeftijd": 45, "verzekering": "Basis"}
print(patiënt_data["naam"])


## 8. Loops

In [None]:
# For-loop
for patiënt in patiënten:
    print(f"Patiënt: {patiënt}")

# While-loop
aantal = 0
while aantal < 3:
    print(f"Aantal geregistreerde patiënten: {aantal}")
    aantal += 1


## 9. PySpark DataFrame Basis

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# SparkSession aanmaken
spark = SparkSession.builder.appName("MenzisData").getOrCreate()

# Sample DataFrame
data = [("Jan", 45, "Basis"), ("Marie", 55, "Uitgebreid"), ("Karin", 60, "Basis")]
columns = ["Naam", "Leeftijd", "Verzekering"]
df = spark.createDataFrame(data, columns)

df.show()


## 10. PySpark Filteren en Selecteren

In [None]:
# Patiënten ouder dan 50
ouderen = df.filter(col("Leeftijd") > 50)
ouderen.show()


## 11. PySpark Groeperen en Aggregaties

In [None]:
# Aantal patiënten per verzekeringstype
df.groupBy("Verzekering").count().show()


## 12. PySpark Joins

In [None]:
# Extra dataset maken met medische kosten
kosten_data = [("Jan", 200), ("Marie", 350), ("Karin", 150)]
kosten_columns = ["Naam", "Kosten"]
kosten_df = spark.createDataFrame(kosten_data, kosten_columns)

# Join uitvoeren op Naam
df_kosten = df.join(kosten_df, "Naam", "inner")
df_kosten.show()
