In [None]:
import datetime as dt

import numpy as np
import pandas as pd

# DataFrame

In [None]:
# Aanmaken via dict
dummy_df = pd.DataFrame({
    "int": [1, 2, 3, 4],
    "float": [1.1, 2.2, 3.3, 4.4],
    "str": list("ABCD"),
})
dummy_df

In [None]:
# Of via lijst met records + columns
dummy_df = pd.DataFrame(
    data=(
        (1, 1.1, "A"),
        (2, 2.2, "B"),
        (3, 3.3, "C"),
        (4, 4.4, "D"),
    ),
    columns=["int", "float", "str"],
    index=["a", "b", "c", "d"],
)
dummy_df

In [None]:
# Meestal lees je een data bestand in
pd.read_csv("dummy_data/delimited_data.tsv", sep="\t")

# Selecties maken

In [None]:
# Selecteer een enkele kolom
dummy_df["int"]

In [None]:
type(dummy_df["int"])

In [None]:
# Selecteer meerdere kolommen
# Merk op: Gebruik een lijst tussen de haken
dummy_df[["int", "float"]]

In [None]:
# Met een lijst krijg je een DataFrame, ook met 1 kolom!
print(type(dummy_df[["int"]]))
dummy_df[["int"]]

In [None]:
# Je kunt niet indexeren zoals bij een Series
# Merk op: label wordt gezien als kolom...
dummy_df["a"]

In [None]:
# Rijen selecteren via een slice.
# Merk op: Selectie is exclusief rij 2.
dummy_df[0:2]

In [None]:
# Of met index labels.
# Merk op: Selectie inclusief rij "b"!
dummy_df["a":"b"]

In [None]:
# Rijen selectie via booleans
mask = [True, False, True, False]
dummy_df[mask]

In [None]:
# Conditionele selectie
# Mark op: mask = [True, True, False, False]
mask = dummy_df["int"] < 3
dummy_df[mask]

In [None]:
# Of op 1 regel...
dummy_df[dummy_df["int"] < 3]

In [None]:
# Rijen selecteren via .query() methode
dummy_df.query("int < 3")

In [None]:
# Combinatie van condities
dummy_df.query("int < 3 | str in ('A', 'C')")

In [None]:
# Selectie van rijen en kolommen met .loc[]
# Merk op: Loc werkt met labels voor zowel rijen als kolommen!
dummy_df.loc[
    # rijen, [kolommen]
    "a":"b", ["int", "float"]
]

In [None]:
# Met .iloc[] kun je positionele selectie maken
# Merk op: Zowel rijen als kolommen *moeten* positioneel...
dummy_df.iloc[0:2, [0, 1]]

In [None]:
# Alternatief: gebruik twee stappen
dummy_df[0:2][["int", "float"]]

In [None]:
# Kolommen selectie
dummy_df[str] => Series 1 kolom
dummy_df[[str]] => DF

# Rijen selectie
dummy_df[0:3] => DF met rijen
dummy_df.query() => DF met rijen

# Beiden
dummy_df.loc[slice, list] => DF zowel rijen als kolommen

# Descriptieve statistieken

In [None]:
# Dummy data
dummy_df = pd.DataFrame({
    "int": [1, 2, 3, 4],
    "float": [1.1, 2.2, 3.3, 4.4],
    "str": list("ABCD"),
})
dummy_df

In [None]:
# Vorm van het DataFrame: (rijen, kolommen)
dummy_df.shape

In [None]:
# Index is beschikbaar via .index
dummy_df.index

In [None]:
# Kolommen via .columns
# Merk op: Ook de kolommen zitten in een Index object!
dummy_df.columns

In [None]:
# Ook DataFrame heeft .describe() methode
# Merk op: Standaard alleen de numerieke kolommen
dummy_df.describe()

In [None]:
# Met include kun je aangeven welke data types opgenomen worden.
# Voorbeelden: "number", "object", "category".
# Merk op: Voor categorische data veranderen de statistieken.
dummy_df.describe(include=["object"])

In [None]:
# Totalen per kolom
# Merk op: De som van str is samenvoeging waardes
dummy_df.sum()

In [None]:
# Beter om eerst de numerieke kolommen te selecteren
dummy_df[["int", "float"]].mean()

In [None]:
dummy_df

In [None]:
# Gebruik axis argument om rij totalen te krijgen.
# Merk op: axis=0 sommeert rijen en axis=1 sommeert kolommen.
dummy_df[["int", "float"]].sum(axis=1)

In [None]:
# Met .info() krijg je meer systeem informatie.
dummy_df.info()

In [None]:
# Geheugen gebruik is standaard zonder categorische data!
# Gebruik memory_usage="deep" om exacte gebruik te zien.
# Merk op: gebruik is van 300+ naar 700 bytes gegaan.
dummy_df.info(memory_usage="deep")

# Kolommen aanmaken / verwijderen

In [None]:
def maak_scores():
    return pd.DataFrame({
        "id": ["a", "b", "c", "d"],
        "score": [4, 6, 9, 8],
    })

scores = maak_scores()
scores

In [None]:
# Je kunt waardes direct toekennen aan een kolom.
# Merk op: Originele DataFrame is gewijzigd (in place)!
scores["voldoende"] = scores["score"] > 5.5
scores

In [None]:
# Reset scores
scores = maak_scores()

In [None]:
def aantal_voldoendes(df):
    df["voldoende"] = df["score"] > 5.5
    return df["voldoende"].sum()


# Gebruiker wil alleen aantal voldoendes weten...
print(aantal_voldoendes(scores))

# Maar krijgt er onverwacht een kolom bij!
scores

In [None]:
# Reset scores
scores = maak_scores()

In [None]:
scores

In [None]:
# Nettere manier via assign()
scores.assign(voldoende=scores["score"] > 5.5)

In [None]:
# Merk op: Originele DataFrame is nu niet gewijzigd!
scores

In [None]:
# Meerdere kolommen tegelijk aanmaken.
# Merk op: Gebruik lambda functie wanneer kolom niet in originele DataFrame zit!
(
    scores
    .assign(

        # Gebaseerd op bestaande kolom.
        geslaagd=scores["score"] > 5.5,
        
        # Gebaseerd op nieuwe kolom (uit vorige stap).
        geslaagd_tekst=lambda df: df["geslaagd"].replace({True: "Geslaagd", False: "Gezakt"}),

    )
)

In [None]:
## TOT HIER ##

# Functies toepassen

In [None]:
dummy_df = pd.DataFrame({
    "voornaam": ["henk", "INGRID", "Joop"],
    "achternaam": ["jansen", "MAASSEN", "Braak"],
    "leeftijd": [45, 26, 44],
})
dummy_df

In [None]:
# Functies op kolommen; identiek aan Series.
dummy_df["voornaam"].map(str.capitalize)

In [None]:
def print_info(row):
    """Print informatie over een rij"""
    print("Type:    ", type(row))
    print("Index:   ", row.index)
    print("Waardes: ", row.values)
    print("-" * 65)

In [None]:
# Functies op rijen; gebruik apply()
# Merk op: axis=1 geeft aan dat we over kolommen werken
dummy_df.apply(print_info, axis=1)

In [None]:
def volledige_naam(persoon):
    """Genereer volledige naam uit voor en achternaam."""
    voornaam = persoon["voornaam"].strip().capitalize()
    achternaam = persoon["achternaam"].strip().capitalize()
    
    return f"{voornaam} {achternaam}"

In [None]:
# Gebruik apply() om functie op rij toe te passen
dummy_df.apply(volledige_naam, axis=1)

In [None]:
def volledige_naam(persoon, initialen=False):
    """Genereer volledige naam uit voor en achternaam."""
    achternaam = persoon["achternaam"].strip().capitalize()
    
    if initialen:
        voornaam = persoon["voornaam"][0].upper() + "."
    else:
        voornaam = persoon["voornaam"].strip().capitalize()
    
    return f"{voornaam} {achternaam}"

In [None]:
# Additionele argumenten worden doorgegeven aan de functie
dummy_df.apply(
    volledige_naam,
    axis=1,
    
    # Argument voor volledige_naam()
    initialen=True,
)

In [None]:
# Merk op: Functie retourneert dict met meerdere waardes
def naam_opschonen(persoon):
    """Schoon voor en achternaam op."""
    voornaam = persoon["voornaam"].strip().capitalize()
    achternaam = persoon["achternaam"].strip().capitalize()
    
    return {"voornaam": voornaam, "achternaam": achternaam}

In [None]:
# Door result_type "expand" op te geven worden twee kolommen aangemaakt.
# Merk op: Resultaat is nu een DataFrame!
dummy_df.apply(
    naam_opschonen,
    axis=1,
    result_type="expand",
)

In [None]:
# Met applymap() pas je een functie toe op alle waardes in een DataFrame.
# Merk op: De leeftijd kolom is numeriek en wordt daarom uitgesloten.
dummy_df[["voornaam", "achternaam"]].applymap(str.capitalize)

# Groeperen en aggregeren

In [None]:
# Dummy dataset
dummy_df = pd.DataFrame({
    "id": ["a", "b", "c", "d", "e", "f", "g", "h", "i"],
    "stad": ["Amsterdam"] * 3 + ["Utrecht"] * 3 + ["Beek"] * 3,
    "provincie": ["Noord-Holland"] * 3 + ["Utrecht"] * 3 + ["Gelderland"] * 2 + ["Limburg"],
    "leeftijd": [22, 41, 36, 27, 22, 56, 72, 44, 39],
    "score": [8, 7, 4, 9, 6, 7, 6, 8, 7],
})
dummy_df

In [None]:
# Met groupby maak je gegroepeerde data aan.
dummy_df.groupby("stad")

In [None]:
# Loop door de groepen
for stad, df in dummy_df.groupby("stad"):
    print("Naam stad: ", stad)
    print(df)
    print("-" * 40)

In [None]:
# Totaal per stad.
# Merk op: stad is de index van het DataFrame.
dummy_df.groupby("stad").sum()

In [None]:
# Met agg() kun je per kolom aangeven welke aggregatie je wilt.
(
    dummy_df
    .groupby("stad", as_index=False)
    .agg({
        "leeftijd": "mean",
        "score": "sum",
    })
)

In [None]:
# Je kun een lijst met functies per kolom opgeven
# Dit zorgt wel voor een vervelende MultiIndex voor de kolommen...
(
    dummy_df
    .groupby("stad", as_index=False)
    .agg({
        "leeftijd": ["mean", "std"],
        "score": ["sum", "min", "max"],
    })
)

In [None]:
# Betere syntax
(
    dummy_df
    .groupby("stad", as_index=False)
    .agg(
        leeftijd_gemiddeld=("leeftijd", "mean"),
        leeftijd_deviatie=("leeftijd", "std"),
        score_totaal=("score", "sum"),
        score_minimum=("score", "min"),
        score_maximum=("score", "max"),
    )
)

# DataFrames samenvoegen

## pandas.concat()

Opemrkingen

- Gebruik `pd.concat()` om 2 of meer DataFrames samen te voegen.
- Concat probeert index / kolommen aan elkaar te matchen.

In [None]:
df1 = pd.DataFrame(
    {
        "col_1": [1, 2, 3],
        "col_2": [4, 5, 6],
    },
    index=["a", "b", "c"],
)
df1

In [None]:
# Merk op: Gedeeltelijke overlap tussen index / kolommen.
df2 = pd.DataFrame(
    {
        "col_2": [1, 2, 3],
        "col_3": [4, 5, 6],
    },
    index=["b", "c", "d"],
)
df2

In [None]:
# Concat op basis van index / rijen.
# Scenario: Dezelfde metingen voor verschillende entiteiten.
# Vergelijkbaar met SQL UNION ALL.
#
#
# Merk op:
# - Ontbrekende waardes niet-gedeelde kolommen.
# - Dubbele waardes in de index
pd.concat(
    [df1, df2],
    axis=0         # alternatief: "index"
)

In [None]:
# Concat op basis van kolommen.
# Scenario: Verschillende metingen voor dezelfde entiteiten
#
# Merk op:
# - Indices worden uitgelijnd.
# - Ontbrekende waardes voor niet-gedeelde indices.
# - col_2 zit er dubbel in!
pd.concat(
    [df1, df2],
    axis=1         # alternatief: "columns"
)

In [None]:
# Gebruik join parameter om alleen gedeelde rijen te krijgen.
# Merk op: standaard staat join op "outer".
pd.concat(
    [df1, df2],
    axis="columns",
    join="inner"
)

## DataFrame.join()

Opmerkingen:

- Met `join()` voeg je 2 DataFrames samen.
- Koppeling standaard op basis van indices.

In [None]:
# Merk op: Foutmelding vanwege dubbele kolom (`col_2`)
df1.join(df2)

In [None]:
# Geef (tenminste een) achtervoegsel op om fout te verhelpen
df1.join(df2, rsuffix="_right")

Types koppelingen:

- `left`: linker DataFrame bepaalt welke rijen meekomen (standaard).
- `right`: rechter DataFrame bepaalt welke rijen meekomen.
- `inner`: alleen gedeelde rijen komen mee.
- `outer`: alle rijen komen mee.
- `cross`: cartesiaans product van de rijen.

Merk op: vergelijkbaar met de standaard SQL JOIN types.

In [None]:
# Voorbeeld van outer join
df1.join(df2, rsuffix="_right", how="outer")

## DataFrame.merge()

Opmerkingen:

- De `merge()` methode biedt meer opties dan `join()`.
- Gebruik `merge()` tenzij je koppelt op indices.




In [None]:
left = pd.DataFrame({
    "naam": ["Henk", "Ingrid", "Henk"],
    "plaats": ["Amsterdam", "Amsterdam", "Rotterdam"],
    "leeftijd": [24, 56, 33],
})
left

In [None]:
right = pd.DataFrame({
    "naam": ["Henk", "Ingrid", "Henk", "Sanne"],
    "plaats": ["Amsterdam", "Amsterdam", "Rotterdam", "Rotterdam"],
    "score": [4, 5, 6, 7],
})
right

In [None]:
# Merge door gebruik te maken van naam kolom.
# Merk op:
# - Dubbele rijen voor dubbele namen (Henk).
# - Automatisch _x en _y voor dubbele kolommen (plaats).
left.merge(right, on="naam", how="left")

In [None]:
# Merge op basis van meerdere kolommen (naam + plaats)
# Merk op: Geen dubbele rijen en kolommen meer.
left.merge(right, on=["naam", "plaats"], how="left")

In [None]:
# Gebruik validate om koppeling te controleren.
# Geldige waardes zijn "1:1", "1:m", "m:1" en "m:m".
left.merge(right, on=["naam", "plaats"], validate="1:1")

In [None]:
# Foutmelding als alleen op naam gekoppeld wordt vanwege duplicaten.
left.merge(right, on="naam", validate="1:1")

In [None]:
# Met indicator krijg je een _merge kolom met de bron voor de rij.
left.merge(right, on=["naam", "plaats"], how="outer", indicator=True)

# Melt en pivot

In [None]:
df = pd.DataFrame(
    {
        "Temperatuur": [11.2, 15.3, 14.8, 12.5, 10.5],
        "Zonuren": [5.5, 7.5, 6.8, 5.6, 4.6],
        "Neerslag": [3.5, 0.5, 0.0, 0.0, 3.4],
    },
    index=pd.date_range("2022-3-1", "2022-3-5")
)
df

In [None]:
#Tip: Pandas plot geeft snel inzicht in de data
df.plot(marker=".")

In [None]:
# Met melt() transformeer je naar long-format.
# Merk: Kolomnaam komt in "variable", waarde in "value".
df.melt()

In [None]:
# Behoud index door ignore_index op False te zetten
df.melt(ignore_index=False)

In [None]:
# Gebruik var_name en value_name om kolomnamen aan te passen
df.melt(
    var_name="Meting",
    value_name="Waarde",
)

In [None]:
# Voeg datum toe als kolom
df = df.assign(Datum=df.index)

In [None]:
# Gebruik id_vars en value_vars om kolommen op te geven
df.melt(
    
    id_vars=["Datum"],
    value_vars=["Temperatuur", "Neerslag"],
    
    var_name="Meting",
    value_name="Waarde",
)

## Pivot

In [None]:
# Maak long-format aan
df_long = df.melt(id_vars="Datum", var_name="Meting", value_name="Waarde")
df_long

In [None]:
# Pivot naar wide-format
df_wide = df_long.pivot(
    index="Datum",
    columns="Meting",
    values="Waarde",
)
df_wide

In [None]:
# Merk op: Naam van de index kolom behouden op index
df_wide.index

In [None]:
# Merk op: Naam van de waarde kolom behouden op kolom index
df_wide.columns