In [None]:
import sys
import math
import datetime as dt

import numpy as np
import pandas as pd

# Pandas vs Python

In [None]:
# Create pandas Series of integers
x = [1] * 20_000
series = pd.Series(x)
type(series)

In [None]:
# Using pandas data stays inside numpy
%timeit -n 100 series.sum()

In [None]:
# Python's sum forces data transfers...
%timeit -n 100 sum(series)

In [None]:
# Just using a list..
%timeit -n 100 sum(x)

# Series

In [None]:
# Series of integers, data type turns int `int64`
s = pd.Series([1, 2, 3, 4])
s

In [None]:
# Series support indexing
s[1]

In [None]:
# And slicing too
s[1:3]

In [None]:
# Non-numeric typically gets type `object`.
txt = pd.Series(["A", "B", "C"] * 10)
txt[0:3]

In [None]:
# Categorical data type often more efficient.
cat = pd.Series(["A", "B", "C"] * 10, dtype="category")
cat[0:3]

In [None]:
print("Size object:      ", sys.getsizeof(txt))
print("Size categorical: ", sys.getsizeof(cat))

## Cast data type

In [None]:
# Series met float getallen.
s = pd.Series([1.1, 2.2, 3.3])
s

In [None]:
# Cast naar integer via astype()
# Merk op: Deel na de punt gaat verloren!
s.astype(int)

In [None]:
# ValueError bij ongeldige conversie
# Merk op: Vergelijkbaar met casts in Python
pd.Series(["A", "B", "C"]).astype(int)

In [None]:
# Het standaard integer type ondersteunt geen ontbrekende data
pd.Series([1, 2, None]).astype(int)

# Descriptieve informatie

In [None]:
# Willekeurige numerieke en categorische waardes
n = 150
cat = pd.Series(np.random.choice(["A","B", "C", "D"], n))
num = pd.Series(np.random.normal(0, 1, n))

In [None]:
# Numerieke statistieken
num.describe()

In [None]:
# Of met aggregatie functies...
print(f"Mean:   {num.mean():8.3f}")
print(f"median: {num.median():8.3f}")
print(f"SD:     {num.std():8.3f}")

In [None]:
# Via .plot interface kun je histogram opvragen
(
    num
    .plot
    .hist(
        bins=50,
        edgecolor="white",
        figsize=(6, 3)
    )
)

In [None]:
# Categorische statistieken
cat.describe()

In [None]:
# Unieke waardes en aantal uniek
print(f"Unieke waardes:         {cat.unique()}")
print(f"Aantal unieke waardes:  {cat.nunique()}")

In [None]:
# Frequentie van alle unieke waardes
cat.value_counts(sort=True)

In [None]:
# Staafdiagram met frequenties
# Merk op: count_values() geeft een Series terug.
(
    cat
    .value_counts()
    .plot
    .barh(
        figsize=(6, 3)
    )
)

# Bewerkingen

In [None]:
num = pd.Series([-2, -1, 0, 1, 2])

In [None]:
# Standaard mathematische operatoren werken direct op Series
num ** 2 / 2

In [None]:
# Zelf gedefinieerde verwerkingsfunctie
def abs_sqrt(x):
    return abs(x) ** 0.5

In [None]:
# Toepassen via map() methode
num.map(abs_sqrt)

In [None]:
# Korter met lambda functie
num.map(lambda x: abs(x) ** 0.24)

## Accessors

In [None]:
# Series met tekst objecten
names = pd.Series(["henk", "INGRID", "Joop"])

In [None]:
# Homogeniseren met lambda functie
names.map(lambda n: n.capitalize())

In [None]:
# Of direct via str accessor
names.str.capitalize()

In [None]:
# Je kunt methodes aan elkaar rijgen.
# Merk op: Een lambda is wellicht beter leesbaar...
names.str.strip().str.capitalize()

In [None]:
# Met contains() kun je checken of karakters voorkomen.
# De functie ondersteunt ook regular expressions.
names.str.contains("i", case=False)

In [None]:
# Series met datum objecten
dates = pd.Series(pd.date_range("2022-01-01", "2022-01-05"))
dates

In [None]:
# Additionele eigenschappen via dt accessor
dates.dt.day

In [None]:
# Of conversie naar str formaat
dates.dt.strftime("%A %d %B %Y")

## Volgorde en rang

In [None]:
# Willekeurige numerieke Series
num = pd.Series([3, 6, 4, 2, 7, 1])
num

In [None]:
# Standaard oplopend gesorteerd
# Merk op: De indices blijven gekoppeld!
num.sort_values()

In [None]:
# Aflopend sorteren
num.sort_values(ascending=False)

In [None]:
# Rangorde van de waardes
# Merk op: Laagste waarde = laagste rang vanwege ascending argument
num.rank(ascending=True)

In [None]:
# Rangorde van de waardes als percentage
num.rank(pct=True) * 100

# Indices en index types

In [None]:
# De index is beschikbaar via het .index attribuut.
# Merk op: Pandas maakt automatisch een RangeIndex aan.
scores = pd.Series([1, 2, 3, 4])
scores.index

In [None]:
scores

In [None]:
# Indexeren via de RangeIndex
scores[1]

In [None]:
# Met index parameter kunnen andere labels worden opgegeven.
# Merk op: Geen RangeIndex, maar Index van type object.
scores = pd.Series([1, 2, 3, 4], index=["Piet", "Jan", "Ingrid", "Henk"])
scores.index

In [None]:
# Series nog steeds numeriek te indexeren
scores[1]

In [None]:
# Maar nu ook via de labels
scores["Jan"]

In [None]:
# En zelfs te slices...
scores["Jan":"Henk"]

In [None]:
# Indices kun je sorteren
scores.sort_index()

In [None]:
# Ook tijdstippen kunnen als index dienen.
max_temp = pd.Series(
    [
        2.1,
        1.5,
        -0.5,
        -2.1
    ],
    index=[
        dt.datetime(2022, 12, 15),  # Donderdag 15-12-2022
        dt.datetime(2022, 12, 16),  # Vrijdag   16-12-2022
        dt.datetime(2022, 12, 19),  # Maandag   19-12-2022
        dt.datetime(2022, 12, 20),  # Dinsdag   20-12-2022
    ]
)
max_temp

In [None]:
# Index is type DatetimeIndex.
max_temp.index

In [None]:
# Resample naar 1 meting per dag en interpoleer
# Merk op: Ontbrekende waardes zijn ingevuld
(
    max_temp
    .resample("1D")
    .interpolate()
)

## Uitlijnen indices

In [None]:
# Numerieke Series
num = pd.Series([-2, -1, 0, 1, 2])
num

In [None]:
# Nieuwe Series met aflopende Index
mult = pd.Series([2, 1, 0, -1, -2], index=[4, 3, 2, 1, 0])
mult

In [None]:
# Vermenigvuldiging van beide Series
# Merk op: De waardes worden gekoppeld via de indices!
num * mult

In [None]:
# Series met categorische index labels
scores = pd.Series([5, 8, 6], index=["Jan", "Ingrid", "Henk"])
scores.index

In [None]:
# Update Series met een aantal overlappende labels
update = pd.Series([1, 1, 1], index=["Jan", "Ingrid", "Klaas"])
update

In [None]:
scores

In [None]:
# Optelsom van beide Series
# Merk op: Alleen gedeelde indices krijgen een resultaat!
scores + update

## Conditional Selections

In [None]:
num

In [None]:
# Select using boolean values
num[
    [False, False, True, True , True]
]

In [None]:
# Boolean operaties werken op Series
# Merk op: retourneert een bool Series
num >= 0

In [None]:
# Gebruik masker voor selectie
num[num >= 0]

In [None]:
# Combinatie van condities
# Merk op: Je moet haken om de condities plaatsen!
num[(num < 0) | (num > 0)]

In [None]:
(num < 0) | (num > 0)