# Features

Iedere parameter van een model is gelinkt aan een zogenaamd **input feature**. Een input feature is een **numerieke waarde** die op zijn beurt gelinkt is aan één of meerdere variabelen in de data.  
  
```
 +-------------------+      +--------------------+      +----------------------+
 |   Data Variable   | ---> |   Input Feature    | ---> |   Model Parameter    |
 +-------------------+      +--------------------+      +----------------------+
(bv. tijd, locatie, ...)      (numerieke waarde)      (numerieke waarde = patroon)
```
  
De parameters van een model leren de patronen in de data voor te stellen aan de hand van _numerieke waarden_. Iedere parameter van een model is gelinkt aan een afzonderlijk stuk informatie in de data. Daarom moet dat stuk informatie ook altijd numeriek worden uitgedrukt. Die numerieke uitdrukking noemen we de **input features** van het model, algemeen voorgesteld door de **feature matrix** $\pmb{X}$. 

:::{note} 🌍
:icon: false
:class: simple 
In onze uitbreiding waarbij we voor de airco drempelwaardes het seizoenspatroon willen leren uit de data hadden we het model uitgebreid van één naar vier parameters.
$$
\begin{aligned}
d_{i,w} &= b_w + e_i \\
d_{i,l} &= b_l + e_i \\
d_{i,z} &= b_z + e_i \\
d_{i,h} &= b_h + e_i \\
E(e_i) &= 0
\end{aligned}
$$

De parameters zijn elk gelinkt aan het feit of de observatie in een bepaald seizoen werd gemaakt.  
In de formulering hierboven hebben we echter vier modellen gedefinieerd met elk één parameter in plaats van één model met vier parameters.
In machine learning concentreren we ons telkens op maar één model, dus dat vraagt om een andere wiskundige formulering.  
Laat ons dit stapsgewijs bekijken.  
Stap 1: De bovenstaande formulering is gelijkwaardig aan:
$$
\begin{aligned}
d_{i,w} &= b_w*1 + b_l*0 + b_z*0 + b_h*0 + e_i \\
d_{i,l} &= b_w*0 + b_l*1 + b_z*0 + b_h*0 + e_i \\
d_{i,z} &= b_w*0 + b_l*0 + b_z*1 + b_h*0 + e_i \\
d_{i,h} &= b_w*0 + b_l*0 + b_z*0 + b_h*1 + e_i \\
E(e_i) &= 0
\end{aligned}
$$
Stap 2: We introduceren de volgende vier **features** $x_{w,i}$, $x_{l,i}$, $x_{z,i}$ en $x_{h,i}$.
Dit laat ons toe om één model te formuleren met vier parameters.
$$
\begin{aligned}
d_i &= b_w*x_{w,i} + b_l*x_{l,i} + b_z*x_{z,i} + b_h*x_{h,i} + e_i \\
E(e_i) &= 0
\end{aligned}
$$

Voor een observatie $d_i$ die in de lente valt hebben we dan volgende vier **feature-waarden**:  
$$
\begin{aligned}
x_{w,i}&=0, \\
x_{l,i}&=1, \\
x_{z,i}&=0, \\
x_{h,i}&=0
\end{aligned}
$$
in de herfst:
$$
\begin{aligned}
x_{w,i}&=0, \\
x_{l,i}&=0, \\
x_{z,i}&=0, \\
x_{h,i}&=1
\end{aligned}
$$
enz.

Stap 3: in vector notatie (zie Mathematical Foundations)
$$
\pmb{d} = \pmb{X}\pmb{b} + \pmb{e}
$$

de **feature matrix** $\pmb{X}$ codeert (volgens onze keuze) de seizoens informatie in de dataset aan de hand van een simpele binaire waarde.  
  
Ter verduidelijking kunnen we enkele fictieve waarden in de matrix notatie invullen:

$$
\begin{bmatrix} 20 \\ 10 \\ ... \end{bmatrix} =
\begin{bmatrix}
0 & 1 & 0 & 0 \\
0 & 0 & 0 & 1 \\
... & ... & ... & ... \\
\end{bmatrix}
\begin{bmatrix} 5 \\ 17 \\ 25 \\ 12 \end{bmatrix} +
\begin{bmatrix} 3 \\ -2 \\ ... \end{bmatrix}
$$
- We zien de twee eerste observaties van $20$ en $10$ graden
- De eerste observatie werd gemaakt in de lente $\pmb{x_0} = \begin{bmatrix} 0 & 1 & 0 & 0 \end{bmatrix}$
- De tweede observatie werd gemaakt in de lente $\pmb{x_1} = \begin{bmatrix} 0 & 0 & 0 & 1 \end{bmatrix}$
- Het geschatte patroon voor winter, lente, zomer, herst is $\pmb{b} = \begin{bmatrix} 5 & 17 & 25 & 12 \end{bmatrix}$
- De ruis of meetfout voor de twee eerste observaties is $3$ en $-2$ graden
:::

:::{warning}
:class: simple
Ook in het geval waar we géén rekeninghouden met seizoensafhankelijkheid kunnen we het model uitbreiden met een feature variabele.

$$
\begin{aligned}
d_i &= b*x_i + e_i \\
E(e_i) &= 0
\end{aligned}
$$

Hier is $x_i$ echter constant voor alle observaties en gelijk aan $1$.
Dus ook hier geldt dat _iedere parameter van een model is gelinkt aan een input feature_.
Die feature drukt in dit geval uit dat het patroon in $b$ geen rekening houdt met andere informatie dan de geobserveerde waarde zelf.
Aangezien het een constante feature is kunnen we de feature waarde weglaten uit de wiskundige formulering.
:::

## Feature engineering
Het proces waarbij we de link leggen tussen model parameters en de data aan de hand van de feature matrix noemen we **feature engineering**.
De feature matrix definieert de link tussen de informatie in de dataset (data variabelen) en de model parameters.
Wanneer we zelf op maat modellen uitwerken voor bepaalde patroonherkenning, gaan we soms heel veel tijd in dit proces steken.
Er zijn vaak verschillende keuzes die gemaakt kunnen worden over hoe we precies bepaalde informatie in de data projecteren op de parameters via de features. Die keuzes kunnen bepalend zijn voor de mogelijkheid om bepaalde patronen succesvol te capteren in de parameters van ons model.

:::{note} 🌍
:icon: false
:class: simple
Bij het introduceren van seizoensinformatie hebben we, zonder er veel aandacht aan te geven, al heel wat keuzes qua feature engineering gemaakt. Eerst en vooral zal het in dit soort toepassing zo zijn dat de rauwe data enkel tijdinformatie verschaft onder de vorm van [epochs](https://en.wikipedia.org/wiki/Epoch_(computing)). We hebben beslist om seizonspatronen te modelleren, dus zetten we iedere waarde (milli-/seconden sinds 01/01/1970) om naar een code voor het overeenkomstige seizoen. Die code hebben we vervolgens vertaald naar vier binaire features.  
  
In deze benadering gaan we ervan uit dat er geen verband of _correlatie_ tussen de waardes naargelang de seizoen elkaar al dan niet opvolgen. Als we dat wel zouden willen doen zouden we kunnen kiezen voor een _cyclische encodering_.
:::

In [26]:
import random
import time

random.seed(42)

# Create a sample of epochs
current_epoch = int(time.time())
sample_epochs = [
    current_epoch - random.randint(30 * 24 * 3600, 6 * 30 * 24 * 3600) for _ in range(10)
]
sample_epochs

[1743678853,
 1752538829,
 1753987044,
 1741965502,
 1749792428,
 1750298051,
 1750661800,
 1752065597,
 1742050718,
 1752687071]

In [31]:
from datetime import datetime

import pandas as pd


def get_season(dt):
    """
    Determine the season for a given datetime object.

    Args:
        dt (datetime): The datetime object to evaluate.

    Returns
    -------
        str: The season ("spring", "summer", "autumn", or "winter").
    """
    Y = dt.year
    if dt >= datetime(Y, 3, 21) and dt < datetime(Y, 6, 21):
        return "spring"
    elif dt >= datetime(Y, 6, 21) and dt < datetime(Y, 9, 23):
        return "summer"
    elif dt >= datetime(Y, 9, 23) and dt < datetime(Y, 12, 21):
        return "autumn"
    else:
        return "winter"


df = pd.DataFrame({"epoch": sample_epochs})
df["datetime"] = pd.to_datetime(df["epoch"], unit="s")
df["season"] = df["datetime"].apply(get_season)
df

Unnamed: 0,epoch,datetime,season
0,1743678853,2025-04-03 11:14:13,spring
1,1752538829,2025-07-15 00:20:29,summer
2,1753987044,2025-07-31 18:37:24,summer
3,1741965502,2025-03-14 15:18:22,winter
4,1749792428,2025-06-13 05:27:08,spring
5,1750298051,2025-06-19 01:54:11,spring
6,1750661800,2025-06-23 06:56:40,summer
7,1752065597,2025-07-09 12:53:17,summer
8,1742050718,2025-03-15 14:58:38,winter
9,1752687071,2025-07-16 17:31:11,summer


In [33]:
from sklearn.preprocessing import OneHotEncoder

encoder = OneHotEncoder(categories=[["winter", "spring", "summer", "autumn"]], sparse_output=False)
season_encoded = encoder.fit_transform(df[["season"]])
season_columns = [f"season_{cat}" for cat in encoder.categories_[0]]
season_dummies = pd.DataFrame(season_encoded, columns=season_columns, index=df.index)
df = pd.concat([df, season_dummies], axis=1)
df


Unnamed: 0,epoch,datetime,season,season_winter,season_spring,season_summer,season_autumn
0,1743678853,2025-04-03 11:14:13,spring,0.0,1.0,0.0,0.0
1,1752538829,2025-07-15 00:20:29,summer,0.0,0.0,1.0,0.0
2,1753987044,2025-07-31 18:37:24,summer,0.0,0.0,1.0,0.0
3,1741965502,2025-03-14 15:18:22,winter,1.0,0.0,0.0,0.0
4,1749792428,2025-06-13 05:27:08,spring,0.0,1.0,0.0,0.0
5,1750298051,2025-06-19 01:54:11,spring,0.0,1.0,0.0,0.0
6,1750661800,2025-06-23 06:56:40,summer,0.0,0.0,1.0,0.0
7,1752065597,2025-07-09 12:53:17,summer,0.0,0.0,1.0,0.0
8,1742050718,2025-03-15 14:58:38,winter,1.0,0.0,0.0,0.0
9,1752687071,2025-07-16 17:31:11,summer,0.0,0.0,1.0,0.0


In [34]:
# The actual feature matrix
X = season_dummies.values
X

array([[0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 1., 0.],
       [1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 1., 0.],
       [1., 0., 0., 0.],
       [0., 0., 1., 0.]])