## Opdracht 1 (28 punten)

In deze opdracht bekijken we het verschil tussen een *gewone* Least-Squares Solution en een *Weighted Least-Squares Solution*.  

---

### Ordinary Least-Squares (OLS)

We nemen een model:  

\begin{equation}
y_{\text{fit}} = f(x_i; \mathbf{\theta})
\tag{1.1}
\end{equation}

met parameters $\mathbf{\theta}$.  
De residuen worden gedefinieerd als:  

\begin{equation}
r_i = y_i - y_{\text{fit}}
\tag{1.2}
\end{equation}

De kostfunctie $Q(\mathbf{\theta})$ is dan:  

\begin{equation}
Q(\mathbf{\theta}) = \sum_{i=1}^N W_i r_i^2
\tag{1.3}
\end{equation}

Hierbij is $W_i$ een gewichtsfunctie die aangeeft hoe zwaar elk meetpunt meeweegt, en $r_i$ het residu van datapunt $i$.  

Voor *Ordinary Least-Squares* geldt:  

\begin{equation}
W_i = 1,
\tag{1.4}
\end{equation}

dus alle datapunten tellen even zwaar mee.  

In de praktijk kan de keuze van $W_i$ afhangen van het type experiment. Bij het fitten van data kiezen we de parameters $\mathbf{\theta}$ zo dat de kostfunctie $Q(\mathbf{\theta})$ minimaal wordt.  

---


### Laad rekenpakketten & plot-parameters

In [317]:
import numpy as np
import matplotlib.pyplot as plt
import scipy as sp
import random as rd

plt.rcParams.update({
    "font.family": "Calibri",   # Lettertype
    "xtick.direction": "in",         # Ticks naar binnen
    "ytick.direction": "in",
    "xtick.top": True,               # Ticks aan bovenkant ook
    "ytick.right": True,             # Ticks aan rechterkant ook
    "xtick.labelsize": 10,           # Labelgroottes gelijk
    "ytick.labelsize": 10,
    "axes.labelsize": 10             # As-labels dezelfde grootte
})

In dit notebook gaan we aan de slag met het vinden van de beste fit voor een ijk-reeks van een Gas-Chromatografie Massa Spectrometer (GCMS).  
We hebben een verdunningsreeks gemaakt die loopt van 500 ppm tot 100000 ppm, met concentratie $C$.  
De GCMS-counts bij de bijbehorende concentratie willen we nu bepalen.  

Als model kiezen we een standaard lineair model:  

\begin{equation}
\text{Counts}_{\text{GCMS}} = a \cdot C + b
\tag{1.5}
\end{equation}

Hierbij zijn onze parameters:  

\begin{equation}
\mathbf{\theta} = \{a, b\}
\tag{1.6}
\end{equation}

Het doel is de parameters $a$ en $b$ zo te kiezen dat de lineaire fit de GCMS-data het beste beschrijft. 

Onze data:

| Concentratie | Counts       |
|--------------|-------------|
| 500          | 4599.72     |
| 1000         | 3530.88     |
| 5000         | 58568.34    |
| 10000        | 78305.50    |
| 50000        | 321113.00   |
| 100000       | 553158.68   |


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 1a**<br>
Leg in eigen woorden uit, dus geen ChatGPT, dat als ons model $f(x_i; \mathbf{\theta})$ meer parameters heeft, het moeilijker wordt om de kostfunctie te minimaliseren. Gebruik in je bewoording de **parameterruimte** en de kostfunctie $Q$.

</div>


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 1b**<br>
Maak een grafiek waarbij je de $\text{Counts}_{\text{GCMS}}$ uitzet tegen de concentratie.  
Gebruik hiervoor de **`plt.errorbar`** functie van `matplotlib.pyplot`.  
Zorg tevens voor correcte as-labels en zet zowel de x- als y-as in **logschaal**.
</div>


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 1c**<br>
Vul de volgende code aan:

</div>


In [None]:
def Residual(y_i, y_fit):

    return r_i

def Least_Squares(y_i, y_fit):

    return Q

def Linear_model(x, a, b):
    
    return CountsGCMS

<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 1d**<br>
Maak een grafiek van de kostfunctie $Q$ en zet deze uit tegen parameter $a$, gebruik hiervoor $b=0$.  
Leg in twee zinnen uit hoe de grafiek geïnterpreteerd moet worden.  
Varieer parameter $a$ van 0 tot 10 in 1001 stapjes.  
Licht je code toe.

</div>


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 1e**<br>
Gebruik de functie **`argmin`** van NumPy om het minimum van de kostfunctie te bepalen.  
`np.argmin` geeft de index van het gevonden minimum.  
Welke waarde van $a$ hoort daarbij? Dit is de kritische waarde van $a$, genoteerd als $a^*$.  
Geef aan waar je deze waarde terug kunt vinden in de bovenstaande grafiek en licht je code toe.

</div>


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 1g**<br>
* Maak een grafiek van de relatieve residuen `(residuals/Counts)` en zet deze uit tegen de concentratie. Gebruik hiervoor $b=0$ en $a^*$.  

* Mocht $a^*$ niet gelukt zijn te bepalen, gebruik dan $a^* = 6$.  
**Tip:** Zet je x-as in log-schaal en kijk naar de waardes van de residuen.  
Licht je code toe.

</div>


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 1h**<br>
Wat valt je op aan de residuenplot?  
Wat zegt dit over de parameter $b$ in het model?  
Als we zouden corrigeren voor de optimale waarde van $b$ ($b^{*}$), hoe zou deze grafiek er dan uitzien?  
Gebruik in je toelichting de woorden *statistische-fout* en *systematische-fout*.

</div>


___

In werkelijkheid is $b^{*}$ dus niet gelijk aan 0, wat het vinden van het minimum van de kostfunctie $Q$ aanzienlijk ingewikkelder maakt. De `scipy`-package biedt echter de functie [`least_squares`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.least_squares.html), die dit proces sterk vereenvoudigt. De exacte oplossingsmethodes zijn vaak complex, maar het doel blijft hetzelfde: het vinden van het minimum van $Q$.  

Een computer doet dit iteratief: door kleine stappen te maken in $a + \Delta a$ en $b + \Delta b$, wordt gezocht naar het minimum van $Q$. In dit geval zijn de startwaardes $p0$ van het algoritme ingesteld op $a=1$ en $b=0$.  

In de onderstaande figuren is de berekening uitgevoerd met de `least_squares`-functie van `scipy`.


<figure>
  <img src="https://raw.githubusercontent.com/JBusink/Wiskunde-2.1/refs/heads/main/LSQ.png" alt="Opdracht 3 Least Squares">
  <figcaption>Figuur 1:Verloop van parameter a & b bij opeenvolgende iteraties. De kostfunctie neemt af bij toenemende iteratie.</figcaption>
</figure>


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 1i**<br>
Hoe zou de grafiek eruit zien als we als startwaardes $p0 = [5, 20000]$ zouden kiezen?

</div>


In de vorige opdrachten hebben we de kostfunctie alleen berekend voor parameter $a$, terwijl we de parameter $b$ vastgezet hadden.  
We kunnen de kostfunctie ook berekenen voor de volledige parameterruimte $(a,b)$, maar dit kunnen we niet goed visualiseren met een gewone lijngrafiek (2D).  

Een optie is om $Q$ als oppervlak (3D) te visualiseren, maar dit ziet er vaak rommelig uit.  
Een handig alternatief is om de kostfunctie $Q$ te tonen als een kleur-gradient, gecombineerd met contourlijnen.  
In de onderstaande grafiek is dit toegepast.


<figure>
  <img src="https://raw.githubusercontent.com/JBusink/Wiskunde-2.1/refs/heads/main/LSQ_landschap.png" alt="Opdracht 3 Least Squares Landschap">
  <figcaption>
    Figuur 2: De kostfunctie Q als landschap van parameter a tegen b. De kleuren geven de log10-waarde van Q weer.
  </figcaption>
</figure>


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 1h**<br>
Bepaal de optimale parameters aan de hand van bovenstaande figuur en leg uit hoe je deze hebt gevonden.

</div>


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 1i**<br>
* Maak een grafiek van de counts tegen de concentratie en teken een lineaire lijn hier doorheen met de optimale fit-parameters van opdracht 1h.  
* Maak een grafiek van de absolute relatieve residuals:  
 `np.abs((meting - fit)/meting)` tegen de concentratie. Wat valt je op?  
* Bereken de kostfunctie \(Q\) voor de optimale parameters.

</div>


## Opdracht 2 (20 punten)

In deze tweede opdracht bekijken we de **Weighted Least-Squares Solution**.  

De kostfunctie is nu gedefinieerd als  

\begin{equation}
Q(\mathbf{a}) = \sum_{i=1}^N W_{i}r_i^2,
\tag{2.1}
\end{equation}

waarbij $W_i$ de gewichtsfactor van meetpunt $i$ is en $r_i$ het residu.  
De meest gebruikte keuze is  

\begin{equation}
W_i = \frac{1}{\sigma_i^2},
\tag{2.2}
\end{equation}

zodat  

\begin{equation}
Q(\mathbf{a}) = \sum_{i=1}^N \frac{r_i^2}{\sigma_i^2}.
\tag{2.3}
\end{equation}

Hiermee wordt ieder datapunt gewogen met zijn eigen standaardfout $\sigma_i$. Dit is nuttig omdat de meetonzekerheid per datapunt vaak varieert.  

---

<div style="border:2px solid green; padding:10px; border-radius:5px; background-color:#e6ffe6; color:black;">
  <strong>Voorbeeld:</strong> Stel dat ik met een liniaal (onzekerheid 1 mm) meerdere lengtes meet. Bij lengtes van 10 mm, 50 mm en 100 mm noteer ik:

  | Lengte $L$ | $\sigma_L$ | Relatieve fout $\sigma_L/L$ |
  |------------|------------|-----------------------------|
  | 10 mm      | 1 mm       | 10 %                        |
  | 50 mm      | 1 mm       | 2 %                         |
  | 100 mm     | 1 mm       | 1 %                         |

  Als ik deze waarden in een model pas, wil ik dat de verschillende onzekerheden meetellen. Daarom gebruik ik per datapunt een individueel gewicht.
</div>

---

Omdat deze methode zo veel gebruikt wordt, heeft zij zelfs een eigen naam gekregen: de **$\chi^2$-toets**  

\begin{equation}
\chi^2 = \sum_{i=1}^N \frac{r_i^2}{\sigma_i^2}.
\tag{2.4}
\end{equation}

Vaak wordt deze waarde nog genormaliseerd met het aantal **vrijheidsgraden**  

\begin{equation}
\Delta \text{dof} = N - \#\text{parameters},
\tag{2.5}
\end{equation}

zodat  

\begin{equation}
\tilde{\chi}^2 = \frac{1}{N - \#\text{parameters}} \sum_{i=1}^N \frac{r_i^2}{\sigma_i^2}.
\tag{2.6}
\end{equation}

Hierbij is $\tilde{\chi}^2$ de **gereduceerde $\chi^2$**.  


### Opdracht 2
In deze volgende opdracht nemen we aan dat de fout 10\% is van de meetwaarde zelf, nu hebben wij dus de volgende data:

| Concentratie | Counts       | Counts_err  |
|--------------|-------------|------------|
| 500          | 4599.72     | 459.97     |
| 1000         | 3530.88     | 353.09     |
| 5000         | 58568.34    | 5856.83    |
| 10000        | 78305.50    | 7830.55    |
| 50000        | 321113.00   | 32111.30   |
| 100000       | 553158.68   | 55315.87   |


In [609]:
Concentratie = np.array([500, 1000, 5000, 10000, 50000, 100000])
Counts       = np.array([4599.72, 3530.88, 58568.34, 78305.50, 321113.00, 553158.68])
Counts_err   = np.array([459.97, 353.09, 5856.83, 7830.55, 32111.30, 55315.87])

<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 2a**<br>
* Maak een grafiek van de counts tegen de concentratie, neem de fout mee met `plt.errorbar()`.  
</div>


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 2b**<br>
* Laad van de bibiliotheek `scipy.optimize` de functie `curve_fit()` in.
* Gebruik de functie `curve_fit` om een fit te maken, leg hierbij alle input in de functie uit.
</div>


<div style="border:2px solid orange; padding:10px; border-radius:5px; background-color:#fff4e6; color:black;">

**Opdracht 2c**<br>
* Maak een grafiek van jouw nieuwe fit waarbij je de gewichten in jouw fit hebt meegenomen.
* Maak een grafiek van de absolute relatieve residuals van jouw nieuwe fit:  
 `np.abs((meting - fit)/meting)` tegen de concentratie. Wat valt je op? Vergelijk jaar resulaten met de gewone `least_squares`-methode.
* Welke methode levert volgens jouw de meest realistische resultaten op?
</div>
