## Regresjon i Python

Her skal du lære hvordan man kan gjøre regresjon i Python ved å bruke biblioteket funksjonen `curve_fit` fra `scipy.optimize`.

For å gjøre regresjon i Python, må vi
1. Definere datapunktene våre som lister eller numpy-arrays.
2. Definere en funksjon for modellen vår med frie parametere som skal bestemmes med regresjon.


````{admonition} Teori: Regresjon
:class: tip, dropdown

Regresjon er et systematisk måte å bestemme en funksjonsmodell som passer til datapunkter vi kjenner til. 
Vi har gjerne $N$ datapunkter $(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)$ som vi ønsker å finne en funksjon $f(x)$ som passer til.
Vi antar at det finnes en funksjon slik at

$$
y_i = f(x_i) + \epsilon_i,
$$

der $\epsilon_i$ er en tilfeldig feil som vi ikke kan forutsi. Målet vårt å bestemme $f(x)$. For å oppnå dette, velger vi oss gjerne en funksjonsmodell med frie parametere, og så bruker vi regresjon som en teknikk for å bestemme hva de frie parameterne må være for at funksjonsmodellen vår skal passe *best mulig*. 




````


### Eksempel: Regresjon av en rett linje

La oss se på et eksempel der vi har $N = 5$ datapunkter og skal tilpasse en rett linje $f(x) = ax + b$ til disse datapunktene. Vi starter med å importere bibliotekene vi trenger:


In [9]:
from scipy.optimize import curve_fit 

# Definer modellen vår
def f(x, a, b):
    return a * x + b

# Definerer dataene våre
x = [1, 2, 3, 4, 5]
y = [3, 5, 7, 9, 11]

# Finner parametrene som passer best
parametere, usikkerheter = curve_fit(f, x, y)

# henter ut parameterne fra lista og gir dem navn
# Rekkefølgen til parameterne er den samme som i funksjonsdefinisjonen f(x, a, b)
a, b = parametere 

print(f"{a = }")
print(f"{b = }")

a = 2.0
b = 1.0


For å bruke funksjonsmodellen, kan vi nå sende inn parameterne slik:

In [7]:
f(0, *parametere)

1.0

## Eksempel 2: Regresjon med en andregradsfunksjon

Noen ganger kan vi bruke regresjon til å bestemme parametere til en funksjon som skal beskrive en følge av tall (for eksempel figurtall). La oss se på et eksempel der vi skal bruke regresjon til å finne en formel for summen av de $N$ første heltallene

$$
S_N = 1 + 2 + \ldots + N
$$

Vi kan ta lage oss en tabell med datapunkter først:

| $N$ | 1 | 2 | 3 | 4 | 5 |
|-----|-------| ----- | ----- | ----- | ----- |
| $S_N$  | 1   | 3     | 6     | 10    | 15    |

Vi lar $N$ være den uavhengige variabelen, og $S_N$ være den avhengige variabelen, slik at $x = N$ og $y = S_N$. Vi kan prøve oss med en andregradsfunksjon, som gir modellklassen

$$
f(x) = ax^2 + bx + c
$$

og vi kan bruke Python til å bestemme hva $a$, $b$ og $c$ må være for at modellen skal passe *best mulig* til datapunktene.

In [11]:
from scipy.optimize import curve_fit

def f(x, a, b, c):
    return a * x**2 + b * x + c

x = [1, 2, 3, 4, 5]
y = [1, 3, 6, 10, 15]

parametere, usikkerheter = curve_fit(f, x, y)

a, b, c = parametere

print(f"{a = :.4f}")
print(f"{b = :.4f}")
print(f"{c = :.4f}")

a = 0.5000
b = 0.5000
c = -0.0000


Som betyr at $a = 1/2$, $b = 1/2$ og $c = 0$, som gir funksjonsmodellen

$$
f(N) = \frac{1}{2}N^2 + \frac{1}{2}N = \frac{N(N+1)}{2},
$$

som viser seg å være den eksakte formelen for summen av de $N$ første heltallene.