# Eksempel på lineær regresjon

Under vises en av mange metoder på hvordan man kan utføre lineær regresjon i Python.
Her bruker vi to pakker for å gjøre regresjonen:

* Vi bruker [matplotlib](https://matplotlib.org/) for å lage figurer.
* Vi bruker [numpy](https://numpy.org/) for å utføre lineær regresjon.

In [None]:
# Først importerer vi de to pakkene vi skal bruke:
import matplotlib.pyplot as plt  # matplotlib
import numpy as np  # og numpy
# Også forteller vi matplotlib at vi plotter i en notebook (dette gjør at vi kan zoome og flytte rundt i figurene):
%matplotlib notebook

In [None]:
# Deretter taster vi inn x-verdiene og y-verdiene vi skal tilpasse.
# Vi tar her dataene fra vedlegg 3 i lab-heftet:
x = [16, 20, 24, 28, 32, 36, 40, 44, 48, 52] # Liste med eksperimentelle x-verdier
y = [13, 18, 24, 37, 27, 30, 31, 35, 42, 43] # Liste med eksperimentelle y-verdier

In [None]:
# La oss plotte de målte verdiene for å se hvordan de ser ut:
plt.figure() # Lag ny figur.
plt.scatter(x, y); # Plot x og y i et "scatter" plot.

Når vi plotter med matplotlib er ved *veldig* mye forskjellig vi kan stille på.
Under er et eksempel der vi legger til tekst på aksene, endrer på symbolet og fargen vi bruker i plottet og
endrer på størrelsen på punktene.

Matplotlib har et [stort galleri med eksempler](https://matplotlib.org/stable/gallery/index.html) for ulike typer plott. Hvis du syns figurene ser litt kjedelige ut, så kan du f.eks. prøve å endre
på "stilen". Dette kan gjøres med ``plt.style.use("navn-på-stil")``
der ``navn-på-stil`` er en [matplotlib stil](https://matplotlib.org/stable/gallery/style_sheets/style_sheets_reference.html).

In [None]:
plt.figure(constrained_layout=True) # Lag ny figur, men fjern litt tomrom ("constrained_layout=True") i figuren.
plt.scatter(x, y, marker='X', s=200, color='tomato') # Plot x og y i et "scatter" plot, endre symbol og størrelse.
plt.xlabel('Dette er teksten på x-aksen')
plt.ylabel('Dette er teksten på y-aksen')
plt.title('Min fantastiske figur!');

I figuren over ser det ut til at det kan passe bra med en rett linje!

For å tilpasse linja bruker vi metoden
metoden [polyfit](https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html) fra [numpy](https://numpy.org/). Denne metoden gjør tilpassing av polynomer ved minste kvadraters metode:

In [None]:
fit = np.polyfit(x, y, deg=1) # Tilpasse rett linje, "fit" inneholder nå koeffisientene.

For å bruke [polyfit](https://numpy.org/doc/stable/reference/generated/numpy.polyfit.html) gir vi inn x- og y-verdiene. I tillegg setter vi ``deg=1`` for å få en rett linje på formen $y = a + b x$. Metoden returnerer parameterne og over lagrer vi disse i variabelen ``fit``.

Parameteren ``deg`` velger ordenen til polynomet vi tilpasser. Hvis vi har grunn til å tro at det f.eks.
passer bedre med et 2. ordens polynom på formen $y = a_0 + a_1 x + a_2 x^2$, så kan vi tilpasse dette
ved å sette ``deg=2``.

In [None]:
# Som vi skrev over, så inneholder listen "fit" nå koeffisientene til linjen, altså a og b:
print(fit)

In [None]:
# Rekkefølgen på parameterne er: [stigningstall, skjæringspunkt]:
b, a = fit[0], fit[1]
print(f"Skjæringspunkt (a): {a:.2f}")
print(f"Stigningstall (b): {b:.2f}")

For å plotte linjen, kan vi bruke skjæringspunktet og stigningstallet vi har funnet.
I [numpy](https://numpy.org/)
er det en egen metode, [polyval](https://numpy.org/doc/stable/reference/generated/numpy.polyval.html), som kan hjelpe oss med dette. Vi kan da regne ut y-verdier for den rette linjen for hver opprinnelig x-verdi:

In [None]:
y_hat = np.polyval(fit, x) #"y_hat" inneholder alle y-verdiene til den rette linjen ved x-verdier gitt i listen vår "x".

In [None]:
# La oss plotte linjen og de opprinnelige punktene:
plt.figure() # Lag ny figur.
plt.scatter(x, y) # Vis de målte verdiene.
plt.plot(x, y_hat, color='black');  # Vis den tilpassede linjen.

Det er god praksis å inkludere en eller flere parametere som sier noe om hvor
bra den rette linjen vi har funnet er.
Her kan vi bruke den såkalte $R^2$-verdien, og vi regner den derfor ut (her kan du sjekke om formlene vi bruker under stemmer med vedlegg 3 i laboratorieheftet):

In [None]:
# Regne ut R^2
SSE = np.sum((y - y_hat)**2)
SST = np.sum((y - np.average(y))**2)
R2_1 = 1 - SSE / SST
print(f"R² = {R2_1:.2f}")

In [None]:
# Lag ny figur der vi tar med de målte punktene, den rette linjen og viser R²:
fig, ax = plt.subplots()  # Her lager vi en figur og akser. Aksene bruker vi for å endre litt på stilen:
ax.spines['top'].set_visible(False)  # Skru av aksen i toppen av figuren.
ax.spines['right'].set_visible(False)  # Skru av aksen til høyre i figuren.

# Scatterplot av datasettet
plt.scatter(x, y)

# Regresjonslinjen
plt.plot(x, y_hat, c='k')

# R^2 i figur
plt.text(16, 43, f"R²: {R2_1:.2f}", c="k")

# Aksetitler
plt.xlabel("Temperatur [°C]")
plt.ylabel("Mengde av komponent Y [g]")

plt.show()

Ved å observere grafen over kan man tenke seg at et av punktene er en utligger da det skiller seg ut fra de andre punktene ved å ikke følge den rette linjen.
Under har dette punktet blitt fjernet og en ny regresjon har blitt utført.

In [None]:
# Liste uten utligger
x2 = [16, 20, 24, 32, 36, 40, 44, 48, 52]
y2 = [13, 18, 24, 27, 30, 31, 35, 42, 43]

# Tilpasse linje til data
fit = np.polyfit(x2, y2, deg=1)
y_hat2 = np.polyval(fit, x2)

# Finne skjæringspunkt og stigningstall
b, a = fit[0], fit[1]
print(f"Skjæringspunkt (a): {a:.2f}")
print(f"Stigningstall (b): {b:.2f}")

# Regne ut R²
SSE = np.sum((y2-y_hat2)**2)
SST = np.sum((y2-np.average(y2))**2)
R2 = 1 - SSE/SST

# Figur
fig, ax = plt.subplots()
plt.scatter(x2, y2)
ax.spines['top'].set_visible(False)
ax.spines['right'].set_visible(False)
plt.plot(x2, y_hat2, c='k')


# R² i figur
plt.text(16, 42, f"R²: {R2:.2f}", c="k")

# Aksetitler
plt.xlabel("Temperatur [°C]")
plt.ylabel("Mengde av komponent Y [g]")

plt.show() # Vis figuren!

I den nye modellen har vi en veldig høy $R^2$-verdi som indikerer at den rette linjen beskriver datasettet vårt godt.