# Tid som forklarende variabel

Rigtig mange datasæt går ud på at undersøge, hvordan vores responsvariabel $y_i$ udvikler sig over tid. Det kunne for eksempel være, hvordan befolkningstilvæksten udvikler sig for hvert år, der går. Uden at røbe for meget, så er en eksponentiel model god til at beskrive en sådan udvikling. Det vil vi se på i {numref}`Kapitel %s<ch-simpel-ikke-lineaer-regression>`.

Vi vil benævne tid med $t$. Undersøger vi et sådan datasæt, kan vi forestille os, at det har formen

$$

    (t_1,y_1),(t_2,y_2),\dots,(t_n,y_n).

$$

Det kan være en god idé at indeksere vores tidsvariabel, hvis den er angivet i årstal. Hvis den er angivet i sekunder, minutter eller timer, så er det ikke nødvendigt. Grunden til dette er, at med årstal som forklarende variabel vil give estimater for modellen, der ser meget voldsomme ud. Derfor kan vi bedre lide at benævne første årstal med 0, andet årstal med 1 og så videre. 

````{prf:eksempel}

Vi får til opgave at hjælpe en virksomhed med at prognosticere salgstal for 2024, 2025 og 2026. De giver os følgende datasæt over deres omsætning over de seneste seks år:

| År         | Omsætning (kr.) |
| ---------- | --------------- |
| 2018       | 26.021          |
| 2019       | 38.871          |
| 2020       | 61.140          |
| 2021       | 84.034          |
| 2022       | 101.384         |
| 2023       | 118.951         |

Eftersom den forklarende variabel er årstal, indekserer vi årene, og bygger modellen på datasættet:

| År (indekseret) | Omsætning (kr.) |
| --------------- | --------------- |
| 0               | 26.021          |
| 1               | 38.871          |
| 2               | 61.140          |
| 3               | 84.034          |
| 4               | 101.384         |
| 5               | 118.951         |

Ved at betragte data i et scatterplot med indekseret år langs $x$-aksen og omsætning langs $y$-aksen bliver det tydeligt, at virksomhedens omsætning udvikler sig lineært. Vi estimerer derfor en lineær model:

```{glue:figure} plot
```

```{glue:math} model
```

Her er $t$ vores indekseret år og $f(t)$ angiver omsætningen. Med den lineære model kan vi nu prædiktere omsætningen for 2024, 2025 og 2026, da disse blot svarer til indeksårene 6, 7 og 8, henholdsvis. For 2024 prædikteres omsætningen i kr. til:

$$

    f(6) = 19288.09\cdot 6 + 23513.29 \approx 139242

$$

På samme måde får vi prædiktionerne for 2025 til 158.530 kr. og for 2026 til 177.818 kr.

````



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import matplotlib.ticker
from myst_nb import glue
from sklearn.linear_model import LinearRegression

# Data
df = pd.DataFrame({
    'År (indekseret)': [0,1,2,3,4,5],
    'Omsætning (kr.)': [26021,38871,61140,84034,101384,118951]
})

# Linear regression
model = LinearRegression()
model.fit(np.array(df['År (indekseret)']).reshape((-1, 1)),df['Omsætning (kr.)'])

# Initialize plot mimicing manim/TikZ
# Enable LaTeX for all text
plt.rc('text', usetex=True)
plt.rc('font', family='serif')

# Scatter plot
fig, ax = plt.subplots()
ax.scatter(x=df['År (indekseret)'], y=df['Omsætning (kr.)'], color='#a5c743', zorder=10)

# Fitted linear model
x_seq=np.linspace(df['År (indekseret)'].min(), df['År (indekseret)'].max()+0.1, 100)
y_seq=model.intercept_+model.coef_[0]*x_seq
ax.plot(x_seq, y_seq, color = '#6a90cc')
ax.annotate(xy=(x_seq[-1],y_seq[-1]), xytext=(5,0), textcoords='offset points', 
            text=r'\textit{f}', va='center', color='#6a90cc', fontsize=12)

# Remove top and right spines
ax.spines[['top', 'right']].set_visible(False)
ax.spines[['left']].set_position('zero')

# Draw axis arrow tips
ax.plot(1, 0, ">k", transform=ax.transAxes, clip_on=False, markersize=15)  
ax.plot(0, 1, "^k", transform=ax.get_xaxis_transform(), clip_on=False, markersize=15) 

# Draw ticks
ax.tick_params(direction='inout', length=8, labelsize=12)

# Write x and y labels
ax.set_xlabel('År (indekseret)', fontsize=12)
ax.set_ylabel('Omsætning (kr.)', fontsize=12)

# Format y axis with thousand separator
ax.get_yaxis().set_major_formatter(matplotlib.ticker.FuncFormatter(lambda x, p: str.replace(format(int(x), ','), ',', '.')))

glue('plot', fig, display=False)

In [56]:
import sympy as sym
from myst_nb import glue

# Writing the model
f_t = sym.Symbol('f(t)')
model_intercept = sym.Symbol(sym.latex(sym.Float(round(model.intercept_, 2)), decimal_separator="comma"))
model_slope = sym.Symbol(sym.latex(sym.Float(round(model.coef_[0], 2)), decimal_separator="comma"))
t = sym.Symbol('t')

model_eq = sym.Eq(f_t, model_intercept + model_slope * t)
glue('model', model_eq)

Eq(f(t), 19288{,}09*t + 23513{,}29)

## Opgaver

```{prf:opgave}

Lineær regression, hvor vi godt kunne tænke os tidligere årgange med indeks (-1)?

```