# Eksempler på datasett for lineær regresjon

In [None]:
import pandas as pd # lese data fra csv-fil og bruke DataFrames
import seaborn as sns # plotting
sns.set(style = 'whitegrid', font_scale = 1.5) # utseende av plott
import matplotlib.pyplot as plt # mer plotting
import numpy as np # matematikk
import statsmodels.api as sms # regresjonen
import statsmodels.formula.api as smf # formel for regresjonen

## Eksempel 1: Sykkel

Datasettet 'sykkel.csv' inneholder registrert kaloriforbruk, tid og høyeste målte puls (makspuls) på 38 innendørs sykkel-økter. Tid og puls ble registrert med en treningsklokke, og treningsklokka har en innebygd algoritme som (sammen med konstanter slik som personens kjønn, alder, vekt, ...) beregner kaloriforbruket på en treningsøkt. For denne typen treningsøkter skal vi avgjøre om det er tid eller makspuls (høyeste målte puls) som er den beste forklaringsvariabelen for kaloriforbruk. 

### Steg 1: Lese inn og se på dataene

Vi leser inn datasettet 'sykkel.csv' og plotter `y = Kalorier` mot `x = MaksPuls` og `y = Kalorier` mot `x = Tid` med en plottefunksjon som også viser estimert regresjonslinje og 95% konfidensintervall for linja. Kanskje ser du allerede hvilken modell som vi ha høyeste $R^2$, alså høyeste andel forklart varians i kaloriforbruk? 

In [None]:
dfsykkel = pd.read_csv('https://www.math.ntnu.no/emner/IST100x/python_felles/sykkel.csv') # lese inn datasettet
dfsykkel.head()

In [None]:
plt.subplot(1, 2, 1)
sns.regplot(x='MaksPuls', y='Kalorier', data=dfsykkel)
plt.ylim(290,510)

plt.subplot(1, 2, 2)
sns.regplot(x='Tid', y='Kalorier', color ="g", data=dfsykkel)
plt.ylim(290,510)

plt.tight_layout(); plt.show()

### Steg 2: Tilpasse regresjonsmodell

I koden nedenfor har vi tilpasset en slik lineær regresjonsmodell for `Kalorier` som funksjon av på `MaksPuls`. Finn ut hvor god modellen er, og sammenlign med en ny modell der du bytter ut `MaksPuls` med `Tid`. 

In [None]:
sykkelmodell = smf.ols('Kalorier~MaksPuls', data=dfsykkel).fit()
sykkelmodell.summary()

## Eksempel 2: Simulerte data i tre ulike datasett

Vi har generert tre ulike datasett som hver inneholder observasjoner av en kovariat ($x$) en responsvariabel $y$. 

In [None]:
filA="https://www.math.ntnu.no/emner/IST100x/python_felles/dataA.csv"
filB="https://www.math.ntnu.no/emner/IST100x/python_felles/dataB.csv"
filC="https://www.math.ntnu.no/emner/IST100x/python_felles/dataC.csv"

In [None]:
minfil=filA # endre til hvilken fil du skal bruke
df = pd.read_csv(minfil)
df.head()

### Steg 1: Kryssplott

Under finner du et kryssplott av x mot y. Hvilken sammenheng er det mellom x og y?

- trolig ingen?
- positiv lineær sammenheng?
- negativ lineær sammenheng?
- ikke-lineær sammenheng?

In [None]:
sns.relplot(x="x", y="y",data = df)

print(df.corr()) # dette er en matrise med korrelasjonskoeffisienten i element 2,1 og 1,2

### Steg 2: Tilpasse regresjonsmodell

In [None]:
modell = smf.ols('y~x',df).fit()
modell.summary()