# Arbeidsark: ANOVA og bivariat regresjonsanalyse i Python

## Målsetninger:
- Laste inn et datasett fra en CSV-fil
- Utføre og tolke:
  - Analyse av Varians (ANOVA)
  - Bivariat Regressjonsanalyse
  - Formelle tester for forutsetninger
- Visualisere resultater for bedre tolkning

## Oppgaver for modulen 
- Last inn datasettet og undersøk strukturen ved hjelp av .head() og .info().
- Utfør ANOVA for å sammenligne gjennomsnitt på tvers av kategorier for en numerisk variabel.
- Tilpass en bivariat regresjonsmodell og tolk resultatene.
- Test forutsetningene for regresjon:
    - Lineæritet
    - Normalitet av residualer
    - Homoskedastisitet
- Visualiser resultatene ved hjelp av spredningsplott, boksplott og histogrammer.
- Tolk funnene og diskuter betydningen av resultatene.

### Aller første du må gjøre, er å importere biblioteker som skal brukes

In [None]:
# Steg 1: Importer nødvendige biblioteker
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import f_oneway, shapiro
from statsmodels.formula.api import ols
import statsmodels.api as sm



## 1. Last inn datasettet
(Husk å kjør koden i data-cellene for å få resultater. Dette gjøres ved å sette markøren i cellen, og enten klikke [ctrl]+[enter] på tastaturet, eller klikke "play" knappen på menyen over.

In [None]:
# Last inn datasettet fra en CSV-fil
# Bytt ut 'your_file.csv' med filstien til datasettet ditt
file_path = 'filnavn'
data = pd.read_csv(file_path)

# Vis de første radene i datasettet
data.head()

## 1b: Still noen forskningsspørsmål
Se på variablene, og lag noen aktuelle forsknignsspørsmål. Husk på kravene til gode spørsmål. 
Et slik kan være: "Er det forskjell på lønn for menn og kvinner?" 

### skriv inn spørsmål her: 

......


## 2. Analyse av Varians (ANOVA)
ANOVA brukes til å sammenligne gjennomsnitt på tvers av flere grupper for en numerisk variabel.

### oppgave:
Utfør ANOVA for å sammenligne gjennomsnitt på tvers av kategorier for en numerisk variabel.


In [None]:
# Utfør ANOVA
# Bytt ut 'numerical_column' med den numeriske variabelen og 'group_column' med gruppenavnet
numerical_column = 'variable navn'
group_column = 'variabel navn'

# Grupper data etter den kategoriske variabelen
groups = [group[numerical_column].dropna() for name, group in data.groupby(group_column)]

# Utfør enveis ANOVA
f_stat, p_value = f_oneway(*groups)

print(f"ANOVA-resultater: F-statistikk = {f_stat}, P-verdi = {p_value}")

# Tolkning
if p_value < 0.05:
    print("Det er en statistisk signifikant forskjell mellom gruppene.")
else:
    print("Det er ingen statistisk signifikant forskjell mellom gruppe.")

# Visualiser gruppe snittene
plt.figure(figsize=(8, 6))
sns.boxplot(x=group_column, y=numerical_column, data=data)
plt.title(f"Boksplott av {numerical_column} etter {group_column}")
plt.xlabel(group_column)
plt.ylabel(numerical_column)
plt.show()

## 3. Bivariat Regressjonsanalyse
Tilpasning av Regressjonsmodellen
### oppgave:
Tilpass en bivariat regresjonsmodell og tolk resultatene.

In [None]:
# Tilpass en regresjonsmodell
# Bytt ut 'y_column' med avhengig variabel og 'x_column' med uavhengig variabel
y_column = 'variabel'
x_column = 'variabel'

# Lag og tilpass regresjonsmodellen
X = sm.add_constant(data[x_column])  # Legg til konstant for skjæringspunkt
model = sm.OLS(data[y_column], X).fit()

# Vis oppsummering av modellen
print(model.summary())

## 4. Test Forutsetningene for Regressjonsanalyse
- a) Lineæritet
- b) Normalitet av Residualer
- c) Homoskedastisitet

### oppgave:
Test forutsetningene for regresjon:
Lineæritet
Normalitet av residualer
Homoskedastisitet

In [None]:
# Visualiser sammenhengen
# a) Lineæritet
plt.figure(figsize=(8, 6))
sns.scatterplot(x=data[x_column], y=data[y_column])
plt.plot(data[x_column], model.fittedvalues, color='red', label='Regresjonslinje')
plt.title(f"Spredningsplott med Regresjonslinje: {x_column} vs {y_column}")
plt.xlabel(x_column)
plt.ylabel(y_column)
plt.legend()
plt.show()

# Normalitet av Residualer
# Utfør Shapiro-Wilk test for normalitet av residualer
residuals = model.resid
stat, p_value = shapiro(residuals)

print(f"Shapiro-Wilk Test: Statistikk = {stat}, P-verdi = {p_value}")

if p_value < 0.05:
    print("Residualene er ikke normalfordelte.")
else:
    print("Residualene er normalfordelte.")

# Visualiser residualene
sns.histplot(residuals, kde=True)
plt.title("Histogram av Residualer")
plt.xlabel("Residualer")
plt.show()

# c) Homoskedastisitet
plt.figure(figsize=(8, 6))
sns.scatterplot(x=model.fittedvalues, y=residuals)
plt.axhline(0, color='red', linestyle='--')
plt.title("Residualer vs Tilpassede Verdier")
plt.xlabel("Tilpassede Verdier")
plt.ylabel("Residualer")
plt.show()

## 5. Drøft innsikter
I analysene over, bør du ha fått noen innsikter fra analysene, og tolk visualiseringene. Presenter disse her: 
(Hint: hva ser du om sammenheng mellom forskjellige typer variabler: kategoriske, numeriske, m.m. om variablene du så på?)
Sørg for at du har svart på spørsmålene du stilte øverst. 

### Skriv svaret her
...