# Modul 3: Korrelasjonsanalyse og variansanalyse (ANOVA)

## 1. Beskrivelse av analysen
 
- Korrelasjonsanalyse: Måler styrken og retningen på forholdet mellom to numeriske variabler.
- Variansanalyse (ANOVA): Sammenligner gjennomsnitt på tvers av flere grupper for å vurdere om forskjeller er statistisk signifikante.
 

## 2. Forutsetninger
 
- Korrelasjonsanalyse:
  - Begge variablene må være numeriske.
  - For Pearson-korrelasjon bør variablene ha et lineært forhold.
- Variansanalyse (ANOVA):
  - Avhengig variabel må være numerisk.
  - Uavhengig variabel må være kategorisk med to eller flere grupper.
  - Antakelser for ANOVA:
    - Normalfordeling av den avhengige variabelen innenfor hver gruppe.
    - Homogenitet av varians på tvers av grupper (bruk Levene’s Test for å sjekke).
 

## 3. Vanlige visualiseringer
 
- Korrelasjonsanalyse:
  - Spredningsdiagram: Visualiserer forholdet mellom to variabler.
  - Korrelasjonskart (varmekart): Viser styrken av korrelasjoner mellom flere variabler.
- Variansanalyse (ANOVA):
  - Boksdiagram: Sammenligner distribusjoner av den avhengige variabelen på tvers av grupper.
 

## 4. Viktige statistiske mål
 
- Korrelasjonsanalyse:
  - Pearson-korrelasjonskoeffisient (r): Måler lineær korrelasjon (-1 til 1).
  - Spearman-rangkorrelasjon: Måler monotone forhold (ikke-parametrisk).
- Variansanalyse:
  - F-statistikk: Forholdet mellom varians mellom grupper og varians innen grupper.
  - p-verdi: Signifikansnivå for gruppens forskjeller.
 

## 5. Python-kodeeksempler

### a. Importere biblioteker og laste inn data
```python
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns

# Laste inn datasett
data = pd.read_csv('data.csv')
```
### b. Korrelasjonsanalyse
```python
# Spredningsdiagram
sns.scatterplot(x='numerisk_var1', y='numerisk_var2', data=data)
plt.show()

# Korrelasjonskart
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.show()

# Pearson-korrelasjon
korrelasjon, p = stats.pearsonr(data['numerisk_var1'], data['numerisk_var2'])
print(f"Pearson-korrelasjon: {korrelasjon}, p-verdi: {p}")

# Spearman-korrelasjon (ikke-parametrisk)
korrelasjon, p = stats.spearmanr(data['numerisk_var1'], data['numerisk_var2'])
print(f"Spearman-korrelasjon: {korrelasjon}, p-verdi: {p}")
```

### c. Variansanalyse (ANOVA)
```python
# Boksdiagram
sns.boxplot(x='kategori_var', y='numerisk_var', data=data)
plt.show()

# Utføre enveis ANOVA
anova = stats.f_oneway(
    data[data['kategori_var'] == 'Gruppe1']['numerisk_var'],
    data[data['kategori_var'] == 'Gruppe2']['numerisk_var'],
    data[data['kategori_var'] == 'Gruppe3']['numerisk_var']
)
print(f"F-statistikk: {anova.statistic}, p-verdi: {anova.pvalue}")
```

## 6. Eksempler i kontekst
### Korrelasjonsanalyse:
- Måle forholdet mellom erfaring i år og lønn.
- Analysere sammenhengen mellom temperatur og salg av iskrem.
### Variansanalyse (ANOVA):
- Sammenligne gjennomsnittlig eksamensresultat for elever med ulike undervisningsmetoder.
- Vurdere forskjeller i gjennomsnittlig dagsomsetning på tvers av butikksteder.  

## 7. Sjekkliste for antakelser

### Korrelasjonsanalyse:
- Sjekk for lineære forhold ved hjelp av spredningsdiagrammer.
- Bruk Spearman-korrelasjon hvis forholdet ikke er lineært.
### Variansanalyse:
- Sørg for at den avhengige variabelen er normalfordelt innen hver gruppe.
- Test for homogenitet av varians ved hjelp av Levene’s Test.
- Verifiser at gruppene er uavhengige.  
## 8. Utfordringer og vanlige feil
 

- Tolke korrelasjon som kausalitet.
- Bruke Pearson-korrelasjon for ikke-lineære forhold.
- Utføre ANOVA uten å sjekke for homogenitet av varians.
- Ignorere post-hoc-tester etter signifikante ANOVA-resultater for å identifisere spesifikke gruppers forskjeller.  
## 9. Ressurser for videre læring
 

### Nettkurs:
- SciPy statistiske funksjoner
- Seaborn visualiseringer
### Dokumentasjon:
- pandas DataFrame corr()
- SciPy stats f_oneway()  
