# Modul 2: Bivariat analyse og hypotesetesting

## 1. Beskrivelse av analysen
 
Bivariat analyse undersøker forholdet mellom to variabler. Dette inkluderer metoder for å evaluere sammenhenger
mellom kategoriske eller numeriske variabler og tester for å avgjøre om sammenhenger er statistisk signifikante.
 

## 2. Forutsetninger
 
- Datatyper:
  - Begge variabler kan være kategoriske, numeriske, eller én av hver.
- Antakelser:
  - Dataene må være uavhengige (f.eks. observasjoner gjentas ikke).
  - For parametriske tester som t-tester:
    - Dataene bør være normalfordelte (numeriske variabler).
    - Variansene bør være like på tvers av grupper (homoskedastisitet).
 

## 3. Vanlige visualiseringer
 
- For kategorisk vs kategorisk:
  - Stablet stolpediagram: Sammenligner proporsjoner på tvers av kategorier.
- For numerisk vs numerisk:
  - Spredningsdiagram: Visualiserer sammenhenger og trender.
  - Varme- eller korrelasjonskart: Viser styrken av sammenhenger.
- For numerisk vs kategorisk:
  - Boksdiagram: Sammenligner distribusjoner av numeriske data på tvers av grupper.
 

## 4. Viktige statistiske mål
 
- Kategorisk vs kategorisk:
  - Chi-kvadrat-test: Tester uavhengighet mellom kategoriske variabler.
- Numerisk vs numerisk:
  - Korrelasjonskoeffisient (Pearson, Spearman): Måler styrke og retning av sammenhengen.
- Numerisk vs kategorisk:
  - t-test (uavhengig): Sammenligner gjennomsnittet for to grupper.
  - ANOVA: Sammenligner gjennomsnittet for mer enn to grupper.
 

## 5. Python-kodeeksempler

### a. Importere biblioteker og laste inn data
```python
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns

# Laste inn datasett
data = pd.read_csv('data.csv')
```

### b. Visualiseringer
```python
# Spredningsdiagram for numerisk vs numerisk
sns.scatterplot(x='numerisk_var1', y='numerisk_var2', data=data)
plt.show()

# Korrelasjonskart
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.show()

# Boksdiagram for numerisk vs kategorisk
sns.boxplot(x='kategori_var', y='numerisk_var', data=data)
plt.show()
```

### c. Statistiske tester
```python
# Chi-kvadrat-test for kategorisk vs kategorisk
kontingenstabell = pd.crosstab(data['kategori_var1'], data['kategori_var2'])
chi2, p, dof, forventet = stats.chi2_contingency(kontingenstabell)
print(f"Chi-kvadrat: {chi2}, p-verdi: {p}")

# Korrelasjonskoeffisient for numerisk vs numerisk
korrelasjon, p = stats.pearsonr(data['numerisk_var1'], data['numerisk_var2'])
print(f"Pearson-korrelasjon: {korrelasjon}, p-verdi: {p}")

# t-test for numerisk vs kategorisk (to grupper)
gruppe1 = data[data['kategori_var'] == 'Gruppe1']['numerisk_var']
gruppe2 = data[data['kategori_var'] == 'Gruppe2']['numerisk_var']
t_stat, p = stats.ttest_ind(gruppe1, gruppe2)
print(f"t-statistikk: {t_stat}, p-verdi: {p}")
```
## 6. Eksempler i kontekst
 
- Kategorisk vs kategorisk: Testing av om kjønn og valg av studieretning er uavhengige.
- Numerisk vs numerisk: Undersøke sammenhengen mellom studietimer og eksamensresultater.
- Numerisk vs kategorisk: Sammenligne gjennomsnittlig inntekt mellom ulike jobbkategorier.  
## 7. Sjekkliste for antakelser
 
- Sørg for at variablene er av riktig type for analysen.
### For t-tester og ANOVA:
- Sjekk for normalfordeling (bruk Shapiro-Wilk-test eller visualiser med histogram).
- Test for lik varians (Levene’s Test).
- Tolke p-verdier nøye (vanlig terskel: p < 0.05 og p < 0.01).  

## 8. Utfordringer og vanlige feil

- Feiltolke korrelasjon som kausalitet.
- Bruke parametriske tester (som t-test) uten å sjekke forutsetningene.
- Fokuserer kun på p-verdier uten å vurdere effektstørrelse eller praktisk betydning.  
## 9. Ressurser for videre læring
 

### Nettkurs:
- Statistiske tester med SciPy
- Seaborn-visualiseringer
### Dokumentasjon:
- pandas crosstab
- scipy.stats-modulen  
