# Modul 4: Multippel regresjonsanalyse

## 1. Beskrivelse av analysen
Multippel regresjonsanalyse undersøker forholdet mellom én avhengig variabel og to eller flere uavhengige variabler.
Den brukes for å forstå hvordan prediktorer påvirker utfallsvariabelen og for å lage prediksjoner.

## 2. Forutsetninger

- Den avhengige variabelen må være numerisk (kontinuerlig).
- Uavhengige variabler kan være numeriske eller kategoriske.
- Antakelser for multippel regresjon:
  - Lineært forhold mellom prediktorer og den avhengige variabelen.
  - Uavhengighet mellom observasjoner.
  - Homoskedastisitet (like varians for residualer).
  - Normalfordeling av residualer.
  - Fravær av multikolinearitet mellom prediktorene.


## 3. Vanlige visualiseringer

- Parplott: Visualiserer forholdet mellom alle numeriske variabler.
- Residualplott: Sjekker for homoskedastisitet og linearitet.
- Korrelasjonskart: Identifiserer mulig multikolinearitet.


## 4. Viktige statistiske mål
- Koeffisienter: Måler effekten av hver prediktor på den avhengige variabelen.
- R-kvadrert: Andelen varians forklart av modellen.
- Justert R-kvadrert: Justerer R-kvadrert for antall prediktorer i modellen.
- p-verdier: Avgjør den statistiske signifikansen til koeffisientene.
- F-statistikk: Tester den overordnede signifikansen til modellen.


## 5. Nyttig Python-kode

### a. Importere biblioteker og laste inn data
```python
import pandas as pd
import statsmodels.api as sm
import seaborn as sns
import matplotlib.pyplot as plt
 
# Laste inn datasett
data = pd.read_csv('data.csv')
``` 

### b. Utforske data (EDA)
```python
# Parplott for å undersøke forhold
sns.pairplot(data)
plt.show()

# Korrelasjonskart
sns.heatmap(data.corr(), annot=True, cmap='coolwarm')
plt.show()
```

### c. Bygge en multippel regresjonsmodell
```python
# Definer avhengige og uavhengige variabler
y = data['utfallsvariabel']  # Avhengig variabel
X = data[['prediktor1', 'prediktor2', 'prediktor3']]  # Uavhengige variabler

# Legg til en konstant for konstantleddet
X = sm.add_constant(X)

# Bygg og tilpass modellen
modell = sm.OLS(y, X).fit()

# Sammendrag av modellen
print(modell.summary())
```

### d. Modellens diagnostikk
```python
# Residualplott
sns.residplot(x=modell.fittedvalues, y=modell.resid, lowess=True, line_kws={'color': 'red'})
plt.xlabel('Tilpassede verdier')
plt.ylabel('Residualer')
plt.title('Residualplott')
plt.show()

# QQ-plott for å sjekke normalfordeling av residualer
sm.qqplot(modell.resid, line='45')
plt.show()
```

## 6. Eksempler i kontekst

- Predikere boligpriser basert på kvadratmeter, antall soverom og beliggenhet.
- Analysere effekten av markedsføringsbudsjett, prissetting og sesongvariasjon på salgsinntekter. 

## 7. Sjekkliste for antakelser

- Sjekk for lineære forhold ved hjelp av spredningsdiagrammer eller residualplott.
- Undersøk multikolinearitet ved hjelp av et korrelasjonskart eller Variance Inflation Factor (VIF).
- Sørg for at residualene er normalfordelte (bruk et QQ-plott).
- Verifiser homoskedastisitet med residualplott. 
## 8. Utfordringer og vanlige feil

- Ignorere multikolinearitet: Sterkt korrelerte prediktorer kan forvrenge koeffisientanslagene.
- Overtilpasning: Bruke for mange prediktorer i forhold til utvalgsstørrelsen.
- Feiltolke p-verdier: Små p-verdier indikerer kun korrelasjon, ikke kausalitet.
- Overse interaksjonseffekter: Viktige interaksjoner mellom prediktorer kan gå tapt. 
## 9. Ressurser for videre læring

### Nettkurs:
- Statsmodels regresjon
- Seaborn parplott
### Dokumentasjon:
- Statsmodels OLS
- Matplotlib residualplott 