# Simple Regression Models - Groepsopdracht voor werkcollege

## Casus
De BOVAG – een brancheorganisatie van ruim 8.000 ondernemers die zich met mobiliteit bezighouden – wil autoprijzen nauwkeuriger kunnen voorspellen. Veel van de bij BOVAG aangesloten organisaties zijn gespecialiseerd in de handel in personenauto’s en zoeken namelijk naar een model waarop ze hun autoprijzen kunnen baseren. Omdat het vaak kleine organisaties (lees: garages) zijn, beschikken ze zelf niet over de capaciteiten en expertises om zo’n model te ontwikkelen. Daarom wordt dit vraagstuk door BOVAG opgepakt. 

Op basis van een beschikbare dataset met daarin data van 205 personenauto’s wil men dit model ontwikkelen. Jullie worden ingehuurd om dit model te ontwikkelen en BOVAG te adviseren. In dit werkcollege en het komende werkcollege gaan jullie stapsgewijs dit model ontwikkelen en prijsvoorspellingen ontwikkelen voor veel voorkomende typen auto’s. 

In dit werkcollege starten jullie met de ontwikkeling van het model door de data te verkennen met behulp van simpele regressiemodellen: modellen met telkens één andere predictor (X) en dezelfde outcome, namelijk de prijs van een auto (Y). 

Deze Y heeft als variabelenaam ***price*** en is van *ratio* meetniveau.

Jullie gaan in dit werkcollege vier modellen onderzoeken. In de tabel hieronder zie je welke predictor in welk model centraal staat:

| Model | Predictor (X) | Variabelenaam | Meetniveau |
| :--- | :--- | :--- | :--- |
| 1 | Maximum aantal omwentelingen van de as per minuut | peakrpm | Ratio | 
| 2 | Omvang van de motor | enginesize | Ratio |
| 3 | PK (vermogen) | horsepower | Ratio |
| 4 | Carrosserie | carbody | Nominaal |

Importeer eerst onderstaande Python packages door deze code te runnen:

In [None]:
## Als je een foutmelding krijgt, uncomment dan de volgende 3 regels (verwijder '#') en run de cel opnieuw.

# !pip install numpy==1.23.5
# !pip install pandas==1.5.3
# !pip install statsmodels==0.14.0

import numpy as np
import pandas as pd
import statsmodels.api as sm

print(np.__version__,pd.__version__,sm.__version__)

## Stap 1: Beschrijvende analyses

Vraag via onderstaande code de volgende centrum- en spreidingsmaten op voor de variabelen: gemiddelde, standaard deviatie (SD) en bereik (mininum en maximum).

Bedenk waarom deze beschrijvende statistieken voor de variabele ‘carbody’ niet worden weergeven. 

In [None]:
#lees eerst de dataset in, dat kun je doen door deze cel te runnen
carprice_df = pd.read_csv("https://raw.githubusercontent.com/uashogeschoolutrecht/ADDB-DE-22/master/WC3_simple_linear_regression_model/CarPrice_Assignment.csv")

Maak gebruik van de .describe() functie om de statistieken van de hierboven genoemde kolommen op te vragen.

In [None]:
#Vraag centrum- en spreidingsmaten op
carprice_df[["Definieer hier de predictoren"]].describe()

## Stap 2 - Simple Regresssion Models met *continue* predictoren

Onderzoek de eerste drie modellen één voor één in Python middels onderstaande code en beantwoord de vragen. 

### Model 1

In [None]:
y = "TODO: definieer hier de predictor door de juiste kolom te selecteren in carprice_df"
X = "TODO: definieer hier de afhankelijke variabele door de juiste kolom te selecteren in carprice_df"

Omdat we ook een Intercept willen opvragen in de output, voegen we een kolom met 1-en toe aan X:

In [None]:
X = sm.add_constant(X) #add an intercept 

Vervolgens defineren we het model, we trainen hem (fit) en printen de resultaten

In [None]:
model1 = sm.OLS(y, X)
results1 = model1.fit()
print(results1.summary())

### Model 2

In het tweede model blijft de outcome hetzelfde, maar verandert de predictor. Daarom laten we y dezelfde waarde behouden als hierboven, maar moet je X opnieuw definiëren.

In [None]:
X = "TODO: definieer hier de predictor door de juiste kolom te selecteren in carprice_df"

In [None]:
X = sm.add_constant(X) #add an intercept 
model2 = sm.OLS(y, X)
results2 = model2.fit()
print(results2.summary())

### Model 3

Ook voor model 3 kunnen blijf y gelijk, maar moeten we X opnieuw definiëren.

In [None]:
X = "TODO: definieer hier de predictor door de juiste kolom te selecteren in carprice_df"

In [None]:
X = sm.add_constant(X) #add an intercept 
model3 = sm.OLS(y, X)
results3 = model3.fit()
print(results3.summary())

### Vraag 1
*Wat betekent de R square per model? En welk model is op basis van de R square het beste in het voorspellen van de prijs van een auto?* 

Typ hier je antwoord

### Vraag 2
*Hoe interpreteer je de output onder F statistic? Wat betekent dit voor de verschillende modellen?* 

Typ hier je antwoord

### Vraag 3
*Interpreteer, indien relevant, de uitkomst onder Beta’s (coef) zeer nauwkeurig per model. *

Typ hier je antwoord

## Stap 3 - Simple Regression Model met *categorische* predictor

Onderzoek het vierde model in Python middels onderstaande code en beantwoord de vragen. 

Het aanmaken van dummy variabelen kan heel makkelijk met de get_dummies() functie van pandas: https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

Hieronder is een deel van de code al gegeven, je hoeft alleen maar de data in te voeren, wat in dit geval de 'carbody' kolom is van carprice_df

In [None]:
carbody_dummies = pd.get_dummies("TODO: selecteer de kolom waar je dummies van wilt maken")

In [None]:
#antwoord
carbody_dummies = pd.get_dummies(carprice_df['carbody'])

Omdat we 'sedan' als baseline gebruiken, willen we die kolom verwijderen uit *carbody_dummies*. Maak daarvoor gebruik van .drop() (zie: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop.html). Let op, je moet *axis = 1* meegeven om een kolom te verwijderen.

In [None]:
carbody_dummies = carbody_dummies.drop("TODO: specificeer welke kolom je wilt droppen", axis = 1)

In [None]:
#antwoord
carbody_dummies = carbody_dummies.drop('sedan', axis = 1)

Om vervolgens het model te kunnen trainen moet je weer de predictoren toewijzen aan de variabele X.

In [None]:
X = "TODO: wijs de predictoren toe aan X"

In [None]:
#antwoord
X = carbody_dummies

In [None]:
X = sm.add_constant(X) #add intercept column
model4 = sm.OLS(y, X)
results4 = model4.fit()
print(results4.summary())

### Vraag 1
*Wat betekent de R square van dit model? Vergelijk ook de vier onderzochte modellen: welk model is op basis van de R square het beste in het voorspellen van de prijs van een auto?* 

Typ hier je antwoord

### Vraag 2
*Hoe interpreteer je de output onder F statistic? Wat betekent dit voor dit model?* 

Typ hier je antwoord

### Vraag 3
*Interpreteer, indien relevant, de uitkomst onder Beta’s (coef) zeer nauwkeurig per variabele.* 

Typ hier je antwoord

## Stap 4 - Conclusies en advies

*Trek conclusies en breng op basis van bovenstaande resultaten een advies uit aan de opdrachtgevers van BOVAG.* 

Zorg ervoor dat je conclusies en advies aan de volgende criteria voldoen:
- Conclusies: Geef een korte beschrijving van resultaten in **‘lekentaal’** (te begrijpen voor iemand zonder veel kennis van statistiek).
- Advies: Geef concrete aanbevelingen. Schrijf bijvoorbeeld niet alleen op ‘er is vervolgonderzoek nodig’, of ‘interventies moeten gericht zijn op variabele Y’, maar geef ook concrete suggesties. 

Typ hier jullie conclusies in lekentaal

Typ hier jullie advies