# Linear Regression

In deze workshop gaan we verder met het voorspellen van huisprijzen. De data die we gebruiken zijn data van funda. Gegevens van huizen en de bijbehorende vraagprijs. We gaan vandaag de data verkennen. Morgen gaan we een voorspellend model trainen


Dit notebook:
- voorspellen met lineaire regressie


Vandaag is er maar 1 doel. Probeer de best mogelijke performance te krijgen (= de laagste error). 
Stuur je beste model bestaande uit:
- de features + evt bewerkingen 
- de means squared error van je model
- de R2 score

Ga lekker aan de slag je resultaten op naar maya.sappelli@han.nl




In [None]:
#download de funda dataset hier:
!wget -N -q https://msappelli.github.io/teaching/nl_for_sale_all_anon.json

In [None]:
# data inlezen en beschrijven
import numpy as np
import pandas as pd
import math
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

df = pd.read_json("nl_for_sale_all_anon.json")

df["vraagprijs"] = pd.to_numeric(df["vraagprijs"].str.replace(".",""))
df["bouwjaar"] = pd.to_numeric(df["bouwjaar"].str.replace("\w+\s+",""))
df["perceel"] = pd.to_numeric(df["perceel"])
df.dropna(subset=['vraagprijs']) # we kijken alleen naar huizen waar de we vraagprijs van weten
df.info()

## Stap 1: Features

Eerst gaan we features kiezen en een simpel basis model trainen zodat jullie allemaal een basis hebben om op voort te borduren. Dit basis model gebruikt alleen de woonoppervlakte om de prijs te voorspellen.




In [None]:

y = df['vraagprijs']
X = df[['woonoppervlakte']] # df[['feature1'],['feature2']] ...


In [None]:
#Zoals we bij het verkennen van de data gezien hebben komen er in de data huizen voor
# waarbij niet elke feature een waarde heeft. Om de data geschikt te maken om hier op een model
# op te trainen moeten deze waardes opgevuld worden, voor het gemak vullen we al deze waardes nu met 0 op
X = X.fillna(0)
X

## Stap 2: Splitsen train/test set

We splitsen de data in een train en test set zodat we kunnen zien hoe goed het model is in het voorspellen van huisprijzen van huizen die hij niet al gezien heeft. We gebruiken 20% van de data als testdata

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

## Stap 3: Trainen

En vervolgens trainen we het model
Hiermee ontstaat er een model van de vorm Y= a + w1x + w2x2 ... wnxn 

In [None]:
from sklearn.linear_model import LinearRegression
#Eerst maken we ons model aan
lr = LinearRegression()

#Hierna trainen we het model op de trainingsdata om de coefficienten voor ons model te berekenen
lr.fit(X_train, y_train)



## Stap 4: Evaluatie

Nu we een model hebben kunnen we het toepassen op de ongeziene testdata om een beeld te krijgen hoe goed de voorspellingen zijn. Hiervoor kijken we naar 
- **de mean squared error**: de gemiddelde afwijking tussen voorspelde en daadwerkelijke vraagprijs. Deze wil je zo laag mogelijk hebben 
- **de R2 waarde**: Dit is een maat die aangeeft hoe goed de afhankelijke variabele (vraagprijs) voorspelbaar is op basis van de input (features). 
- We kunnen ook kijken naar voorspellingen die goed en fout gaan. Idealiter doe je dit op nog een aparte validatie set zodat de test-set echt helemaal clean blijft tot de eind-evaluatie. Kun je bedenken waarom?

In [None]:
from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score
pd.set_option('display.float_format', lambda x: '%.2f' % x)

def print_results(data, actual, predictions):
  print("vraagprijs = " , lr.intercept_ , " + " , " + ".join(["{} * {}".format(el[0],el[1]) for el in list(zip(lr.coef_, X_train.columns))]))
  print("MSR: ", mean_squared_error(actual,predictions)**(1/2))
  print("R2", r2_score(actual,predictions))

  results = data.copy()
  results['predicted'] = predictions
  results['true'] = y_test
  results['difference'] = results['predicted'] - results['true']

  display(results.iloc[results['difference'].abs().argsort()])



predictions = lr.predict(X_test)
print_results(X_test, y_test, predictions)

# Opdracht: De Voorspellingen Verbeteren

Nu heb je 1 basis model geprobeerd. De uitdaging is nu om de best mogelijke voorspellingen te krijgen.

Op de traindata kunnen we experimenteren met verschillende features: welke data gebruik je om te trainen en wil je deze data misschien nog transformeren.



* Let erop dat een lineair regressie model alleen met numerieke waarden kan werken. Wil je bijvoorbeeld de stadsnaam gebruiken zul je deze eerst om moeten zetten naar een dummy variabele die numeriek is.  Zie bijvoorbeeld [one-hot encoding](https://en.wikipedia.org/wiki/One-hot) en [sklearn one-hot encoder] (https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)

* Er zitten nog wat features in die misleidend zijn of foutieve informatie of missende data bevatten, kun jij deze vinden?


* Krijg je betere / andere resultaten met SGDRegressor? [https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDRegressor.html] en wat is de invloed van de *parameters* ? 

* Voor meer inspiratie kijk eens op https://towardsdatascience.com/buying-a-house-in-the-netherlands-in-a-nerdy-way-1433691c6f2a


Stuur je beste model (welke features/transformaties je gebruikt hebt & evaluatie resultaten) in een mail naar maya.sappelli@han.nl


