[View in Colaboratory](https://colab.research.google.com/github/fabiansd/AI-workshop/blob/master/AI_workshop_melbourne.ipynb)

Github:

https://github.com/fabiansd/AI-workshop/blob/master/AI_workshop_melbourne.ipynb

# Datasett

Beskrivelse av datasett:

https://www.kaggle.com/c/home-data-for-ml-course/data


Alle måleenhetene utgjør hver sin kolonne, og kalles *features*


# Importering av data og python-bibliotek

Python tillater å bruke mange forskjellige ferdigskrevne funksjoner. Disse lagres i biblioteker som må importeres før de kan brukes. 

### Bibliotek dokumentasjon

Pandas (datahåndtering):
https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html

Seaborn (plottefunksjoner):
https://seaborn.pydata.org/index.html

Matplotlib (plottestøttefunksjoner)
https://matplotlib.org/api/_as_gen/matplotlib.figure.Figure.html#matplotlib.figure.Figure

Scikit-learn (maskinlæring):
http://scikit-learn.org/stable/


Bruk google hyppig, se på eksempler!

In [0]:
## Import av biblioteker 
import sklearn
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

pd.options.mode.chained_assignment = None  # default='warn'

pd.set_option('display.max_columns', None)

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)


## Laster ned datasettet fra lenken og lagrer dette som filen Melbourne_train.csv
from six.moves import urllib
urllib.request.urlretrieve("https://raw.githubusercontent.com/fabiansd/AI-workshop/master/data/Melbourne_train.csv", "./Melbourne_train.csv")

# Databehandling

Første steg i et AI-prosjekt er å undersøke og studere dataen. Pandas har mange funksjoner som kan hjelpe til med dette. Det er viktig få et innblikk i hvordan dataen ser ut og hva slag verdier den faktisk inneholder. Pandas kan sammenliknes med excel, bare for python.


## Utforsking av data

Dataen blir lest og lastet opp av pandas biblioteket. Dette gjøres ved å bruke pandas-funksjonen <br>
$pd.read\_csv()$. <br>Funksjonen tar en parameter som er filstien til csv-filen som vi har lastet ned. Parameteren må være av typen String. Det betyr tekst og må skrives inne mellom anførselstegn. <br> I dette tilfellet er parameteren<i> "Melbourne_train.csv"</i><br>

Funksjonen returnerer et objekt som representerer datasettet vårt. I dette tilfellet heter objektet $data$

In [0]:
data = pd.read_csv('Melbourne_train.csv')

Et Pandas-element har mange funksjoner. Disse utfører ulike operasjoner på objektet. <br>
Eksempelvis kan man skrive ut de N førset elementene i datasettet ved å skrive: <br> $data.head(N)$ <br>
Denne funksjonen tar parametre av typen heltall også kalt Integer.<br> I dette tilfellet er parameteren <i>10</i>

In [0]:
data.head(10)

På samme vis kan de 5 siste elementene vises ved å skrive: 
<br>$data.tail(5)$

In [0]:
data.tail(5)

Med pandas kan man få en statistisk oversikt over datasettet med funksjonen <br> $data.describe()$ <br> For eksempel kan vi se hva gjennomsnittlig salgspris for boliger er. <br> Merk at oversikten viser kun numeriske features, og ikke kategoriske features som også finnes i datasettet.

In [0]:
data.describe()

Videre kan det være nyttig å skrive ut navnet på alle kolonnene i datasettet vårt. Disse er lagret i en variabel til objektet $data$. <br> Disse kan aksesseres ved å skrive $data.columns$ og kan printes rett ut gjennom Python sin $print()$ funksjon 

In [0]:
print(data.columns)

Pandas kan også gi info om hva slags data som er lagret i datasettet, og hvor mange instanser det er i hver kolonne. Dette gjøres gjennom funksjonen <br>
$data.info()$ <br>
Det kan også være greit å vite hvor mange linjer det faktisk er. Vi teller derfor antallet linjre i objektet $data$ ved å bruke funksjonen <br>
$len()$ <br>
Denne funksjonen kan ta objektet $data$, som vi ønsker å telle, som parameter.

In [0]:
data.info()

## Skriver ut lengden på datasettet. Dvs antallet linjer i datasettet
print('\n Lengde på data: {}'.format(len(data)))

Som vi kan se i denne informasjonen så er det ikke like mange verdier i de ulike attributtene, det vi kaller features. Det er ikke uvanlig at det mangler verdier i datasettet. Vi kan sjekke hvilke features som mangler en eller flere verdier med funksjonene <br> $.isnull().any()$ <br>

In [0]:
print(data.isnull().any())

Ofte er registreringer ufullstendige og mangler data i spesifikke kolonner. En vanlig måte å håndtere manglende verdier på er å fjerne hele raden.

I vårt tilfelle finnes det en kolonne, <i>kvalitet på badebasseng</i>, hvor det kun er gjort <b>7</b> registreringer. Ved å fjerne alle linjer som ikke innholder verdi for denne kolonnen ville man følgelig stått igjen med <b>7</b> registreringer. Vi kan heller ikke gjøre noen god gjetning på hva de manglende verdiene skal være. Derfor er det ikke mulig å tette disse "hullene", og "PoolQC" er derfor en lite egnet feature å benytte.


For å droppe rader men en eller flere manglende verdier kan man gjøre følgende:

<br> $ data = data.dropna() $<br>

Dette resulterer i ingen registreringer, siden alle rader inneholder minst en manglende verdi.

In [0]:
data_ingen_mangel = data.dropna()
data_ingen_mangel.info()

Pandas tillater å hente ut enkeltkolonner, og man kan dermed hente ut featurene man ønsker og eskludere de man ikke ønsker. Disse kan utvinnes ved å referere til "kolonnenavnet."
Syntaksen for å hente ut en kolonne er som følger: <br>
$data['Kolonnenavn']$<br>
I vårt tilfelle velger vi å lagre denne kolonnen i et nytt pandas-objekt kalt $data\_ÅrSolgt$

In [0]:
## Kolonnen "YrSold" lagres i et nytt Pandas-objekt kalt data_ÅrSolgt
data_ÅrSolgt = data['YrSold']

## Skriver ut de 10 første linjene i data_ÅrSolgt
data_ÅrSolgt.head(10)

man kan også filtrere ut spesifikk data, som for eksempel alle boliger solgt i 2008

In [0]:
## Henter ut alle linjer der YrSold er lik 2008
data_Solgt2008 = data[data['YrSold'] == 2008]

## Skriver ut 10 første linjer av data_Solgt2008
data_Solgt2008.head(10)

Pandas fungerer på mange måter som Excel. Man kan derfor hente ut verdier ved å refere til en bestemt "celle" i objektet. 
På den måten kan enkeltverdier hentes ut med tall-indeksering ved bruk av iloc-funksjonenen. <br>
Eksempelvis henter følgende kode ut data lagret i <i>rad 0</i> og <i>kolonne 3</i>

In [0]:
## Verdien fra linje 0, kolonne 3 lagres i variabelen verdi
verdi = data.iloc[0,3]

## Navnet på kolonne 3 lagres i variabelen feature
feature = data.columns[3]

## Skriver ut variablene feature og verdi
print(feature, verdi)

Man kan lage nye subdatasett av det originale datasettet ved å hente ut ønskede kolonner med data. Dette lar deg konstruere helt nye datasett.<br>

Her introduseres vi for Pythons liste-objekt. I denne listen lagres **3** verdier av typen String; "MoSold", "YrSold", og "SalesPrice". 
<br>Listen opprettes ved å skrive: <br>
$kolonner\_salgsinfo = ['MoSold', 'YrSold', 'SalesPrice']$

Deretter kan de ønskede kolonnene hentes ut med denne listen

In [0]:
## Oppretter liste som inneholder navnene på kolonnene vi ønsker å hente ut
kolonner_salgsinfo = ['MoSold','YrSold','SalePrice']

##  Henter ut kolonnene vi ønsker fra data. Lagres i data_salgsinfo
data_salgsinfo = data[kolonner_salgsinfo]

## Skriver ut de 10 første linjene i data_salgsinfo
data_salgsinfo.head(10)

Nye features kan konstrueres ved å lage kombinasjoner av kolonner i datasettet. Siden kolonnen 'HouseAge' ikke finnes i datasettet vil det blir oprettet som en ny kolonne som inneholder data om hvor gammelt huset er. <br>Dette regnes ut ved å trekke årstallet for når huset ble solgt fra husets byggeår. 


In [0]:
## Regner ut husets alder og lagrer dette i en ny kolonne kalt HouseAge
data_salgsinfo['HouseAge'] = data['YrSold'] - data['YearBuilt']

## Skriver ut de 5 første linjene av data_salgsinfo for å se at den nye kolonnen er på plass med logiske verdier.
data_salgsinfo.head(5)

Vi kan nå enkelt finne gjennomsnittlig husalder ved å bruke <br> $ describe()$<br> 

In [0]:
data_salgsinfo.describe()

Man kan også få en oversikt over hva kategoriske features inneholder, som for eksempel "Neighborhood", for å hjelpe deg med å bli kjent med hva dataen inneholder.

For å telle antall enititeter av ulike kategorier i "Neighborhood" kan man skrive:<br>
$data["Neighborhood"].value\_counts()$<br>


In [0]:
data["Neighborhood"].value_counts()

Denne kategoriske featuren viser at boligene er fordelt over mange nabolag. Dette er en god feature fordi den tilfører nyttig informasjon til datasettet. Om vi ser på featuren 'Utilities' derimot, så ser vi at det er et eneste tilfelle av kategorien **NoSeWa**, resten tilhører den andre kategorien. Dette vil være en feature som ikke tilfører noe informasjon, men opptar plass og øker kompleksiteten på datasettet unødvendig.

In [0]:
data['Utilities'].value_counts()

#Visualisering av data

Visualisering er en viktig del av den initielle utforskingen av dataen. Det viser ofte informasjon som er vanskelig å få ved å kun se på dataen i rå form.

Bibliotekene vi bruker her er Matplotlib og Seaborn (plt og sns)

## Fordeling av data

Måten man lager en figure på er som følger:

<br>$plt.figure(figsize=(n,m)) $ <br>
Dette lager et figur objekt. Deretter velger man hvilke data man vil plott og hvordan, f.eks histogram, linjeplot osv. Her er det mange plotfunksjoner fra seaborn som er nyttige.

<br> $sns.distplot() $ <br>

Seaborn dokumentasjonen på distplot forklarer hvilke argumenter man kan putte inn i parantesen. For eksempel hvilken data man vil bruke. https://seaborn.pydata.org/generated/seaborn.distplot.html

Deretter kan man velge hva som skal skrives langs x- og y-aksen, og om man vil ha tittel. Se mer på https://matplotlib.org/api/_as_gen/matplotlib.pyplot.figure.html#matplotlib.pyplot.figure

Et histogram viser fordelinen av data i "bøtter", altså intervaller med data. Dette er velegnet for å studere fordeling av talldata. For eksempel kan vi visualisere fordelingen av salgsprisen fordelt over et valgfritt antall bøtter.

In [0]:
#Lab figur-objekt og bestem størrelsen
plt.figure(figsize=(15,7))

#Velg type plot med sns (seaborn) biblioteket.
sns.distplot(data['SalePrice'],bins=50, kde=False);

#X- og y-aksen kan navngis
plt.ylabel('Antall')
plt.xlabel('Salgspris')

#Sett tittel på figur
plt.title('Fordeling av slagspris')

Fordelingen kan også visualiseres med en tilpasset funksjon (kde) ved å sette kde til true og hist til false.

In [0]:
plt.figure(figsize=(15,7))

## Endrer kde til True
sns.distplot(data['SalePrice'],hist=False, kde=True);

plt.title('Fordeling av slagspris')

Kategorisk data kan vi visualisere ved å bruke countplots. For eksempel kan vi få en oversikt over hvor mange salg som ble gjort i de ulike årene.

In [0]:
plt.figure(figsize=(15, 6))
sns.countplot(x='YrSold', data=data)
plt.title('Salg per år')

Man kan også gruppere inn countplots etter kategori, for eksempel kan vi fordele salg per år inn i måneder også.

In [0]:
plt.figure(figsize=(16, 7))
sns.countplot(x='YrSold', hue='MoSold', data=data)
plt.title('Salg per år fordelt over måneder')

Plottet kan legges sidelengs ved å plotte dataen i y-retning istedenfor. Dette kan gjøre det enklere å tyde plottet.

In [0]:
plt.figure(figsize=(15, 8))
sns.countplot(y='Neighborhood', data=data)
plt.title('Oversik over nabolag')

Et scatter plot vil vise punktvis distribusjon over dataen. Her kan vi benytte plt sin scatter funksjon.

<br> $plt.scatter(x, y) $ <br>

https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html

Her kan vi for eksempel se at nyere bygg typisk går for en høyere pris. Ikke så overraskende

In [0]:
plt.figure(figsize=(18, 12))
plt.scatter(data['YearBuilt'], data['SalePrice'], color='black', label='Registreringer')
plt.ylabel('Salgspris')
plt.xlabel('Byggår')
plt.title('Byggår mot salgspris')
plt.legend(loc='upper left')
plt.show()

Vi kan også plotte samme punkter for ulike nabolag, og fargekode dem forskjellig. Et nabolag filtreres ut slik:

<br> $data\_OldTown = data[data['Neighborhood'] == 'OldTown'] $<br>

Deretter hentes byggår og salgspris ut som før

<br> $ data\_OldTown['YearBuilt"] $<br>

In [0]:
plt.figure(figsize=(18, 12))
plt.scatter(data[data['Neighborhood'] == 'OldTown']['YearBuilt'], data[data['Neighborhood'] == 'OldTown']['SalePrice'], color='red', label='OldTown')
plt.scatter(data[data['Neighborhood'] == 'Edwards']['YearBuilt'], data[data['Neighborhood'] == 'Edwards']['SalePrice'], color='blue', label='Edwards')
plt.scatter(data[data['Neighborhood'] == 'BrkSide']['YearBuilt'], data[data['Neighborhood'] == 'BrkSide']['SalePrice'], color='green', label='BrkSide')
plt.ylabel('Salgspris')
plt.xlabel('Byggår')
plt.title('Byggår mot salgspris')
plt.legend(loc='upper left')
plt.show()



##Korrelasjon

For å få innsikt i hvilken effekt featurene har på hverandre er det nyttig å se på korrelasjonen mellom dem. Et korrelasjonsplot mellom variabler viser hvor my to variabler endrer seg i takt med hverandre. Om en variabel korrelerer positivt med en annen variable, vil begge typisk stige på samme tidspunkt. Om to variabler korrelerer negativt, vil den ene variabelen synke når den andre stiger.


På korrelasjonsplottet under ser vi at det er perfekt korrelasjon langs diagonalen, noe som er naturlig siden alle variabler korrelerer perfekt med seg selv. Vi kan for eksempel se at OverallQual, som er generell kvalitet, korrelerer positivt med YearBuilt. Dette er logisk siden kvaliteten på nyere hus er typisk bedre enn på eldre hus.


Det mest interessante å studere her er korrelasjonen mellom salgspris og de andre featurene. Merk at OverallQual korrelerer sterkt positivt med SalePrice, heller ikke så overraskende.

In [0]:
plt.figure(figsize=(15,15))
sns.heatmap(data.corr(),annot = False, cbar = True)
plt.xticks(rotation=90)
plt.yticks(rotation = 0)

## Oppgave: studer og visualiser data


Finn følgende informasjon: 

 - Første og siste salg (måned og år)
 
 - Største svømmebasseng
  
 - Gjennomsnittlig antall bad i ulike nabolag


Visualiser følgende:

 - Fordeling av kvadratfot på alle tomter

 - Fordeling over når boligene ble bygget

 - Hvor mange salg det er i hver måned totalt
 
 - Plot kvadratfot opp mot salgspris

Lag gjerne andre visualiseringer dere syntes virker interessante.

In [0]:
"Skriv kode her"

## Oppgave: lag nytt datasett

Lag et nytt datasett og velg ut features dere tenker er nyttige. Studer dataen ved bruk av alt vi har gått gjennom, tenk at det er fordel å ha så lite unødvendig data i datasettet som mulig. Benytt korrelasjonsplottet til å velge ut features dere syntes virker nyttige. Følg oså med på telleoversikten over manglende verdier. Lag et nytt korrelasjonsplot til det nye datasettet

In [0]:
#Skriv kode her

## Løsningsforslag: studer og visualiser data

In [0]:
data_nabolag = data[data['Neighborhood'] == 'OldTown']
data_nabolag.describe()

In [0]:
plt.figure(figsize=(15,7))
sns.distplot(data['LotArea'],bins=100, kde=False);
plt.ylabel('Antall')
plt.title('Fordeling av kvadratfot på tomt')

In [0]:
plt.figure(figsize=(15, 20))
sns.countplot(y='YearBuilt', data=data)
plt.title('Fordeling av år boligene ble bygget')

In [0]:
plt.figure(figsize=(15,7))
sns.countplot(data['MoSold'])
plt.title('Salg per måned')

In [0]:
plt.figure(figsize=(18, 12))
plt.scatter(data['LotArea'], data['SalePrice'], color='black', label='Registreringer')
plt.ylabel('Salgspris')
plt.xlabel('LotArea')
plt.title('Kvadratfot mot salgspris')
plt.legend(loc='upper left')
plt.show()

##Løsningsforslag: konstruer datasett

In [0]:
#aktuelle_kolonner = ['LotArea','Neighborhood','WoodDeckSF','Condition1','HouseStyle','OverallQual','OverallCond','YearBuilt','YearRemodAdd','ExterQual','Foundation','Heating','HeatingQC','1stFlrSF','1stFlrSF','FullBath','HalfBath','BedroomAbvGr','KitchenAbvGr','TotRmsAbvGrd','GarageCars','Fireplaces','PoolArea','MoSold','YrSold']
aktuelle_kolonner = ['LotArea','Neighborhood','WoodDeckSF','Condition1','HouseStyle','OverallQual','OverallCond','YearBuilt','YearRemodAdd','1stFlrSF','1stFlrSF','FullBath','HalfBath','BedroomAbvGr','KitchenAbvGr','TotRmsAbvGrd','GarageCars','Fireplaces','PoolArea','MoSold','YrSold']
data_modell = data[aktuelle_kolonner]
data_modell['HouseAge'] = data['YrSold'] - data['YearBuilt']
data_modell['SalePrice'] = data['SalePrice']
data_modell.head(5)

In [0]:
data_modell.describe()

In [0]:
data_modell.info()

In [0]:
data_modell = data_modell.dropna()
data_modell.info()

In [0]:
plt.figure(figsize=(15,15))
sns.heatmap(data_modell.corr(),annot = True,fmt = ".2f",cbar = True)
plt.xticks(rotation=90)
plt.yticks(rotation = 0)

#Maskinlærings modeller

Til maskinlæringsmodellene vil vi benytte datasettet fra løsningsforslaget i første seksjon. Vi ønsker å predikere salgsprisen basert på informasjonen vi inkluderte i dette datasettet. Altså vil input til modellen være utvalgte features, og outputen vil være salgspris. Dette deler vi opp i to ulike objekter. Data kan aksesseres i pandas objekter ved å bruke index istedenfør kolonnenanv. Dermed kan vi hente ut alle features, X, bortsett fra den siste, det er salgsprisen, Y.

Dette gjøres med pandas funksjon:

<br> $data.iloc[rad, kolonne] $ <br>

I python betyr ":" alle, altså alle rader, og "0:-1" betyre fra og med 0 til (og ikke med) element (-1)

In [0]:
#Velg alle kolonner untatt den siste. Denne inneholder Salgsprisen som vi ønsker å predikere
input_data = data_modell.iloc[:,0:-1]

#Velg kun siste kolonne. Dette er salgsprisen
output_data = data_modell['SalePrice']

print('Datastørrelse på features: {}, datastørrelse på priser: {}'.format(input_data.shape,output_data.shape))

In [0]:
data_modell.head(5)

Maskinlæringsmodellene ser kun tallverdier, det er derfor ikke mulig å servere den kategoriske verdier som "Neighborhood". Vi må derfor konvertere all kategorisk input til tallverdier. Et enkelt eksempel er å se på "Street" featuren, som kun har to kategorier.

In [0]:
data["Street"].value_counts()

Disse kategoriene kan oversettes til [0 , 1] istedenfor ['Pvae' , 'Grvl'] slik at de blir lesbare for modellene våre. Dette må gjøres med alle kategoriske verdier i datasettet vi skal bruke. Scikit-learn har funksjoner som gjør dette enkelt.

se mer: http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

In [0]:
from sklearn import preprocessing

## Oppretter encodere for de ulike kategoriene vi ønsker å transformere fra tekst til tall.
Neighborhood = preprocessing.LabelEncoder()
Condition1 = preprocessing.LabelEncoder()
HouseStyle = preprocessing.LabelEncoder()

## Konverterer kolonnene som inneholder tekstverdier til tallverdier
input_data['Neighborhood'] = Neighborhood.fit_transform(input_data['Neighborhood'])
input_data['Condition1'] = Condition1.fit_transform(input_data['Condition1'])
input_data['HouseStyle'] = HouseStyle.fit_transform(input_data['HouseStyle'])

## Sjekker at kolonnene med kategoriske features har fått tallverdier
input_data.head(5)

Som nevnt i presentasjonen, må vi fordele dataen inn i trenings, validerings og testsett. Nå tar vi ut et test sett, og gjemmer det til slutten for å gjennomføre en endelig test av de ferdige modellene. Vi benytter funksjonen

<br> $ train_test_split(X, Y, test_sett_andel) $ <br>

http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html


In [0]:
#Dataen deles opp i to sett: treningssett og testsett. Test_size bestemmer andelen av dataen som blir brukt til testing av modellen
from sklearn.model_selection import train_test_split

input_treningsdata, input_testdata, output_treningsdata, output_testdata = train_test_split(input_data, output_data, test_size=0.2, random_state=1)

print('Input_treningsdata: {}, input_testdata: {}, output_treningsdata: {} og output_testdata: {}'.format(input_treningsdata.shape, input_testdata.shape, output_treningsdata.shape, output_testdata.shape))


In [0]:
input_treningsdata.info()

In [0]:
input_testdata.info(5)

Vi importerer en metode for å måle graden av feilprediksjon. Dette vil forklares senere

In [0]:
## Importerer metode for å måle gjennomsnittlig absolutt feil
from sklearn.metrics import mean_absolute_error

##Lineær regresjon

Linær regresjon er modell der man forsøker å tilpasse en rett linje til data. Målet er å minimere den totale avstanden fra datapunktene til linjen. 

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/438px-Linear_regression.svg.png">

Les mer om <a href="https://en.wikipedia.org/wiki/Linear_regression">Linear regression</a><br>
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html" >Scikit-learn dokumentasjon</a>

<p>
  ###  Trene lineær modell
  For å trene en modell basert på lineær regresjon må man importere riktig modell fra Scikit-learn. Deretter må man lage et objekt som representerer modellen. Dette kan gjøres ved å skrive: <br>
 $modell\_lineær = LinearRegression()$ <br>
  Når modell-objektet er opprettet må man kalle objektets metode $fit()$. Denne metoden tar to parametere; features og tilhørende output, eller X og y. I vårt tilfelle er features alle kolonner som beskriver huset, mens output er salgsprisen. For å trene modellen til dette datasette skriver man derfor: <br>
  $modell\_lineær.fit(input\_treningsdata, output\_treningsdata)$ <br>
  Den lærte sammenhengen mellom husets egenskaper og salgspris er nå lagret i modellen. 
  
<p/>

In [0]:
#Treningsfase
from sklearn.linear_model import LinearRegression

#Regressjons-objekt fra scikit-learn
modell_lineær = LinearRegression()

#Tilpass regressjonskoeffesienter med treningsdata
modell_lineær.fit(input_treningsdata, output_treningsdata)

###Predikere salgspris med lineær modell <br>
Den lærte modellen kan nå brukes til å predikere salgspriser på hus. Siden vi har spart endel data som modellen ikke har sett før, kan man måle hvor nøyaktig modellen er til å predikere salgspris.<br>
Dette kan gjøres ved å kalle $modell\_lineær.predict()$. <br>
Metoden $predict()$ tar en parameter; $input\_testdata$. Dette er dataene som vi har reservert for testing av modellen.  Resultatet av prediksjonen lagrer vi i $pris\_prediksjoner\_lineær$<br>
<p>
Vi ønsker å måle feilprediksjonen kvantitativt, og trenger derfor en feilmåling. Gjennomsnittet av absolutt feil er en simpel og oversiktlig måte å beregne feilprediksjoner på. Heldigvis slipper vi å regne ut dette selv da scikit-learn har ferdigbygde metoder for dette. For å få til dette må vi  kalle $mean\_absolute\_error()$.  Metoden må gis to parametre; $pris\_prediksjoner\_lineær$ og $output\_testdata$. På den måten kan gjennomsnittlig absloutt feil regnes ut og lagres i $MAE\_lin$<p>


In [0]:
#Testfase

#Gjør pris-prediksjon på testdataen. 
pris_prediksjoner_lineær = modell_lineær.predict(input_testdata)

#Beregn feil
MAE_lin = mean_absolute_error(pris_prediksjoner_lineær, output_testdata)

#Feilen skrives ut
print("MAE: {}".format(MAE_lin))

Her benytter vi plt sin plottefunksjon for å lage et punktplot

<br> $plt.scatter(x, y) $ <br>

Her plotter vi altså predikert pris mot ekte pris. Optimalt skulle disse ligget langs en rett linje.

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(x=output_testdata, y=pris_prediksjoner_lineær)
plt.xlabel('Pris')
plt.ylabel('Prediskjon')
plt.title('Faktisk pris mot estimert pris')
plt.show()

## Decision tree regression

Decision trees baserer seg på å forsøke å dele datasettet i undergrupper. Ved å bevege seg gjennom treet kan et data klassifiseres. Decision trees kan også brukes til regresjon. 

<img src="https://upload.wikimedia.org/wikipedia/commons/f/f3/CART_tree_titanic_survivors.png">

Les mer om <a href="https://en.wikipedia.org/wiki/Decision_tree_learning">Decision tree</a><br>
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html">Scikit-learn dokumentasjon</a>

<p>
  ### Trene Decision tree 
 På samme måte som tidligere må man importere riktig modell fra Scikit-learn. Vi skal ha $DecisionTreeRegressor$. Deretter må modellen lages ved å skrive. <br>
 $model\_tre = DecisionTreeRegresseor()$ <br>
  
  Vi trener modellen på samme vis <br>
  $model\_tre.fit(input\_treningsdata, output\_treningsdata)$ <br>
Sammenhengen er nå lagret i modell-objektet. 
  
<p/>

In [0]:
## Importerer DecisionTreeRegressor fra sklearn
from sklearn.tree import DecisionTreeRegressor

## Oppretter modell
model_tre = DecisionTreeRegressor()

## Trener modell med features og labels. 
model_tre.fit(input_treningsdata, output_treningsdata)

In [0]:

pris_prediksjon_tre = model_tre.predict(input_testdata)

MAE_tre = mean_absolute_error(pris_prediksjon_tre, output_testdata)

print("MAE: {}".format(MAE_tre))

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(output_testdata, pris_prediksjon_tre)
plt.xlabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Faktisk pris mot estimert pris')
plt.show()

##Skog regressjon
Skogmodeller tar utgangspunkt i Decision trees. Istedenfor å generere et tre, så kan skogmodeller generere mange trær. Et valgtre kan se forskjellig ut for samme datasett mellom hver gang det genereres, så mange ulike trær kan i samspill lage en mer robust prediksjon enn et eneste valgtre. Trærne i skogen "stemmer over"/"enes om" riktig resultat.

<img src="https://upload.wikimedia.org/wikipedia/commons/7/76/Random_forest_diagram_complete.png">

Les mer om <a href="https://en.wikipedia.org/wiki/Random_forest">Skogregresjon</a><br>
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html">Scikit-learn dokumentasjon</a>

In [0]:
#Forest regression

from sklearn.ensemble import RandomForestRegressor

modell_skog = RandomForestRegressor(random_state=1)

modell_skog.fit(input_treningsdata, output_treningsdata)

In [0]:
pris_prediksjon_skog = modell_skog.predict(input_testdata)

MAE_skog = mean_absolute_error(pris_prediksjon_skog, output_testdata)

print("MAE: {}".format(MAE_skog))

In [0]:
plt.figure(figsize=(15, 10))
plt.plot([0,0],[400000,400000],'k-',linestyle='solid')

plt.scatter(output_testdata, pris_prediksjon_skog)
plt.xlabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Faktisk pris mot estimert pris')
plt.show()

##Nevralt nettverk regressjon

Nevrale nettverk er kjent for å være en god regresjonsmetode når dataen er kompleks og stor. Det er ikke nødvendigvis bedre enn de mer klassiske maskinlæringsmodellene og krever  mer tilpassing av parametere. 

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/46/Colored_neural_network.svg/296px-Colored_neural_network.svg.png">

Les mer om <a href="https://en.wikipedia.org/wiki/Artificial_neural_network">nevrale nettverk</a><br>
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html">Scikit-learn dokumentasjon</a>

Noen viktige parametere å tenke på er:

 - Hidden_layer_sizes: Antall gjemte lag i nettverket, og antall noder i disse lagene. Det i-ende elementet er antall noder i det i-ende laget. (#noder i lag 1, #noder i lag 2, ... , #noder i lag n)
 - Learning_rate_init: hastigheten på læringen. For fort gjør at nettverket lærer for hurtig og aggressivt, da finne det nødvendigvis ikke de beste løsningene. For sakte gjør at nettverket aldri når de gode løsningene, men bare lærer i all evighet.
 - Max_iter: Maximalt antall treningsiterasjoner over hele datasettet, hvis denne er for liten rekker ikke nettverket å trene ferdig.
 - Validation_fraction: Andel av input dataen som vil bli brukt til validering. Rundt 0.15 pleier å være et greit valg.


En grei huskeregel er at jo mer kompleks dataen er, altså jo flere features, jo mer komplekst burde nettverket være. Ofte er det lurt å begynne smått, kanskje to lage med 50 noder, og så utvide til du ser at feilen blir større. Det samme kan gjøres med learning rate, start med den veldig liten og øk den gradvis.

In [0]:
from sklearn.neural_network import MLPRegressor

modell_MLPR = MLPRegressor(hidden_layer_sizes=(200,100,20), activation='relu',solver='adam', max_iter=300, learning_rate_init=0.01, momentum = 0.9, validation_fraction = 0.2)

modell_MLPR.fit(input_treningsdata, output_treningsdata)

In [0]:
pris_prediksjon_MLPR = modell_MLPR.predict(input_testdata)

MAE_MLPR = mean_absolute_error(pris_prediksjon_MLPR, output_testdata)

print("MAE: {}".format(MAE_MLPR))

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(output_testdata, pris_prediksjon_MLPR)
plt.xlabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Faktisk pris mot estimert pris')
plt.show()

## Gradient boosted regression

Gradient boosting kan sammenliknes med forest regression. I forest regression modellen konstrueres mange uavhengige og ulike valgtre-modeller som utfører hver sin prediksjon. Alle disse prediksjonene blir til slutt slått sammen til den endelige prediksjonen ved å ta gjennomsnittet for eksempel. I gradient boosting lages det også mange forskjellige valgtrer, men disse lages sekvensielt. De er altså avhengig av hverandre. Prinsippet er at når første valgtre blir laget og testet, så blir neste valgtre laget basert på feilen til den første modellen. Målet er å minimere denne feilen. Altså stepper neste modell inn for å rette opp det forrige modell gjorde det dårligst på. Dette kan gjøres evig, og ofte setter man en grense på hvor mange valgtrær man tillater modellen å lage. Prinsippet er forklart i mer detalj <a href="https://medium.com/mlreview/gradient-boosting-from-scratch-1e317ae4587d
">her</a>

Les mer om <a href="https://en.wikipedia.org/wiki/Gradient_boosting">gradient boosting</a><br>
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html
">Scikit-learn dokumentasjon</a>

In [0]:
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble.partial_dependence import plot_partial_dependence
from sklearn.ensemble.partial_dependence import partial_dependence

modell_boostreg = GradientBoostingRegressor(learning_rate = 0.1, max_depth = 3, random_state=1)

modell_boostreg.fit(input_treningsdata, output_treningsdata)

In [0]:
pris_prediksjon_boostreg = modell_boostreg.predict(input_testdata)

MAE_boostreg = mean_absolute_error(pris_prediksjon_boostreg, output_testdata)

print("MAE: {}".format(MAE_boostreg))

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(output_testdata, pris_prediksjon_boostreg)
plt.xlabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Faktisk pris mot estimert pris')
plt.show()

# Analyse av resultater

##Sammenlikning av modeller

Nå som vi har prediksjoner fra alle modellene, kan vi slå sammen til en pandas dataframe for å lettere sammenlikne outputen. Dette gjør vi ved å samle dataen i en dictionary (hashtabell)

<br> $ dict = \{ 'modell1' : prediksjoner1, 'modell2':prediksjoner2 \} $ <br>

Deretter opprettes en ny pandas dataframe med denne hashtabellen. Se <a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html"> dokumentasjonen </a>  på denne funksjonen
 

In [0]:
kolonner_resultat = ['output_testdata', 'pris_prediksjoner_lineær', 'pris_prediksjon_tre','pris_prediksjon_skog', 'pris_prediksjon_MLPR','pris_prediksjon_boostreg']
resultat_data = {'output_testdata':output_testdata, 'pris_prediksjoner_lineær':pris_prediksjoner_lineær, 'pris_prediksjon_tre':pris_prediksjon_tre, 'pris_prediksjon_skog':pris_prediksjon_skog, 'pris_prediksjon_MLPR':pris_prediksjon_MLPR, 'pris_prediksjon_boostreg':pris_prediksjon_boostreg}

resultat = pd.DataFrame(data=resultat_data, columns = kolonner_resultat)
resultat.head(5)

Vi samler også alle de kvantitative feilmålingene av modellene

In [0]:
#Alle modeller må være kjørt
MAE_kolonner = ['MAE_lin','MAE_tre','MAE_skog','MAE_MLPR','MAE_boostreg']
MAE_alle = pd.DataFrame(data={'MAE_lin':[MAE_lin], 'MAE_tre':[MAE_tre], 'MAE_skog':[MAE_skog],'MAE_MLPR':[MAE_MLPR], 'MAE_boostreg':MAE_boostreg},columns=MAE_kolonner)
MAE_alle.head()

Vi kan også plott alle prediksjonspunktene til hver modell mot hverandre for å visualisere hvordan prediksjons-distribusjonen ser ut. Her plotter vi predikert pris mot reell pris, hadde modellene predikert 100% korrekt ville alle punktene ligget langs diagonalen.

In [0]:
plt.figure(figsize=(18, 12))
plt.scatter(output_testdata, output_testdata, color='black', label='Faktisk pris')
plt.scatter(output_testdata, pris_prediksjoner_lineær, color='yellow', label='Lineær regressjon')
plt.scatter(output_testdata, pris_prediksjon_tre, color='blue', label='Decision tree')
plt.scatter(output_testdata, pris_prediksjon_skog, color='green', label='Skog regressjon')
plt.scatter(output_testdata, pris_prediksjon_MLPR, color='red', label='Nevralt netverk')
plt.scatter(output_testdata, pris_prediksjon_boostreg, color='purple', label='Boosted regression')
plt.ylabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Sammenlikning av modeller')
plt.legend(loc='upper left')
plt.show()

Det kan være mer oversiktlig å visualisereprediksjonene til en modell mot den ekte outputen av gangen.

In [0]:
plt.figure(figsize=(18, 12))
plt.scatter(output_testdata, output_testdata, color='black', label='Faktisk pris')
plt.scatter(output_testdata, pris_prediksjon_boostreg, color='purple', label='Boosted regression')
plt.ylabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Boosted regression prediksjoner')
plt.legend(loc='upper left')
plt.show()

## Partial dependence plots

Partial dependence plots viser hvordan hver input variabel påvirker prediksjonen, eller output. Dette bidrar til å forstå hvordan modellen oppfører seg. 

Slik det funker er at den ferdig trente modellen blir testet for ulike features. En registrering blir sent inn i modellen, men så blir featuren vi ønsker å undersøke økt fra minimal verdi til maksimal verdi. Skal vi for eksempel teste for kvadratfot, begynner vi å teste for 0 kvf. Deretter øker vi kvf fot gradvis og ser hvordan prisprediksjonen endrer seg, inntil vi når mengden til den største tomten i datasettet. Under kan man ser hvordan prisen økergradvis i takt med økende kvf. Altså har LotArea en positiv effekt på pris, jo større tomt jo dyrere pris.


Les mer <a href="http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.partial_dependence.plot_partial_dependence.html#sklearn.ensemble.partial_dependence.plot_partial_dependence
">Scikit-learn dokumentasjon</a>

In [0]:
features = input_treningsdata.columns

my_plot = plot_partial_dependence(modell_boostreg, features=[0, 7], X=input_treningsdata, feature_names=features, grid_resolution=10, n_cols=2)


Her ser vi at husalder har en negativ påvirkning på prisen når den stiger, men den påvirker negativt i like stor grad når huset er over ca 35 år. Det er derimot en veldig positiv påvirkning når huset er under 10 år gammelt.

In [0]:

my_plot = plot_partial_dependence(modell_boostreg, features=[18, 21], X=input_treningsdata, feature_names=features, grid_resolution=10, n_cols=2)

Vi kan teste dette på andre features i treningssettet, de er nummerert fra 0 til 22 nedover. Under er alle featurene printet ut med tilhørende index.

**merk at scikit-learn støtter denne funksjonen kun for gradient boosting modellen**

In [0]:
#Nummerering på hver feature
for i, element in enumerate(features):
  print(i,element)

##Oppgave: Bygg model

Bygg din egen modell på datasettet du lagde i tidligere seksjon. Husk å dele opp datasettet i trenings og test data ved å bruke:

<br> $ train\_test\_split(x,y,test_size = 0.2, random_state=1) $ <br>

**NB! Ha med test_size = 0.2 og  random_state = 1 slik at samme registreringer blir utvalgt til å være i testsettet, slik blir resultatene mer sammenliknbare mellom modellene og alle som deltar.**

Velg hvilken modell du vil bruke, gjerne noen andre enn de som er gått gjennom her, og juster modell parametrene for å få så lav MAE som mulig.



<a href="http://scikit-learn.org/stable/supervised_learning.html
">Scikit-learn supervised learning</a>

Bruk også gjerne modellene og datasettet som allerede er satt opp og endre parameterene og utvalgte features for å forbedre modellen. Visualiser resultatene fra modellen(e).

Til slutt: lag en boosted regression modell på datasettet ditt og skriv ut partial dependence plots.

In [0]:
#Skriv kode her