[View in Colaboratory](https://colab.research.google.com/github/fabiansd/AI-workshop/blob/master/AI_workshop_melbourne.ipynb)

Forfatter: Fabian Sødal Dietrichson

Github: https://github.com/fabiansd/AI-workshop/blob/master/AI_workshop_melbourne.ipynb

# Datasett

Beskrivelse av datasett:

https://www.kaggle.com/c/home-data-for-ml-course/data


Alle måleenhetene utgjør hver sin kolonne, og kalles *features*


# Importering av data og python-bibliotek

Python tillater å bruke mange forskjellige ferdigskrevne funksjoner. Disse lagres i biblioteker som må importeres før de kan brukes. 

### Bibliotek dokumentasjon

Pandas (datahåndtering) <a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html">dokumentasjon</a> og <a href="https://pandas.pydata.org/pandas-docs/stable/10min.html#min">tutorial</a> <br> 


Seaborn (plottefunksjoner) <a href="https://seaborn.pydata.org/index.html">dokumentasjon </a> og <a href="https://seaborn.pydata.org/tutorial.html">tutorial</a> <br>

Matplotlib (plottestøttefunksjoner) <a href="https://matplotlib.org/gallery/index.html"> dokumentasjon </a> og <a href="https://www.datacamp.com/community/tutorials/matplotlib-tutorial-python">tutorial </a> <br>

Scikit-learn (maskinlæring) <a href="http://scikit-learn.org/stable/" > dokumentasjon </a> og <a href="http://scikit-learn.org/stable/tutorial/index.html"> tutorial </a> <br>

I python heter **Scikit-learn** biblioteket **sklearn** for enkelhetens skyld

Bruk google hyppig, se på eksempler!

In [0]:
## Import av biblioteker 
import sklearn
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt

pd.options.mode.chained_assignment = None  # default='warn'

pd.set_option('display.max_columns', None)

import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)


## Laster ned datasettet fra lenken og lagrer dette som filen Melbourne_train.csv
from six.moves import urllib
urllib.request.urlretrieve("https://raw.githubusercontent.com/fabiansd/AI-workshop/master/data/Melbourne_train.csv", "./Melbourne_train.csv")

# Databehandling

Første steg i et AI-prosjekt er å undersøke og studere dataen. Pandas har mange funksjoner som kan hjelpe til med dette. Det er viktig få et innblikk i hvordan dataen ser ut og hva slag verdier den faktisk inneholder. Pandas kan sammenliknes med excel, bare for python.


## Opplasting av data

Dataen blir lest og lastet opp av pandas biblioteket. Dette gjøres ved å bruke pandas-funksjonen <br>
$pd.read\_csv('filnavn.csv')$. <br>Funksjonen tar en parameter som er filstien til csv-filen vi har lastet ned. Parameteren må være av typen String. Det betyr tekst og må skrives inne mellom anførselstegn. <br> I dette tilfellet er parameteren<i> "Melbourne_train.csv"</i><br>

Funksjonen returnerer et objekt fra Pandas, kalt Dataframe, som representerer datasettet vårt. I dette tilfellet heter objektet, eller Dataframen, $data$

In [0]:
data = pd.read_csv('Melbourne_train.csv')

En Pandas dataframe har mange funksjoner. Disse utfører ulike operasjoner på dataen. <br>
Eksempelvis kan man skrive ut de n førset elementene i datasettet ved å skrive: <br> $data.head(n)$ <br>
Denne funksjonen tar parametre av typen heltall, også kalt Integer.<br> I dette tilfellet er parameteren <i>n=10</i>

In [0]:
data.head(10)

På samme vis kan de 5 siste elementene vises ved å skrive: 
<br>$data.tail(5)$

In [0]:
data.tail(5)

Videre kan det være nyttig å skrive ut navnet på alle kolonnene i datasettet vårt. Disse er lagret i en variabel til objektet $data$, og kan aksesseres ved å skrive $data.columns$

In [0]:
data.columns

Denne informasjonen er nyttig når man vil hente ut spesifikk data fra en pandas dataframe. Du kan hente ut dataen i en kolonne ved å skrive

$ data.kolonnenavn $

Dataen du henter ut her vil ikke lenger være en dataframe, men en liste (array) med verdier.

In [0]:
data.SaleCondition.head()

Vi kan oppnå det samme ved å bruke klammer med kolonnenavnet. Da vil det se slik ut:

$data['kolonnenavn'] $

In [0]:
data['SaleCondition'].head()

Pandas fungerer på mange måter som Excel. Man kan derfor hente ut verdier ved å refere til en bestemt "celle" i objektet. 
På den måten kan enkeltverdier hentes ut med tall-indeksering ved bruk av Pandas iloc-funksjonen. <br>

<br> $data.iloc[rad, kolonne] $ <br>


Eksempelvis kan data lagret i <i>rad 0</i> og <i>kolonne 3</i> hentes ut slik:

In [0]:
## Verdien fra linje 0, kolonne 3 lagres i variabelen verdi
verdi = data.iloc[0,3]

## Navnet på kolonne 3 lagres i variabelen feature
feature = data.columns[3]

## Skriver ut variablene feature og verdi
print(feature, verdi)

Pandas kan også gi info om hva slags data som er lagret i datasettet og hvor mange instanser det er i hver kolonne. Dette gjøres gjennom funksjonen <br>
$data.info()$ <br>

In [0]:
data.info()

Det kan også være greit å vite hvor mange linjer det faktisk er. Vi teller derfor antallet linjer i objektet $data$ ved å bruke funksjonen <br>
$len()$ <br>
Denne funksjonen kan ta objektet $data$, som vi ønsker å telle, som parameter.

In [0]:
## Skriver ut lengden på datasettet. Dvs antallet linjer i datasettet
print('\n Antall registreringer i datasettet: {}'.format(len(data)))

## Utforsking av data

Med pandas kan man få en statistisk oversikt over datasettet med funksjonen <br> $data.describe()$ <br> For eksempel kan vi se hva gjennomsnittlig salgspris er for alle salgene i datasettet. <br> Merk at oversikten viser kun numeriske features, og ikke kategoriske features som også finnes i datasettet. Kategoriske features kan være navn på nabolag eller type oppkjørsel.

In [0]:
data.describe()

Pandas har mange statistiske funksjoner som kan være nyttig. Hvis du ønsker å finne høyeste salgspris direkte, kan du bruke $.max()$ funksjonen på attributten du ønsker.

In [0]:
data['SalePrice'].max()

Om du ønsker å hente ut registreringen med høyest salgspris derimot, må man benytte funksjonen $.idmax()$ som returnerer posisjonen til regisreringen med høyest salgspris i dataframen.

In [0]:
index_størst_salgspris = [data['SalePrice'].idxmax()]
data.iloc[index_størst_salgspris].head()

Pandas tillater å hente ut enkeltkolonner, og man kan dermed hente ut attributtene man ønsker og eskludere de man ikke ønsker. Disse utvinnes ved å referere til "kolonnenavnet." For å lage en ny dataframe med utvalgte kolonner, må kolonnene hentes ut med en liste over kolonnenavn: <br>
$data[['Kolonnenavn1','kolonnenav2',...]]$<br>
I vårt tilfelle velger vi å lagre kolonnen med salgsår i en nytt pandas dataframe kalt $data\_ÅrSolgt$.

In [0]:
## Kolonnen "YrSold" lagres i et nytt Pandas-objekt kalt data_ÅrSolgt
data_ÅrSolgt = data[['YrSold']]

## Skriver ut de 10 første linjene i data_ÅrSolgt
data_ÅrSolgt.head()

Man kan også filtrere ut spesifikk data, som for eksempel alle boliger solgt i 2008 ved å hente ut data som tilfredsstiller $ data['YrSold'] == 2008 $. Her kan man også hente ut alle boliger solgt etter 2008 ved å sette $ data['YrSold'] > 2008 $.

In [0]:
## Henter ut alle linjer der YrSold er lik 2008
data_Solgt2008 = data[data['YrSold'] == 2008]

## Skriver ut 10 første linjer av data_Solgt2008
data_Solgt2008.head()

Om man vil filtrere ut på en spesifikk attributt, kan man først spesifisere hvilke kolonner man vil ha ut, $data[['Neighborhood', 'PoolArea','PoolQC']] $ og deretter spesifisere filtreringen $[data['PoolArea'] > 0]$. Resultatet er en oversikt med nabolag, størrelse og kvalitet på basseng. Man kan også telle antall forekomster som blir igjen etter filtreringen ved å bruke $.count()$

In [0]:
data[['Neighborhood']][data['PoolArea'] > 0].count()

In [0]:
data[['Neighborhood', 'PoolArea','PoolQC']][data['PoolArea'] > 0].head(10)

En annen måte å filtrere på er å sette opp if-tester på kolonnene ved å bruke $ data.kolonnenavn$. Med denne metoden kan det settes opp flere filtreringer, for eksempel å filtrere ut alle boliger med boligareal større enn 15000 kvf i NridgHt nabolaget.

In [0]:
data_CollgCr_Pool = data[(data.Neighborhood == 'NridgHt') & (data.LotArea >= 15000)]
data_CollgCr_Pool.head()

Nye subdatasett kan konstrueres ut av det originale datasettet ved å hente ut ønskede kolonner med data. Dette lar deg konstruere helt nye datasett.<br>

Dette kan gjøres ved å lage en Pythons liste med **3** verdier av typen String; "MoSold", "YrSold", og "SalesPrice". $ ['MoSold', 'YrSold', 'SalesPrice']$ <br>

Deretter kan de ønskede kolonnene hentes ut med denne listen ved å sende listen inn som index i dataframen.

In [0]:
##  Henter ut kolonnene vi ønsker fra data. Lagres i data_salgsinfo
data_salgsinfo = data[['MoSold','YrSold','SalePrice']]

## Skriver ut de 10 første linjene i data_salgsinfo
data_salgsinfo.head(10)

Nye features kan konstrueres ved å lage kombinasjoner av kolonner i datasettet. Siden kolonnen 'HouseAge' ikke finnes i datasettet vil det blir oprettet som en ny kolonne som inneholder data om hvor gammelt huset er. <br>Dette regnes ut ved å trekke årstallet for når huset ble solgt fra husets byggeår. 


In [0]:
## Regner ut husets alder og lagrer dette i en ny kolonne kalt HouseAge
data_salgsinfo['HouseAge'] = data['YrSold'] - data['YearBuilt']

## Skriver ut de 5 første linjene av data_salgsinfo for å se at den nye kolonnen er på plass med logiske verdier.
data_salgsinfo.head(5)

Vi kan nå enkelt finne gjennomsnittlig husalder ved å bruke <br> $ describe()$<br> 

In [0]:
data_salgsinfo.describe()

## Kategoriske attributter

Man kan også få en oversikt over hva kategoriske features inneholder, som for eksempel "Neighborhood", for å hjelpe deg med å bli kjent med hva dataen inneholder.

For å telle antall enititeter av ulike kategorier i "Neighborhood" kan man skrive:<br>
$data["Neighborhood"].value\_counts()$<br>


In [0]:
data["Neighborhood"].value_counts()

$.value\_counts()$ kan brukes til mye nyttig, som for eksempel å telle antall boliger som har generell kvalitet på 8 eller høyere i hvert nabolag. Dette forteller oss at NridgHt er et nabolag av høy kvalitet, siden 59 av 77 boliger har kvalitet av 8 eller høyere.

In [0]:
data["Neighborhood"][data['OverallQual'] >= 8].value_counts()

Den kategoriske attributten 'Neighborhood' viser at boligene er fordelt over mange nabolag. Dette er en god attributt siden det varierer veldig hvilken nabolag en bolig er plassert i. 
<br>
Om vi ser på attributten 'Utilities' derimot, så ser vi at det er kun en eneste registrering på kategorien **NoSeWa**, resten er på den andre kategorien **Allpub**. Dette vil være en feature som ikke tilfører noe informasjon siden den så og si ikke varierer. Denne attributten vil bare oppta plass og øke kompleksiteten på datasettet, uten å bidra med nyttig informasjon om salget.

In [0]:
data['Utilities'].value_counts()

Det er viktig å tilstrebe et datasett som inneholder så mye informasjon som mulig med lavest mulig kompleksitet. Disse undersøkelsene er viktig for å eliminere attributter, slik som 'Utilities', som ikke vil hjelpe maskinlæringsmodellene våre.

## Manglende verdier

Som vi kan se i denne informasjonen så er det ikke like mange verdier i de ulike attributtene, det vi kaller features. Det er ikke uvanlig at det mangler verdier i datasettet. Vi kan sjekke hvilke features som mangler en eller flere verdier med funksjonene <br> $.isnull().any()$ <br>
Alle features som har True etter seg, inneholder minst en manglende verdi. Ofte er dette skrevet som NA, not available.

In [0]:
data.isnull().any()

Ofte er registreringer ufullstendige og mangler data i spesifikke kolonner. En vanlig måte å håndtere manglende verdier på er å fjerne hele raden.

$data.info()$ fortalte oss for eksempel at kvalitet på badebasseng <i> ("PoolQC")</i> finnes det kun <b>7</b> registreringer. Ved å fjerne alle linjer som ikke innholder verdi for denne kolonnen ville man følgelig stått igjen med <b>7</b> registreringer totalt i hele datasettet. Men, om vi studerer bassengattributtene, $['PoolArea','PoolQC']$, vil vi se at det mangler kun verdier på bassengkvalitet når bassengareal er 0. Altså mangler det verdi på 'PoolQC' når det ikke er no basseng. 



In [0]:
data[['PoolArea','PoolQC']].head()

In [0]:
data[['PoolArea','PoolQC']][data['PoolArea'] > 0].head()

Vi kan dermed fylle inn disse manglende verdiene med for eksempel 'None'. Dette gjøres ved å bruke pandas funksjonen <br> $.fillna('erstatningsverdi') $

In [0]:
data['PoolQC'] = data['PoolQC'].fillna(value='None')
data[['PoolArea','PoolQC']].head()

Vi kan også se på $data.info()$ at det mangler en registrering på 'Electrical' attributten. Med $ value\_counts()$ kan vi se fordeling av registreringer på de ulike elektriske systemene som finnes.

In [0]:
data['Electrical'].value_counts()

Pandas lar deg hente ut registreringene som inneholder NaN med $ .isnull()$. Her henter vi ut alle registreringer som mangler verdi, NaN, på 'Electrical' attributten.

In [0]:
data[data['Electrical'].isnull()].head()

Det er ikke mulig å indikere hva 'Electrical' skal være i dette tilfellet. Siden vi ikke kan gjette hva den manglende verdien skal være, må hele raden, altså registreringen, fjernes fra datasettet om denne attributten skal brukes i maskinlæringsmodellene våre.


For å droppe rader men en eller flere manglende verdier kan man gjøre følgende:

<br> $ data = data.dropna(subsett=valgfri) $<br>

Man kan velge et subsett av attributter å evaluere når man fjerner rader med NaN. I vårt tilfelle vil vi kun fjerne rader som har NaN i 'Electrical' attributten. 

In [0]:
data = data.dropna(subset=['Electrical'])
data.info()

In [0]:
print('\n Dataen inneholder nå {} registreringer'.format(len(data)))

#Visualisering av data

Visualisering er en viktig del av den initielle utforskingen av dataen. Det viser ofte informasjon som er vanskelig å få ved å kun se på dataen i rå form.

Bibliotekene vi bruker her er Matplotlib og Seaborn (plt og sns)

## Fordeling av data

Måten man lager en figure på er som følger:

<br>$plt.figure(figsize=(n,m)) $ <br>
Dette lager et figur objekt. Deretter velger man hvilke data man vil plott og hvordan, f.eks histogram, linjeplot osv. Her er det mange plotfunksjoner fra seaborn som er nyttige.

<br> $sns.distplot() $ <br>

Seaborn dokumentasjonen på distplot forklarer hvilke argumenter man kan putte inn i parantesen. For eksempel hvilken data man vil bruke. https://seaborn.pydata.org/generated/seaborn.distplot.html

Deretter kan man velge hva som skal skrives langs x- og y-aksen, og om man vil ha tittel. Se mer på https://matplotlib.org/api/_as_gen/matplotlib.pyplot.figure.html#matplotlib.pyplot.figure

Et histogram viser fordelinen av data i "bøtter", altså intervaller med data. Dette er velegnet for å studere fordeling av talldata. For eksempel kan vi visualisere fordelingen av salgsprisen fordelt over et valgfritt antall bøtter.

In [0]:
#Lab figur-objekt og bestem størrelsen
plt.figure(figsize=(15,7))

#Velg type plot med sns (seaborn) biblioteket.
sns.distplot(data['SalePrice'],bins=50, kde=False);

#X- og y-aksen kan navngis
plt.ylabel('Antall')
plt.xlabel('Salgspris')

#Sett tittel på figur
plt.title('Fordeling av slagspris')

Fordelingen kan også visualiseres med en tilpasset funksjon (kde) ved å sette kde til true og hist til false.

In [0]:
plt.figure(figsize=(15,7))

## Endrer kde til True
sns.distplot(data['SalePrice'],hist=False, kde=True);

plt.title('Fordeling av slagspris')

Kategorisk data kan vi visualisere ved å bruke countplots. For eksempel kan vi få en oversikt over hvor mange salg som ble gjort i de ulike årene.

In [0]:
plt.figure(figsize=(15, 6))
sns.countplot(x='YrSold', data=data)
plt.title('Salg per år')

Man kan også gruppere inn countplots etter kategori, for eksempel kan vi fordele salg per år inn i måneder også.

In [0]:
plt.figure(figsize=(16, 7))
sns.countplot(x='YrSold', hue='MoSold', data=data)
plt.title('Salg per år fordelt over måneder')

Plottet kan legges sidelengs ved å plotte dataen i y-retning istedenfor. Dette kan gjøre det enklere å tyde plottet.

In [0]:
plt.figure(figsize=(15, 8))
sns.countplot(y='Neighborhood', data=data)
plt.title('Oversik over nabolag')

Et scatter plot vil vise punktvis distribusjon over dataen. Her kan vi benytte plt sin scatter funksjon.

<br> $plt.scatter(x, y) $ <br>

https://matplotlib.org/api/_as_gen/matplotlib.pyplot.scatter.html

Her kan vi for eksempel se at nyere bygg typisk går for en høyere pris. Ikke så overraskende

In [0]:
plt.figure(figsize=(18, 12))
plt.scatter(data['YearBuilt'], data['SalePrice'], color='black', label='Registreringer')
plt.ylabel('Salgspris')
plt.xlabel('Byggår')
plt.title('Byggår mot salgspris')
plt.legend(loc='upper left')
plt.show()

Vi kan også plotte samme punkter for ulike nabolag, og fargekode dem forskjellig. Et nabolag filtreres ut slik:

<br> $data\_OldTown = data[data['Neighborhood'] == 'OldTown'] $<br>

Deretter hentes byggår og salgspris ut som før

<br> $ data\_OldTown['YearBuilt"] $<br>

In [0]:
data_OldTown = data[data['Neighborhood'] == 'OldTown']

plt.figure(figsize=(18, 12))
plt.scatter(data_OldTown['YearBuilt'], data_OldTown['SalePrice'], color='red', label='OldTown')
plt.scatter(data[data['Neighborhood'] == 'Edwards']['YearBuilt'], data[data['Neighborhood'] == 'Edwards']['SalePrice'], color='blue', label='Edwards')
plt.scatter(data[data['Neighborhood'] == 'BrkSide']['YearBuilt'], data[data['Neighborhood'] == 'BrkSide']['SalePrice'], color='green', label='BrkSide')
plt.ylabel('Salgspris')
plt.xlabel('Byggår')
plt.title('Byggår mot salgspris')
plt.legend(loc='upper left')
plt.show()



##Korrelasjon

For å få innsikt i hvilken effekt featurene har på hverandre er det nyttig å se på korrelasjonen mellom dem. Et korrelasjonsplot mellom variabler viser hvor my to variabler endrer seg i takt med hverandre. Om en variabel korrelerer positivt med en annen variable, vil begge typisk stige på samme tidspunkt. Om to variabler korrelerer negativt, vil den ene variabelen synke når den andre stiger.


På korrelasjonsplottet under ser vi at det er perfekt korrelasjon langs diagonalen, noe som er naturlig siden alle variabler korrelerer perfekt med seg selv. Vi kan for eksempel se at OverallQual, som er generell kvalitet, korrelerer positivt med YearBuilt. Dette er logisk siden kvaliteten på nyere hus er typisk bedre enn på eldre hus.


Det mest interessante å studere her er korrelasjonen mellom salgspris og de andre featurene. Merk at OverallQual korrelerer sterkt positivt med SalePrice, heller ikke så overraskende.

In [0]:
plt.figure(figsize=(15,15))
sns.heatmap(data.corr(),annot = False, cbar = True)
plt.xticks(rotation=90)
plt.yticks(rotation = 0)

## Uteliggere og ekstrempunkter

Et kjent problem med data når man skal bygge maskinlæringsmodeller ekstreme punkter. På plottet under kan du se eksempler på noen boliger som har ekstremt store tomter (kvf). For eksempel kan vi se en bolig på over 200000 kvf som er solgt for under 400000 dollar. Dette er en veldig unormalt lav pris for så mange kvf. Enten kan registreringen være feilaktig, det er kanskje en 0'er for mye, eller så er dette en gård som ligger langt unna. Selv om disse punktene kan være reelle, så er de så sjeldne og så ødeleggende at de er bedre å utelate.

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(data['LotArea'], data['SalePrice'], color='black', label='Registreringer')
plt.ylabel('Salgspris')
plt.xlabel('LotArea')
plt.title('Kvadratfot mot salgspris')
plt.legend(loc='upper left')
plt.show()

In [0]:
#Alle registreringer med kvadratfot mindre enn 100000 eskluderes
data_kvf_uteneks = data[data['LotArea'] < 100000]

Etter at vi fjernet ekstrempunktene ser forholdet mellom kvadratfot og salgspris mindre forskjøvet ut. Dette vil lede til en mer stabil og generell modell.

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(data_kvf_uteneks['LotArea'], data_kvf_uteneks['SalePrice'], color='grey', label='Registreringer')
plt.ylabel('Salgspris')
plt.xlabel('LotArea')
plt.title('Kvadratfot mot salgspris - uteliggere fjernet')
plt.legend(loc='upper left')
plt.show()

# Oppgave 1: Pandas og Matplotlib



## Bli bedre kjent med Pandas og Matplotlib

Disse oppgavene er ment for å bli bedre kjent med basis bibliotekene for preprosessering av data, og kan skippes hvis man er trygg på stoffet så langt.

#### Pandas
Finn og print følgende informasjon (tips: bruk describe()): 

 - Første og siste salg (måned og år)
 
 - Største svømmebasseng

#### Matplotlib
Visualiser rådata (tips: bruk info() til å studere attributter):

 - Kvadratfot på boligene (både med og uten ekstrempunkter)

 - Årstall boligene ble bygget

 - Hvor mange salg det er i hver måned totalt
 
 
#### Ekstra utfordringer
  
 - Finn gjennomsnittlig antall bad i nabolaget: OldTown
 
 - Visualiser de ulike salgs-forholdene i nabolagene
 
 - Finn og visulaiser den generelle kvaliteten (0 til 10) fordelt inn i generell tilstand. I hvor god tilstand er husene av ulik kvalitet? 

 - Plot forholdet mellom generell tilstand på huset og salgspris. Gjør dette gjerne med andre attributter, og vurder om du finner noen ekstrempunkter. 

In [0]:
"Skriv kode her"

## Konstruer nytt datasett

I denne oppgaven skal vi konstruere et nytt datasett tilpasset maskinlæring. 
- Velg ut features dere tenker er nyttige. 
- Bruk metodene vi har lært til å forstå attributtene i datasettet. 
- Kall det nye datasettet: $data\_modell$

Studer inneholdet i de kategoriske attributtene og hvordan den nummeriske dataen er fordelt. Vurder å fjerne ekstrempunkter og rader som skiller seg signifikant fra resten av settet. Det kan være til hjelp å lage et korrelasjonsplot til det nye datasettet.

<i>Får du dårlig tid kan modellen i løsningsforslaget under seksjonen "Konstruer nytt datasett" brukes. Husk å kjøre koden i løsningsforslaget for å generere datasettet. <i>

In [0]:
#Skriv kode her

# Løsningsforslag

## Bli bedre kjent med Pandas og Matplotlib

**Pandas**

In [0]:
beskrivelse_oppgave = data.describe()[['YrSold','MoSold','PoolArea']]
beskrivelse_oppgave

In [0]:
print('Første salg: {:.0f}/{:.0f} (mm/åååå)'.format(beskrivelse_oppgave.iloc[3,1],beskrivelse_oppgave.iloc[3,0]))
print('Siste salg: {:.0f}/{:.0f} (mm/åååå)'.format(beskrivelse_oppgave.iloc[7,1],beskrivelse_oppgave.iloc[7,0]))
print('Største svømmebasseng: {:.2f} kvf'.format(beskrivelse_oppgave.iloc[7,2]))

In [0]:
data_nabolag = data[data['Neighborhood'] == 'OldTown']
beskrivelse_OldTown = data_nabolag.describe()[['FullBath','HalfBath']]
beskrivelse_OldTown

In [0]:
print('Gjennomsnittlig helbad: {:.2f} og halvbad: {:.2f} i OldTown'.format(beskrivelse_OldTown.iloc[1,0],beskrivelse_OldTown.iloc[1,1]))

**Matplotlib**

In [0]:
plt.figure(figsize=(15,7))
sns.distplot(data['LotArea'],bins=100, kde=False);
plt.ylabel('Antall')
plt.title('Fordeling av kvadratfot på boliger - med ekstremverdier')

In [0]:
plt.figure(figsize=(15,7))
sns.distplot(data_kvf_uteneks['LotArea'],bins=100, kde=False);
plt.ylabel('Antall')
plt.title('Fordeling av kvadratfot på boliger - uten ekstremverdier')

In [0]:
plt.figure(figsize=(15, 20))
sns.countplot(y='YearBuilt', data=data)
plt.title('Fordeling av år boligene ble bygget')

In [0]:
plt.figure(figsize=(15,7))
sns.countplot(data['MoSold'])
plt.title('Salg per måned totalt')

In [0]:
plt.figure(figsize=(20,8))
sns.countplot(x = 'Neighborhood', hue = 'SaleCondition', data=data)
plt.legend(loc='upper left')
plt.xticks(rotation=90)
plt.title('Fordeling av salgs-forhold i nabolagene')

In [0]:
plt.figure(figsize=(20,8))
sns.countplot(x = 'OverallQual', hue = 'OverallCond', data=data)
plt.legend(loc='upper left')
plt.xticks(rotation=90)
plt.title('Fordeling av salgs-forhold i nabolagene')

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(data['OverallQual'], data['SalePrice'], color='blue', label='Registreringer')
plt.xlabel('OverallQual')
plt.ylabel('SalePrice')
plt.title('Kvadratfot mot salgspris')
plt.show()

## Konstruer nytt datasett

In [0]:
# Velger kolonnene man ønsker i det nye datasettet
aktuelle_kolonner = ['LotArea','Neighborhood','WoodDeckSF','Condition1','HouseStyle','OverallQual','OverallCond','YearBuilt','YearRemodAdd','1stFlrSF','FullBath','HalfBath','BedroomAbvGr','Fence','KitchenAbvGr','TotRmsAbvGrd','GarageCars','Fireplaces','PoolArea','PoolQC','MoSold','YrSold']
data_modell = data[aktuelle_kolonner]

# Eksempel på generering av ny kolonne
data_modell['HouseAge'] = data['YrSold'] - data['YearBuilt']

#Fence NaN endret til None
data_modell['Fence'] = data_modell['Fence'].fillna('None')

#Salgspris legges til på slutten
data_modell['SalePrice'] = data['SalePrice']

#Ekstrempunkter mht kvadratfot fjernet
data_modell = data_modell[data['LotArea'] < 100000]

#Skriver ut de 5 første radene
data_modell.head()

In [0]:
data_modell.describe()

In [0]:
data_modell.info()

In [0]:
plt.figure(figsize=(15,15))
sns.heatmap(data_modell.corr(),annot = True,fmt = ".2f",cbar = True)
plt.xticks(rotation=90)
plt.yticks(rotation = 0)

#Maskinlæring med Scikit-Learn (Sklearn)

## Dataforbredelser til maskinlæringsmodellene

### Input og output data

Nå ønsker vi å lage maskinlæringsmodeller som bruker datasettet vi har laget til å predikere salgsprisen på boliger. Den estimerte salgsprisen er basert på attributtene vi inkluderte i dette datasettet. Input til modellen vil da være disse utvalgte attributtene, og outputen vil være salgspris. Inputen og outputen deler vi opp i to ulike Pandas objekter. 
<br>

Data kan aksesseres i pandas objekter ved å bruke index istedenfør kolonnenavn. Til input objektet, *input_data*, vil vi hente ut alle kolonner bortsett fra den siste, som er salgspris. Til output objecktet, *output_data*, vil vi hente ut kun siste kolonne, salgsprisen.
<br>

I python betyr index ':' alle, så row = : betyr alle raderne. Index '0:-1' betyre fra og med 0 til (og ikke med) element (-1), som i python betyr nest siste. Om du indexerer negativt i python, starter du i enden av listen.

In [0]:
#Velg alle kolonner untatt den siste. Denne inneholder Salgsprisen som vi ønsker å predikere
input_data = data_modell.iloc[:,0:-1].copy(deep=True)

#Velg kun siste kolonne. Dette er salgsprisen
output_data = data_modell['SalePrice'].copy(deep=True)

print('Antall registreringer i dataen: {}, antall attributter i input: {}'.format(input_data.shape[0],input_data.shape[1]))

In [0]:
input_data.head(5)

In [0]:
output_data.head(5)

### kategoriske attributter

Maskinlæringsmodeller aksepterer kun tallverdier. Derfor er det ikke mulig å servere den kategoriske verdier som "Neighborhood", som er en string eller tekst verdi. Vi må derfor konvertere all kategorisk input til tallverdier. Et enkelt eksempel er å se på "Street" featuren, som kun har to kategorier.

In [0]:
data["Street"].value_counts()

Denne attributten forteller at oppkjørselen til et hus er enten av asfalt eller grus. Disse kategoriene kan oversettes til [0 , 1] istedenfor ['Pvae' , 'Grvl'] slik at de blir lesbare for modellene våre. Dette må gjøres med alle kategoriske verdier i datasettet vi skal bruke. Scikit-learn har funksjoner som gjør dette enkelt. Les mer om <a href="http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html" >LabelEncoder </a> i Scikit-learn biblioteket. 


In [0]:
from sklearn import preprocessing

## Oppretter encodere for de ulike kategoriene vi ønsker å transformere fra tekst til tall.
Neighborhood_enc = preprocessing.LabelEncoder()
Condition1_enc = preprocessing.LabelEncoder()
HouseStyle_enc = preprocessing.LabelEncoder()
Fence_enc = preprocessing.LabelEncoder()
PoolQualityCondition_enc = preprocessing.LabelEncoder()

## Konverterer kolonnene som inneholder tekstverdier til tallverdier
input_data['Neighborhood'] = Neighborhood_enc.fit_transform(input_data['Neighborhood'])
input_data['Condition1'] = Condition1_enc.fit_transform(input_data['Condition1'])
input_data['HouseStyle'] = HouseStyle_enc.fit_transform(input_data['HouseStyle'])
input_data['Fence'] = Fence_enc.fit_transform(input_data['Fence'])
input_data['PoolQC'] = PoolQualityCondition_enc.fit_transform(input_data['PoolQC'])


## Sjekker at kolonnene med kategoriske features har fått tallverdier
input_data.head(5)

Til sammenlikning kan vi sjekke dataen uten LabelEncoding for å se hvordan attributtene ble enkodet

In [0]:
data_modell.head(5)

### Treningsdata og testdata

For å validere treffsikkerheten til maskinlæringsmodellene våre må vi fordele dataen inn i treningsdata og testdata. Prinsippet er at vi henter ut en andel av registreringene våre, for eksempel 20%, og gjemmer dem bort når vi konstruerer modellene. Når vi har designet en eller flere modeller gjøres en endelig validering ved å bruke testdataen. Når vi splitter dataen i trenings- og testdata plukker vi ut tilfeldige registreringer i datasettet. Vi bruker en hjelpefunksjon fra Scikit-learn, <a href="http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html" > train_test_split </a>, til å gjøre dette:


<br> $ X\_trening, X\_test, Y\_trening, Y\_test = train\_test\_split(X, Y, test\_sett\_andel) $ <br>


Her har jeg også satt random_state = 1, noe som gjør at datasettet blir tilfeldig delt inn i trenings- og testdata på samme måte hver gang scriptet kjøres. Slik kan resultatene enklere sammenliknes mellom modellene hvis man tester modeller i flere runder.


In [0]:
from sklearn.model_selection import train_test_split

#Dataen deles opp i to sett: treningssett og testsett og lagres i de 4 nye objektene. Test_size bestemmer andelen av dataen som blir brukt til testing av modellen
input_treningsdata, input_testdata, output_treningsdata, output_testdata = train_test_split(input_data, output_data, test_size=0.2, random_state=1)

print('Input_treningsdata: {}, input_testdata: {}, output_treningsdata: {} og output_testdata: {}'.format(input_treningsdata.shape, input_testdata.shape, output_treningsdata.shape, output_testdata.shape))


In [0]:
input_treningsdata.info()

In [0]:
input_testdata.info(5)

### Feilmåling av prediksjoner

Når vi evaluerer en maskinlæringsmodell må vi bestemme oss for hvordan vi måler feilen mellom reell salgspris og estimert salgspris. Gjennomsnittet av absolutt feil er en simpel og oversiktlig måte å beregne feilprediksjoner på. Heldigvis slipper vi å regne ut dette selv da Scikit-learn har ferdigbygde metoder for dette. For å få til dette må vi  kalle $mean\_absolute\_error()$.  Metoden må gis to parametre; $salgspris\_prediksjoner$ og $salgspris\_fra\_testdata$. På den måten kan gjennomsnittlig absloutt feil regnes ut og lagres i en $MAE$ variabel <p>

In [0]:
## Importerer metode for å måle gjennomsnittlig absolutt feil
from sklearn.metrics import mean_absolute_error

##Lineær regresjon

Linær regresjon er modell der man forsøker å tilpasse en rett linje til data. Målet er å minimere den totale avstanden fra datapunktene til linjen. 

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Linear_regression.svg/438px-Linear_regression.svg.png">

Les mer om <a href="https://en.wikipedia.org/wiki/Linear_regression">Linear regression</a><br>
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html" >Scikit-learn dokumentasjon</a>

<p>
  ###  Trene lineær modell
  For å trene en modell basert på lineær regresjon må man importere riktig modell fra Scikit-learn. Deretter må man lage et objekt som representerer modellen. Dette kan gjøres ved å skrive: <br>
  
 $modell\_lineær = LinearRegression()$ <br>
  
  Når modell-objektet er opprettet må man kalle objektets metode $fit()$. Denne metoden tar to parametere; attributtene og tilhørende output, eller X og Y. I vårt tilfelle er attributtene utvalgte kolonner som beskriver huset, mens output er salgsprisen. For å trene modellen til dette datasette skriver man derfor: <br>
  
  $modell\_lineær.fit(input\_treningsdata, output\_treningsdata)$ <br>
  
 Den lærte sammenhengen mellom husets egenskaper og salgspris er nå lagret i modellen. 
  
<p/>

In [0]:
#Treningsfase
from sklearn.linear_model import LinearRegression

#Regressjons-objekt fra scikit-learn
modell_lineær = LinearRegression()

#Tilpass regressjonskoeffesienter med treningsdata
modell_lineær.fit(input_treningsdata, output_treningsdata)

**Predikere salgspris med lineær modell** <br>
Den lærte modellen kan nå brukes til å predikere salgspriser på hus. Det eneste modellen krever er de samme attributtene den ble trent på. Siden vi har spart endel data som modellen ikke har sett før, kan man måle hvor nøyaktig modellen er til å predikere salgspris på "nye" hus. Dette kan gjøres ved å kalle <br>
$modell\_lineær.predict()$. <br>

Metoden $predict()$ tar en parameter; $input\_testdata$. Dette er dataene som vi har reservert for testing av modellen.  Resultatet av prediksjonen lagrer vi i $pris\_prediksjoner\_lineær$<br>
<p>



In [0]:
#Testfase

#Gjør pris-prediksjon på testdataen. 
pris_prediksjoner_lineær = modell_lineær.predict(input_testdata)

#Beregn feil
MAE_lin = mean_absolute_error(pris_prediksjoner_lineær, output_testdata)

#Feilen skrives ut
print("MAE: {}".format(MAE_lin))

Her benytter vi plt (kallenavnet for matplotlib) sin plottefunksjon for å lage et punktplot
<br> $plt.scatter(x, y) $ <br>

Her plotter vi altså predikert pris mot ekte pris, optimalt hadde disse ligget langs en rett linje. Da hadde modellen vært 100% treffsikker.

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(x=output_testdata, y=pris_prediksjoner_lineær)
plt.xlabel('Pris')
plt.ylabel('Prediskjon')
plt.title('Faktisk pris mot estimert pris')
plt.show()

## Decision tree regression

Decision trees baserer seg på å forsøke å dele datasettet i undergrupper. Ved å bevege seg gjennom treet kan et data klassifiseres. Decision trees kan også brukes til regresjon. 


---



**Overlevde Titanic?:**



<img src="https://upload.wikimedia.org/wikipedia/commons/f/f3/CART_tree_titanic_survivors.png">

Les mer om <a href="https://en.wikipedia.org/wiki/Decision_tree_learning">Decision tree</a><br>
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html">Scikit-learn dokumentasjon</a>

<p>
  ### Trene Decision tree 
 På samme måte som tidligere må man importere riktig modell fra Scikit-learn. Vi skal ha $DecisionTreeRegressor$. Deretter må modellen lages ved å skrive. <br>
 $model\_tre = DecisionTreeRegresseor()$ <br>
  
  Vi trener modellen på samme vis <br>
  $model\_tre.fit(input\_treningsdata, output\_treningsdata)$ <br>
Sammenhengen er nå lagret i modell-objektet. 
  
<p/>

In [0]:
## Importerer DecisionTreeRegressor fra sklearn
from sklearn.tree import DecisionTreeRegressor

## Oppretter modell
modell_tre = DecisionTreeRegressor()

## Trener modell med features og labels. 
modell_tre.fit(input_treningsdata, output_treningsdata)

In [0]:

pris_prediksjon_tre = modell_tre.predict(input_testdata)

MAE_tre = mean_absolute_error(pris_prediksjon_tre, output_testdata)

print("MAE: {}".format(MAE_tre))

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(output_testdata, pris_prediksjon_tre)
plt.xlabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Faktisk pris mot estimert pris')
plt.show()

##Skog regressjon
Skogmodeller tar utgangspunkt i Decision trees. Istedenfor å generere et tre, så kan skogmodeller generere mange trær. Et valgtre kan se forskjellig ut for samme datasett mellom hver gang det genereres, så mange ulike trær kan i samspill lage en mer robust prediksjon enn et eneste valgtre. Trærne i skogen "stemmer over"/"enes om" riktig resultat.

<img src="https://upload.wikimedia.org/wikipedia/commons/7/76/Random_forest_diagram_complete.png">

Les mer om <a href="https://en.wikipedia.org/wiki/Random_forest">Skogregresjon</a> <br>
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html">Scikit-learn dokumentasjon</a>

In [0]:
#Forest regression

from sklearn.ensemble import RandomForestRegressor

modell_skog = RandomForestRegressor(random_state=1)

modell_skog.fit(input_treningsdata, output_treningsdata)

In [0]:
pris_prediksjon_skog = modell_skog.predict(input_testdata)

MAE_skog = mean_absolute_error(pris_prediksjon_skog, output_testdata)

print("MAE: {}".format(MAE_skog))

In [0]:
plt.figure(figsize=(15, 10))
plt.plot([0,0],[400000,400000],'k-',linestyle='solid')

plt.scatter(output_testdata, pris_prediksjon_skog)
plt.xlabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Faktisk pris mot estimert pris')
plt.show()

##Nevralt nettverk regressjon

Nevrale nettverk er kjent for å være en god regresjonsmetode når dataen er kompleks og stor. Det er ikke nødvendigvis bedre enn de mer klassiske maskinlæringsmodellene og krever  mer tilpassing av parametere. 

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/46/Colored_neural_network.svg/296px-Colored_neural_network.svg.png">

Les mer om <a href="https://en.wikipedia.org/wiki/Artificial_neural_network">nevrale nettverk</a><br>
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.neural_network.MLPRegressor.html">Scikit-learn dokumentasjon</a>

Noen viktige parametere å tenke på er:

 - Hidden_layer_sizes: Antall gjemte lag i nettverket, og antall noder i disse lagene. Det i-ende elementet er antall noder i det i-ende laget. (#noder i lag 1, #noder i lag 2, ... , #noder i lag n)
 - Learning_rate_init: hastigheten på læringen. For hurtig læring gjør at nettverket lærer hurtig og aggressivt, og lærer muligens litt for generaliserte løsninger. For sakte gjør at nettverket aldri når de gode løsningene og generaliserer muligens ikke nok.
 - Max_iter: Maximalt antall treningsiterasjoner over hele datasettet. Hvis max_iter er for liten rekker ikke nettverket å trene ferdig. Hvis den er for stor kan nettverke ende med å trene unødvendig mye, som til og med kan lede til for lite generalisering.
 - Validation_fraction: Andel av input dataen som vil bli brukt til underveis-validering mellom hver trenings iterasjon. 15% pleier å være et bra valg.


En grei huskeregel er at jo mer kompleks dataen er, jo mer komplekst burde nettverket være. Ofte er det lurt å begynne med et enkelt og lite nettverk, for eksempel to lage med 50 noder, og så utvide nettverket gradvis mens du følger med å feilmålingen. Learning rate kan justeres på samme måte, begynn med en lav rate og øk den gradvis.

In [0]:
from sklearn.neural_network import MLPRegressor

modell_MLPR = MLPRegressor(hidden_layer_sizes=(200,100,20), activation='relu',solver='adam', max_iter=300, learning_rate_init=0.01, momentum = 0.9, validation_fraction = 0.2)

modell_MLPR.fit(input_treningsdata, output_treningsdata)

In [0]:
pris_prediksjon_MLPR = modell_MLPR.predict(input_testdata)

MAE_MLPR = mean_absolute_error(pris_prediksjon_MLPR, output_testdata)

print("MAE: {}".format(MAE_MLPR))

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(output_testdata, pris_prediksjon_MLPR)
plt.xlabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Faktisk pris mot estimert pris')
plt.show()

## Gradient boosted regression

Gradient boosting har samme prinsipp som forest regression, det er flere modeller som i samarbeid lager en prediksjon. I forest regression modellen konstrueres mange uavhengige og ulike valgtre-modeller som utfører hver sin prediksjon. Alle disse prediksjonene blir til slutt slått sammen til den endelige prediksjonen ved for eksempel å ta gjennomsnittet av alle prediksjonene. I gradient boosting lages det også mange forskjellige valgtre-modeller, men disse lages sekvensielt, og er avhengige av hverandre. 


Prinsippet er at når første valgtre blir laget, så blir neste valgtre laget basert på feilen til den første modellen. En liten bit av treningsdataen, valideringsdata, blir brukt til å gjøre en underveis-vurdering på samme måte som testdataen. Målet for neste tre er å minimere feilen til det forrige treet. Altså stepper neste modell inn for å rette opp det forrige modell gjorde det dårligst på. Dette kan gjøres evig, men i realiteten må vi sette en grense på hvor mange valgtrær man tillater modellen å lage. Prinsippet er forklart i mer detalj <a href="https://medium.com/mlreview/gradient-boosting-from-scratch-1e317ae4587d
">her</a>

Les mer om <a href="https://en.wikipedia.org/wiki/Gradient_boosting">gradient boosting</a><br>
<a href="http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html
">Scikit-learn dokumentasjon</a>

In [0]:
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.ensemble.partial_dependence import plot_partial_dependence
from sklearn.ensemble.partial_dependence import partial_dependence

modell_boostreg = GradientBoostingRegressor(learning_rate = 0.1, max_depth = 3, random_state=1)

modell_boostreg.fit(input_treningsdata, output_treningsdata)

In [0]:
pris_prediksjon_boostreg = modell_boostreg.predict(input_testdata)

MAE_boostreg = mean_absolute_error(pris_prediksjon_boostreg, output_testdata)

print("MAE: {}".format(MAE_boostreg))

In [0]:
plt.figure(figsize=(15, 10))
plt.scatter(output_testdata, pris_prediksjon_boostreg)
plt.xlabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Faktisk pris mot estimert pris')
plt.show()

# Analyse av resultater

In [0]:
input_data['Neighborhood'] = Neighborhood_enc.fit_transform(input_data['Neighborhood'])
input_data['Condition1'] = Condition1_enc.fit_transform(input_data['Condition1'])
input_data['HouseStyle'] = HouseStyle_enc.fit_transform(input_data['HouseStyle'])
input_data['Fence'] = Fence_enc.fit_transform(input_data['Fence'])
input_data['PoolQC'] = PoolQualityCondition_enc.fit_transform(input_data['PoolQC'])

##Sammenlikning av modeller

Nå som vi har prediksjoner på salgspris i testdataen fra alle modellene kan vi slå dem sammen i en pandas dataframe for å lettere sammenlikne. Dette gjør vi ved å samle dataen i en dictionary (hashtabell), og deretter opprette en ny dataframe med denne dataen. 

<br> $ dict = \{ 'modell1' : prediksjoner1, 'modell2':prediksjoner2 \} $ <br>

Se <a href="https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html"> dokumentasjonen </a>  på denne funksjonen
 

In [0]:
# Definer kolonnenavn til den nye dataframen
kolonner_resultat = ['output_testdata', 'pris_prediksjoner_lineær', 'pris_prediksjon_tre','pris_prediksjon_skog', 'pris_prediksjon_MLPR','pris_prediksjon_boostreg']

#Legg prediksjonsdataen
resultat_data = {'output_testdata':output_testdata, 'pris_prediksjoner_lineær':pris_prediksjoner_lineær, 'pris_prediksjon_tre':pris_prediksjon_tre, 'pris_prediksjon_skog':pris_prediksjon_skog, 'pris_prediksjon_MLPR':pris_prediksjon_MLPR, 'pris_prediksjon_boostreg':pris_prediksjon_boostreg}

resultat = pd.DataFrame(data=resultat_data, columns = kolonner_resultat)
resultat.head(5)

Vi samler også feilmålingene av modellene i en dataframe

In [0]:
#Alle modeller må være kjørt
MAE_kolonner = ['MAE_lin','MAE_tre','MAE_skog','MAE_MLPR','MAE_boostreg']
feil_data = {'MAE_lin':[MAE_lin], 'MAE_tre':[MAE_tre], 'MAE_skog':[MAE_skog],'MAE_MLPR':[MAE_MLPR], 'MAE_boostreg':MAE_boostreg}

MAE_alle = pd.DataFrame(data=feil_data,columns=MAE_kolonner)
MAE_alle.head()

Vi kan også plotte alle prediksjonspunktene til hver modell oppå hverandre for å visualisere hvordan prediksjons-distribusjonen ser ut. Her plotter vi predikert pris mot ekte pris. Ekte pris plottet mot seg selv blir naturligvis en rett linje, fordi den vil stemme 100% med seg selv.

In [0]:
plt.figure(figsize=(18, 12))
plt.scatter(output_testdata, output_testdata, color='black', label='Faktisk pris')
plt.scatter(output_testdata, pris_prediksjoner_lineær, color='yellow', label='Lineær regressjon')
plt.scatter(output_testdata, pris_prediksjon_tre, color='blue', label='Decision tree')
plt.scatter(output_testdata, pris_prediksjon_skog, color='green', label='Skog regressjon')
plt.scatter(output_testdata, pris_prediksjon_MLPR, color='red', label='Nevralt netverk')
plt.scatter(output_testdata, pris_prediksjon_boostreg, color='purple', label='Boosted regression')
plt.ylabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Sammenlikning av modeller, prediskjon på testdata')
plt.legend(loc='upper left')
plt.show()

Det kan være mer oversiktlig å visualisere prediksjonene til en modell av gangen.

In [0]:
plt.figure(figsize=(18, 12))
plt.scatter(output_testdata, output_testdata, color='black', label='Faktisk pris')
plt.scatter(output_testdata, pris_prediksjon_boostreg, color='purple', label='Boosted regression')
plt.ylabel('Predkisjon')
plt.xlabel('Pris')
plt.title('Boosted regression prediksjoner på testdata')
plt.legend(loc='upper left')
plt.show()

## Feature importance



Feature importance er en nyttig måling på hvor mye påvirkning de ulike attributtene har på prediksjonen, altså output. 

Vanligvis bidrar ikke attributtene til å predikere outputen like mye og ofte er det flere attributter som nesten ikke bidrar i det hele tatt og er i realiteten irrelevante. En viktig analyse av resultatene til de ulike modellene er å avdekke hvilke attributter som er de viktigste bidragsyterene. 

Valgtrær utfører utvelgelse av de viktigste attributter ved å splitte valgene på de attributtene som skiller dataen best. Denne informasjonen kan brukes til å tolke viktigheten til attributtene. Jo oftere en attribut er brukt til å splitte grener i et valgtre, jo viktigere er attributten. Dette kan også gjøres med sammensetning av flere valgtrær, som i skog og boosted, der gjennomsnittsviktigheten over alle valgtrærne blir brukt.

Attributt-viktighet kan kun hentes ut av maskinlæringsmodeller som er basert på valgtrær. Informasjonen om viktigheten til attributtene er derimot overførbar til andre maskinlæringsmodeller.

In [0]:
plt.figure(figsize=[15,8])
feat_imp = pd.Series(modell_tre.feature_importances_, input_treningsdata.columns).sort_values(ascending=False)
feat_imp.plot(kind='bar', title='Feature Importances valgtre regressjon')
plt.ylabel('Feature Importance Score')
plt.show()

In [0]:
plt.figure(figsize=[15,8])
feat_imp = pd.Series(modell_skog.feature_importances_, input_treningsdata.columns).sort_values(ascending=False)
feat_imp.plot(kind='bar', title='Feature Importances skog regressjon')
plt.ylabel('Feature Importance Score')
plt.show()

In [0]:
plt.figure(figsize=[15,10])
feat_imp = pd.Series(modell_boostreg.feature_importances_, input_treningsdata.columns).sort_values(ascending=False)
feat_imp.plot(kind='bar', title='Feature Importances boosted regressjon')
plt.ylabel('Feature Importance Score')
plt.show()

## Partial dependence plots

For å bedre tolke påvirkningen fra attributtene på output kan det gjøres en delvis avhengighets undersøkelse. Delvis avhengighet beskriver den forventede responsen på output som en funksjon av attributtene. Den ferdig trente modellen må bli testet for noen attributter av gangen. En registrering blir sent inn i modellen, og så setter vi featuren til den minste verdien den har i datasettet. Deretter øker vi denne featuren gradvis, til vi når den største verdien den har i datasettet. Slik får vi ut en funksjon av featuren som viser responsen på outputen.


Skal vi for eksempel undersøke påvirkelsen av kvadratfot, tester vi med LotArea lik 0. Deretter øker vi LotArea gradvis og ser hvordan prisprediksjonen endrer seg. Da kan man tolke hvilke tomt størrelsen som har størt påvirkning på prisen. Hvis påvirkningen er under null, så trekker attributten ned på dette punktet. Hvis det er på null, så påvirkes ingenting relativt til gjennomsnittet.

Les mer <a href="http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.partial_dependence.plot_partial_dependence.html#sklearn.ensemble.partial_dependence.plot_partial_dependence
">Scikit-learn dokumentasjon</a>

In [0]:
#Nummerering på hver feature
for i, element in enumerate(features):
  print(i,element)

Vi benytte oversikten over til å velge hvilke attributter vi ønsker å undersøke. I eksempelet under er det plottet delvis avhengighet for størrelse på tomt og alder på hus. Man kan observere hvordan prisen påvirkes positivt i takt med økende kvf. Altså har LotArea en positiv effekt på pris, jo større tomt jo dyrere pris. Hus-alder har også en positiv effekt når huset er ungt, men liten påvirkning for eldre hus. Vi kan se at det er liten påvirkning på salgspris når huset er over 20 år gammelt.

In [0]:
#Liste over features for utvelgelse til partial dependence plottet
features = input_treningsdata.columns

my_plot = plot_partial_dependence(modell_boostreg, features=[0, 22], X=input_treningsdata, feature_names=features, grid_resolution=20, n_cols=2)


Vi kan også utføre delvis avhengighet med to attributter samtidig. Dette vil vise oss samhandlingen mellom de to variablene. Her har vi testet kvalitet og alder på huset. For et hus som har kvalitet over 6, har alderen på huset ingen påvirkning på prisen. For hus som har kvalitet mellom 4 og 6, så har alder på hus en viss påvirkningskraft på salgsprisen.



In [0]:
my_plot = plot_partial_dependence(modell_boostreg, features=[(5,22)], X=input_treningsdata, feature_names=features, grid_resolution=10, n_cols=2)

Vi kan også undersøke påvirkelsen av kategoriske attributter, da vil vi iterere gjennom alle nabolagene for eksempel istedenfor å øke en verdi gradvis. Her er påvirkelsen på salgspris for hvert nabolag, vi må undersøke oversikten over enkodingen for å kunne tolke det.

In [0]:

my_plot = plot_partial_dependence(modell_boostreg, features=[1], X=input_treningsdata, feature_names=features, grid_resolution=100, n_cols=2)


In [0]:
#Kode for å skrive ut oversikt over nabolag
keys = Neighborhood_enc.classes_
values = Neighborhood_enc.transform(Neighborhood_enc.classes_)
dictionary = dict(zip(keys, values))

print('Neighborhood koding')
for num,name in enumerate(dictionary):
  print('{} -> {}'.format(num, name))



**merk at scikit-learn støtter denne funksjonen kun for gradient boosting modellen**

## Valgtre visualisering



In [0]:
!pip install pydotplus
!pip install GraphViz

In [0]:
from sklearn.externals.six import StringIO  
from IPython.display import Image  
from sklearn.tree import export_graphviz
import pydotplus
            
dot_data = StringIO()
export_graphviz(modell_tre, out_file=dot_data,  
                            filled=True, rounded=True,
                            special_characters=True,
                            feature_names=input_data.columns)

graph = pydotplus.graph_from_dot_data(dot_data.getvalue())  
tree = Image(graph.create_png())

## Realistisk test (tilpasset modell_data)

In [0]:
import numpy as np
modell_dict = {'modell_lineær':modell_lineær, 'modell_tre':modell_tre, 'modell_skog':modell_skog, 'modell_MLPR':modell_MLPR,'modell_boostreg':modell_boostreg}

#@title String fields

# valg av modell
modell_test = 'modell_boostreg' #@param ["modell_lineær", "modell_tre", "modell_skog", "modell_MLPR", "modell_boostreg"] {allow-input: true}



#Valg av parametre

LotArea = 1953 #@param {type:"integer"}
Neighborhood = 'BrDale' #@param ['CollgCr', 'Veenker', 'Crawfor', 'NoRidge', 'Mitchel', 'Somerst','NWAmes', 'OldTown', 'BrkSide', 'Sawyer', 'NridgHt', 'NAmes','SawyerW', 'IDOTRR', 'MeadowV', 'Edwards', 'Timber', 'Gilbert','StoneBr', 'ClearCr', 'NPkVill', 'Blmngtn', 'BrDale', 'SWISU','Blueste'] {allow-input: true}
WoodDeckSF = 72 #@param {type:"integer"}
Condition1 = 'Norm' #@param ['Norm', 'Feedr', 'PosN', 'Artery', 'RRAe', 'RRNn', 'RRAn', 'PosA','RRNe'] {allow-input: true}
HouseStyle = '2Story' #@param ['2Story', '1Story', '1.5Fin', '1.5Unf', 'SFoyer', 'SLvl', '2.5Unf', '2.5Fin'] {allow-input: true}
OverallQual = 6 #@param {type:"slider", min:1, max:10, step:1}
OverallCond = 5 #@param {type:"slider", min:1, max:10, step:1}
YearBuilt = 1973 #@param {type:"slider", min:1870, max:2010, step:1}
YearRemodAdd = 1973 #@param {type:"slider", min:1950, max:2010, step:1}

#@markdown 1stFlrSF er kvadratfot i 1. etg

FirstFlrSF = 483 #@param {type:'integer'}
FullBath = 1 #@param {type:'integer'}
HalfBath = 1 #@param {type:'integer'}
BedroomAbvGr = 2 #@param {type:'integer'}
Fence = 'None' #@param ['None', 'MnPrv', 'GdWo', 'GdPrv', 'MnWw'] {allow-input: true}
KitchenAbvGr = 1 #@param {type:'integer'}
TotRmsAbvGrd = 5 #@param {type:'integer'}
GarageCars = 1 #@param {type:'integer'}
Fireplaces = 0 #@param {type:'integer'}
PoolArea = 0 #@param {type:'integer'}
PoolQC = 'None' #@param ['None', 'Ex', 'Fa', 'Gd'] {allow-input: true}
MoSold = 6 #@param {type:"slider", min:1, max:12, step:1}
YrSold = 2006 #@param {type:'integer'}
HouseAge = 33 #@param {type:'integer'}

# Attribut enkoding
Neighborhood = Neighborhood_enc.transform([Neighborhood])[0]
Condition1 = Condition1_enc.transform([Condition1])[0]
HouseStyle = HouseStyle_enc.transform([HouseStyle])[0]
Fence = Fence_enc.transform([Fence])[0]
PoolQualityCondition = PoolQualityCondition_enc.transform([PoolQC])[0]


test_input = np.array([LotArea, Neighborhood, WoodDeckSF,\
                       Condition1,HouseStyle ,\
                       OverallQual, OverallCond, YearBuilt, YearRemodAdd, FirstFlrSF, FullBath, \
                       HalfBath, BedroomAbvGr, Fence, KitchenAbvGr, \
                       TotRmsAbvGrd, GarageCars, Fireplaces, PoolArea, PoolQualityCondition,\
                       MoSold, YrSold, HouseAge]).reshape(1,-1)

modell_valg = modell_dict[modell_test]

est = modell_valg.predict(test_input)

print('\nModell brukt: {}\n'.format(modell_test))
print(modell_valg)
print('\n')
print('Predikert boligpris: {0:.2f}'.format(est[0]))


##Oppgave: Bygg model

Bygg din egen modell på datasettet du lagde i tidligere seksjon. Husk å dele opp datasettet i trenings og test data ved å bruke:

<br> $ train\_test\_split(x,y,test\_size = 0.2, random\_state=1) $ <br>

**NB! Ha med test_size = 0.2 og  random_state = 1 slik at samme registreringer blir utvalgt til å være i testsettet, slik blir resultatene 100% sammenliknbare mellom modellene.**

Velg hvilken modell du vil bruke, gjerne noen andre enn de som er gått gjennom her, og juster modell parametrene for å få så lav MAE som mulig.


<a href="http://scikit-learn.org/stable/supervised_learning.html
">Scikit-learn supervised learning</a>

Bruk også gjerne modellene og datasettet som allerede er satt opp og endre parameterene og utvalgte features for å forbedre modellen. Visualiser resultatene fra modellen(e).

Til slutt: lag en boosted regression modell på datasettet ditt og skriv ut features importance og partial dependence plots.

In [0]:
#Skriv kode her