# Datahåndtering
I denne forelesningen skal vi se på datahåndtering og hvordan vi kan bruke data til å lage modeller.
- gjøre statistiske operasjoner på data (pandas og numpy)
- gjøre og tolke regresjon (numpy)
- lage en enkel maskinlæringsmodell

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Statistikk
- Interkvartilbredde.
- Gjennomsnitt.
- Varians ($\sigma^2$) og standardavvik ($\sigma$):

$$\sigma^2  = \frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2$$

$$\sigma  = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$$

In [None]:
import numpy as np

konsentrasjon = [2.00, 3.00, 3.03, 4.01, 4.00, 4.01, 5.00]
snitt = np.mean(konsentrasjon)
avvik = np.std(konsentrasjon)

print(round(snitt,2),"+-", round(avvik,6))

In [None]:
# Gjennomsnitt, median, varians og standardavvik av elektronegativitet
elneg = periodesystemet["Electronegativity"]
elneg.mean()
elneg.median()
elneg.var()
elneg.std()

In [None]:
# Boksplott
konsentrasjon = [2, 3, 3, 4, 4, 4, 5, 5, 8]

__Oppgave:__ Regn ut gjennomsnitt, varians og standardavvik av konsentrasjonen ovenfor "for hånd" (du kan bruke Python som kalkulator).

In [None]:
sns.boxplot(y=konsentrasjon)
# Hva skjer hvis vi legger inn en "uteligger" (9 istedenfor 8)?
#konsentrasjon = [2, 3, 3, 4, 4, 4, 5, 5, 9]

In [None]:
# Gjennomsnitt, median, varians og standardavvik av elektronegativitet

## Regresjon

|     Temperatur (°C)     |     NH3, løselighet     (g/100 mL H$_2$O)     |     NaCl, Løselighet      (g/100 mL H$_2$O)     |
|-------------------------|--------------------------------------------|----------------------------------------------|
|     0                   |     88.5                                   |     35.7                                     |
|     20                  |     56.0                                   |     35.9                                     |
|     40                  |     34.0                                   |     36.4                                     |
|     60                  |     20.0                                   |     37.1                                     |
|     80                  |     11.0                                   |     38.0                                     |
|     100                 |     7.0                                    |     39.2                                     |

In [None]:
# La oss gjøre en regresjon
T = [0,20,40,60,80,100]
sol = [35.7, 35.9, 36.4, 37.1, 38, 39.2]

reg = np.polyfit(T,sol,1)
x = np.linspace(0,120,1000)
y = np.polyval(reg,x)

plt.scatter(T,sol,label="Datapunkter")
plt.plot(x,y,label="Tilpasset kurve",color="hotpink")
plt.legend()

Menti: https://www.menti.com/2sikjeo4ga

## Maskinlæring

### Visualiseringer
La oss først visualisere noen sammenhenger som kan gi oss noen hypoteser.

## Maskinlæring
Vi skal nå lage en modell som kan forutsi hvilken art vi har med å gjøre gitt ulike kriterier. Vi velger ut hvilke data vi ønsker å bruke som kriterium for arten, og spesifiserer kategorien "species" som målkategorien vår:

In [None]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn import tree
from sklearn.metrics import accuracy_score, confusion_matrix

In [None]:
pingvindata = pd.read_csv("https://www.uio.no/studier/emner/matnat/ifi/IN-KJM1900/h21/datafiler/penguings.txt", delimiter = ",")
pingvindata.head()

In [None]:
pingvindata.dropna(inplace=True)

## Steg 2: Velge treningssett og testsett

I maskinlæring er det viktig at modellen vår klarer å forutsi data som kommer utenfra datasettet vi trener modellen med. Derfor deler vi ofte opp dataene i et treningssett og et testsett. Treningssettet bruker vi til å trene modellen, testsettet til å teste og evaluere modellen i etterkant. Vi blander ikke disse dataene. Vi kan generere slike data med funksjonen _train\_test\_split()_. Her bruker vi 80 \% av dataene til trening og 20 \% til testing. Du bør bruke minst 70 \% av dataene dine til trening.

In [None]:
kriterier = pingvindata[['bill_length_mm', 'bill_depth_mm']] # features
kategorier = pingvindata['species']                          # labels, velge ut data til trening og testing
treningsandel = 0.8 # Velger 80 prosent av datasettet til trening
ml_data = train_test_split(kriterier, kategorier, train_size=treningsandel, random_state=42)

treningskriterier = ml_data[0]
testkriterier = ml_data[1]
treningskategorier = ml_data[2]
testkategorier = ml_data[3]

## Steg 3: Lage modellen

Nå kan vi lage modellen vår. Vi bruker en algoritme som heter _Decision Tree Classifier_. Det er basert på sammensatte og forgreinede valgtrær, der alle kombinasjoner av kriterier blir utforsket. Betingede sannsynligheter for ulike hendelser blir beregnet, og de mest sannsynlige utfallene blir framhevet basert på kombinasjonen av kriteriene. Først trener vi modellen:

In [None]:
modell = tree.DecisionTreeClassifier()                  # Lager modellen
modell.fit(treningskriterier, treningskategorier)       # Trener modellen

## Steg 4: Test og evaluer modellen

Det var det - da har vi en modell! Den ligger nå i et objekt som vi har kalt _modell_.

In [None]:
forutsigelser = modell.predict(testkriterier)
accuracy_score(testkategorier, forutsigelser)

In [None]:
nebblengde = 35
nebbdybde = 15
modell.predict([[nebblengde, nebbdybde]]) # Husk to klammer her!

In [None]:
plt.figure(figsize=(10,10))
tree.plot_tree(modell,feature_names=pingvindata.columns, class_names=['Adelie', 'Chinstrap', 'Gentoo'], filled=True,label=None, max_depth=1) 
None