# Tabulære datasæt og klassificering

Nu lad os glemme billeder for en stund og tale lidt om mere enkle datasæt - tabulære datasæt. Som det kan ses ud fra navnet, repræsenteres disse datasæt i form af tabeller. Rækkerne i en sådan tabel er enkeltpersoner - objekter, personer, dyr, planter, fænomener - alt hvad du undersøger. Kolonnerne er karakteristika ved disse enkeltpersoner, som du observerer eller måler.

For eksempel, hvis du har et datasæt med alle elever i din klasse, så vil hver række svare til en bestemt elev, og hver kolonne til en af deres karakteristika. Det kan være højde, vægt, alder, IQ og andre målbare eller observerbare egenskaber.

I dette kursusafsnit vil vi lære:

1. Hvordan man opretter sådanne datasæt og indlæser dem fra filer.
2. Hvordan man analyserer og visualiserer sådanne datasæt.
3. Hvordan man laver en model, som vil tildele enkeltpersonerne til grupper - klassificere dem.
4. Hvordan man vurderer resultaterne af en sådan klassificering.

Som sædvanlig lad os starte fra bunden.

## Data frames (Dataramme)

I Python repræsenteres tabulære datasæt som *data frames*. En data frame ligner meget en Excel-tabel. Den består af en eller flere kolonner, hvor hver kolonne indeholder en specifik type information, typisk enten et tal eller en tekst.

Hvis du vil arbejde med data frames, skal du bruge et specielt bibliotek, [Pandas](https://pandas.pydata.org). Lad os først installere det. Kør koden nedenfor og tilføj derefter `#` foran koden for at undgå at køre den igen.

In [None]:
! pip install pandas

Nu skal vi oprette en data frame med egenskaber for fire personer. Vi opretter værdier for hver egenskab som en liste (de vil danne kolonnerne i det kommende data frame).

In [None]:
# create columns with characteristics of the people as lists
Names = ["John", "Jane", "David", "Emily"]
Age = [18, 25, 23, 28]
Height = [1.60, 1.75, 1.65, 1.70]
Weight = [62, 78, 59, 73]

Nu kan vi kombinere listerne sammen, give dem et navn og oprette en data frame:

In [None]:
# load Pandas library and give it a short name "pd"
import pandas as pd

# combine columns to dictionary, create a data frame and show
data = pd.DataFrame({'Name': Names, "Age": Age, "Height": Height, "Weight": Weight})
data

Som du kan se, anvendte vi også en specifik datastruktur til at kombinere kolonnerne sammen - en *dictionary*, som ser således ud: `{"Navn1": værdier, "Navn2": værdier2}`. Dette er en måde i Python at kombinere forskellige elementer, så hvert element har et navn (en nøgle, en ID).

Data frames kan også gemmes i filer (eller indlæses fra filer). Den mest passende format til data frames er Comma Separated Values (CSV) filer. De er bare plain tekst filer, hvor værdierne i hver række er adskilt med kommaer. Pandas kan også arbejde med Excel filer efter behov.

Lad os gemme vores data frame i en sådan fil:

In [None]:
data.to_csv("people.csv")

Hvis du kører koden ovenfor, får du en ny fil, `people.csv`, som du kan se i venstre panel i din VSCode. Klik på den for at åbne den, og du vil se følgende:

```
,Name,Age,Height,Weight
0,John,18,1.6,62
1,Jane,25,1.75,78
2,David,23,1.65,59
3,Emily,28,1.7,73
```

Dette er præcis hvordan data værdierne bliver gemt i filen. Som du kan se, tilføjer Pandas en ekstra kolonne med rækkeindeks foran datakolonnerne. Men resten svarer til data værdierne vi oprettede tidligere. Du kan "fortælle" Pandas ikke at tilføje kolonnen med ID'er hvis du specificerer en ekstra parameter:

In [None]:
data.to_csv("people.csv", index=False)

Hvis du kigger ind i filen nu, vil du se følgende:

```
Navn,Alder,Højde,Vægt
John,18,1.6,62
Jane,25,1.75,78
David,23,1.65,59
Emily,28,1.7,73
```

Du kan indlæse data fra CSV-filen som følger:

In [None]:
new_data = pd.read_csv("people.csv")
new_data

### Øvelse 1

Brug internettet til at indsamle følgende information om alle EU-lande, inklusive:
* Landets navn
* Befolkning
* Areal (i kvadratmeter)
* År de blev en del af EU
* Bruger de euro (bare "ja" eller "nej")

Indtast disse oplysninger i Excel eller andet regnearksoftware og gem tabellen som en CSV-fil (kommasepareret). Indlæs derefter data fra CSV-filen til Python og vis den på skærmen.

In [None]:
## put your code here

### Iris datasættet

[Iris Flower](https://en.wikipedia.org/wiki/Iris_flower_data_set) er et velkendt datasæt, der ofte bruges til indledende formål inden for data science og maskinlæring på grund af dets enkelthed og alsidighed.

Dette datasæt består af målinger udført på 150 blomster af tre arter af Iris: *Setosa*, *Versicolor* og *Virginica*. Målingerne inkluderer sepal-længde, sepal-bredde, petal-længde og petal-bredde. Sådan ser blomsterne ud:

<img src="illustrations/Setosa-Versicolor-Virginica-Images.png" style="max-width:800px;"/>

Udtrykket "petal" refererer til den indre del, og "sepal" refererer til den ydre del af blomsten. Både sepal- og petallængder samt bredde måles i centimeter.

<img src="illustrations/Petal-Sepal-Length-Width.jpg" style="width:300px; height:300px;"/>

Vi vil bruge denne datasæt til alle eksempler i denne del af kurset. Lad os indlæse datasættet fra filen `Iris.csv` (allerede leveret).

In [None]:
d = pd.read_csv("Iris.csv")
d

Som du kan se, indeholder datasættet 150 rækker - en for hver enkelt blomst. Kolonnerne inkluderer ID'et (et unikt nummer for hver blomst startende fra 1), de fire målinger og artens navn. Det betyder, at der er én kolonne med heltal, fire kolonner med decimaltal og én kolonne med tekstetiketter.

### Tag dele af rækkerne

Du kan oprette forskellige delmængder af dataframes rækker. For eksempel, for at få kun de første fem eller kun de sidste fem rækker i dataframe anvendes metoderne `head` og `tail`:

In [None]:
d.head()

In [None]:
d.tail()

In [None]:
td = d.tail()
td.shape

Du kan også angive et specifikt rækkenummer og få værdier for denne række:

In [None]:
# get values of row 5 into separate variable and show it
r5 = d.iloc[5]
r5

Her `.iloc` betyder "position specificeret som indeks". Du kan også bruge den til at få et subset med flere rækker, ligesom vi gjorde det for NumPy-arrays (husk at indekser i Python altid starter med 0):

In [None]:
# get rows from 11 to 15
sd = d.iloc[10:15]
sd

Der er også mulighed for at tage ikke-efterfølgende rækker, men f.eks. hver anden eller hver femte række. For at gøre dette skal du tilføje et ekstra tal til indekseringsområdet, som definerer et skridt mellem tallene i sekvensen (vi gjorde dette i den tidligere klasse for at omvende rækkefølgen af rækker og kolonner):

In [None]:
# get every fifth row starting from row number 5
# remember that in Python indices start from 0 therefore
# we have 4 here instead of 5 at the beginning
sd = d.iloc[4:150:5]
sd

Det samlede antal rækker (150) er ikke nødvendigt at specificere, du kan bare holde dette sted tomt, som for NumPy-arrays, og Pandas vil forstå, at den skal fortsætte til den sidste række:

In [None]:
sd = d.iloc[4::5]
sd

### Tag undermængder af kolonner

Du kan også tage værdier fra en bestemt kolonne bare ved at angive dens navn:

In [None]:
d["Species"]

Alternativt kan du også bruge `.iloc` men angive to positioner, rækker og kolonnens indeks, ligesom du gjorde det med 2D NumPy arrays. Hvis du ikke vil at udvælge rækker og kun udvælge kolonner, skal du blot bruge `:` symbolet for rækkerne. For eksempel i kodeeksemplet nedenfor tager vi kun kolonner med målinger og viser derefter de første 5 rækker af undersættelsen:

In [None]:
# take all rows and columns from 2 to 5 (from 1 to 4 if we count from 0)
X = d.iloc[:, 1:5]
X.head()

### Oprettelse af delmængder ved brug af logiske udtryk

En anden måde at lave rækkesubsets er at bruge logiske udtryk. For eksempel, sådan får du kun rækker, der svarer til *Setosa* arten:

In [None]:
d["Species"] == "setosa"

In [None]:
setosa = d[d["Species"] == "setosa"]
setosa

Vær opmærksom på, at når vi sammenligner en kolonneværdi med `"setosa"`, bruger vi et dobbelt symbol `=`, `==`. Dette er den måde at fortælle Python, at du laver sammenligningen, og ikke vil at ændre eller tildele en værdi (som vi bruger et enkelt `=` for).

Og her er et eksempel, hvor vi opretter en delmængde med kun Setosa blomster, hvis *PetalWidth* er over 0.2:

In [None]:
(d["Species"] == "setosa") & (d["PetalWidth"] > 0.2)

In [None]:
setosa2 = d[(d["Species"] == "setosa") & (d["PetalWidth"] > 0.3)]
setosa2

Som du kan se, i dette tilfælde kombinerer vi resultaterne fra to sammenligninger.

Én, hvor vi sammenligner værdierne af kolonnen `"Species"` med `"setosa"`, og den anden, hvor vi sammenligner værdierne fra kolonnen `"PetalWidth"` med værdien `0.2` ved hjælp af større operator. Hver sammenligning er placeret inde i parenteser, og der er et ampersand, `&`, imellem.

Dette symbol er et synonym for "og". Og dermed fortæller denne udtryk Pandas: *vælg rækker, hvor værdien for kolonnen "Species" er "setosa" **og** værdien for kolonnen "PetalWidth" er større end 0,2*. Og dette er præcis hvad vi har fået i den nye dataramme, `setosa2`.


### Øvelse 2

Hent data om EU-lande fra CSV-filen du tidligere har oprettet. Opret og vis følgende delmængder:

* Lande, der blev en del af EU efter år 2000.
* Lande, der blev en del af EU efter år 2000 og ikke bruger euro.
* Lande, der har et areal på mere end 200.000 kvadratmeter.
* Lande, der har en befolkningstæthed på mindre end 50 personer pr. kvadratmeter.

In [None]:
## write your code here

### Visualisering af data værdier

>*Bemærkning til læreren:* start med at forklare hvordan man laver simple grafer ved at bruge manuelt indtastede data værdier. Først som en liste (f.eks. højde og vægt af personer), vis et sprednings- og søjlediagram ved hjælp af dette eksempel. Vis derefter hvordan man laver et sprednings-, linje- og søjlediagram for manuelt indtastede værdier af en parabols punkter. Vis derefter hvordan man genererer disse værdier ved brug af NumPy funktionen `linspace()` og diskutér fordele og ulemper ved NumPy arrays versus simple Python lister.


Du kan visualisere data værdier ved hjælp af forskellige grafer. Vi vil genbruge biblioteket `matplotlib` til dette. For eksempel viser koden nedenfor hvor store *Sepal Længde* værdierne er for forskellige blomster ved hjælp af et søjlediagram, så hver blomst er repræsenteret af en søjle, og højden af denne søjle svarer til sepal længden af denne blomst.

Vi vil farvelægge søjlerne svarende til de enkelte blomster i henhold til arten. For at gøre dette laver vi tre separate grafer — én for hver art.

In [None]:
# save values from column Species into a separate variable
species = d["Species"]

# create subsets
se = d[species == "setosa"]
ve = d[species == "versicolor"]
vi = d[species == "virginica"]

# show size
(d.shape, se.shape)

In [None]:
# load plotting engine from matplotlib library and give it a short name "plt"
import matplotlib.pyplot as plt

# make a plot figure of size 14 x 5
plt.figure(figsize = (14, 5))

# show barplot for each species. The location of each bar is defined by ID column
# (the ID values are unique) and height of the bar is defined by value from column SepalLength
# every bar series has its color and its label
plt.bar(se["Id"], se["SepalLength"], color="red", label="setosa")
plt.bar(ve["Id"], ve["SepalLength"], color="green", label="versicolor")
plt.bar(vi["Id"], vi["SepalLength"], color="blue", label="virginica")

# show legend to match colors and labels
plt.legend()

# add labels
plt.ylabel("Sepal length")
plt.xlabel("Flowers")
plt.title("Iris dataset")

Hvad nu hvis vi gerne vil lave sådan en graf for hver af de fire målte variabler? Det vil kræve en masse kopiering og indsætning med mange manuelle ændringer. Lad os forenkle dette og lave en dedikeret funktion, der viser et søjlediagram for en hvilken som helst kolonne, hvis navn bruges af en bruger.

I denne funktion vil vi også forenkle koden skrevet ovenfor ved at bruge løkker:

In [None]:
# get unique value from column species
species = d["Species"]
species.unique()

In [None]:
# loop over the unique values
for s in species.unique():
    print(s)

In [None]:
def iris_barplot(d, colname = "SepalLength"):
    """ shows bar plot for values from column specified by parameter 'colname' """

    # make a dictionary with pre-defined colors for each species
    colors = {"setosa": "red", "virginica": "blue", "versicolor": "green"}

    # get species values to separate variable
    species = d["Species"]

    # make a loop over unique set of the species values
    for s in species.unique():
        # create a subset
        ds = d[species == s]
        # show a plot for the subset
        plt.bar(ds["Id"], ds[colname], color=colors[s], label=s)

    # add legend, labels and title
    plt.legend()
    plt.xlabel("Flowers")
    plt.ylabel(colname)
    plt.title(colname)

Og nu kan vi genbruge denne funktion til at lave alle fire plots sammen.

In [None]:
plt.figure(figsize=(20, 15))

plt.subplot(2, 2, 1)
iris_barplot(d, "SepalLength")
plt.subplot(2, 2, 2)
iris_barplot(d, "SepalWidth")
plt.subplot(2, 2, 3)
iris_barplot(d, "PetalLength")
plt.subplot(2, 2, 4)
iris_barplot(d, "PetalWidth")

Eller på en endnu mere effektiv måde

In [None]:
# get column names for specific columns
colnames = d.columns[1:5]
colnames

In [None]:
# make the barplots by using loop over the column names
plt.figure(figsize=(20, 15))
for i in range(4):
    plt.subplot(2, 2, i + 1)
    iris_barplot(d, colnames[i])

Ser rigtig godt ud, men det vigtigste er, at det viser os, at Petal målinger (de sidste to grafer) kan bruges til at adskille blomster af forskellige arter. De har tydeligvis forskellige Petal størrelser. Vi vil bruge denne viden senere til at opbygge en klassificeringsmodel.

I mellemtiden lad os lære, hvordan man laver et andet plot — et spredningsplot. Lad os starte med et simpelt eksempel for at give en idé:

In [None]:
plt.scatter(d["PetalLength"], d["PetalWidth"])

In [None]:
plt.scatter(d["PetalLength"], d["PetalWidth"], marker="s", edgecolor="blue", color="yellow")

Og her er et langt og fyldigt eksempel, hvor vi genbruger delmængerne, som vi allerede har oprettet ovenfor:

In [None]:
# make a plot figure of size 6 x 6
plt.figure(figsize = (6, 6))

# show scatter plot which takes values from two columns, Petal Width and Petal Length
# and then every row is shown as a point. The x-coordinate of the point corresponds to its
# Petal Width value and the y-coordinate corresponds to the value of Petal Length.
plt.scatter(se["PetalWidth"], se["PetalLength"], color="red", label="setosa")
plt.scatter(ve["PetalWidth"], ve["PetalLength"], color="green", label="versicolor")
plt.scatter(vi["PetalWidth"], vi["PetalLength"], color="blue", label="virginica")

# add axis labels
plt.xlabel("Petal Width")
plt.ylabel("Petal Length")

# show legend to match colors and labels
plt.legend()

# add a grid
plt.grid()

Som du kan se, er koden meget lig den kode, vi brugte til at lave et søjlediagram. Og dette betyder, at vi kan forenkle det og lave en funktion:

In [None]:
def iris_scatter(d, x = "PetalLength", y = "PetalWidth", marker = "x"):

    # make a dictionary with colors for each species
    colors = {"setosa": "red", "virginica": "blue", "versicolor": "green"}

    # get species values to separate list
    species = d["Species"]

    # make a loop over unique set of species values
    for s in species.unique():
        # create a subset
        ds = d[species == s]
        #show a plot for the subset
        plt.scatter(ds[x], ds[y], color=colors[s], label=s, marker=marker)

    # add legend, labels and title
    plt.legend()
    plt.xlabel(x)
    plt.ylabel(y)
    plt.title("Iris dataset")
    plt.grid(color = "lightgray", linestyle = ":")

Og genbrug det.

In [None]:
plt.figure(figsize=(12, 11))

plt.subplot(2, 2, 1)
iris_scatter(d, x = "SepalLength", y = "SepalWidth")
plt.subplot(2, 2, 2)
iris_scatter(d, x = "SepalLength", y = "PetalLength")
plt.subplot(2, 2, 3)
iris_scatter(d, x = "PetalLength", y = "PetalWidth")
plt.subplot(2, 2, 4)
iris_scatter(d, x = "PetalWidth", y = "SepalWidth")

Eller sådan her:

In [None]:
colnames = d.columns[1:5]
colnames

In [None]:
n = 1
plt.figure(figsize=(25, 25))
for i in range(4):
    for j in range(4):
        plt.subplot(4, 4, n)
        iris_scatter(d, colnames[i], colnames[j])
        n = n + 1

Figuren giver et overblik over alle kombinationer af egenskaberne og viser, hvilke der bedst kan bruges til at adskille blomster af forskellige arter. Næste del af kurset forklarer, hvordan man laver en sådan adskillelse, men lad os lave nogle øvelser.

### Øvelse 3

Skriv en kode, der viser et søjlediagram over arealet af hvert EU-land. Vis de lande, der blev en del af EU før 2000, ved hjælp af blå farve, og landene, der blev en del af EU i 2000 eller senere, ved hjælp af grøn farve.

In [None]:
# write your code here

Lav et spredningsplot, der viser landenes areal på x-aksen og befolkning på y-aksen. Ser du nogen tendens? Hvorfor?

In [None]:
# write your code here

## Klassifikation

*Klassifikation* er en proces med at arrangere individer i grupper baseret på ligheder og forskelle i deres egenskaber eller kombinationer. Normalt er klasserne foruddefinerede, så vi kender antallet af klasser og deres navne/etiketter, som f.eks. tilfældet med Iris-datasættet.

For at oprette klassifikationsregler eller en klassifikationsmodel har vi brug for individer, hvis klasse tilhør er kendt, så vi kan lære reglerne (og dermed oprette klassifikationsmodellen baseret på disse regler) ved at studere individerne. Og så når vi har et nyt individ, hvis klasse er ukendt, sammenligner klassifikationsmodellen dets egenskaber med det, den ved om klasserne, og træffer en beslutning - hvilken klasse det tilhører, hvis nogen.

Klassifikation er en del af den mere generelle disciplin, *maskinlæring*. Tanken med maskinlæring er at lade computeren (computerprogrammet, algoritmen, modellen) lære, hvad der gør individer fra den samme klasse ens, og hvad der gør individer fra forskellige klasser forskellige, og derefter bruge denne viden til at klassificere nye individer, hvis klasse er ukendt.

For eksempel kan du oprette en model til at skelne mellem plast- og glasflasker og derefter bruge denne model i en sorteringsmaskine. Eller du kan oprette en model, som genkender ansigterne på dine familiemedlemmer, og derefter bruge den til at låse/oplåse indgangsdøren til dit hus.

### Træning og test sæt

Processen med at udvikle en sådan model kaldes normalt *træning*, da vi *træner* (*underviser*, *styrer*) modellen (mens den *lærer* fra vores træning). For at implementere *træningsprocessen* har du brug for en gruppe individer, hvis klasser er kendte — en *træningssæt*. Så algoritmen kan lære fra træningssættet om ligheder og uligheder.

For at kontrollere, hvor godt den trænede model virker, kan vi anvende den på en anden gruppe individer med kendte klasser — en *test sæt*. Det er vigtigt, at selvom individerne i træningssættet og test sættet er taget fra den samme population, er de ikke identiske. Så vi træner modellen ved at bruge én gruppe individer og tester den ved at bruge en anden, uafhængig gruppe.

Lad os oprette de to sæt for Iris-dataene. Lad os tage hver femte række ud og bruge den til testning (så vi får 30 blomster i testsættet, 10 for hver art). Og resten — til træning. Sådan gøres det:

In [None]:
# generate vectors for training and test sets
train_ind = d["Id"] % 5 != 0
test_ind = d["Id"] % 5 == 0

(test_ind[0:10], train_ind[0:10])

Som du kan se, har vi to kolonner fyldt med værdier `True` og `False` som resultatet.

Hvordan virker det? Operatøren `%` beregner resten af en division. Så når du skriver `x % 5`, betyder det "beregne resten af divisionen af værdien x med 5". For eksempel, hvis `x = 7`, vil `x % 5` være `2`. Tjek dette i følgende kodeblok:

In [None]:
# check how % works - try to change x and see what happens when you run the code
x = 7
x % 5

Men når x er lig med 5, 10, 15 eller 55, vil resten være lig med 0. Og dette er præcis hvad vi bruger til at skabe vores indeks. Fordi kolonnen `Id` indeholder et unikt antal rækker, der starter fra 1, kan vi beregne resten for hvert værdi af denne kolonne og sammenligne den med 0. Alle rækker, hvor denne betingelse er sand, vil blive taget til testsættet. Alle rækker, hvor denne betingelse er falsk, vil blive taget til træningssættet.

Lad os oprette sættene:

In [None]:
# create subsets, because "train_ind" and "test_ind" consists of boolean values (not numbers)
# we use "loc" (location) instead of "iloc" (index location) like we did before.
d_train = d.loc[train_ind]
d_test = d.loc[test_ind]

# show size of each subset
(d_train.shape, d_test.shape)

Som du kan se, har vi 120 rækker i træningssættet (40 for hver art) og 30 (10 for hver art) i test-sættet. Lad os se på test-sættet:

In [None]:
d_test

Og det ser ud som forventet, med 10 individuelle blomstermålinger for hver art.

### Binær klassifikation

Nu er vi klar til at træne en klassifikationsmodel. Men hvad er modellen? Hvilken algoritme skal vi bruge til træning og klassifikation? Hvad skal algoritmen give som resultat?

Den enkleste klassifikationsmodel er en *binær klassifikator*, som giver et binært svar — enten `True` (hvis modellen genkender at et eksempel tilhører en bestemt klasse — en *medlem*) eller `False` (hvis modellen afviser eksemplet som tilhørende andre klasser — en *ukendt*). Klassen af interesse i dette tilfælde kaldes en *målklasse*.

Lad os oprette en binær klassifikator for klassen *virginica*, blomsterne af denne klasse vises ved brug af blå farve på plottene. Dog i stedet for at bruge fancy algoritmer, og lade computeren lære klassifikationsreglen fra dataen, lad os definere denne regel manuelt, så vi springer maskinlæring over eller tager den fra maskinen og gør det selv.

Men lad os træffe vores beslutning baseret på træningssættet alene, som det ville være i en reel træningsproces. Lad os se på plottene for træningssættet:

In [None]:
plt.figure(figsize=(20, 15))

plt.subplot(2, 2, 1)
iris_barplot(d_train, "SepalLength")
plt.subplot(2, 2, 2)
iris_barplot(d_train, "SepalWidth")
plt.subplot(2, 2, 3)
iris_barplot(d_train, "PetalLength")
plt.subplot(2, 2, 4)
iris_barplot(d_train, "PetalWidth")

Det ser ud til, at den bedste måde at *skelne* *Virginica* blomsterne fra de to andre arter er at definere en grænse for Petal Bredde - Hvis værdien er over 1.7, skal den tilsvarende blomst klassificeres som medlem af klassen *virginica*.

Her er søjlediagrammet med beslutningsgrænsen vist som en vandret stiplet linje:

In [None]:
plt.figure(figsize=(20, 7))

iris_barplot(d_train, "PetalWidth")
plt.plot(plt.xlim(), [1.7, 1.7], color="black", linestyle="--")


Som du kan se, vil ikke alle blomster blive klassificeret korrekt i dette tilfælde. Men vi vil diskutere dette senere, lad os implementere beslutningsreglen for én blomst som en lille Python-funktion:

In [None]:
def is_virginica(flower, threshold = 1.7):
    return flower["PetalWidth"] > threshold

In [None]:
# test how it works for different rows
r = d_train.iloc[101]
res = is_virginica(r)
res

In [None]:
# and here how we can turn the True/False values to labels
("virginica" if is_virginica(r) else "non-virginica")

Nu skal vi skrive en anden funktion, som anvender `is_virginica()` på hver række i en datasæt og returnerer resultaterne af klassifikation som en liste over klasselabels. Den vil tildele label "virginica" hvis resultatet af klassifikationen er `True` og "non-virginica" hvis det er det modsatte.

In [None]:
def df_isvirginica(d, threshold = 1.7):

    predictions = []

    # we use iterrows() function for data frames which let us
    # take every row as a separate object (in this case "flower")
    for index, flower in d.iterrows():
        class_label = "virginica" if is_virginica(flower, threshold) else "non-virginica"
        predictions.append(class_label)

    return predictions

Og anvend det på testsættet.

In [None]:
pred = df_isvirginica(d_test)
pred

Det virker! Lad os sammenligne de faktiske og forudsagte klasser:

In [None]:
# get column with reference class labels as a separate variable
ref = d_test["Species"]

# combine the predicted and the reference labels into a new data frame
res = pd.DataFrame({"Reference": ref, "Prediction": pred})
res

Som du kan se, på den ene side, afviser modellen alle ikke-medlemmer i testsettet - de 10 blomster af *Setosa*-art og 10 blomster af *Versicolor*-art blev korrekt afvist som ikke-medlemmer (fik `Falsk` som klassifikationssvar).

Men samtidig blev tre blomster fra målarten afvist forkert. Er dette et godt resultat? Skal vi ændre tærsklen lidt? Hvordan vurderes kvaliteten af klassifikationen og forbedres den? Lad os tale om dette i næste del.

### Klassifikationskvalitet

For at vurdere klassifikationskvaliteten skal vi tælle, hvor mange resultater der er korrekte, og hvor mange der er forkerte. Der er dog to forskellige grupper af prøver, modellen kan tage fejl af - *fremmede* (objekter, der faktisk ikke tilhører målgruppen) og *medlemmer* (dem, der tilhører denne klasse).

Vi skal derfor tælle resultaterne separat. Dette fører os til fire tal:

**Korrekte svar**
- TP (*sandt positive*) — antal medlemmer, der korrekt accepteres af modellen (får `True`).
- TN (*sandt negative*) — antal fremmede, der korrekt afvises af modellen (får `False`).

**Forkerte svar (klassifikationsfejl)**
- FP (*falsk positive*) — antal fremmede, der forkert accepteres som medlemmer (får `True`).
- FN (*falsk negative*) — antal medlemmer, der forkert afvises som fremmede (får `False`).

Sådan tæller vi dem for vores eksempel:

In [None]:
# define the target class label
target_class = "virginica"

# get reference and predictions as separate variables to make the code shorter
ref = res["Reference"]
pred = res["Prediction"]

# correct decisions — the value for reference class label and predicted class label
# are in agreement
TP = sum((ref == target_class) & (pred == target_class))
TN = sum((ref != target_class) & (pred != target_class))

# wrong decisions — the value for reference class label and predicted class label
# contradict
FN = sum((ref == target_class) & (pred != target_class))
FP = sum((ref != target_class) & (pred == target_class))

print(TP, TN, FN, FP)


Som du kan se, stemmer tallene overens med vores manuelle observationer: alle 20 fremmede er korrekt afvist (TN = 20, FP = 0), og kun 7 medlemmer ud af 10 blev korrekt accepteret (TP = 7, FN = 3).

Nu kan vi beregne de to statistikker, som vil repræsentere de samme tal, men som en procentdel, så vi får målinger, der ikke afhænger af datasættets størrelse og derfor er lette at forstå.

For eksempel er procentdelen af korrekt genkendte medlemmer kaldet en *sensitivitet* og beregnes som forholdet mellem korrekt genkendte medlemmer og det samlede antal medlemmer:

$Sensitivitet = TP / (TP + FN)$

Den anden statistik er specificitet, det viser procentdelen af fremmede, der blev korrekt afvist af modellen:

$Specificitet = TN / (TN + FP)$

Lad os beregne dem for vores data:

In [None]:
sens = TP / (TP + FN)
spec = TN / (TN + FP)

(sens, spec)

Igen, det matcher vores observationer med 70% korrekt genkendte medlemmer (7 ud af 10) og 100% korrekt afviste fremmede.

Endelig kan vi også beregne en tredje statistik, *nøjagtighed*, som vil fortælle, hvor godt modellen fungerer generelt. Den beregner simpelthen procentdelen af alle korrekte svar:

Præcision = (TP + TN) / (TP + TN + FP + FN)

Og her er den:

In [None]:
acc = (TP + TN) / (TP + TN + FP + FN)
acc

Hvis antallet af fremmede og medlemmer i testsættet er ens, vil nøjagtigheden være lig en gennemsnitlig af sensitivitet og specificitet.

### Øvelse

Forestil dig, at vi har trænet en model til at skelne mellem røde æbler og andre. Nedenfor kan du se resultatet af at anvende modellen på testsættet.

<img src="illustrations/apples-classification.png" style="width: 700px;">

Beregn antallet af TP, TN, FP, FN og brug disse tal til at beregne sensitivitet, specificitet og nøjagtighed af klassificeringsresultaterne. Gør det manuelt uden brug af programmering og rapporter resultaterne.

### Kvalitet af klassificering (fortsæt)

Lad os kombinere al kode sammen til en Python funktion, som vil beregne alle statistikker baseret på data frame med klassificeringsresultater. Det vil antage, at dataframen har to kolonner, hvor den første kolonne indeholder referenceklassens etiket og den anden kolonne indeholder de forudsigede etiketter.

Funktionen vil fungere for enhver målklassificering givet som et argument:

In [None]:
def class_stat(res, target_class):

    ref = res["Reference"]
    pred = res["Prediction"]

    TP = sum((ref == target_class) & (pred == target_class))
    TN = sum((ref != target_class) & (pred != target_class))
    FP = sum((ref != target_class) & (pred == target_class))
    FN = sum((ref == target_class) & (pred != target_class))

    sens = TP / (TP + FN)
    spec = TN / (TN + FP)
    acc = (TP + TN) / (TP + TN + FP + FN)

    # return all statistics in form of dictionary
    return {
        "target": target_class,
        "TP": TP,
        "TN": TN,
        "FP": FP,
        "FN": FN,
        "sens": sens,
        "spec": spec,
        "acc": acc,
    }

Lad os se, om det virker for vores eksempel. Lad os få statistikker både for træningssættet og for testsættet separat:

In [None]:
test_stat = class_stat(res, "virginica")
test_stat

Nu skal vi se, hvordan brugen af forskellige tærskelværdier påvirker klassifikationskvaliteten. Koden nedenfor ligner det, vi brugte før, men er bare skrevet på en mere kompakt måde. Prøv forskellige tærskelværdier og se, hvor godt de klarer sig for testdatasættet:

In [None]:
threshold = 1.70

pred = df_isvirginica(d_test, threshold)
ref = d_test["Species"]
res = pd.DataFrame({"Reference": ref, "Prediction": pred})
test_stat = class_stat(res, "virginica")
test_stat

Prøv nu det samme for træningssættet:

In [None]:
threshold = 1.70

pred = df_isvirginica(d_train, threshold)
ref = d_train["Species"]
res = pd.DataFrame({"Reference": ref, "Prediction": pred})
train_stat = class_stat(res, "virginica")
train_stat

### Receiver operating characteristic (ROC)

Endelig lad os gøre følgende. Lad os prøve at ændre tærsklen og se, hvordan det påvirker sensitiviteten, specificiteten og nøjagtigheden. Lad os starte med 1,0 og derefter prøve alle tærskelværdier op til 2,0 med et trin på 0,1, så vi får i alt 11 resultater:

In [None]:
# we need numpy to make a sequence of threshold values
import numpy as np

# generate a sequence of 11 numbers between 1.0 and 2.0
thresholds = np.linspace(1.0, 2.0, 11)
thresholds

In [None]:
# prepare empty lists to save main statistics for each thresholds
sens = []
spec = []
acc = []

# save reference values into separate variable
ref = d_test["Species"]

# apply different threshold values and save the results to the lists
for t in thresholds:
    pred = df_isvirginica(d_test, threshold = t)
    res = pd.DataFrame({"Reference": ref, "Prediction": pred})
    stat = class_stat(res, "virginica")

    spec.append(stat["spec"])
    sens.append(stat["sens"])
    acc.append(stat["acc"])

# show the result
(spec, sens, acc)

Lad os visualisere resultaterne:

In [None]:
plt.plot(thresholds, sens, marker="o", label = "sens")
plt.plot(thresholds, spec, marker="x", label = "spec")
plt.plot(thresholds, acc, marker="+", label = "acc")
plt.xlabel("Thresholds")
plt.legend()
plt.grid()

Nu kan du træffe en informeret beslutning. For eksempel giver en tærskelværdi på 1,4 alle tre statistikker lig med 0,90. En lavere tærskelværdi på 1,3 giver perfekt sensitivitet, men reducerer specificiteten til 0,85. Den højere tærskelværdi på 1,5 giver perfekt specificitet, men reducerer sensitiviteten til 0,80.

Der er også en anden måde at vise disse resultater på — lav et linjediagram, hvor sensitiviteten afhænger af (1 - specificitet):

In [None]:
# we convert list to NumPy array in order to make
# the arithmetic operation (1 - spec) easier
spec = np.array(spec)

# show the plot
plt.plot(1 - spec, sens, marker = "o")

# make plot look nicer
plt.xlim((-0.1, 1.1))
plt.ylim((-0.1, 1.1))
plt.grid(color = "lightgray")
plt.xlabel("1 - specificity")
plt.ylabel("sensitivity")

Denne graf kaldes *Receiver operating characteristic* (ROC) graf. Jo tættere kurven er på top højre hjørne, jo bedre er modellen. Dog for at gøre denne graf komplet, er det nødvendigt at bruge et bredere interval af tærskelværdier, så begge statistikker går fra 0 til 1. Forsøg at implementere dette.

### Multiklasseklassifikation

Nu skal vi lave en klassifikationsmodel, som vil give en af klassens etiketter som svar, så den vil skelne mellem alle blomster blandt de tre arter. Denne tilgang er kendt som *multiklasseklassifikation*.

Først og fremmest lad os se på de to spredningsdiagrammer nedenfor:

In [None]:
plt.figure(figsize=(20, 8))

plt.subplot(1, 2, 1)
iris_scatter(d_train, x = "SepalLength", y = "SepalWidth")
plt.subplot(1, 2, 2)
iris_scatter(d_train, x = "PetalLength", y = "PetalWidth")

Tilsyneladende kan vi bruge Petal målinger til at skelne mellem arterne. Setosa kan tydeligt skelnes ved at bruge en tærskelværdi for Petal længde, ved f.eks. en tærskelværdi på 2,5. Vi har allerede en løsning for virginica (vi vil bruge den samme tærskelværdi på 1,7). Og hvis ingen af de to betingelser er opfyldt, vil blomsten blive genkendt som versicolor.

Sådan kan det skematisk vises som et følgende flowchart:

<img src="illustrations/tree.png" style="width:600px">

Sådanne modeller baseret på et sæt af indlejrede tærskler kaldes [Decision Trees](https://en.wikipedia.org/wiki/Decision_tree).

Lad os implementere det som følgende funktion for en enkelt række fra data rammen:

In [None]:
def flower_classifier(flower):
    if flower["PetalLength"] < 2.5:
        return "setosa"
    elif flower["PetalWidth"] > 1.7:
        return "virginica"
    else:
        return "versicolor"

Og lad os nu lave en funktion, som vil anvender denne klassifikator på alle rækker.

In [None]:
def df_classifier(d):
    predictions = []
    for index, flower in d.iterrows():
        predictions.append(flower_classifier(flower))
    return predictions

Og test det:

In [None]:
ref = d_test["Species"]
pred = df_classifier(d_test)
res = pd.DataFrame({"Reference": ref, "Prediction": pred})
res

Og det virker! Nu skal vi bare beregne klassifikationskvalitetsstatistikkerne for hver af klasserne:

In [None]:
stat =[]
for class_label in ref.unique():
    stat.append(class_stat(res, class_label))
stat

Dette er det. I næste klasse vil vi tale om, hvordan man opretter en model, som selv definerer klassifikationsreglen ved at lære af data.

### Øvelse

Implementer beslutningstræet (Decision Tree), som vil bruge tre betingelser i stedet for to. Lav først en tegning og implementer det derefter i Python og test det. Diskuter fordele og ulemper ved denne løsning.