# Eksperiment: Genre-rum

Vi har en idé om, hvad *afstanden* er mellem to punkter.
Hvis vi har to prikker på et stykke papir, så véd vi, hvordan vi måler afstanden mellem dem.
Hvis vi har to steder i vores dagligstue, så har vi også en idé om deres afstand.

Hvordan kan vi tale om afstand mellem to bøger? Vi vil nok forvente, at bøger indenfor samme genre ligger tæt på hinanden, eksempler:

- Afstanden mellem "Peter Plys" og "Frøken Smillas fornemmelse for sne" er nok større end afstanden mellem "Cirkeline" og "Cykelmyggen Egon".
- En rejsebog om Berlin er nok tættere på en rejsebog om Paris, end på en håndarbejdsbog.
- Bøger af samme forfatter befinder sig nok i nærheden af hinanden.

Forestil dig, at vi har et genre-rum, hvor der er et punkt for hver eneste bog, og vi kan måle afstanden mellem dem. Dette vil give nye muligheder for at gå på opdagelse i litteraturen. Anbefalinger skabes ved at finde de nærmeste nabopunkter. En genre består af punkter i nærheden af hinanden. Dette gør, at vi kan bruge computeren til at udforske litteraturen.

På papir, i vores dagligstue såvel som i genrerummet, kan afstand defineres matematisk således: Hvis vi har to punkter, $a$ og $b$, så er afstanden mellem dem $\sqrt{(a-b)^2}$.
I én dimension er det afstanden mellem to tal. Eksempel: afstanden mellem $1$ og $3$ er $2$, hvilket kan udregnes som $\sqrt{(1 - 3)^2} = \sqrt{(-2)^2} = \sqrt{4} = 2$.
I to dimensioner er det afstanden mellem to prikker på et stykke papir, også kaldet den "Euklidiske afstand", $\sqrt{(x_a - x_b)^2 + (y_a - y_b)^2}$. Eksempel: afstanden mellem koordinaterne $(1,2)$ og $(4,6)$ er $5$ hvilket vi kan udregne som $\sqrt{(1-4)^2 + (2-6)^2} = \sqrt{3^2 + 4^2} = \sqrt{9 + 16} = \sqrt{25} = 5$.
I tre dimensioner er det afstanden mellem to punkter i rummet, i.e. $\sqrt{(x_a - x_b)^2 + (y_a - y_b)^2 + (z_a - z_b)^2}$, - og det fortsætter på samme måde i fire, fem, seks, ... dimensioner. 

I matematik kalder vi ofte koordinaterne for *vektorer*. Eksempelvis er en 5-dimensionel vektor, blot en liste af fem tal, og en 100-dimensionel vektor er en liste af hundrede tal.

Hvordan skaber vi et sådan genrerum? Vi har en masse statistik om lån på bibliotekerne. Hvis vi antager, at man ofte låner indenfor samme genre, så kan computeren ud fra disse data udregne et genrerum.

Jeg har udregnet et sådan genrerum for 10.000 biblioteksmaterialer, og i det følgende vil vi undersøge, om afstanden mellem bøger i genrerummet giver mening.

## Eksperimenter med afstand mellem bøger

Når vi laver et program, må vi først fortælle computeren, hvilken funktionalitet vi har brug for: `bibdata` indeholder bibliografiske data, og genrerummet, som jeg har beregnet. `numpy` indeholder matematikfunktionalitet:

In [1]:
import bibdata
import numpy

I `bibdata` er der en funktion, som returnerer titel/forfatter, hvis vi kommer med nummeret på et biblioteksmateriale:

In [2]:
bibdata.title_creator(8955)

'Peter Plys : komplet samling fortællinger og digte - A. A. Milne (book)'

Herover ser vi at bog nummer $8955$ er "Peter Plys". Ligeledes kan vi se de øvrige bøger, som vi vil eksperimentere med herunder:

In [3]:
[(book_number, bibdata.title_creator(book_number))
   for book_number in [8955, 8214, 616, 580, 149, 278, 126, 29, 688]]

[(8955,
  'Peter Plys : komplet samling fortællinger og digte - A. A. Milne (book)'),
 (8214, 'Frøken Smillas fornemmelse for sne : roman - Peter Høeg (book)'),
 (616, 'Cirkeline bliver til - Hanne Hastrup (book)'),
 (580, 'Cykelmyggen Egon - Flemming Quist Møller (book)'),
 (149, 'Turen går til Berlin - Therkelsen Kirstine (book)'),
 (278, 'Turen går til Paris - Aske Munck (book)'),
 (126, 'Alt om håndarbejdes strikkemagasin -  (other)'),
 (29, '1Q84 - Haruki Murakami (audiobook)'),
 (688, 'Kafka på stranden - Haruki Murakami (book)')]

Disse kan derefter navngives, så de er lettere at arbejde med.

In [4]:
peter_plys = 8944
smilla = 8214
cirkeline = 616
cykelmyggen = 580
berlin = 149
paris = 278
strikning = 126
q84 = 29
kafka = 688

Vi kan finde punktet i genrerummet for en bog via `bibdata.genres`. Selve genrerummet er 100-dimensionelt, så vektoren består af 100 tal. I programmering kaldes vektorer ofte for *arrays*.

In [5]:
bibdata.genres[peter_plys]

array([ 0.00908454, -0.04033043, -0.01284507,  0.00788709,  0.01718174,
        0.00128158, -0.07500522, -0.01639324,  0.06427721, -0.0099812 ,
        0.00083797,  0.01363433, -0.00866813,  0.01482092,  0.10160233,
        0.08134543, -0.04255533, -0.00833438,  0.02536649,  0.02128514,
        0.00554724, -0.00080702,  0.01274936, -0.03601923,  0.01916139,
        0.02077907, -0.04609259, -0.08917641,  0.07050021,  0.01678492,
        0.01278447,  0.00108154,  0.01457724,  0.04591186, -0.01287235,
        0.0202236 ,  0.00102133,  0.14692573,  0.18963774,  0.08172592,
       -0.01773496,  0.11990478, -0.12269035, -0.33739865,  0.23169368,
        0.01569639, -0.06665396,  0.00139089,  0.07659317,  0.00650507,
       -0.01185874,  0.01587052,  0.07172235,  0.00525925,  0.11984863,
        0.10747883,  0.25288281,  0.07708268, -0.2325371 , -0.10132218,
        0.07604308,  0.05801751,  0.02945208, -0.03336021, -0.08060202,
        0.03639616,  0.02639744, -0.02000082, -0.02184357,  0.02

Som det næste vil vi definere en funktion, `distance`, som udregner afstanden mellem to punkter/vektorer. Denne bruger funktionen `numpy.linalg.norm(v)`, der udregner $\sqrt{v^2}$. Navnet `linalg` står for "linær algebra", som er den del af matematikken, der blandt andet handler om at regne med vektorer. 

In [6]:
def distance(a, b):
    return numpy.linalg.norm(a - b)

Vi afprøver derefter funktionen ved at finde afstanden mellem $(1, 2)$ og $(4, 6)$. Dette skal være $5$, ligesom vi udregnede tidligere. Her bruger vi `numpy.array`, som laver en liste af tal om til en vektor, så computeren kan regne på den.

In [7]:
distance(numpy.array([1, 2]), numpy.array([4, 6]))

5.0

Afstanden mellem "Peter Plys" og "Frøken Smilla" er:

In [8]:
distance(bibdata.genres[peter_plys], bibdata.genres[smilla])

1.3939129763199098

Afstanden mellem "Cirkeline" og "Cykelmyggen Egon" er:

In [22]:
distance(bibdata.genres[cirkeline], bibdata.genres[cykelmyggen])

1.0181284635824785

Afstanden mellem rejsebøger om "Berlin" og "Paris" er:

In [23]:
distance(bibdata.genres[berlin], bibdata.genres[paris])

0.25173324294787786

Afstanden mellem rejsebog om "Berlin" og en håndarbejdsbog er:

In [24]:
distance(bibdata.genres[berlin], bibdata.genres[strikning])

1.3969369158183382

Afstanden mellem to bøger af "Haruki Murakami" er:

In [25]:
distance(bibdata.genres[q84], bibdata.genres[kafka])

0.4369157294393759

Konklusionen er, at afstanden mellem bøger i genrerummet faktisk giver mening. De tre forventninger, som jeg formulerede i starten af kapitlet, holder. 

Bemærk at forventningerne blev formuleret, før eksperimenterne blev programmeret og kørt. Når man laver data science / videnskabelige eksperimenter, gælder det om først at formulere hypotese, og hvorledes man kan teste den, - og derefter, at udføre testen for, at se om hypotesen faktisk holder.

# Litterære anbefalinger

Genrerummet bør også kunne bruges til, at finde litterære anbefalinger.

Lad os vælge en bog og derefter finde afstanden fra denne til alle andre bøger. Vi inkluderer titel/forfatter for at gøre resultatet mere læsbart. Når vi skriver `[:10]` betyder det, at vi kun viser de første 10 resultater i stedet for hele listen.

In [26]:
distances_from_peter_plys = [
    (distance(bibdata.genres[peter_plys], bibdata.genres[other_book]), 
        bibdata.title_creator(other_book)) 
    for other_book in range(0, 10000)
]
distances_from_peter_plys[:10]

[(1.4011684494447065, 'Fifty shades - E. L. James (book)'),
 (1.4332511957653991, 'Journal 64 : krimithriller - Jussi Adler-Olsen (book)'),
 (1.4319693083341756,
  'Marco effekten : krimithriller - Jussi Adler-Olsen (book)'),
 (1.4377953467714748, 'Taynikma - Jan Kjær (f. 1971) (book)'),
 (1.4561631856697466, 'De glemte piger : krimi - Sara Blædel (book)'),
 (1.4390826249649267,
  'Den grænseløse : krimithriller - Jussi Adler-Olsen (book)'),
 (1.2877310264792368, 'Vildheks - Lene Kꜳberbøl (book)'),
 (1.4363966653595654, 'Dødesporet : krimi - Sara Blædel (audiobook)'),
 (1.4501109638315552, 'Dødsenglen : krimi - Sara Blædel (book)'),
 (1.4287816916279745,
  'Flaskepost fra P : krimithriller - Jussi Adler-Olsen (book)')]

Hvis vi nu sorterer listen af bøger efter afstanden til den valgte bog, så får vi en liste af anbefalinger.

In [14]:
sorted(distances_from_peter_plys)[:10]

[(0.0,
  'Peter Plys : komplet samling fortællinger og digte - A. A. Milne (book)'),
 (0.53454719612995338,
  'Bogen om Emil fra Lønneberg : samlet udgave med alle historierne om Emil fra Lønneberg - Astrid Lindgren (book)'),
 (0.53718166508329679,
  'Astrid Lindgrens allerbedste historier - Ingrid Vang Nyman (book)'),
 (0.54053996866025411,
  'Mumitrolden : de samlede striber - Tove Jansson (book)'),
 (0.5654914190345337,
  'Klatremus og de andre dyr i Hakkebakkeskoven - Thorbjørn Egner (book)'),
 (0.57263271765819757,
  'Pippi Langstrømpe går om bord - Astrid Lindgren (audiobook)'),
 (0.57288576301783933, 'Bogen om Pippi Langstrømpe - Astrid Lindgren (book)'),
 (0.58822503022521333,
  'Anne Marie Helger læser Vinden i piletræerne - Anne Marie Helger (audiobook)'),
 (0.60406738110296454,
  'Pippi Langstrømpe i Sydhavet - Astrid Lindgren (audiobook)'),
 (0.61582753873808027,
  'Han er her endnu - Emil fra Lønneberg - Astrid Lindgren (book)')]

Vi kan nu definere dette i en funktion, hvor vi kun returnerer titlerne. Hvis man i programmering har et par data: `rec = (afstand, titel)` kan man få fat i `titel` ved at skrive `rec[1]` (og få fat i `afstand` ved at skrive `rec[0]`). 

In [15]:
def recommendations(book):
    return [recommendation[1] for recommendation in
        sorted([
            (distance(bibdata.genres[book], bibdata.genres[other_book]), 
                bibdata.title_creator(other_book)) 
            for other_book in range(0, 10000)])]

Med denne funktion kan vi så udforske anbefalingerne til forskellige bøger:

In [27]:
recommendations(smilla)[:10]

['Frøken Smillas fornemmelse for sne : roman - Peter Høeg (book)',
 'Den kroniske uskyld - Klaus Rifbjerg (audiobook)',
 'Vinter-Eventyr - Karen Blixen (book)',
 'Kongens Fald - Johannes V. Jensen (f. 1873) (book)',
 'Ved Vejen - Herman Bang (book)',
 'Rend mig i traditionerne - Leif Panduro (audiobook)',
 'Kronprinsessen : roman - Hanne-Vibeke Holst (book)',
 'Det forsømte forår - Hans Scherfig (book)',
 'Drageløberen - Khaled Hosseini (book)',
 'Pelle Erobreren : barndom - Martin Andersen Nexø (book)']

In [28]:
recommendations(cirkeline)[:10]

['Cirkeline bliver til - Hanne Hastrup (book)',
 'Godmorgen Cirkeline - Hanne Hastrup (book)',
 'Cirkeline - tæl til 10 - Hanne Hastrup (book)',
 'Godnat Cirkeline - Hanne Hastrup (book)',
 'Cirkeline på opdagelse - Ulla Raben (book)',
 'Cirkeline godnat - Hanne Hastrup (book)',
 'Den store bog om Cirkeline - Hanne Hastrup (book)',
 'Cirkeline flytter til byen - Hanne Hastrup (book)',
 'Kender du Pippi Langstrømpe? : billedbog - Ingrid Vang Nyman (book)',
 'Cirkeline - Hanne Hastrup (book)']

In [35]:
recommendations(cykelmyggen)[:10]

['Cykelmyggen Egon - Flemming Quist Møller (book)',
 'Den store bog om den glade løve - Louise Fatio (book)',
 'Bennys badekar - Flemming Quist Møller (book)',
 'Pandekagekagen - Sven Nordqvist (book)',
 'Stakkels Peddersen - Sven Nordqvist (book)',
 'Gok-gok i køkkenhaven - Sven Nordqvist (book)',
 'Findus flytter hjemmefra - Sven Nordqvist (book)',
 'Og hanen gol - Sven Nordqvist (book)',
 'Paddington - Michael Bond (book)',
 'Rasmus får besøg - Jørgen Clevin (book)']

In [30]:
recommendations(berlin)[:10]

['Turen går til Berlin - Therkelsen Kirstine (book)',
 'Politikens visuelle guide - Berlin - Søndervang Allan edt (book)',
 'Top 10 Berlin - Jürgen Scheunemann (book)',
 'Turen går til Amsterdam - Anette Jorsal (book)',
 'Turen går til Prag - Hans Kragh-Jacobsen (book)',
 'Turen går til Hamburg og Nordtyskland - Jytte Flamsholt Christensen (book)',
 'Turen går til Californien & det vestlige USA - Preben Hansen (f. 1956) (book)',
 'Turen går til London - Gunhild Riske (book)',
 'Politikens Kort og godt om Berlin - Charmetant Jim (book)',
 'Politikens visuelle guide - Prag - Vladimír Soukup (book)']

In [31]:
recommendations(strikning)[:10]

['Alt om håndarbejdes strikkemagasin -  (other)',
 'Kreativ strik -  (other)',
 "Ingelise's strikkemagasin -  (other)",
 'DROPS : strikkdesign - Garnstudio (periodica)',
 'Alt om håndarbejdes symagasin -  (other)',
 'Maries ideer : håndarbejde, strik, sy, hækl, bolig, inspiration -  (other)',
 'Burda style -  (other)',
 'Burda -  (other)',
 'Burda modemagasin : verdensberømt mode -  (other)',
 "Ingelise's symagasin -  (other)"]

In [33]:
recommendations(kafka)[:10]

['Kafka på stranden - Haruki Murakami (book)',
 'Trækopfuglens krønike - Haruki Murakami (book)',
 'Norwegian wood - Haruki Murakami (book)',
 'Sønden for grænsen og vesten for solen - Haruki Murakami (book)',
 'Efter midnat - Haruki Murakami (book)',
 'Sputnik min elskede - Haruki Murakami (book)',
 'Hvad jeg taler om når jeg taler om at løbe - Haruki Murakami (book)',
 'Brooklyn dårskab : roman - Paul Auster (book)',
 '1Q84 - Haruki Murakami (audiobook)',
 'Efter skælvet - Haruki Murakami (book)']

Vi har hermed lavet koden for en lille anbefalingsservice.

For perspektivering, sammenlign eksempelvis resultaterne med anbefalingerne på bibliotekernes hjemmesider. Bemærk at vi her kun kigger på et lille udvalg af materialebestanden. På bibliotek.dk kan anbefalinger findes ved, at fremsøge en bog, og derefter klikke på "Inspiration", og "Andre der har lånt...". Genrerummet som vi benytter her, er faktisk udregnet fra (en lille delmængde af) de "Andre der har lånt"-data, som DBC havde med på Hack4DK.

Bemærk at bøgerne, som vi finder anbefalinger for, er valgt på forhånd (og derved uafhængigt af hvordan anbefalingerne bliver). Derfor må kvaliteten af anbefalinger forventes at være repræsentativ.

## Øvelser


- Ændr antallet af resultater der vises for nogle af de ovenstående bøger.
- Udforsk anbefalingerne for andre bøger end de ovenstående.