(Reelle datasett)=
### Reelle datasett

Vi har nå lært å åpne tekstfiler, splitte opp linjer og hente ut data. 

Som jegere i en data-jungel har vi lært å jakte, slakte og partere data-byttet vårt -- men det viser seg at vi egentlig ikke hadde trengt å jakte lengre, fordi det finnes data-biff ferdig partert i butikken -- i form av fint formaterte `.csv`- og `.json`-filer.

#### CSV-filer

Filer med `.csv` er tekstfiler som følger en (litt slapp) standard.

- Hver linje (rad) representerer et dataobjekt, for eksempel et spill, en bil eller en person.
- Hver linje er delt opp i kolonner med et *delimiter*-tegn, i dette tilfellet `,`.

```
Plassering,Spillnavn,Konsoll
1,"Mario Kart DS",DS
2,"Hey You, Pikachu!",N64
3,"WarioWare, Inc.: Mega MicroGame$",GBA
4,"Horse Life 4: My Horse, My Friend, My Champion",3DS
```

Filer med `.csv` har ofte en første rad (eller flere rader) som forklarer hva hver kolonne representerer. Dette kalles en *header*. I tillegg brukes det noen ganger en annen delimiter enn `,`, for eksempel `;` eller `\t`, til tross for at det heter *comma*-separated values.

In [52]:
import csv

with open("spill_enkel.csv") as file:
    file.readline() # Hopper over headeren
    lines = list(csv.reader(file.readlines(), delimiter=","))

for x in lines:
    print(f"{x[0]} | {x[1]:<50} | {x[2]}")

1 | Mario Kart DS                                      | DS
2 | Hey You, Pikachu!                                  | N64
3 | WarioWare, Inc.: Mega MicroGame$                   | GBA
4 | Horse Life 4: My Horse, My Friend, My Champion     | 3DS


Å skrive `delimiter=","` er egentlig overflødig, fordi det er standard, men sånn kan man enkelt endre til en annen delimiter.

````{admonition} Hvorfor bruke csv.reader()? 🤔
:class: hint
Man *kan* håndtere en `.csv`-fil slik vi har lært å håndtere vanlige filer, ved å ta hver linje av filen og splitte linjene på et tegn.

```
'1,"Mario Kart DS",DS'     ->  ['1', 'Mario Kart DS', 'DS']           ✅
'2,"Hey You, Pikachu!",PC' ->  ['2', '"Hey You', 'Pikachu!"', 'N64']  ❌
``` 

... men hvis vi gjør det ser vi at linjene blir splittet feil.

Når vi bruker `csv.reader()` ignoreres delimiteren når den står med mellomrom etter. Dette fikser problemet. Det er mange andre ting man kan gjøre med `csv.reader()`, men det kan du lese om i [dokumentasjonen (lenke)](https://docs.python.org/3/library/csv.html).
````

#### JSON-filer

Filer med `.json` er tekstfiler som lagrer data på nesten samme måte som vi har gjort med [ordbøker (lenke)](ordbøker).

```
{
    "1" : {
        "Navn" : "Mario Kart DS",
        "Konsoll" : "DS"
    },
    "2" : {
        "Navn" : "Hey You, Pikachu!",
        "Konsoll" : "N64"
    },
    "3" : {
        "Navn" : "WarioWare, Inc.: Mega MicroGame$",
        "Konsoll" : "GBA"
    },
    "4" : {
        "Navn" : "Horse Life 4: My Horse, My Friend, My Champion",
        "Konsoll" : "3DS"
    }
}
```

In [53]:
import json

with open("spill_enkel.json") as file:
    data = json.load(file)

for x in data:
    # x er hver "plassering", som er key for hvert spill. 
    print(f"{x} | {data[x]["Navn"]:<50} | {data[x]["Konsoll"]}")

1 | Mario Kart DS                                      | DS
2 | Hey You, Pikachu!                                  | N64
3 | WarioWare, Inc.: Mega MicroGame$                   | GBA
4 | Horse Life 4: My Horse, My Friend, My Champion     | 3DS


---

#### Oppgaver

##### Oppgave 1 🎮

Jeg har rundet hundrevis av spill og kategorisert de i en `.csv`-fil.

Last ned filen [her (lenke)](https://raw.githubusercontent.com/tobiasmelbo/om_meg/main/list.csv)

- Skriv ut antallet spill i listen.
- Skriv ut hvor mange 1-ere, 2-ere, 3-ere, 4-ere og 5-ere det er.
- Skriv ut hvor mange spill det er til de $8$ mest populære spillkonsollene, i synkende rekkefølge.
- (BONUS) Regn ut summen av de registrerte tidene i timer.

##### Oppgave 2 🏹

Handelsmannen Knoteknut Glimretå er en handelsmann som selger utstyr til eventyrere.

Last ned filen {download}`gnome_merchant_inventory.json`.

Skriv ut en oversikt over de seks tingene han har mest av.

````{admonition} Løsningsforslag
:class: note, dropdown
```
import json
from collections import Counter

# Lager ordbok over ting med "Navn" : "Mengde"
ting = Counter()
with open("gnome_merchant_inventory.json", encoding="utf-8") as file:
    data = json.load(file)
    for x in data:
        # Legger inn antallet til hver ting
        ting[x["gjenstand"]] = x["antall"] 

# Skriver ut de vanligste tingene. most_common gir tupler.
for x in ting.most_common(6):
    print(f"{x[0]:<15} : {x[1]}")
```
```
Fakkel          : 30
Piler (kogger)  : 25
Brød            : 25
Urter           : 20
Dolk            : 15
Vannflaske      : 15
```
````

##### Oppgave 3 ✨

Stjernestasjonen Epsilon-9 har et register over romskipene fra føderasjonen som har besøkt stasjonen.

Last ned filen {download}`starship_registry.csv`.

Skriv ut en fin tabell over alle besøkene i kronologisk rekkefølge.

````{admonition} Løsningsforslag
:class: note, dropdown
```
with open("starship_registry.csv") as file:
    file.readline()
    data = list(csv.reader(file.readlines(), delimiter=";"))

sortert_liste = sorted(data, key=lambda x : x[3])
for x in sortert_liste:
    print(f"{x[0]:<10} | {x[1]:<15} | {x[2]:<20} | {x[3]:<15} | {x[4]:<20} | {x[5]}")
```
```
NX-01      | Enterprise      | NX                   | 2151-04-16      | Jonathan Archer      | 8
NCC-1071   | USS Shenzhou    | Walker               | 2256-01-11      | Philippa Georgiou    | 23
NCC-21166  | USS Discovery   | Crossfield           | 2256-02-11      | Gabriel Lorca        | 22
NCC-638    | USS Farragut    | Constitution         | 2257-11-21      | Christopher Pike     | 9
NCC-1701   | USS Enterprise  | Constitution         | 2265-02-14      | James T. Kirk        | 5
NCC-1709   | USS Hood        | Constitution         | 2267-03-19      | Thomas Harris        | 21
NCC-1777   | USS Lexington   | Constitution         | 2270-07-19      | Burtell              | 19
NCC-1860   | USS Intrepid    | Miranda              | 2270-08-19      | Markel               | 17
NCC-2544   | USS Potemkin    | Constitution         | 2275-05-12      | Robert Wesley        | 20
NCC-1864   | USS Reliant     | Miranda              | 2285-06-01      | Clark Terrell        | 12
NCC-65530  | USS Grissom     | Oberth               | 2286-02-23      | Esteban              | 15
NCC-1701-A | USS Enterprise  | Constitution Refit   | 2286-11-18      | James T. Kirk        | 5
NCC-2000   | USS Excelsior   | Excelsior            | 2290-01-01      | Hikaru Sulu          | 10
NCC-2893   | USS Stargazer   | Constellation        | 2333-05-22      | Jean-Luc Picard      | 1
NCC-1701-D | USS Enterprise  | Galaxy               | 2364-07-03      | Jean-Luc Picard      | 7
NCC-3890   | USS Hathaway    | Constellation        | 2365-02-14      | William T. Riker     | 18
NCC-71807  | USS Hood        | Excelsior            | 2365-04-05      | Robert DeSoto        | 16
NCC-58928  | USS Sutherland  | Nebula               | 2368-03-10      | Shelby               | 14
NCC-71909  | USS Defiant     | Defiant              | 2370-12-08      | Benjamin Sisko       | 4
NX-74205   | USS Defiant     | Defiant              | 2371-07-28      | Benjamin Sisko       | 11
NCC-74656  | USS Voyager     | Intrepid             | 2371-09-24      | Kathryn Janeway      | 3
NCC-71099  | USS Lakota      | Excelsior            | 2372-06-07      | Erika Benteen        | 13
NCC-1701-E | USS Enterprise  | Sovereign            | 2372-12-25      | Jean-Luc Picard      | 6
NCC-80102  | USS Prometheus  | Prometheus           | 2374-05-06      | Doctor               | 2
NCC-74657  | USS Voyager-B   | Intrepid             | 2379-09-24      | Miral Paris          | 3
```
````

##### Oppgave 4 🎬

Norsk filmindustri har produsert noen sykt bra filmer gjennom tidene.

Last ned filen {download}`filmer.csv`.

- Lag en fin tabell. Brukeren skal kunne velge om man skal skrive ut i alfabetisk rekkefølge, eller etter utgivelse.
- Skriv ut de tre mest sette filmene på kino.
- Skriv ut de tre filmene med flest strømminger.

````{admonition} Fasit
:class: hint, dropdown
Her er en mulig utskrift når brukeren sorterer etter år.
```
Navn                                     | År   | Kinobesøk  | Strømminger
Gutta boys                               | 1999 | 95266      | 122787
OSLO                                     | 2000 | 9770       | 2665576
Kongen og krigen                         | 2000 | 165423     | 452270
Torpedo: Lånekassen                      | 2003 | 91845      | 774350
Forelsket: Ytre Enebakk                  | 2005 | 123380     | 2645774
Jordskjelvet                             | 2006 | 19524      | 827497
Forræderen                               | 2006 | 107483     | 308763
Spinnville Sondre                        | 2012 | 113911     | 2945296
Skogen                                   | 2013 | 87957      | 1570959
Krigen                                   | 2014 | 58819      | 2387531
Knerten blir kildesortert                | 2014 | 62394      | 873722
BLÜCHER                                  | 2015 | 187871     | 1809530
Enda en krigsfilm                        | 2015 | 107948     | 1311115
Tante jobber for NAV                     | 2015 | 40630      | 2751636
Sommer i Narvik                          | 2015 | 90659      | 175462
Thor Heyerdahl                           | 2016 | 169827     | 387362
Olsenbanden på førstegangstjeneste       | 2018 | 78856      | 1279729
Knerten: På farten                       | 2019 | 125345     | 834912
Andre Verdenskrig                        | 2022 | 137491     | 287087
WW2: Oslo                                | 2024 | 163686     | 2788605

 --- Mest sette filmer på kino ---
BLÜCHER              187871 kinobesøk
Thor Heyerdahl       169827 kinobesøk
Kongen og krigen     165423 kinobesøk

 --- Mest strømmet ---
Spinnville Sondre    2945296 strømminger
WW2: Oslo            2788605 strømminger
Tante jobber for NAV 2751636 strømminger
```
````

````{admonition} Løsningsforslag
:class: note, dropdown
```
import csv
from collections import Counter

# Bruker velger sorteringsmetode
print("Velg sortering. 1: alfabetisk. 2: etter år")
valg = int(input("Valg: "))

with open("filmer.csv", encoding="utf8") as file:
    header = file.readline().strip().split(",")
    data = csv.reader(file.readlines())

# Sorterer med hensyn på valget fra brukeren
data = sorted(data, key=lambda x: x[valg - 1])

# Fin tabell
print(f"{header[0]:40} | {header[1]:4} | {header[2]:10} | {header[3]}")
for x in data:
    print(f"{x[0]:40} | {x[1]:4} | {x[2]:10} | {x[3]}")

# Bruker Counter for å bruke most_common()-metoden
kinobesøk, strømminger = Counter(), Counter()
for x in data:
    kinobesøk[x[0]] = int(x[2])
    strømminger[x[0]] = int(x[3])

# Skriver ut mest sette filmer på kino
print("\n --- Mest sette filmer på kino ---")
for x in kinobesøk.most_common(3):
    print(f"{x[0]:20} {x[1]} kinobesøk")

# Skriver ut mest strømmet
print("\n --- Mest strømmet ---")
for x in strømminger.most_common(3):
    print(f"{x[0]:20} {x[1]} strømminger")
```
````