(Reelle datasett)=
### Reelle datasett

Vi har nå lært å åpne tekstfiler, splitte opp linjer og hente ut data. 

Som jegere i en data-jungel har vi lært å jakte, slakte og partere data-byttet vårt... men det viser seg at man ikke trenger å jakte lengre, fordi det finnes data-biff å få kjøpt ferdig partert i butikken -- i form av fint formaterte `.csv`- og `.json`-filer.

#### CSV-filer

Filer med `.csv` er tekstfiler som følger en (litt slapp) standard.

- Hver linje (rad) representerer et dataobjekt, for eksempel et spill, en bil eller en person.
- Hver linje er delt opp i kolonner med et *delimiter*-tegn, i dette tilfellet `,`.

```
Plassering,Spillnavn,Konsoll
1,"Mario Kart DS",DS
2,"Hey You, Pikachu!",N64
3,"WarioWare, Inc.: Mega MicroGame$",GBA
4,"Horse Life 4: My Horse, My Friend, My Champion",3DS
```

Filer med `.csv` har ofte en første rad (eller flere rader) som forklarer hva hver kolonne representerer. Dette kalles en *header*. I tillegg brukes det noen ganger en annen delimiter enn `,`, for eksempel `;` eller `\t`, til tross for at det heter *comma*-separated values.

In [52]:
import csv

with open("spill_enkel.csv") as file:
    file.readline() # Hopper over headeren
    lines = list(csv.reader(file.readlines(), delimiter=","))

for x in lines:
    print(f"{x[0]} | {x[1]:<50} | {x[2]}")

1 | Mario Kart DS                                      | DS
2 | Hey You, Pikachu!                                  | N64
3 | WarioWare, Inc.: Mega MicroGame$                   | GBA
4 | Horse Life 4: My Horse, My Friend, My Champion     | 3DS


Å skrive `delimiter=","` er egentlig overflødig, fordi det er standard, men sånn kan man enkelt endre til en annen delimiter.

````{admonition} Hvorfor bruke csv.reader()? 🤔
:class: hint
Man *kan* håndtere en `.csv`-fil slik vi har lært å håndtere vanlige filer, ved å ta hver linje av filen og splitte linjene på et tegn.

```
'1,"Mario Kart DS",DS'     ->  ['1', 'Mario Kart DS', 'DS']           ✅
'2,"Hey You, Pikachu!",PC' ->  ['2', '"Hey You', 'Pikachu!"', 'N64']  ❌
``` 

... men hvis vi gjør det ser vi at linjene blir splittet feil.

Når vi bruker `csv.reader()` ignoreres delimiteren når den står med mellomrom etter. Dette fikser problemet. Det er mange andre ting man kan gjøre med `csv.reader()`, men det kan du lese om i [dokumentasjonen (lenke)](https://docs.python.org/3/library/csv.html).
````

#### JSON-filer

Filer med `.json` er tekstfiler som lagrer data på nesten samme måte som vi har gjort med [ordbøker (lenke)](ordbøker).

```
{
    "1" : {
        "Navn" : "Mario Kart DS",
        "Konsoll" : "DS"
    },
    "2" : {
        "Navn" : "Hey You, Pikachu!",
        "Konsoll" : "N64"
    },
    "3" : {
        "Navn" : "WarioWare, Inc.: Mega MicroGame$",
        "Konsoll" : "GBA"
    },
    "4" : {
        "Navn" : "Horse Life 4: My Horse, My Friend, My Champion",
        "Konsoll" : "3DS"
    }
}
```

In [53]:
import json

with open("spill_enkel.json") as file:
    data = json.load(file)

for x in data:
    # x er hver "plassering", som er key for hvert spill. 
    print(f"{x} | {data[x]["Navn"]:<50} | {data[x]["Konsoll"]}")

1 | Mario Kart DS                                      | DS
2 | Hey You, Pikachu!                                  | N64
3 | WarioWare, Inc.: Mega MicroGame$                   | GBA
4 | Horse Life 4: My Horse, My Friend, My Champion     | 3DS
