# Introduksjon til lesing av datasett fra tekstfiler
## CSV
CSV står for "comma-separated value". En slik fil inneholder vanligvis data formatert som en tabell eller matrise med rader og kolonner. Ofte er første linje i fila et sett med "overskrifter" for hver kolonne. De påfølgende linjene inneholder en rad per linje. Verdiene er separert med et spesifikt tegn ("delimiter"). Dette er ofte komma, men kan også være andre tegn, f.eks. mellomrom ("white space") eller ";".

Python har en [egen modul for behandling av CSV-filer](https://docs.python.org/3/library/csv.html). Vi importerer den, og oppgir også path til en eksempelfil:

In [1]:
import csv
csv_path = 'datasets/sykler.csv'

Vi åpner tekstfila på "vanlig måte" med en context manager ("with"-blokk). Først kan vi se hvordan dette ser ut som "rådata":

In [2]:
with open(csv_path,newline='') as file:
    content = file.read()
print(content)

Antall gir;Dekkstørrelse (tommer);Vekt (kg);Pris (kr);Type
27;28;13,6;6999;Hybrid 
16;24;9,0;4999;Barn
1;16;7,1;2199;Barn
6;20;11,9;2799;Barn
1;16;5,4;4499;Barn
8;24;11,0;5799;Barn
18;29;14,5;5999;MTB
8;20;7,4;5499;Barn
12;29;13,8;9990;MTB
12;28;14,5;22699;MTB
8;28;14,0;3999;Hybrid 
10;28;11,0;7499;Hybrid 
12;27,5;15,9;42990;MTB


Vi kan så bruke csv.reader() for å tolke innholdet i fila som CSV-data. Vi oppretter en CSV-"reader", som er en iterator. Hver iterasjon over denne returnerer ei ny linje fra fila, som ei liste med alle verdiene:

In [3]:
with open(csv_path,newline='',encoding='utf-8-sig') as csvfile:  # Specify utf-8-sig to avoid including byte order mark
    csvreader = csv.reader(csvfile,delimiter=';')
    for line in csvreader:
        print(line)


['Antall gir', 'Dekkstørrelse (tommer)', 'Vekt (kg)', 'Pris (kr)', 'Type']
['27', '28', '13,6', '6999', 'Hybrid ']
['16', '24', '9,0', '4999', 'Barn']
['1', '16', '7,1', '2199', 'Barn']
['6', '20', '11,9', '2799', 'Barn']
['1', '16', '5,4', '4499', 'Barn']
['8', '24', '11,0', '5799', 'Barn']
['18', '29', '14,5', '5999', 'MTB']
['8', '20', '7,4', '5499', 'Barn']
['12', '29', '13,8', '9990', 'MTB']
['12', '28', '14,5', '22699', 'MTB']
['8', '28', '14,0', '3999', 'Hybrid ']
['10', '28', '11,0', '7499', 'Hybrid ']
['12', '27,5', '15,9', '42990', 'MTB']


CSV-reader-iteratoren slettes når man kommer ut av "with"-blokka. For å ta vare på datasettet kan man gjøre det til en "liste av lister":

In [4]:
data = []
with open(csv_path,newline='',encoding='utf-8-sig') as csvfile:  # Specify utf-8-sig to avoid including byte order mark
    csvreader = csv.reader(csvfile,delimiter=';')
    for line in csvreader:
        data.append(line)

print(data)

[['Antall gir', 'Dekkstørrelse (tommer)', 'Vekt (kg)', 'Pris (kr)', 'Type'], ['27', '28', '13,6', '6999', 'Hybrid '], ['16', '24', '9,0', '4999', 'Barn'], ['1', '16', '7,1', '2199', 'Barn'], ['6', '20', '11,9', '2799', 'Barn'], ['1', '16', '5,4', '4499', 'Barn'], ['8', '24', '11,0', '5799', 'Barn'], ['18', '29', '14,5', '5999', 'MTB'], ['8', '20', '7,4', '5499', 'Barn'], ['12', '29', '13,8', '9990', 'MTB'], ['12', '28', '14,5', '22699', 'MTB'], ['8', '28', '14,0', '3999', 'Hybrid '], ['10', '28', '11,0', '7499', 'Hybrid '], ['12', '27,5', '15,9', '42990', 'MTB']]


Så kan man ta vare på første linje over overskrifter som en egen variabel, og behandle resten av datasettet videre - f.eks. gjøre det om til et NumPy-array.

In [5]:
header = data[0]
import numpy as np
X = np.array(data[1:])

print(f'{header=}')
print(f'{X=}')


header=['Antall gir', 'Dekkstørrelse (tommer)', 'Vekt (kg)', 'Pris (kr)', 'Type']
X=array([['27', '28', '13,6', '6999', 'Hybrid '],
       ['16', '24', '9,0', '4999', 'Barn'],
       ['1', '16', '7,1', '2199', 'Barn'],
       ['6', '20', '11,9', '2799', 'Barn'],
       ['1', '16', '5,4', '4499', 'Barn'],
       ['8', '24', '11,0', '5799', 'Barn'],
       ['18', '29', '14,5', '5999', 'MTB'],
       ['8', '20', '7,4', '5499', 'Barn'],
       ['12', '29', '13,8', '9990', 'MTB'],
       ['12', '28', '14,5', '22699', 'MTB'],
       ['8', '28', '14,0', '3999', 'Hybrid '],
       ['10', '28', '11,0', '7499', 'Hybrid '],
       ['12', '27,5', '15,9', '42990', 'MTB']], dtype='<U7')


## JSON
[JSON](https://en.wikipedia.org/wiki/JSON) står for "JavaScript Object Notation", men har etterhvert blitt et dataformat som er uavhengig av programmeringsspråk. Python har en [egen modul for å lese og skrive JSON-filer](https://docs.python.org/3/library/json.html#module-json). Vi importerer denne, og definerer samtidig path til et datasett med astronauter.

In [6]:
import json
json_path = 'datasets/astronauts.json'

Vi leser inn JSON-fila på samme måte som hvilken som helst annen tekstfil:

In [7]:
with open(json_path,newline='') as file:
    content = file.read()
print(content)

{"people": [{"name": "Sergey Prokopyev", "craft": "ISS"}, {"name": "Dmitry Petelin", "craft": "ISS"}, {"name": "Frank Rubio", "craft": "ISS"}, {"name": "Jing Haiping", "craft": "Tiangong"}, {"name": "Gui Haichow", "craft": "Tiangong"}, {"name": "Zhu Yangzhu", "craft": "Tiangong"}, {"name": "Jasmin Moghbeli", "craft": "ISS"}, {"name": "Andreas Mogensen", "craft": "ISS"}, {"name": "Satoshi Furukawa", "craft": "ISS"}, {"name": "Konstantin Borisov", "craft": "ISS"}, {"name": "Oleg Kononenko", "craft": "ISS"}, {"name": "Nikolai Chub", "craft": "ISS"}, {"name": "Loral O'Hara", "craft": "ISS"}], "number": 13, "message": "success"}


Vi kan legge merke til her at syntaksen for JSON er den samme som Python bruker for å definere lister (dvs. [...]) og dictionaries (dvs. {key:value}). Snedig! JSON-modulen "oversetter" teksten til et nøstet sett med lister og dictionaries for oss:

In [8]:
with open(json_path,newline='') as file:
    astronauts = json.loads(file.read())
print(astronauts)
print(type(astronauts))

{'people': [{'name': 'Sergey Prokopyev', 'craft': 'ISS'}, {'name': 'Dmitry Petelin', 'craft': 'ISS'}, {'name': 'Frank Rubio', 'craft': 'ISS'}, {'name': 'Jing Haiping', 'craft': 'Tiangong'}, {'name': 'Gui Haichow', 'craft': 'Tiangong'}, {'name': 'Zhu Yangzhu', 'craft': 'Tiangong'}, {'name': 'Jasmin Moghbeli', 'craft': 'ISS'}, {'name': 'Andreas Mogensen', 'craft': 'ISS'}, {'name': 'Satoshi Furukawa', 'craft': 'ISS'}, {'name': 'Konstantin Borisov', 'craft': 'ISS'}, {'name': 'Oleg Kononenko', 'craft': 'ISS'}, {'name': 'Nikolai Chub', 'craft': 'ISS'}, {'name': "Loral O'Hara", 'craft': 'ISS'}], 'number': 13, 'message': 'success'}
<class 'dict'>


Så langt ser den opprinnelige teksten og "astronauts" helt like ut. Vi kan vise forskjellen tydeligere ved å iterere over datastrukturen og hente ut navnene på astronautene:

In [9]:
for key,value in astronauts.items():
    if key == 'people':
        print('People in space: \n')
        for person in value:
            print(person['name'])
        print('')
    else:
        print(f'{key}: {value}')

People in space: 

Sergey Prokopyev
Dmitry Petelin
Frank Rubio
Jing Haiping
Gui Haichow
Zhu Yangzhu
Jasmin Moghbeli
Andreas Mogensen
Satoshi Furukawa
Konstantin Borisov
Oleg Kononenko
Nikolai Chub
Loral O'Hara

number: 13
message: success
