# Lese fra og skrive til .csv
En .csv-fil er en fil der data er adskilt med et tegn som f.eks. komma, semikolon eller kolon. Navnet er en forkortelse for comma-separated-values. Dette likner en del på å lese fra .txt. Se kommandoer og enkle eksempler her: https://docs.python.org/3/library/csv.html

Her har vi hentet testdata fra Statistisk sentralbyrå. Dataene gjelder antall arbeidsforhold per fylke i 4. kvartal 2017 og prosentvis endring fra 4. kvartal 2016. Se tabell 2 på denne siden: https://www.ssb.no/arbeid-og-lonn/statistikker/arblonn

In [1]:
import csv

file = open('arbeidsforhold_2017.csv', 'r')
reader = csv.reader(file, delimiter = ';')
for row in reader:
    print(row)

file.close()

['\ufeff', '4. kvartal 2017', '4. kvartal 2016 - 4. kvartal 2017', '']
['Absolutte tall', 'Prosentvis endring', '']
['Østfold', '128810', '1,9', '']
['Akershus', '290941', '1,8', '']
['Oslo', '504665', '3,0', '']
['Hedmark', '93532', '1,8', '']
['Oppland', '92851', '0,7', '']
['Buskerud', '136258', '1,9', '']
['Vestfold', '114721', '2,1', '']
['Telemark', '80325', '1,3', '']
['Aust-Agder', '51554', '1,8', '']
['Vest-Agder', '94476', '1,6', '']
['Rogaland', '253618', '1,6', '']
['Hordaland', '278135', '1,6', '']
['Sogn og Fjordane', '59836', '1,0', '']
['Møre og Romsdal', '137756', '0,1', '']
['Sør-Trøndelag', '179587', '2,7', '']
['Nord-Trøndelag', '67848', '1,4', '']
['Nordland', '127042', '1,3', '']
['Troms - Romsa', '93799', '1,9', '']
['Finnmark - Finnmárku', '40862', '1,2', '']
['Uoppgitt fylke', '5960', '-10,1', '']
['Ikke Fastlands-Norge', '21919', '-1,2', '']


Her ser vi at Ø i Østfold og ø i Sør-Trøndelang og á i Finnmárku ikke skrives riktig. Dette kan ordnes ved å legge til riktig encoding når filen åpnes.

In [48]:
import csv

file = open('arbeidsforhold_2017.csv', 'r', encoding='utf-8')
reader = csv.reader(file, delimiter = ';')
for row in reader:
    print(row)

file.close()

['\ufeff', '4. kvartal 2017', '4. kvartal 2016 - 4. kvartal 2017', '']
['Absolutte tall', 'Prosentvis endring', '']
['Østfold', '128810', '1,9', '']
['Akershus', '290941', '1,8', '']
['Oslo', '504665', '3,0', '']
['Hedmark', '93532', '1,8', '']
['Oppland', '92851', '0,7', '']
['Buskerud', '136258', '1,9', '']
['Vestfold', '114721', '2,1', '']
['Telemark', '80325', '1,3', '']
['Aust-Agder', '51554', '1,8', '']
['Vest-Agder', '94476', '1,6', '']
['Rogaland', '253618', '1,6', '']
['Hordaland', '278135', '1,6', '']
['Sogn og Fjordane', '59836', '1,0', '']
['Møre og Romsdal', '137756', '0,1', '']
['Sør-Trøndelag', '179587', '2,7', '']
['Nord-Trøndelag', '67848', '1,4', '']
['Nordland', '127042', '1,3', '']
['Troms - Romsa', '93799', '1,9', '']
['Finnmark - Finnmárku', '40862', '1,2', '']
['Uoppgitt fylke', '5960', '-10,1', '']
['Ikke Fastlands-Norge', '21919', '-1,2', '']


In [49]:
fylker = []
antall_arbeidsforhold = []
prosent_endring = []

file = open('arbeidsforhold_2017.csv', 'r', encoding='utf-8')
reader = csv.reader(file, delimiter = ';')

next(reader)
next(reader)

for rad in reader:
    fylker.append(rad[0])
    antall_arbeidsforhold.append(int(rad[1]))
    prosent_endring.append(float(rad[2].replace(',','.')))
    # Her har vi erstattet , med . for å gå fra norsk skrivemåte for desimaltall til engelsk.

file.close()

for i in range(len(fylker)):
    print(fylker[i], antall_arbeidsforhold[i], prosent_endring[i])

Østfold 128810 1.9
Akershus 290941 1.8
Oslo 504665 3.0
Hedmark 93532 1.8
Oppland 92851 0.7
Buskerud 136258 1.9
Vestfold 114721 2.1
Telemark 80325 1.3
Aust-Agder 51554 1.8
Vest-Agder 94476 1.6
Rogaland 253618 1.6
Hordaland 278135 1.6
Sogn og Fjordane 59836 1.0
Møre og Romsdal 137756 0.1
Sør-Trøndelag 179587 2.7
Nord-Trøndelag 67848 1.4
Nordland 127042 1.3
Troms - Romsa 93799 1.9
Finnmark - Finnmárku 40862 1.2
Uoppgitt fylke 5960 -10.1
Ikke Fastlands-Norge 21919 -1.2


La oss se på sammenhengen mellom antall arbeidsforhold og hvor stor prosentvis endring fylkene opplever. Det er kanskje slik at store fylker opplever mindre prosentvis endringer? Eller kanskje ikke? Vi lager et enkelt scatterplot for å se på dataene.

In [51]:
import matplotlib.pyplot as plt
%matplotlib notebook

plt.scatter(antall_arbeidsforhold, prosent_endring)
plt.show()

<IPython.core.display.Javascript object>

## Skrive til .csv-filer
La oss modifisere tallene våre ved å anta at vi får samme prosentvis endring i antall arbeidsforhold i løpet av neste år. Vi beregner først verdiene.

In [52]:
antall_arbeidsforhold_2018 = [int(round((1+prosent_endring[i]/100)*antall_arbeidsforhold[i],0)) for i in range(len(fylker))]
print(antall_arbeidsforhold)
print(antall_arbeidsforhold_2018)

[128810, 290941, 504665, 93532, 92851, 136258, 114721, 80325, 51554, 94476, 253618, 278135, 59836, 137756, 179587, 67848, 127042, 93799, 40862, 5960, 21919]
[131257, 296178, 519805, 95216, 93501, 138847, 117130, 81369, 52482, 95988, 257676, 282585, 60434, 137894, 184436, 68798, 128694, 95581, 41352, 5358, 21656]


In [53]:
# Her er en kontroll på at jeg har regnet riktig.
for i in range(len(fylker)):
    print(round((antall_arbeidsforhold_2018[i]/antall_arbeidsforhold[i]-1)*100, 1), prosent_endring[i])

1.9 1.9
1.8 1.8
3.0 3.0
1.8 1.8
0.7 0.7
1.9 1.9
2.1 2.1
1.3 1.3
1.8 1.8
1.6 1.6
1.6 1.6
1.6 1.6
1.0 1.0
0.1 0.1
2.7 2.7
1.4 1.4
1.3 1.3
1.9 1.9
1.2 1.2
-10.1 -10.1
-1.2 -1.2


In [56]:
file = open('arbeidsforhold_2018.csv', 'w', newline='', encoding='utf-8') # newline her hindrer blanke linjer i filen
writer = csv.writer(file, delimiter = ';')

writer.writerow(['Fylke', 'Antall arbeidsforhold'])
for i in range(len(fylker)):
    writer.writerow([fylker[i], antall_arbeidsforhold_2018[i]])
file.close()

Øving: Bruk filen stemmetall_stortingsvalg.csv. Den gir stemmetall for hvert parti i stortingsvalgene 2009, 2013 og 2017. Beregn prosentvis endring i stemmetall fra 2009 til 2013 per parti, og tilsvarende for 2013-2017 per parti. Hvis et parti fikk 100 stemmer i 2009 og 110 i 2013 var prosentvis økning på 10 %. Hvis samme parti i 2017 fikk 105 stemmer var prosentvis endring på -4,5 %. Bruk vanlige avrundingsregler og gi resultatene med en desimal. Skriv resultatet til en ny .csv-fil.

Dataene er hentet fra tabell 3 på denne siden: https://www.ssb.no/valg/statistikker/stortingsvalg

In [None]:
# Celle til å lese data

In [None]:
# Celle til å bearbeide data

In [None]:
# Celle til å skrive data