# Modul 8


# Modul 8: Lesing av data

Den viktige funksjonen for å arbeide med filer i Python er <code>open()</code>-funksjonen. Denne funksjonen tar to parametere: filnavn og modus. Det finnes fire ulike metoder (moduser) for å åpne en fil:

"r" - Les - Standardverdi. Leser filen, returnerer en feil hvis filen ikke eksisterer.

"a" - Legg til - Åpner en fil for å legge til data, oppretter filen hvis den ikke eksisterer.

"w" - Skriv - Åpner en fil for skriving, oppretter filen hvis den ikke eksisterer.

"x" - Opprett - Oppretter filen, returnerer en feil hvis filen eksisterer.

"t" - Tekst - Standardverdi. Tekstmodus.

"b" - Binær - Binærmodus (f.eks. bilder).

## Lesing av tekstfiler

In [None]:
#For å lese en fil med funksjonen open trenger vi bare å spesifisere filnavnet.
#3Dette leser filen og returnerer et filobjekt

f = open("demofile.txt") # filen er i samme mappe

#skriv ut innholdet i filen ved hjelp av filmetoden read

print(f.read())

For å lese tekstdata inn i Python kan du også bruke biblioteket <code>pandas</code>. Biblioteket <code>pandas</code> tilbyr funksjonen <code>read_csv()</code>, som er allsidig og kan håndtere ulike typer tekstfiler med skilletegn, inkludert komma-separerte tekstfiler som vår <code>demofile.txt</code>.

Her er et eksempel på hvordan du kan lese den samme filen ved hjelp av <code>pandas</code>:

In [None]:
import pandas as pd

#Les filen inn i en DataFrame kalt data

data = pd.read_csv('demofile.txt') # filen er i samme mappe

#Vis de første fem radene av DataFrame ved hjelp av funksjonen head

data.head()

Merk at filen blir lest inn som en <code>DataFrame</code>, en datastruktur i <code>pandas</code> som inneholder merkede akser (rader og kolonner). <code>DataFrame</code> er en kraftig struktur, og vi vil bruke den mye fremover.

## Lesing av Excel-filer:

For å lese Excel-filer inn i Python kan vi også bruke <code>pandas</code>. <code>pandas</code> tilbyr funksjonen <code>read_excel()</code> for å lese Excel-filer.

Her er et eksempel på hvordan du kan lese en Excel-fil ved hjelp av <code>pandas</code>:

In [None]:
#Les Excel-filen inn i en DataFrame

data = pd.read_excel('data.xlsx', sheet_name='Sheet1') # filen er i samme mappe

#Vis de første fem radene av DataFrame

data.head()

# Å hoppe over rader og velge bestemte kolonner:
Når du leser eller importerer data, er det viktig å se på den faktiske filen for å se hvilke data du er interessert i og hvor dataene befinner seg. Noen ganger trenger du ikke all dataen!

La oss se på Excel-filen energy_data.xlsx:

In [None]:
# Les Excel-filen som en DataFrame

energy_data = pd.read_excel('energy_data.xlsx', sheet_name='Sheet1')

# Vis de første fem radene av DataFrame

energy_data.head()

Du kan se at det ikke er noen verdier i de første fem radene av DataFrame-en. Dette skyldes at de første 9 radene i Excel-filen er tomme. Derfor må vi fortelle <code>pandas</code> å hoppe over de første 9 radene, og den 10. raden vil være overskriften:

In [None]:
#Les Excel-filen og hopp over rader

energy_data = pd.read_excel('energy_data.xlsx', sheet_name='Sheet1', skiprows=9)

energy_data.head()

Nå er dette riktig. Anta at vi kun er interessert i navnet på landet, energiforbruket per år i milliarder KWh og befolkningen i millioner. Det enkleste er å hente ut kolonnene ved hjelp av deres indekser. For å gjøre dette kan vi bruke funksjonen <code>iloc</code>:

In [None]:
#Hent ut valgte kolonner i DataFrame-en
#For å gjøre dette bruker vi funksjonen iloc og angir alle rader
#i kolonnene
#med indeksene 0, 1 og 2

energy_data_sel = energy_data.iloc[:, [0, 1, 2]]

energy_data_sel.head()

DataFrame gjør dataanalyse enkel

DataFrame er en kraftig struktur for dataanalyse. La oss sortere landene i DataFrame-en <code>energy_data</code> etter energiforbruk fra høyest til lavest. For å gjøre det, bruker vi DataFrame-funksjonen <code>sort_values()</code>, angir kolonnen <code>Energy Consumed</code> og spesifiserer at vi vil sortere den kolonnen i synkende rekkefølge, fra høyest til lavest verdi:

In [None]:
#Sorter energidata etter energiforbruk i synkende rekkefølge: fra høyest til lavest

sortert_energidata = energy_data.sort_values(by="Energy Consumed", ascending=False)

#Vis de fem øverste landene

sortert_energidata.head()

DataFrame er svært kraftig for statistikk. La oss si at vi ønsker å finne den generelle statistikken for de numeriske kolonnene i DataFrame-en <code>energy_data</code>. Dette er enkelt, vi trenger bare å bruke DataFrame-metoden <code>describe()</code>:

In [None]:
energy_data.describe() # Beregn statistikken for numeriske verdikolonner

Med bare én linje med kode kan vi beregne maksimum, minimum, gjennomsnitt, standardavvik og percentilverdier for disse kolonnene. Det er fantastisk!

Konvertering av DataFrame til en array

Vi kan også konvertere DataFrame til en numpy array og vice versa. For å gjøre dette bruker vi bare metoden <code>values</code> på DataFrame-en:

In [None]:
#Konverter DataFrame til NumPy-array

arr = energy_data.values

#Skriv ut arrayen

print(arr)

In [None]:
#Sorter arrayen basert på kolonnen Energy Consumed (indeks = 1)

#Dette sorterer arrayen i stigende rekkefølge

sortert_arr_stigende = arr[arr[:, 1].argsort()]

#Men vi ønsker at arrayen skal være i synkende rekkefølge: Fra høyeste til laveste verdi

sortert_arr_synkende = sortert_arr_stigende[::-1]

#Skriv ut den sorterte arrayen

print(sortert_arr_synkende)

In [None]:
# konverter arrayen tilbake til DataFrame
sortert_energy_data = pd.DataFrame(sortert_arr_synkende, columns=energy_data.columns)

# Vis de 5 første radene av DataFrame
sortert_energy_data.head()