### Les inn csv-filer fra seklima.no
Vi bruker seklima.no til å laste ned data vi kan se på i sammenheng med selvinnhentede data over nedbør og temperatur. 
Dette er en oppskrift for hvordan man leser csv-filer inn i python etter at man har lastet ned datasettet. 

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

Pass på at backslashene går rett vei. Dette er windows din default: \. Det blir feil. Vi må bruke denne: /. Eventuelt kan vi skrive en dobbel windows slash: \\, eller sette en 'r' foran stien. Det er best standard å bruke unix syntax, altså /.

In [None]:
sti='W:/Work/Documents/EkteData/EkteData/data'
fil='/soltimer.csv'

sti='W:\\Work\\Documents\\EkteData\\EkteData\\data'
fil='\\soltimer.csv'

sti=r'W:\Work\Documents\EkteData\EkteData\data'
fil='\soltimer.csv'

Bruk pandas til å lese csv-filen. 
- `sep=';'` beskriver hva som deler kolonnene i filen. Hvis du åpner filen i f.eks. notepad ser du at dette er semikolon i vårt tilfelle, men det er ofte tab, komma (default), eller kolon. 
- Med `index_col` bestemmer du hvilken kolonne du vil sette til venstre og bruke som index. 
- `decimal=','` må være med fordi verdiene i denne csv-filen er lagret med komma som desimaltegn istedet for punktum. For at verdien skal tolkes som ett tall og ikke to må komma endres til punktum. 
- `dayfirst=True` sørger for at datoen tolkes riktig. Uten denne tolkes det første tallet i datoen som måned. 

In [None]:
df = pd.read_csv(
    sti+fil, sep=';', index_col='Tid(norsk normaltid)', 
    dayfirst=True, decimal=','
)

df er nå en "Pandas DataFrame"

In [None]:
df

Hvis du nå vil ha tak i f.eks. kun verdien for Solskinnstid den 29 desmeber 2021 skriver du slik:


In [None]:
df['Solskinnstid (døgn)'][0]

In [None]:
df['Solskinnstid (døgn)']

Hvis vi vil plotte disse dataene må vi i dette tilfellet ta vekk den siste linjen med informasjon. Legg merke til at det mangler et par vedier: 2 og 3 januar er falt ut av dette datasettet. Figuren under må leses med dette i bakhodet.

In [None]:
plt.plot(df['Solskinnstid (døgn)'][:-1])
plt.show()

Vi kan også redefinere df så vi slipper å tenke på denne siste linjen. I panda DataFrames angir man navnet til kolonnen først, og så hvilke rader man vil se på. Dette er litt forvirrende siden standard indeksering bruker "row" så "column". `df[:][:-1]` betyr altså "alle kolonner" (`[:]`), og "alle rader utenom den siste" (`[:-1]`).

In [None]:
df=df[:][:-1]

In [None]:
plt.plot(df['Solskinnstid (døgn)'])
plt.show()

In [None]:
df.plot(kind='bar', y='Solskinnstid (døgn)')
plt.show()

#### Pandas DataFrame til Numpy Array

Du kan gjøre om Pandas DataFrame til et numpy array. Dette er praktisk hvis du f.eks. skal sammenligne et datasett som dette med et du har lest inn som numpy array. Man trenger i blant å konvertere mellom disse to formatene. 

In [None]:
df.to_numpy()

Siden vi har satt tiden til å være index kommer ikke denne med ved konverteringen. Derfor må vi laste inn csv-filen på nytt uten å spesifisere `index_col` slik at tiden kommer med. 

In [None]:
df = pd.read_csv(
    sti+fil, sep=';', decimal=',', parse_dates=['Tid(norsk normaltid)'],
    dayfirst=True
)
df=df[:][:-1]
df

Konverter fra DataFrame til numpy array på nytt

In [None]:
data=df.to_numpy()

In [None]:
data

In [None]:
data[0][-1], data[0,-1]

In [None]:
data[0:3]

Hvis du nå plotter en ny figur med numpy arrayet ser du at 2 og 3 januar (der det mangler verdier) tas hensyn til. 

In [None]:
plt.figure(figsize=(10,3))
plt.plot(data[:,2],data[:,3], '*-')
plt.grid()
plt.show()

In [None]:
data[:,-1]