# For-løkker

For-løkker er nyttige når man skal gjøre nesten det samme flere ganger på rad. Det gjør koden ryddig og oversiktlig, og det er greit å holde oversikten på hvilke beregninger som egentlig gjøres. I blant kan de samme operasjonene gjøres med både for-løkker og vektoroperasjoner. Når man jobber med veldig store datasett er det ofte lurt å bruke vektorregning fordi dette er raskere enn store for-løkker, men i starten, når man enda jobber med å bli vant med programmering, blir det iblant litt vanskeligere å holde oversikten med vektoroperasjonen. Datasettene vi jobber med her er såpass små at tidsbruken ikke så mye å si.

Det kan likevel bli forvirrende å holde kontroll på indekseringen til også forløkker i blant, særlig hvis det er flere "nivåer" med for-løkker. 

I denne oppgaven bruker vi data av årlig gjennomsnittstemperatur i Bergen fra 1861 til 2021 for å vise et eksempel på hvordan en for-løkke kan brukes. Til slutt bruker vi et tilsvarende datasett inndelt i måneder for et eksempel på en dobbel for-løkke. 


In [12]:
import numpy as np # for regneoperasjoner
import matplotlib.pyplot as plt # for figurer
import matplotlib

In [13]:
file='TempBergenYearlyNonan.txt'
data = np.genfromtxt('https://raw.githubusercontent.com/irendundas/EkteData/main/'+file, 
                     dtype=float, delimiter=',',skip_header=1)



Tenk deg at du vil gjøre en beregning (for ekesmpel ta gjennomsnittet) over hvert tiår med data. Da må du 1) dele datasettet inn i tiårs-bolker, og 2) ta gjennomsnittet over hver bolk.

#### 1. Del datasettet inn i tiårs-bolker

In [14]:
len(data) # Datasettet spenner 161 år

161

For enkelhets skyld kutter vi det siste året slik at vi får 160 år, som er lett å dele inn i tiårs-bolker. 
**NOTE** Denne må kanskje vekk, men GitHub er treig med å oppdatere av en grunn...

In [4]:
data=data[0:-1,:] # -1 er det siste elementet. Dette er altså det samme som å skrive [0:len(data),:] og [0:161,:]
T=len(data) # Datasettet spenner nå 160 år
T

160

In [5]:
start=0
stop=T
N=int(T/10)+1 # N må være en integer, altså et tall uten desimaler. Det holder ikke at T/10 har null som desimal. 
              # Vi må legge til 1 for å få inndelingen rett: siden vi vil ha med endepunktet trenger vi en ekstra verdi.
    
ind=np.linspace(start,stop,N) # Husk: np.linspace(start,stop,number of values)
ind # Start- og slutt-indeks til hver av de 16 tiårs-bolkene (0 er start-indeks og 10 er slutt-indeks til den første bolken etc)

array([  0.,  10.,  20.,  30.,  40.,  50.,  60.,  70.,  80.,  90., 100.,
       110., 120., 130., 140., 150., 160.])

Hva skjer dersom du ikke legger til 1 i beregningen av N? Prøv!

#### 2. Kjør en for-løkke


I cellen under lages en variabel som du etterpå skriver gjennomsnittsverdiene til inni for-løkken. Enn så lenge er de 16 plassene bare fylt med 0. Vektoren må ha plass til 16 elementer - ett for hver av de 16 tiårs-bolkene. Derfor må vektoren være ett element kortere enn `ind`.

In [6]:
meanTemp=np.zeros((len(ind)-1,1)) 

Her beregner vi gjennomsnittstemperatur for hver tiårs-bolk ved hjelp av en for-løkke.
Vi må ta gjennomsnitt med nanmean fordi det er NaN-verdier i datasettet.

Skriv til slutt verdiene til meanTemp. Indeksen her er `int(i/10)=1...16`.

In [None]:
for i in ind[0:-1]: # ind[0:-1] = elementene i ind fra starten til og IKKE med det siste elementet 
    i=int(i)        # Verdier som brukes til indeksering MÅ være heltall/integers. 
    meanTemp[int(i/10)]=np.nanmean(data[i:i+10,1])

In [None]:
meanTemp

Dette resultatet kan man komme frem til på mange forskjellige måter. Under er et eksempel på en annen for-løkke som gir nøyaktig samme resultat.

In [None]:
for i in range(len(ind)-1): # range(17-1) = range(16) = fra 0 til og IKKE med 16, i.e., 16 elementer. 
    meanTemp[i]=np.nanmean(data[int(ind[i]):int(ind[i+1]),1]) # for e.g., i=0 blir dette data[ind[0]:ind[1],1]=data[0:10,1]

In [None]:
meanTemp

#### 3. Plot dataene

In [None]:
# lag en tidsvektor for tiårs-bolkene. Vi overskriver T fra tidliger fordi vi ikke trenger den mer
T=np.arange(data[4,0],data[-5,0],10)
T

In [None]:
plt.plot(T,meanTemp)
plt.title('Temperatur 1860-2020')
plt.xlabel('År')
plt.ylabel('Temperatur [\u2103]') # \u2103 er koden for grader celcius. 
plt.xlim([1860,2020]) # sett grense for x-aksen
plt.ylim([7,9]) # sett grense for y-aksen
plt.show() # denne linjen er kun med så vi slipper unødvendig tekstoutput. Du kan jo kommentere den ut for å se om du vil. 

In [None]:
plt.plot(data[:,0],data[:,1]) # legg til de originale dataene i bakgrunnen. 
plt.plot(T,meanTemp)
plt.title('Temperatur 1860-2020')
plt.xlabel('År')
plt.ylabel('Temperatur [\u2103]')
plt.xlim([1860,2020])
plt.ylim([5.5,10])
plt.show()

#### 4. Oppgave
Beregn temperatur for tjueårs-bolker. Bruk den metoden som er mest intuitiv/logisk for deg. Om du gjør det på en annen måte enn i eksemplene over er det supert. For å sjekke at metoden din funker kan du gjøre det likt som over og se om du får samme resultat med begge fremgangsmåter. 

Lag en figur der du viser rådataene, gjennomsnittet over tiårsbolker, og gjennomsnittet over tjueårs-bolker i samme figur. 

#### 5. Dobbel for-løkke
Last inn datasettet TempBergen.txt som har verdier for hver måned fra 1861 til 2021. 
Vi vil nå gjøre det samme som over (gjennomsnitt over tiårs-bolker), men vi vil gjøre det for hver måned individuelt slik at vi står igjen med gjennomsnittlig temperatur for januar, fabruar, mars etc. i 1860-1870, og tilsvarende for alle tiårsperiodene fremover. 

Utemom inndelingen i måneder er dette datasettet likt det vi brukte over. Vi kutter derfor siste året igjen. 

In [None]:
import numpy as np 

file='TempBergen.txt'
data = np.genfromtxt('https://raw.githubusercontent.com/irendundas/EkteData/main/'+file, dtype=float)
data=data[0:-1,:]
print(data.shape)

data[data==-999.99]=np.nan

For hver måned skal vi beregne gjennomsnittet over ti år: Vi midler over de ti første januar-månedene, så de neste ti januar-månedene, etc. Så midler vi over de ti første februar-månedene, så de neste ti februar-månedene, etc. 

Derfor har vi for-løkken som itererer gjennom 12 indekser ytterst, og for-løkken som itererer gjennom tiårsperiodene innerst. Det gjør at vi gjør oss ferdig med en og en måned av gangen. 

Man kan også gjøre dette motsatt: gjøre seg ferdig med en og en tiårsperiode av gangen. Å gjøre dette er siste deg av oppgaven.

MeanTemp får en ny dimensjon siden vi har med alle månedene. Ista var den 16 elementer lang - nå må den være 16 elementer lang *for hver måned*. Den må altså være 12 x 16 elementer stor totalt.

In [None]:
meanTemp=np.zeros((len(ind)-1,12)) 

In [None]:
for mo in range(12): # iterer gjennom månedene
    for i in range(len(ind)-1): # iterer gjennom tiårsperiodene
        meanTemp[i,mo]=np.nanmean(data[int(ind[i]):int(ind[i+1]),mo+1]) # mo+1 fordi første kolonne i "data" er årstallene 
    

In [None]:
string=['Jan','Feb','Mar','Apr','Mai','Jun','Jul','Aug','Sep','Okt','Nov','Des'] # Til legend

Dersom vi ikke spesifiserer fargene til figuren plotter python i sine standard-farger. Disse er det ti av, så i vårt tilfelle, hvor vi vil plotte 12 linjer, vil linjene for januar og november, og februar og desember blir like. Derfor må vi lage en vektor med 12 ulike fargekoder på forhånd. 

Matplotlib har et bibilitek med fargekart, se f.eks. her: https://matplotlib.org/stable/gallery/color/colormap_reference.html. 
Vi bruker karted "Paired" fordi dette har tolv diskrete farger. Man kan såklart bygge sin egen farge-vektor med bedre farger, men for enkelhets skyld bruker vi dette nå. 

In [None]:
n = 12
colors = matplotlib.cm.Paired(np.linspace(0,1,n))

In [None]:
for mo in range(12):
    plt.plot(T,meanTemp[:,mo], color=colors[mo], label=string[mo])

    
plt.title('Temperatur 1860-2020')
plt.xlabel('År')
plt.ylabel('Temperatur [\u2103]')
plt.xlim([1860,2020])
plt.legend(bbox_to_anchor=(1.02, 0, 0.2, 1), loc='lower left', # Dette gjør at legend kommer utenfor figuren og at teksten 
           ncol=1, borderaxespad=0.,fontsize=11.4)             # blir litt større. 

plt.show()

Denne figuren viser nå temperatur per måned fra 1860 til 2020. 

#### 6. Oppgave

Bruk informasjon fra figuren til å diskutere spørsmålene under. Gjør også beregninger med datasettet om det hjelper deg i å gi et godt begrunnet svar. 
- Hvordan har utviktlingen i temperatur i Bergen vært siden 1860? Er det forskjell på første og andre 80-års periode?
- Er det noen varme eller kalde perioder som skiller seg ut? 
- Hvilken måned er endringen størst?

Sammenlign dette med figurene over.
- Hvilket inntrykk gir det totale gjennomsnittet (figurene i seksjon 3) av endring i temperatur over tid i forhold til hvordan endringen når perioden er inndelt i måneder?
- I figurene i seksjon 3 var det en tydelig endring rundt 1940, og en sterk økning fra 1960. Hvor er disse elementene blitt av i figuren over?
- Lag en figur av en tidsserie av gjennomsnittet av månedene (altså år 1860-2020 langs x-aksen og ejnnomsnittlig nedbør på y-aksen), og svar på forrige spørsmål på nytt.

#### 7. Oppgave

Gjør tilsvarende som i oppgave 4, men på datasettet som er inndelt i måneder slik at du må bruke en dobbel for-løkke. 