# Slimme functies in een geïntegreerde (maar stapsgewijze) oefening

## 1. Situering

De klimaatopwarming is een thema dat niet meer weg te slaan is uit de media. En terecht, het is een thema dat ons allen aanbelangt. Als individu kan ieder zijn/haar steentje bijdragen om onze uitstoot van schadelijke broeikasgassen onder controle te houden. Als ingenieur kan je nog meer bijdragen, bijvoorbeeld in de ontwikkeling van duurzame materialen, energiezuinige machines, uitstootvrije voertuigen of klimaatneutrale gebouwen; om maar een paar voorbeelden te noemen. Maar hoezeer is het nu gesteld met het klimaat? Zijn er historische gegevens over enerzijds de temperatuur op aarde en anderzijds de concentraties van broeikasgassen zoals koolstofdioxide (CO<sub>2</sub>), methaan (CH<sub>4</sub>) en stikstofoxide (NO) in onze atmosfeer? Wat kunnen die data ons leren? 

De data zijn er alvast in de vorm van de bijgeleverde CSV-bestanden. De betrouwbaarheid hiervan hebben we al geëvalueerd, want vergeet niet: *garbage in = garbage out*, of anders gezegd: slechte data geeft slechte resultaten. 
 
### Onderzoeksvragen

In deze geïntegreerde oefening analyseren we de data op zoek naar gepaste antwoorden op volgende **onderzoeksvragen**:

- Wat is de toename in gemiddelde landtemperatuur van de periode 1850 tot 2020?
- Wat is de toename in concentratie aan broeikasgassen van 1850 tot 2020?
- Is er een verband tussen toename in broeikasgassen en toename in temperatuur?

## 2. Datasets

Via Data World Society [1] vonden we twee publiek toegankelijke datasets in csv-formaat (separator ; en encoding latin-1).

- `globaltemperatures.csv` bevat de globale landtemperatuur van het noordelijk halfrond gemeten van 1850 tot en met 2020, zoals verzameld door Berkeley University. 
- 'greenhousegas.csv' bevat gegevens betreffende de concentratie van de voornaamste broeikasgassen in onze atmosfeer uitgedrukt in PPM (Parts Per Million) voor het aandeel aan CO<sub>2</sub> en in PPB (Parts Per Billion) voor methaan en N<sub>2</sub>O. Dit is het 'aantal particles' of- moleculen; zeg maar per miljoen (respectievelijk miljard luchtmoleculen. De data die beschikbaar wordt gesteld komt van enerzijds berekeningen op basis van ijsmonsters geboord in dikke ijslagen van Antarctica en geeft ons gegevens tot zelfs 800 000 v.Chr. De data in de beginperiode zijn nog sporadisch (we hebben niet van elke periode gegevens voor alle broeikasgassen), maar vanaf eind jaren '70 is er rechtstreeks meetdata beschikbaar vanuit stations in Hawai, Alaska, enz...

## 4 Deel 1: analyse van globale landtemperatuur (noordelijk halfrond)

Begin met de volgende cel uit te voeren om alle imports in orde te brengen.

In [None]:
import math
import numpy as np
import pandas as pd
from qgridnext import show_grid
from matplotlib import pyplot as plt
%matplotlib widget
from slimmeFuncties import * 

In ondergaande cel lezen we de gegevens in de variabele *temperatuurData* in en de cel eronder drukken we het dataframe af.
*(Klik [hier](./globaltemperatures.csv) om de hele csv file te bekijken)*

In [None]:
temperatuurData = pd.read_csv("globaltemperatures.csv", sep=";", encoding = "latin-1")

In [None]:
show_grid(temperatuurData)

### Opdracht 1: 
Schrijf een functie die de temperatuur plot i.f.v. de datum. De functie neemt als parameter een dataframe zoals we hierboven gemaakt hebben.
Wat stel je vast?

In [None]:
# TODO 1: plot de temperatuurData
def plotTemperaturen(dataFrame):
    # TODO 1: vul aan
    plt.figure()
    plt.show()
    
plotTemperaturen(temperatuurData) 

</br>
</br>

**Het probleem in de grafiek na opdracht 1 is dat je eigenlijk weinig ziet omwille van het seizoenseffect:** al eeuwenlang zijn de winters kouder dan de zomers. Doordat de temperaturen schommelen zie je alleen één grote zwarte blok.

### Opdracht 2: 

1. Met welke techniek kan het seizoenseffect wegfilteren? Tip: er is een functie voor geïmplementeerd in de bibliotheek *slimmeFuncties.py*.

2. Gebruik deze functie om de nieuwe data in een kolom `TrendTemp` van het dataframe toe te voegen.

In [None]:
# TODO 2: kies hieronder de juiste periode voor het zwevend gemiddelde zodat je seizoenseffecten wegwerkt
temperatuurData["TrendTemp"] = temperatuurData # TODO: pas de juiste bewerking toe op het dataframe temperatuurData 


### Opdracht 3: 

Voeg aan onderstaande functie de nodige code toe om ook de trend-temperatuur te plotten. De functie neemt als parameter een dataframe zoals we hierboven gemaakt hebben.

In [None]:
def plotBeideTemperaturen(dataFrame):
    xAs = dataFrame["Year"]
    yAs1 = dataFrame["Temp"]
    plt.figure()
    plt.plot(xAs, yAs1, color="black", label="gemeten temperatuur °C")
    #TODO: voeg plot van de trend-temperatuur toe
    plt.legend()
    plt.grid(True)
    plt.show()
    
plotBeideTemperaturen(temperatuurData) 

### Extra voor de snelle student 
*Dus over te slaan als je niet genoeg tijd hebt.*

Je kan vaststellen dat de rode lijn er in het begin gek uitziet. Verklaar waarom en hoe kan je dit oplossen?

Pas de code hieronder aan volgens je idee van hierboven.

In [None]:
def plotBeideTemperaturenBeter(dataFrame):
    #TODO: pas dataframe aan of doe andere correcte bewerkingen
    xAs = dataFrame["Year"]
    yAs1 = dataFrame["Temp"]
    plt.figure()
    plt.plot(xAs, yAs1, color="black", label="gemeten temperatuur °C")
    yAs2 = dataFrame["TrendTemp"]
    plt.plot(xAs, yAs2, color="red", label="temperatuur °C (zwevend gemiddelde)")
    plt.legend()
    plt.grid(True)
    plt.show()
    
plotBeideTemperaturenBeter(temperatuurData) 

### Opdracht 4
Om te weten of er echt een trend is, mag je natuurlijk niet gewoon 1850 met 2020 vergelijken. Het zou immers kunnen dat zowel 1850 als 2020 uitzonderlijke jaren waren waardoor je een vertekend beeld kan krijgen. Het is beter om met een volledig decennium te werken. Zo middelen we de afwijkingen van één hete zomer of koude winter uit.  We kunnen bijvoorbeeld het decennium 1851-1860 vergelijken met het decennium 2011-2020. 

#### Opdracht 4a: 
Gebruik de juiste combinatie van knip en selecteerfuncties om enerzijds het decennium van 1851-1860 en anderzijds het decennium van 2011-2020 in een aparte dataframes te plaatsen.


In [None]:
# TODO 4a:
dec18511860=temperatuurData # TODO 1: voeg de juiste bewerking toe
dec20112020=temperatuurData # TODO 2: voeg de juiste bewerking toe

show_grid(dec18511860)
show_grid(dec20112020)

# controleer of ze alletwee 120 rijen tellen
print(len(dec18511860))
print(len(dec20112020))

#### Opdracht 4b: 
Plot nu de trend-temperatuur van beide decennia in één grafiek. Zet hiervoor op de x-as gewoon de getallen 1 tot 120 in plaats van de concrete datums: die zijn immers niet hetzelfde voor de twee decennia.
De functie heeft nu twee parameters: een voor elk decennium.


In [None]:
# TODO 4b: Plot beide decennia

def plotTweeDecennia(decennium1, decennium2):
    # TODO: voeg de plot toe. De instellingen hebben we hieronder al juist gezet.
    plt.figure()
    plt.grid(True)
    plt.legend()
    plt.xlabel("maand")
    plt.ylabel("Gemiddelde temperatuur °C afgelopen 12 maanden")
    plt.show()
    
plotTweeDecennia(dec18511860, dec20112020)

Het verschil ziet er reusachtig uit -- en dat is het ook --, maar tegelijk is deze grafiek een tikkeltje misleidend omdat de volledige schaal van deze grafiek 3 graden bedraagt terwijl dit in opdracht 3 nog 16 graden verschil was tussen onder- en bovenkant. Die truc wordt wel meer toegepast wanneer men mensen wil misleiden, maar hier is het geen bewuste zet: matplotlib heeft dit voor ons gedaan.

#### Opdracht 4c:
Het verschil is in ieder geval significant en daarom is het de moeite om de gemiddelde landtemperatuur over beide decennia te berekenen. Bereken ook het procentuele verschil.

In [None]:
# TODO 4c: bereken de gemiddelde temperatuur over beide decennia
gemTemp1851 = 1 # TODO 1: doe de juiste berekening
gemTemp2011 = 2 # TODO 2: doe de juiste berekening
verschilProcentueel = 3 # TODO 3: doe de juiste berekening
print("Gemiddelde temperatuur in decennium 1851-1860 is", gemTemp1851)
print("Gemiddelde temperatuur in decennium 2011-2020 is", gemTemp2011)
print("Dit is", round(verschilProcentueel,2), "% verschil!")

### Nuancering
Deze toename is uiteraard op basis van de landtemperatuur, meetdata van temperatuur van de oceanen is hierin niet opgenomen. Daarbij moet je weten dat oceanen typisch een milde invloed hebben op het klimaat gezien de enorme warmtecapaciteit die zij bezitten.

## Deel 2: analyse van globale concentratie broeikasgassen ($CO_2$ , methaan en $N_2O$)

In de cel hieronder lezen we de gegevens an `greenhousegas.csv` in het dataframe `ghgData` in, en drukken we die af.
Er is meetdata van drie broeikasgassen: $CO_2$, *methane* en $N_2O$. De eerste staat in ppm, de twee laatste in de ppb: respectievelijk parts per million en per bilion. De NaN is de afkorting van *Not a Number* en betekent dat er géén waarde in die cel was ingevuld.

*(Klik [hier](./greenhousegas.csv) om de hele csv file te bekijken)*

In [None]:
ghgData = pd.read_csv("greenhousegas.csv", sep=";", encoding = "latin-1")
show_grid(ghgData)

### Opdracht 2.1:
TODO: plot de concentratie verschillende broeikasgassen i.f.v. het jaar, rekening houdende met het feit dat $CO_2$ in ppm (parts per milion) en *methane* en $N_2O$ in ppb (parts per billion staan) en dus een andere as nodig hebben.
 Beantwoord daarna de vragen eronder.

In [None]:
# TODO 2.1: plot alle concentraties
def plotGHG(dataFrame):
    #TODO: doe de juiste plot
    plt.figure()
    plt.show()
    
plotGHG(ghgData)

### Opdracht 2.2a: 
TODO: Om de grafiek mooier te maken, kan je op de jaren filteren waar er effectief gegevens zijn over élk van de broeikasgassen. Doe dit en roep de functie plotGHG opnieuw op met het gefilterde dataframe.


In [None]:
# TODO 2.2a: filter nu alleen op CO2 ppm > 0
ghgCO2 = ghgData # TODO: voeg filter toe

plotGHG(ghgCO2)

### Opdracht 2.2b: 

Voor methaan en $N_20$ zijn er nog steeds veel lege plekken. Filter nu waar er gegevens zijn over élk van de broeikasgassen. Doe dit en roep de functie plotGHG opnieuw op met het gefilterde dataframe.


In [None]:
# TODO 2.2b: Verbeter de grafiek door te filteren op rijen met elk broeikasgas > 0
ghgFilter = ghgData  # TODO: voeg meer filters toe

plotGHG(ghgFilter)

### Opdracht 2.3: 
In plaats van te filteren kan je ook de tijdsschaal in een logaritmische schaal plaatsen. De oudste waarden worden zo samengedrukt op de grafiek en dat is potentieel goed.

Python laat dit toe via het commando `plt.xscale('symlog')`. 
We hebben dat al toegevoegd in de plot-functie hieronder. Probeer dit even uit voor drie dataframes.


In [None]:
# TODO 2.3: plaats de tijdsschaal in een logaritmische schaal
#          via de methode xscale('symlog')
#          Hiervoor heb je een plt-object nodig en moet je de return-value van plotData gebruiken.
def plotGHGsymlog(dataFrame):
    xAs = dataFrame["year"]
    plt.figure()
    plt.plot(xAs, dataFrame["CO2 ppm"], color="red")
    plt.ylabel("ppm", color="red")

    plt.twinx()
    plt.plot(xAs, dataFrame["methane ppb"], color="blue")
    plt.plot(xAs, dataFrame["N2O ppb"], color="blue", linestyle="-.")
    plt.ylabel("ppb", color="blue")
    
    plt.xscale("symlog")
    plt.show()
    
plotGHGsymlog(ghgData)
plotGHGsymlog(ghgCO2)
plotGHGsymlog(ghgFilter)

### Opdracht 2.4: 
In deel 1 hebben we vastgesteld dat de temperatuur in een decennium rond 1850 en een decennium rond 2020 is gestegen. Om na te gaan of er een verband is met de $CO_2$-concentratie in de atmosfeer willen we beide grafieken op één figuur plotten. Hiervoor moeten we twee dingen doen:

- Pas het dataframe van de greenhousegasses aan zodat je alleen de periode van 1851 tot 2020 overhoudt. 
  Gebruik hiervoor de gepaste knip- en selecteerfuncties.
- Pas het dataframe van de temperaturen aan zodat je voor de periode van 1851 tot 2020 één waarde per jaar overhoudt.
  Gebruik hiervoor de slice-technieken met 3 parameters [startindex:eindindex:sprong]

Plot daarna beide dataframes met een as links en rechts. 
Gebruik geen gemeenschappelijk x-as, maar de x-as uit het eigen dataframe.
Omdat beide x-assen overlappen zal pyplot die correct behandelen.


In [None]:
# TODO 2.4: 
ghgDataSinds1851 = ghgData #TODO: kies juiste knip- en/of selecteerfuncties
tempDataPerJaarSinds1851 = temperatuurData #TODO: slice op de juiste manier

show_grid(ghgDataSinds1851)
show_grid(tempDataPerJaarSinds1851)

def plotGHG_Temp(ghg, temp):
    xAs1 = ghg["year"]
    yAs1 = ghg["CO2 ppm"]
    
    plt.figure()
    plt.plot(xAs1, yAs1,  color="green")
    plt.xlabel("Jaar")
    plt.ylabel("CO2 ppm", color="green")
    
    plt.twinx()
    
    xAs2 = temp["Year"]
    yAs2 = temp["TrendTemp"]
    plt.plot(xAs2, yAs2,  color="red")
    plt.ylabel("temp °C", color="red")

    plt.grid()
    plt.show()
    
plotGHG_Temp(ghgDataSinds1851, tempDataPerJaarSinds1851)

## Besluit: 
Stel je een verband vast?

### Disclaimer

Een statistisch verband is in het algemeen niet noodzakelijk een oorzakelijk verband. Daarvan zijn veel voorbeelden gekend. Ook in het geval van de klimaatopwarming kan je niet énkel op basis van deze grafiek besluiten dat de mens de oorzaak is van de klimaatopwarming, maar wetenschappers hebben ondertussen al veel sterke bewijzen van de menselijke invloed gevonden. De afgelopen jaren is de opwarming trouwens nog vol versneld. Hoog tijd voor (meer) actie dus!


## Bijlage

### Betrouwbaarheid van de gebruikte gegevens
Er zijn datasets van de Universiteit van Berkley (USA) [2] waar onderzoekers uit historische data de gemiddelde globale landtemperatuur hebben berekend. Deze data werd met voldoende zekerheid gegenereerd sinds 1850. Daarnaast stelt het EPA [3] (United States Environmental Protection Agency) een uitgebreide analyse ter beschikking van de indicatoren van de klimaatwijziging. Deze indicatoren zijn o.a. de globale concentratie van broeikasgassen (ghg of green house gasses) en de wijze waarop deze gassen de energiebalans tussen gereflecteerde vs. gevangen energie van de zon beïnvloed. De globale concentratie aan bv. CO<sub>2</sub> kan vandaag de dag gemeten worden aan de hand van monstername in de atmosfeer op diverse plaatsen op de aarde. Maar men heeft ook informatie van de historische CO<sub>2</sub> concentratie op basis van ijsmonsters die zich in de kilometers dikke ijslagen van Antartica bevinden.

### Bronnen
[1] Data.World Society "It's Getting Hot In Here: The Burning Effect of Fake News on Climate Change", Austin Schwinn March 10, 2017

[2] Data.World Berkeley Earth Dataset "Berkeley Earth Global Climate Change Data." Data.World. Data Society, 2015. Web. 9 Mar. 2017.

[3] EPA Climate Indicators Information "Climate Change Indicators in the United States." EPA. Environmental Protection Agency, 19 Dec. 2016. Web. 9 Mar. 2017.