# Hoofdstuk 5: Dataframes

Het basisidee van het dataframe is een uitbreiding van de één-dimensionale datastructuur uit het vorige hoofdstuk, met name de lijst. 

In een lijst heeft elke waarde een volgnummer, een index genoemd en zet je dus waarden achter elkaar.

In een dataframe heeft elke waarde een rij-nummer én een kolom-naam. Dit geeft twee dimensies.

## Het DataFrame mapt op Excel en CSV

Als het concept van cellen met een rij-nummer en een kolom-naam je een belletje doet rinkelen, dan heb je gelijk. Dit trekt heel fel op het concept van een Excel-document. In de praktijk zijn veel wetenschappers niet zo'n fan van Excel omdat dit een gesloten formaat is dat eigendom is van één firma en omdat het een vrij zwaar formaat is met ook informatie over de layout en zo. Voor pure gegevens is dat overkill.

Het formaat van de *Comma Separated Values* (of CSV) is in die zin beter. Het is in essentie een gewoon, plat tekstbestand met per rij een reeks waarden die met een komma van elkaar gescheiden worden. Omdat we in Vlaanderen de komma al gebruiken als decimale punt, gebruiken we de ; als scheidingsteken.

Een CSV kan er bijvoorbeeld als volgt uit zien:

rijksregister;postcode;IQ
04051712544;3500;106
07081915478;3600;123
99112454171;3960;88
70080314571;3130;117

Voor deze cursus leveren we heel wat csv-bestanden aan. We hebben die samen in een zip gestoken. Haal die zip af van Toledo, pak uit op je PC en upload in een aparte map *csv* in je Jupyterhub. 

# 5.2 DataFrame maken = CSV importeren

In de cursus staan verschillende manieren beschreven om een dataframe te maken. Wij gebruiken (bijna) altijd de techniek waarbij je een CSV-bestand inleest. 

Wanneer je hiervoor de bibliotheek pandas importeert, wordt dit heel gemakkelijk, bijvoorbeeld. 

In [None]:
import pandas as pd
from qgridnext import show_grid

df1 = pd.read_csv("../csv/autoverbruik.csv",sep=";",encoding="latin-1")
show_grid(df1)

We roepen de functie *read_csv* met drie parameters op
- de bestandsnaam van het csv-bestand
- welk scheidingsteken we gebruiken (de separator). Voor ons is dit steeds ;
- en een encoding: de tekenset die in de data gebruikt wordt. Voor ons is dit latin-1, maar Oekraïener, Welshmen, Indiers, ... gebruiken mogelijk een andere codering.

In [None]:
# probeer zelfs een ander bestand te importeren
# druk achter csv/ op tab en zie alle bestanden verschijnen
df2 = pd.read_csv("../csv/",sep=";",encoding="latin-1")
show_grid(df2)

## Gegevens opvragen en aanpassen in een dataframe

Dit is gedeeltelijk analook aan het werken met lijsten. Daar gebruikten we de vierkante haken [] achter de naam van de variabele, met tussen de haken de index.

Voor het dataframe hebben we ook vierkante haken met twéé indexen, maar moeten we bijkomend .loc schrijven.

In [None]:
print(df1.loc[7,"auto_uit_2013"]) # rij 7, kolom auto_uit_2013

In [None]:
print(df1.loc[6,"auto_uit_2013"])
df1.loc[6,"auto_uit_2013"] = "golfke"
print(df1.loc[6,"auto_uit_2013"])

## Rijen en kolommen toevoegen en verwijderen

Je kan ook een volledige rij of kolom met concrete gegevens toevoegen. Hierbij moet je het juiste aantal waarden meegeven in de juiste volgorde nl. evenveel als er kolommen resp. rijen zijn.

Met de methode *drop* kan je een rij verwijderen en ook een kolom als je als extra parameter *axis=1* meegeeft.

Dit gebruiken we niet in de oefeningen en we verspillen er dan ook geen tijd aan in deze Jupyter-notebook, maar in de cursus en de powerpoint worden wel enkele voorbeelden vermeld.

## De lengte van een DataFrame

Dit is dezelfde functie als bij de lijst, nl. *len*.
Als resultaat krijg je het aantal rijen terug.

# Geaggregeerde gegevens

## Statistische functies

Bij de lijst heb je handige functies waarmee je direct de som, product, gemiddelde, ... van een lijst kan berekenen.
Dat heb je ook bij het dataframe, maar daar zijn het wel *methodes* wat inhoudt dat je eerst het object moet vastgrijpen en dan de methode kan uitvoeren.

Je kan de methodes .sum(), .prod(), .min(), .max(), .mean(), .median(), .cumsum(), .cumprod() op het hele dataframe loslaten: dan krijg je som, product, ... per kolom. Als je 4 kolommen had, krijg je dan een rij met 4 uitkomsten.

Wanneer je dit op één kolom wil toepassen, dan kan je best eerst de kolom selecteren (bv. df["A"]) en dan de methode oproepen, bv. df["A"].sum().

In [None]:
# voorbeeld
dfAutos = pd.read_csv("../csv/autoverbruik.csv",sep=";",encoding="latin-1")
gemiddeldVerbruikDiesel = dfAutos["diesel_gemeten"].mean()
minVerbruikDiesel = dfAutos["diesel_gemeten"].min()
maxVerbruikDiesel = dfAutos["diesel_gemeten"].max()
print("Het gemiddelde gemeten dieselverbruik is", gemiddeldVerbruikDiesel,
      "met uitschieters tot", minVerbruikDiesel, "en", maxVerbruikDiesel)

## Nieuwe kolommen maken via kolom-bewerkingen

Python gaat steeds voor syntax die zo inituitief mogelijk is.
Wanneer je bijvoorbeeld een dataframe hebt met een kolom "aantal" en een tweede kolom "prijs" voor de prijs per stuk, dan is de kans groot dat je de totaalprijs wil berekenen per rij door aantal en prijs per rij te vermenigvuldigen. Intuitief zou je zeggen dat je beide kolommen vermenigvuldigt met elkaar. In de syntax schrijf je dat exact hetzelfde.

In [None]:
# voorbeeld
dfSales = pd.DataFrame()
dfSales["aantal"]=[10,5,18,100]
dfSales["prijs"]=[0.25, 9.99, 3.00, 4.95]
dfSales["totaalPrijs"] = dfSales["aantal"]*dfSales["prijs"]
show_grid(dfSales)

# 5.5 Transformaties op hoog niveau

Naar analogie met de map van de lijst kan je ook
- een functie loslaten op élke *cel* van een dataframe: **map** 
- een functie loslaten op elke *rij* van een dataframe: **apply**

(I.p.v. map kan je ook de *applymap* gebruiken, maar de map geniet tegenwoordig de voorkeur.)


Tenslotte kan je ook filteren, maar heb je geen methode filter voor nodig.

## 5.5.1 Een functie loslaten op elke cel: map (of applymap)

Schematisch verloopt dit als volgt:

dfNieuw = dfOud.map(functie)

Je ziet dat we met een toekenning werken wat inhoudt dat het oude dataframe niet verandert, maar dat er een nieuw dataframe terug gegeven wordt met daarin voor elke cel de uitkomst van de functie toe te passen op de oude cel.

Dit wordt niet zo heel dikwijls gebruikt omdat je meestal per kolom een andere betekenis hebt. Het zou dan raar zijn om dezelfde functie op alle cellen los te laten.

## 5.5.2 Een functie loslaten op elke rij: apply

Dit is wel uitermate relevant omdat je nu een bewerking per rij van het dataframe kunt doen. Dat komt dan in de context van wetenschappelijk onderzoek overeen met een berekening per experiment (aangezien we eerder stelden dat in een csv-bestand resultaten elke rij de data van één experiment kan voorstellen).

Omdat de uitkomst van de functie één waarde is, krijg je dan een nieuwe kolom terug met per rij de uitkomst van de functie voor die rij.
 
Schematisch verloopt dit als volgt:

nieuweKolom = df.apply(functie, axis=1)

De parameter *axis=1* is nodig omdat apply anders op de kolommen zou werken, en dat is (voor ons meestal) niet de bedoeling.

### Functie moet één parameter hebben

Belangrijke, maar eigenlijk logische opmerking is dat de functie maar één parameter mag hebben. Dat is logisch omdat je de hele rij binnenkrijgt als parameter.

De volgende functie is dus niet bruikbaar. 

In [None]:
def oppervlakte(basis, hoogte):
    return basis * hoogte

Wanneer de kolommen van het dataframe b en h zouden heten, is volgende functie wél mogelijk.

In [None]:
def opp(rij):
    return oppervlakte(rij["b"], rij["h"])

In de volgende codeblok passen we deze functie toe op elke rij.

In [None]:
rects = pd.DataFrame()
rects["b"] = [4,3,5,2]
rects["h"] = [5,6,8,2]
print(rects)

rects["opp"] = rects.apply(opp, axis=1)
print(rects)

# 5.5.3 Rijen filteren

Bij de lijst hebben we een speciale functie nodig om te kunnen filteren. Die functie heet *filter* (wat niet heel abnormaal is).

## Filteren met een functie

Bij het dataframe hebben we géén speciale functie nodig. Hetgeen we tussen de vierkante haken schrijven achter de naam van het dataframe is ook een soort filter: standaard is het een filter op de naam van een kolom en selecteer je dus een specifieke kolom, maar in pandas kan je ook een functie tussen de vierkante haken zetten. Dan wordt er volgens die functie gefilterd op rijen.

Hieronder vind je twee voorbeelden: een uit de cursus en een uit de powerpoint.

In [None]:
# voorbeeld 1: uit de cursus
dfElektriciteit = pd.DataFrame()
dfElektriciteit["U"] = [220, 233, 5.2]
dfElektriciteit["I"] = [12, 3.08, 2.11]
dfElektriciteit["P"] = dfElektriciteit["I"] * dfElektriciteit["U"]

def veelVermogen(rij):
    return rij["P"] > 2200

dfVeelVermogen = dfElektriciteit[veelVermogen]
show_grid(dfVeelVermogen)

In [None]:
# voorbeeld 2: uit de powerpoint
def bijnaVierkant(rij):
    ratio = rij["b"]/rij["h"]
    return (ratio > 0.9) & (ratio < 1.1)

# definitie van rects staat een paar cellen hoger
bijnaVierkanteRects = rects[bijnaVierkant]
show_grid(bijnaVierkanteRects)

## Filteren met een expressie

Het kan nog iets korter: in plaats van een functie mag je ook een expressie met kolommen tussen de vierkante haken zetten.

In [None]:
# voorbeeld
dfElektriciteit[dfElektriciteit["I"]>3]

## De grootste of kleinste waarden zoeken kan ook.

De expressie van hierboven kan ook een expressie zijn die gebruik maakt van een berekening over alle rijen. Hieronder twee voorbeelden:

In [None]:
dfMaximaalVermogen = dfElektriciteit[dfElektriciteit["P"]==max(dfElektriciteit["P"])]
print(dfMaximaalVermogen)
print("-----------------")

dfRedelijkVeelSpanning = dfElektriciteit[dfElektriciteit["U"]>dfElektriciteit["U"].mean()]
print(dfRedelijkVeelSpanning)

In het tweede voorbeeld zullen er in het algemeen ongeveer de helft van de rijen geselecteerd worden, maar in het tweede voorbeeld zal je waarschijnlijk verwachten dat er maar één rij met het maximum is. Daar kan je echter niet zeker van zijn. Python gaat dat sowieso niet zijn en zal dus altijd een dataframe teruggeven bij het gebruik van die filter.

Wanneer je dan een specifieke waarde uit het dataframe wil halen, moet je eerst de gewenste rij selecteren en daaruit de gewenste kolom. Hiervoor kan je in principe de *.loc* gebruiken, maar het probleem is dat de nummer van de rijen de oorspronkelijke nummering houdt. Omdat je niet op voorhand weet welk rijnummer over zal blijven, is het lastig om de methode *.loc* te gebruiken. Beter is om in dit geval de *.iloc* te gebruiken. Die gebruikt als nummering de nieuwe rangnummers. *.iloc[0]* zal dan altijd de eerste rij uit het resultaat bevatten.

Concreet: wanneer je wil weten bij welk voltage het maximale vermogen optrad, moet je onderstaande manier gebruiken: 

In [None]:
dfMaximaalVermogen = dfElektriciteit[dfElektriciteit["P"]==max(dfElektriciteit["P"])]
spanningBijMaxP = dfMaximaalVermogen.iloc[0]["U"]
print(spanningBijMaxP , "V")

# Oefeningen

1. In het csv-bestand zonnepaneel.csv staan opgemeten gegevens van stroom en spanning van een zonnepaneel. Haal dat bestand op en voeg aan het dataframe een kolom toe die het vermogen berekent via de formule P = U∙I. Bereken dan het maximaal vermogen.

In [None]:
# oplossing voor oefening 1
import pandas as pd

def maximaalVermogen(zonnepanelen = "../csv/zonnepaneel.csv"):
    df = pd.read_csv(zonnepanelen,sep=";",encoding="latin-1")
    df["P"] = df["U"]*df["I"]
    return df["P"].max()

print(maximaalVermogen())

2. In het csv-bestand autoverbruik.csv staan gegevens van het verbruik per auto in l/100 km. 
Zet dit voor elke auto om in het aantal kilometer dat je per liter kan rijden.

In [None]:
# oplossing voor oefening 2

# maak voor deze functie 2 kolommen
#    - dieselKmPerL op basis van het gemeten dieselverbruik
#    - benzineKmPerL op basis van het gemeten benzineverbruik
def autoverbruik(autos = "../csv/autoverbruik.csv"):
    df = pd.read_csv(autos, sep=";", encoding="latin-1")
    df["dieselKmPerL"] = 100/(df["diesel_gemeten"])
    df["benzineKmPerL"] = 100/(df["benzine_gemeten"])
    return df

show_grid(autoverbruik())

3. In het csv-bestand elektrisch verbruik staat van een aantal elektrische toestellen hoeveel Watt dat zij verbruiken, hoeveel uur per jaar dat die opstaan en hoeveel van dergelijke toestellen er in een bepaalde woning staan. Bereken dan het totaal elektrisch verbruik voor die woning.

In [None]:
# oplossing voor oefening 3
def elektrischVerbruikInKwH(huis = "../csv/elektriciteitsverbruik.csv"):
    df = pd.read_csv(huis, sep=";", encoding="latin-1")
    df["verbruik"]=df["vermogen"]*df["uren"]*df["aantal"]/1000
    totaal = df["verbruik"].sum()
    return totaal

print(elektrischVerbruikInKwH())

4. Voeg aan het csv-bestand rechthoeken.csv kolommen met omtrek en oppervlakte.

In [None]:
# oplossing voor oefening 4
def rhMetInfo(rects = "../csv/rechthoeken.csv"):
    df = pd.read_csv(rects, sep=";", encoding="latin-1")
    
    def omtrek(rij):
        return (rij["b"]+rij["h"])*2
    def opp(rij):
        return rij["b"]*rij["h"]
    
    df["omtrek"] = df.apply(omtrek, axis=1)
    df["oppervlakte"] = df.apply(opp, axis=1)
    
    return df

show_grid(rhMetInfo())

5. Voeg aan het csv-bestand landgebruik_2015.csv een kolom toe met de gemiddelde oppervlakte per perceel (= totale_opp_ha  / aantal_percelen).

In [None]:
# oplossing voor oefening 5
def gemiddeldeOpp(rij):
    if (rij["aantal_percelen"]==0):
        return 0
    else:
        return rij["totale_opp_ha"]/rij["aantal_percelen"]

def voegGemiddeldeOppervlakteToe(kadasterInfo = "../csv/landgebruik_2015.csv"):
    df = pd.read_csv(kadasterInfo, sep=";", encoding="latin-1")
    df["gemiddeldeOpp"]=df.apply(gemiddeldeOpp, axis=1)
    df.to_csv("../csv/landgebruik_2015_uitgebreid.csv",sep=";",encoding='latin-1')

voegGemiddeldeOppervlakteToe()
show_grid(pd.read_csv("../csv/landgebruik_2015_uitgebreid.csv", sep=";", encoding="latin-1"))

6. In het csv-bestand diepvriezers.csv vind je de kostprijs van een aantal diepvriezers en hun jaarlijks verbruik. In deze csv staat ook de huidige diepvriezer die ‘gratis’ is, maar wel een hoog verbruik kent. Bereken de gecumuleerde kostprijs van de diepvries (aankoop + jaarlijks verbruik) na 10 jaar en geef de naam van de goedkoopste diepvriezer.	
Maak de simulatie zowel voor een energieprijs van 28 eurocent/kWh en 40 eurocent/kWh

In [None]:
# oplossing voor oefening 6
def kostprijsDiepvries(aantalJaar, prijskWh = 0.28, bestand = "../csv/diepvries.csv"):
    def kostprijs(rij):
        return rij["aankoopprijs"] + rij["verbruik"] * prijskWh * aantalJaar

    df = pd.read_csv(bestand, sep=";", encoding="latin-1")
    df["kostprijs"+str(aantalJaar)]=df.apply(kostprijs, axis=1)
    #df.to_csv("../csv/diepvries" + str(aantalJaar) + ".csv",sep=";",encoding='latin-1')
    return df

def goedkoopsteDiepvries(aantalJaar, prijskWh = 0.28, bestand = "../csv/diepvries.csv"):
    df = kostprijsDiepvries(aantalJaar, prijskWh, bestand)
    naamKolom = "kostprijs"+str(aantalJaar)
    diepvries = df[ df[naamKolom] == min(df[naamKolom])].iloc[0]
    return diepvries

def naamGoedkoopsteDiepvries(aantalJaar, prijskWh = 0.28, bestand = "../csv/diepvries.csv"):
    diepvries = goedkoopsteDiepvries(aantalJaar, prijskWh, bestand)
    return diepvries["diepvries"]

print(naamGoedkoopsteDiepvries(10, 0.40))