# Pandas – voorbeelden

In dit notebook vind je de volgende voorbeelden:
- <a href="#pandas_vb1"> Introductie DataFrame </a> Bestudeer deze introductie voor het college over pandas. Beantwoord de bijbehorende <a href="pd_vb_vraag1">vraag </a>.
- <a href="#pandas_vb2"> Werken met databestanden </a> Bestudeer dit voorbeeld voor het college over pandas. Beantwoord de bijbehorende <a href="#pd_vb_vraag2">vragen</a>
- <a href="#pandas_vb3">Samenvoegen van DataFrames</a> Dit ga je (mogelijk) nodig hebben bij je casus of project.
- <a href="#pandas_vb4">Complexere acties</a> Dit ga je (mogelijk) nodig hebben bij je casus of project.

<a id="pandas_vb1"></a>
## Voorbeeld 1 Introductie DataFrame
De DataFrame Data Structure is bedoeld voor het opslaan en verwerken van twee-dimensionale gegevens.
Je kunt dit vergelijken met de inhoud van een database tabel. 
In dit voorbeeld bekijken we hoe je een dataframe aanmaakt, hoe je gegevens selecteert en hoe je data wijzigt.

Er is ook een een-dimensionale datastructuur: Series. Deze datastructuur zullen we bij CM niet behandelen maar als je daar meer info over wilt hebben, is er een apart notebook beschikbaar.

*bronvermelding: 
Dit notebook komt van de Coursera cursus 
Introduction to Data Science in Python - week 2
University of Michigan.*

In [None]:
# importeren van de numpy en pandas bibliotheek; Pandas gebruikt NumPy bij verwerkingen
import numpy as np
import pandas as pd

In de praktijk zal een DataFrame vaak gevuld worden met data uit een bronbestand zoals een .csv file. Om de werking van een DataFrame uit te leggen, starten we nu echter met het handmatig vullen van een DataFrame. 

In [None]:
# Aanmaken van een DataFrame door drie series toe te voegen:
# - verkoopgegevens van drie winkels in een Pandas Series zetten

purchase_1 = pd.Series({'Name': 'Chris',
                        'Item Purchased': 'Dog Food',
                        'Cost': 22.50})
purchase_2 = pd.Series({'Name': 'Kevyn',
                        'Item Purchased': 'Kitty Litter',
                        'Cost': 2.50})
purchase_3 = pd.Series({'Name': 'Vinod',
                        'Item Purchased': 'Bird Seed',
                        'Cost': 5.00})

# De gegevens omzetten naar een dataframe doe je door de series te combineren.
# Voordat je dat kunt doen, moet je zowel voor de kolommen als de rijen een 'index' bepalen.
# Zo'n index is een unieke waarde waarmee we straks kunnen gaan zoeken naar specifieke data.
# - De index van de kolommen is simpelweg de naam van die kolom: die is uniek. Met de kolomnaam kun je dus een deel van de data verticaal selecteren.
# - De rij index moeten we toevoegen: dat moet een waarde zijn die liefst uniek is, maar dat hoeft niet. Met deze index kunnen we data horizontaal selecteren.
df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['Store 1', 'Store 1', 'Store 2'])

#afdrukken van de dataframe variabele
df

### Selecteren van gegevens

Het selecteren van gegevens is een belangrijk onderdeel tijdens de data understanding fase. Een DataFrame is vaak erg groot (veel rijen en veel kolommen) en om inzicht te krijgen in de data zul je vaak zoekacties uitvoeren om slechts een aantal kolommen of aantal rijen van het DataFrame te bekijken. 

Hieronder tonen we een aantal manieren om data te selecteren.

In [None]:
# Wanneer je van een specifieke index de data wilt oproepen, gebruik je de expliciete key
df.loc['Store 2']

In [None]:
# een index hoeft niet uniek te zijn: dan worden alle rijen getoond als een datastructuur
df.loc['Store 1']

In [None]:
# Je kunt ook de data van een specifieke rij opvragen met behulp van de impliciete key
df.iloc[0]

In [None]:
# Naast rijen, kun je ook kolommen selecteren, gebruik dan de naam van de kolom
# Het resultaat is een Series
df['Cost']

In [None]:
# Maar je kunt ook als resultaat een DataFrame met 1 kolom creëren
df[['Cost']]

In [None]:
# Opvragen van meerdere kolommen met waarden. let op de dubbele [[ ]] die nodig zijn !!
# Het resultaat moet in dit geval een DataFrame zijn omdat een Series niet meerdere kolommen kan bevatten.
df[['Cost','Name']]

In [None]:
# Opvragen van een combinatie van een rij en een kolom. 
# Let op de komma: er zijn nu 2 parameters voor .loc. De eerste is voor de rij, de tweede voor de kolom.
df.loc['Store 2','Cost']

In [None]:
# Stel dat je de gegevens van 'Store 1' en 'Store 2' wilt tonen, dan geeft dit commando een fout
# df.loc['Store 1', 'Store 2']
# Dat komt omdat .loc een rij en een kolom verwacht en nu twee rijen als input krijgt

# Wanneer je wilt zoeken op twee rijen, verwacht .loc één parameter die bestaat uit twéé inputs: 
df.loc[['Store 1', 'Store 2']]

In [None]:
# Om het allemaal nog verwarrender te maken kan soms de ',' kommma vervangen worden door ][
# Probeer zelf de volgende maar eens uit
#df.loc['Store 1','Cost']
#df.loc['Store 1']['Cost']
#df.loc['Store 1'][['Name','Cost']]

In [None]:
# Met behulp van de reeks ":" aanduiding kan een vanaf - tot/met waarde opgegeven worden
df.loc['Store 1':'Store 2','Name':'Cost']  # alle rijen vanaf Store 1 t/m Store 2 en de kolommen Cost t/m Name


### Complexere selecties

In de praktijk zul je vaak de eerste *x* of laatste *y* rijen willen tonen om een beetje inzicht te krijgen in de data.

In [None]:
# Selectie van meerdere rij nummers
df.iloc[[0,2]]

In [None]:
# Selectie van meerdere rij nummers met het ':' teken
# Hiermee haal je rows 0 tot 2 op, dus niet tot en met!
df[0:2] 

In [None]:
# Let op: als je met de expliciete key werk, is het wél tot EN MET
df['Store 1':'Store 2'] 

### Logische selecties

Het selecteren hierboven is interessant wanneer je weet waar je naar op zoek bent: specifieke rijen of kolommen. Logische selecties kun je gebruiken om inzicht te krijgen in de inhoud van het DataFrame. Je kunt zoeken naar data die groter of kleiner is dan een bepaald getal of gelijk is aan bepaalde tekst.

In [None]:
# Alle rijen met Cost >= 5
df[df['Cost'] >= 5]

**Uitleg**

De aanroep die hierboven gebruikt wordt, kan wat verwarrend zijn. Je ziet twee keer de naam van het DataFrame df bijvoorbeeld. Laten we deze analyseren van buiten naar binnen toe.

- De buitenste laag is `df[...]`, die hebben we hierboven ook al gezien: hier wordt een bepaalde kolom geselecteerd, zoals met `df['Cost']`
- De binnenste laag is `df['Cost'] >= 5`, dat is een conditie.

Deze aanroep toont dus de waardes van de kolom 'Cost' die voldoen aan deze conditie.

In [None]:
# Alle namen met Cost >= 5
df['Name'][df['Cost'] >= 5]

Als je een kolom wilt tonen, anders dan diegene waar je de conditie op toepast, moet je die apart noemen. 

1. Je start dus met de selectie `df['Name']`
2. Daarna volgt de conditie `[df['Cost'] > = 5]`, let op: die conditie staat dus ook tussen brackets.

Het is dus eigenlijk `df[KOLOM][CONDITIE]`

### Wijzigen van kolommen en rijen

Data toevoegen aan het DataFrame kan ook. Het eerste voorbeeld zal in de praktijk niet zo vaak gebeuren: je moet dan weten dat het DataFrame met *amount* precies hetzelfde is als het originele DataFrame. In de praktijk zul je, net als bij het *mergen* van twee databasetabellen een *join* moeten uitvoeren op een *key*. Dat wordt in een later notebook besproken.

Het tweede voorbeeld is wel representatief: met behulp van een berekening voeg je nieuwe informatie toe aan het DataFrame in de kolom `Bedrag`. Dat zul je in de praktijk vaak doen tijdens de *data preparation* fase.

In [None]:
#toevoegen van een kolom
df['Amount'] = [5, 7, 9]    # met een waarde voor elke regel
df['Location'] = 'Utrecht'  # met enkele waarde: wordt aan elke regel toegekend
df

In [None]:
# Toevoegen van een berekende kolom
df['Bedrag'] = df['Cost'] * df['Amount']
df

In [None]:
# het laten vervallen van een rij
df.drop('Store 1')

**Let op!**

De `.drop`-functie beschermt je tegen het perongeluk verwijderen van data. Deze functie creëert een kopie van het DataFrame.

Het df-DataFrame is ongewijzigd gebleven. Je zult dus een nieuw DataFrame moeten aanmaken wanneer je met `.drop` wilt werken.

In [None]:
# dropna maaakt een kopie van de data, origineel is nog aanwezig
df

In [None]:
# Maken van een kopie waaruit de rijen met Store 1 verdwenen zijn:
copy_df = df.copy()
copy_df = copy_df.drop('Store 1')
copy_df

In [None]:
# verwijderen van een kolom
copy_df = copy_df.drop('Location', axis=1)
copy_df

**Uitleg**

Door het `axis` argument te gebruiken, kun je aangeven in welke dimensie je wilt verwijderen. `axis = 0` is de defaultwaarde die staat voor rijen. Die hoef je dus niet te gebruiken, zoals we eerder ook niet gedaan hebben.

Als je afwijkt van de default en een kolom wilt verwijderen, moet je dat argument dus wel meegeven.

<a id="pd_vb_vraag1"></a>
### Vraag bij voorbeeld 1

In bovenstaand voorbeeld notebook zie je dat je er in het DataFrame op twee manieren gezocht wordt:
- Met df.loc['Store 1']
- Met df['Cost']

Beargumenteer wat het verschil is tussen beide zoekacties. Probeer termen als horizontaal en verticaal zoeken, index en kolommen te gebruiken.


<a id="pandas_vb2"></a>
## Voorbeeld 2 - Werken met databestanden
In dit tweede voorbeeld gaan we kijken naar het inlezen van bestanden en kijken hoe we grotere databestanden kunnen analyseren.

*Bronvermelding: 
Dit voorbeeld komt van de Coursera cursus 
Introduction to Data Science in Python - week 2
University of Michigan.*

In [None]:
# importeren van de numpy en pandas bibliotheek; Pandas gebruikt NumPy bij verwerkingen
import numpy as np
import pandas as pd

### Inlezen van bestanden

In de praktijk worden externe databronnen gebruikt om een DataFrame te vullen. Een veelgebruikt formaat zijn Comma Separated Files: csv-bestanden.  

In [None]:
# inlezen van een csv-bestand en tonen van de eerste 5 rijen
med = pd.read_csv('pandas_olympics.csv')
med.head()

**Let op**

De eerste rij ziet er een beetje raar uit. Als je het csv-bestand opent, zie je dat de eerste rij de kolomnamen bevat. Je ziet ook dat er een extra kolom is aangemaakt met een index voor elke rij.

We moeten het csv-bestand dus op een andere manier importeren.

In [None]:
# Bovenste rij importeren we niet als data en pandas is zo slim om die rij als kolomnamen te gebruiken. 
# Daarnaast voegen we een index toe: de eerste kolom (de landnamen want die zijn uniek).
med = pd.read_csv('pandas_olympics.csv', index_col = 0, skiprows=1)
med.head()

Je ziet nu in het DataFrame de landnamen als index van de rijen en de kolomnamen als index van de kolommen.

In [None]:
# We zullen later zien dat het opvragen van de kolomnamen heel handig is:
med.columns

Met dit array van namen kun je later makkelijk kolommen selecteren waarop je jouw model gaat trainen. Dat is handiger dan de kolommen zelf te typen want vaak zitten er slordigheden in databestanden zoals rare tekens, verborgen spaties en andere ongein die je een halve dag debuggen kunnen kosten :-)

In [None]:
# De kolomnamen zeggen nu niet zoveel. Het blijkt dat '01' staat voor 'Gold', '02' voor 'Silver' en '03' voor 'Bronze'.
# Met een simpel scriptje kunnen we die namen aanpassen

# We gaan loopen over alle waardes van med.columns
# We kijken naar de eerste twee karakters van deze waarde
# Indien nodig passen we de waardes aan.
for col in med.columns:
    if col[:2]=='01':
        med.rename(columns={col:'Gold' + col[4:]}, inplace=True)
    if col[:2]=='02':
        med.rename(columns={col:'Silver' + col[4:]}, inplace=True)
    if col[:2]=='03':
        med.rename(columns={col:'Bronze' + col[4:]}, inplace=True)
    if col[:1]=='№':
        med.rename(columns={col:'#' + col[1:]}, inplace=True) 

med.head()

### Eerste analyse

Er zijn een aantal analyses waar je vaak mee start.

In [None]:
# De centrum- en spreidingsmaten van de kwantitatieve variabelen in één oogopslag bekijken
med.describe()

In [None]:
# Overzicht van de inhoud: het aantal niet-missende waardes en het datatype
med.info()

### Queriën van data

We hebben in het vorige notebook al gezien hoe we data kunnen selecteren met de keys en met logische selecties. We gaan nu ook een aantal queries gebruiken voor een meer geavanceerde analyse.

In [None]:
# Bepalen van welke landen minimaal 1 gouden medaille hebben
med['Gold'] > 0

Deze aanroep levert een overzicht op waar we niet zo veel mee kunnen. De volgende aanroep zorgt ervoor dat de landen die minimaal 1 gouden medaille hebben opgeslagen worden in een nieuw DataFrame. 

In [None]:
# bepalen van de gegevens rijen met minimaal 1 gouden medaille tijdens de zomerspelen
only_gold = med[med['Gold'] > 0]
only_gold.head()

In [None]:
# tellen aantal landen met een gouden medaille - tellen van het aantal rijen van een willekeurige kolom
only_gold['Gold'].count()

In [None]:
# tellen aantal landen met een gouden medaille - alternatieve methode
len(only_gold)

Stel dat je wilt weten hoeveel landen een gouden medaille hebben gehaald op de zomerspelen **of** op de winterspelen, dan moet je twee condities gebruiken:

1. `med['Gold'] > 0` voor de zomerspelen
2. `med['Gold.1'] > 0` voor de winterspelen

De gecombineerde conditie is dus `(med['Gold'] > 0) | (med['Gold.1'] > 0)` en je die plaats je in `med[HIER]`.


In [None]:
# bepaal het aantal landen met een gouden medaille voor de zomer of voor de winterspelen
len(med[(med['Gold'] > 0) | (med['Gold.1'] > 0)])

Op dezelfde manier kun je ook een AND-statement gebruiken i.p.v. OR

In [None]:
# bepaal het land met alléén een gouden medaille voor de winterspelen
med[(med['Gold'] == 0 ) & (med['Gold.1'] > 0)]

### Omgaan met missende waarden

In de praktijk zul je merken dat datasets vaak (= altijd) niet perfect zijn... er zullen rijen of kolommen zijn waar waardes missen. Machine Learning modellen vereisen vaak dat waardes altijd gevuld zijn dus hier moeten we *iets* mee doen.

Ontbrekennde meetgegevens willen we graag detecteren en daarna bepalen wat we ermee doen:
- de hele rij met gegevens weghalen
- ontbrekende meetgegevens invullen met een relevante waarde


In [None]:
# inlezen van een dataverzameling met daarin ontbrekende meetgegevens
dfmv = pd.read_csv('pandas_log.csv')

# Je ziet hieronder vaak NaN: not a number. Dat betekent dat een waarde ontbreekt.
dfmv.head()

In [None]:
# bepalen waar er waarden ontbreken kan met de isnull() functie die een boolean retourneert
dfmv.isnull().head()

In [None]:
# tellen hoeveel missende waardes er zijn voor elke kolom
dfmv.isna().sum()

In [None]:
# bepalen wat we overhouden als we alleen de rijen met volledige meetgegevens hebben
# merk op: met any drop je een rij bij minstens 1 missende waarde, met all moet een hele rij leeg zijn
dfmv.dropna(how='any')

Het zou erg vervelend zijn als we nog maar 3 rijen overhouden... daarom is het goed om te kijken of we de data niet kunnen opvullen. Dat kunnen we doen met behulp van *gezond boerenverstand* en eventueel wat domeinkennis.

We zien dat `paused` de waardes `True` of `False` heeft. We kunnen er vanuit gaan dat wanneer de waarde leeg is, de waarde `False` toegekend kan worden. 

In [None]:
# opvullen paused informatie met 'False' als deze niet bekend is
dfmv['paused'] = dfmv['paused'].fillna(False)
dfmv

Het vullen van `volume` is uitdagender. We zien dat er van elke `user` precies één keer een waarde voor `volume` bekend is. Die waarde willen we ook voor de overige records van die `user` gebruiken. 

We moeten de data eerst sorteren zodanig dat alle `users` gegroepeerd zijn en de eerste rij een waarde heeft voor `volume`. 

In [None]:
dfmv.sort_values(['user', 'volume'])

Je kunt nu een loopje maken:

- Voor elke rij `i`:
  - Als `volume` leeg is:
    - Geef `volume` van rij `i` de waarde van rij `i-1`

Maar Python zou Python niet zijn als er geen *pythonic* manier is om dit te doen. De `fillna` functie heeft een optie om lege waardes te vullen met de vorige niet-lege waarde: 
Method to use for filling holes in reindexed Series pad / ffill: propagate last valid observation forward to next valid backfill / bfill: use next valid observation to fill gap.

In [None]:
# vul de onbekende waarden op door de voorgaande waarde te kopiëren op volgorde van de index:
dfmv = dfmv.fillna(method='ffill')
dfmv

<a id="pd_vb_vraag2"></a>
### Vragen bij voorbeeld 2

In het voorbeeld zie je de volgende code: med[med['Gold'] > 0]
- Beargumenteer wat hier gebeurt. Waarom wordt hier twee keer naar het DataFrame med verwezen?

Ook zie je de volgende code: dfmv.dropna(how='any')
- Beargumenteer wat hier gebeurt. Wat is het verschil met how='all' ?

<a id="pandas_vb3"></a>
## Voorbeeld 3 DataFrames samenvoegen
In het derde voorbeeld gaan we twee DataFrames samenvoegen.

### Bronvermelding
Dit notebook komt van de Coursera cursus 
Introduction to Data Science in Python - week 2
University of Michigan.

In [None]:
import numpy as np
import pandas as pd

Het samenvoegen van gegevens uit meerdere DataFrames tot één geheel kun je (uiteraard) pas doen wanneer je minstens twee DataFrames hebt. 

Als het goed is, hebben de DataFrames een kolom waarvan de inhoud overeenkomt met het andere DataFrame. Die kolommen kies je als index en op die index ga je mergen.

In [None]:
# Staff en student gegevens, waarbij een student ook staff (=student-assistent) kan zijn
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR'},
                         {'Name': 'Kelly', 'Role': 'Course liasion'},
                         {'Name': 'James', 'Role': 'Grader'}])

# zorgen voor de index op Name
staff_df = staff_df.set_index('Name')
print(staff_df)

# idem
student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business'},
                           {'Name': 'Mike', 'School': 'Law'},
                           {'Name': 'Kelly', 'School': 'Engineering'}])
student_df = student_df.set_index('Name')
print(student_df)

Net zoals bij databases en SQL, zijn er verschillende manieren om twee DataFrames te mergen:
- Outer (alle rijen gaan mee)
- Inner (alleen rijen met overlap gaan mee)
- Left (alle rijen van het eerste DataFrame plus rijen van tweede DataFrame met overlap gaan mee)
- Right (andersom)

In [None]:
pd.merge(staff_df, student_df, how='outer', left_index=True, right_index=True)

In [None]:
pd.merge(staff_df, student_df, how='inner', left_index=True, right_index=True)

In [None]:
pd.merge(staff_df, student_df, how='left', left_index=True, right_index=True)

In [None]:
pd.merge(staff_df, student_df, how='right', left_index=True, right_index=True)

In [None]:
# merging is ook mgeljk zonder index, maar door het aangeven van de kolomnamen
staff_df = staff_df.reset_index()
student_df = student_df.reset_index()
pd.merge(staff_df, student_df, how='left', left_on='Name', right_on='Name')

In [None]:
# Wanneer er bij het mergen 'identieke' kolommen in beide dataframes staan, dan worden de voorzien van een postfix
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR', 'Location': 'State Street'},
                         {'Name': 'Sally', 'Role': 'Course liasion', 'Location': 'Washington Avenue'},
                         {'Name': 'James', 'Role': 'Grader', 'Location': 'Washington Avenue'}])

student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business', 'Location': '1024 Billiard Avenue'},
                           {'Name': 'Mike', 'School': 'Law', 'Location': 'Fraternity House #22'},
                           {'Name': 'Sally', 'School': 'Engineering', 'Location': '512 Wilson Crescent'}])

pd.merge(staff_df, student_df, how='left', left_on='Name', right_on='Name')

In [None]:
# Merging kan ook op meerdere kolommen 
staff_df = pd.DataFrame([{'First Name': 'Kelly', 'Last Name': 'Desjardins', 'Role': 'Director of HR'},
                         {'First Name': 'Sally', 'Last Name': 'Brooks', 'Role': 'Course liasion'},
                         {'First Name': 'James', 'Last Name': 'Wilde', 'Role': 'Grader'}])
student_df = pd.DataFrame([{'First Name': 'James', 'Last Name': 'Hammond', 'School': 'Business'},
                           {'First Name': 'Mike', 'Last Name': 'Smith', 'School': 'Law'},
                           {'First Name': 'Sally', 'Last Name': 'Brooks', 'School': 'Engineering'}])
pd.merge(staff_df, student_df, how='inner', left_on=['First Name','Last Name'], right_on=['First Name','Last Name'])

<a id="pandas_vb4"></a>
## Voorbeeld 4 Complexere acties

In dit laatste voorbeeld gaan we aan de slag met een aantal complexere acties.

***Bronvermelding***
Dit notebook komt van de Coursera cursus 
Introduction to Data Science in Python - week 2
University of Michigan.

In [None]:
import numpy as np
import pandas as pd

In [None]:
# inlezen van bevolkingsgegevens van de USA
dfcs = pd.read_csv('pandas_census.csv')
dfcs.head()

### Krachtige functieverwerking op dataframe rij 

Soms kan het voorkomen dat je een analyse wilt uitvoeren waarvoor geen standaardfunctie is. In dat geval kun je een eigen functie schrijven en deze gebruiken voor het DataFrame met behulp van de de `apply` functie.

####Samenhang apply en eigen functies
De `apply` functie *itereert* over alle rijen of kolommen van een DataFrame. Elke rij of kolom wordt als input gegeven aan de eigen functie die aangeroepen wordt.

####Werking min_max-functie
In het voorbeeld hieronder is er een `min_max` functie geschreven die telkens een *row*  uit het DataFrame als input krijgt. Deze functie zet de waardes van 6 kolommen in een array en retourneert de laagste en hoogste waarde.

In [None]:
# definitie van een python functie die een minimale en maximale waarde van het bevolkingsaantal bepaalt
def min_max(row):
    data = row[['POPESTIMATE2010',
                'POPESTIMATE2011',
                'POPESTIMATE2012',
                'POPESTIMATE2013',
                'POPESTIMATE2014',
                'POPESTIMATE2015']]
    return pd.Series({'min': np.min(data), 'max': np.max(data)})

####Werking apply-functie
De `apply` functie itereert in dit geval over alle rijen (omdat `axis` = 1), roept de `min_max` functie aan en slaat alle resultaten op in een nieuw DataFrame. Dit DataFrame kun je natuurlijk makkelijk toevoegen aan het bestaande DataFrame.

In [None]:
# de gedefinieerde functie op elke rij van de dataset uit laten voeren
dfcsmm = dfcs.apply(min_max, axis=1)
dfcsmm.head()

Je kunt ook meteen een extra kolom laten toevoegen in het DataFrame.

In [None]:
# definitie van een functie die 2 kolommen toevoegt aan de oorspronkelijke rijen
def min_max_2(row):
    data = row[['POPESTIMATE2010',
                'POPESTIMATE2011',
                'POPESTIMATE2012',
                'POPESTIMATE2013',
                'POPESTIMATE2014',
                'POPESTIMATE2015']]
    row['POPESTIMATEMAX'] = np.max(data)  # extra column
    row['POPESTIMATEMIN'] = np.min(data)  # extra column
    return row
    
dfcsmm2 = dfcs.apply(min_max_2, axis=1)
dfcsmm2.head()

### Group by

Group by biedt krachtige verwerkingen om een grote verzameling gegevens per groep te analyseren. Dit is een beetje vergelijkbaar met de SQL GROUP BY functionaliteit.

We gebruiken een dataset demografische gegevens van steden in de Verenigde Staten. We kunnen de data groeperen of stad of staat en binnen die groepen zaken zoals geboortecijfers analyseren.

De eerste analyse is het bepalen van het gemiddeld aantal geboren kinderen per staat.

Daarvoor moet je een aantal acties uitvoeren:
- Alle rijen groeperen op de staat, de kolom `STNAME`. Dat doe je met de `groupby` functie. Deze krijgt de kolom als input. Omdat het een functie is krijg je `dfcs.groupby('STNAME')`. Het resultaat is een soort DataFrame: een groupby object.
- Daarna moet je aangeven voor welke kolom je een analyse wilt toepassen, dus je plakt `['BIRTHS2015']` erachter. Je hebt nu dus één kolom gekozen van het groupby object.
- Tenslotte volgt de `agg` functie die een berekening doet op het groupby object dat je gemaakt hebt. De input voor de functie is een bepaalde berekening, in dit geval is dat `mean`.

In [None]:
# Het bepalen van het gemiddeld aantal geboren kinderen per staat van alle steden in de staat
dfcs.groupby('STNAME')['BIRTHS2015'].agg(['mean']).head()

In [None]:
# Op dezelfde manier kun je de standaarddeviatie bepalen
dfcs.groupby('STNAME')['BIRTHS2015'].agg(['std']).head()

In [None]:
# Ook meerdere berekeningen kunnen gezamenlijk uitgevoerd worden
dfcs.groupby('STNAME')['BIRTHS2015'].agg(['mean','sum','min','max']).head()

In [None]:
# Kan ook op meerdere kolommmen
(dfcs.groupby(level=0)[['POPESTIMATE2010','POPESTIMATE2011']].agg(['mean','sum'])).head()
# (Hier wordt de index met behulp van een level aangeduidt: level 0 is 'STNAME')

In [None]:
# Nog ingewikkelder: de berekening per kolom verschilt:
(dfcs.groupby(level=0)[['POPESTIMATE2010','POPESTIMATE2011']]
    .agg({'POPESTIMATE2010': np.average, 'POPESTIMATE2011': np.sum})).head()

### Date Functionality in Pandas

Een veelvoorkomend en complexe datatype is dat van datum en tijd. De complexiteit zit 'm in het feit dat er verschillende noteringen zijn en dat elke implementatie wel een uitzonderling lijkt te zijn. Enfin, vaak veel gedoe.

Pandas heeft de volgende datastructuren voor datum en tijd functionaliteiten
- Timestamp: weergave van een datum-tijd punt
- Period: verzameling van datums of tijd van een bepaald type: bijv. Dagen, Minuten, Nanoseconden
- TimeDelta: weergave van de tijdsduur tussen 2 datum-tijd waarden

### Timestamp

In [None]:
# Vormen van een timestamp (datum en tijd punt) uit een tekst.
pd.Timestamp('9/1/2016 10:05AM')

In [None]:
# aanmaken van een reeks van timestamps uren 
pd.date_range('2016-01-09 00:00:00', periods = 6, freq = 'H')

### Period

In [None]:
# aanmaken van een periode van het type Maand
pd.Period('1/2016')

In [None]:
pd.Period('3/5/2016')

### TimeDelta

In [None]:
# Berekenen van de tijdsduur tussen 2 datums (Amerikaanse notatie !) 
pd.Timestamp('9/3/2016')-pd.Timestamp('9/1/2016')