# pandas

De naam [pandas](http://pandas.pydata.org) is afgeleid van de term 'panel data', een term die wordt gebruikt voor gestructureerde multidimensionele datasets. Deze module bevat veel data structuren en analyse tools voor Python, in het bijzonder voor het bewerken en analyseren van numerieke tabellen en tijdreeksen.  

Hierbij nog een handige link naar de [Data Wrangling with pandas Cheat Sheet](http://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).


In [58]:
# import module
import pandas as pd
import numpy as np

In [59]:
# print module version
print('pandas version', pd.__version__)
print('NumPy version', np.__version__)

pandas version 0.23.3
NumPy version 1.15.0


## Inlezen csv

In [60]:
# csv from url (en toon eerst 5 rijen)
pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', sep=';').head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


**>>> Maak opdracht 7 uit het [Jupyter Notebook](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/opdrachten.ipynb) met de opdrachten.**

## Genereren dataframe

In [61]:
# specificeer kolommen I
pd.DataFrame({'plaats': ['Amsterdam', 'Rotterdam', 'Den Haag', 'Utrecht'],
              'inwoners': [805166, 614543, 507611, 324723]})

Unnamed: 0,plaats,inwoners
0,Amsterdam,805166
1,Rotterdam,614543
2,Den Haag,507611
3,Utrecht,324723


In [62]:
# specificeer kolommen II
kolom_A = ['Amsterdam', 'Rotterdam', 'Den Haag', 'Utrecht']
kolom_B = [805166, 614543, 507611, 324723]
pd.DataFrame(data = list(zip(kolom_A, kolom_B)), columns = ['plaats', 'inwoners'])

Unnamed: 0,plaats,inwoners
0,Amsterdam,805166
1,Rotterdam,614543
2,Den Haag,507611
3,Utrecht,324723


In [63]:
# specificeer rijen
pd.DataFrame([['Amsterdam', 805166],
              ['Rotterdam', 614543],
              ['Den Haag', 507611],
              ['Utrecht', 324723]],
             columns = ['plaats', 'inwoners'])

Unnamed: 0,plaats,inwoners
0,Amsterdam,805166
1,Rotterdam,614543
2,Den Haag,507611
3,Utrecht,324723


In [64]:
# genereer dataframe met random data
pd.DataFrame({'id': np.random.choice(range(10000, 100000), 10, replace=False),
              'geslacht': np.random.choice(list('MV'), 10, replace=True),
              'jaar': np.random.randint(1980, 1990, 10)})

Unnamed: 0,id,geslacht,jaar
0,23963,V,1989
1,51437,V,1980
2,62637,V,1980
3,74388,V,1981
4,70734,V,1980
5,54078,V,1984
6,78912,V,1987
7,97193,V,1987
8,27275,M,1987
9,23154,V,1984


In [65]:
# no seed
np.random.choice(list('ABC'), 10)

array(['A', 'C', 'C', 'A', 'C', 'A', 'C', 'B', 'B', 'B'], dtype='<U1')

In [66]:
# no seed
np.random.choice(list('ABC'), 10)

array(['A', 'B', 'C', 'A', 'A', 'B', 'C', 'B', 'A', 'A'], dtype='<U1')

In [67]:
# seed
np.random.seed(42)
np.random.choice(list('ABC'), 10)

array(['C', 'A', 'C', 'C', 'A', 'A', 'C', 'B', 'C', 'C'], dtype='<U1')

In [68]:
# seed
np.random.seed(42)
np.random.choice(list('ABC'), 10)

array(['C', 'A', 'C', 'C', 'A', 'A', 'C', 'B', 'C', 'C'], dtype='<U1')

Gebruik `seed()` bij het genereren van data om de gegenereerde data reproduceerbaar te maken.

**>>> Maak opdracht 8 uit het [Jupyter Notebook](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/opdrachten.ipynb) met de opdrachten.**

In [69]:
# genereer dataframe met random data
np.random.seed(42)
aantal = 10
df = pd.DataFrame({'id': np.random.choice(range(10000, 100000), aantal, replace=False),
                   'geslacht': np.random.choice(list('MV'), aantal, replace=True),
                   'jaar': np.random.randint(1980, 2000, aantal)})
df

Unnamed: 0,id,geslacht,jaar
0,99610,M,1991
1,22456,M,1988
2,63403,M,1995
3,72905,V,1986
4,76339,V,1987
5,11966,M,1999
6,98332,V,1984
7,18341,V,1988
8,90680,V,1987
9,16606,V,1999


## Toevoegen kolommen

Het toevoegen van een kolom aan een DataFrame kan op meerdere manieren.  

We gaan een kolom toevoegen met de waarde `A` als `jaar <= 1990` en waarde `B` als `jaar > 1990`.  

Dit gaan we doen met _list comprehension_ (zie notebook [Data Types](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/datatypes.ipynb)) en met behulp van de functie `map()` in combinatie met een lambda expression (zie notebook [Functies](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/functions.ipynb)).

In [70]:
# toevoegen kolom
df['1'] = ['A' if j <= 1990 else 'B' for j in df.jaar] # list comprehesion
df['2'] = list(map(lambda j: 'A' if j <= 1990 else 'B', df.jaar)) # map lambda expression on column

De lambda expressie kan ook direct toegepast worden op een kolom.  
Dat scheelt een `list()` en een `map()` functie en is beter leesbaar (zie ook [The Zen of Python](https://www.python.org/dev/peps/pep-0020/)).

In [71]:
# kolom toevoegen
df['3'] = df.jaar.apply(lambda j: 'A' if j <= 1990 else 'B') # apply lambda expression on column

Wellicht nog beter leesbaar (en sneller!) is om gebruik te maken van de functionaliteit van NumPy.

In [72]:
# toevoegen kolom
df['4'] = np.where(df.jaar <= 1990, 'A', 'B') # numpy where

In [73]:
df

Unnamed: 0,id,geslacht,jaar,1,2,3,4
0,99610,M,1991,B,B,B,B
1,22456,M,1988,A,A,A,A
2,63403,M,1995,B,B,B,B
3,72905,V,1986,A,A,A,A
4,76339,V,1987,A,A,A,A
5,11966,M,1999,B,B,B,B
6,98332,V,1984,A,A,A,A
7,18341,V,1988,A,A,A,A
8,90680,V,1987,A,A,A,A
9,16606,V,1999,B,B,B,B


In [74]:
# drop columns
df.drop(columns=['1', '2', '3', '4'], inplace=True)

**>>> Maak opdracht 9a en 9b uit het [Jupyter Notebook](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/opdrachten.ipynb) met de opdrachten. Opdracht 9c en 9d kun je later maken.**  

## Tidy data (wide to long)

In [75]:
# imports
import pandas as pd
import numpy as np
import datetime

In [76]:
# parameters
aantal_instellingen = 20
aantal_jaren = 10

In [77]:
# create wide dataframe
instellingen = pd.DataFrame({'instelling': ['Instelling {:02d}'.format(i) for i in range(aantal_instellingen)]})
wachttijden = pd.DataFrame(np.random.randint(low = 0, high = 26, size = (aantal_instellingen, aantal_jaren)),
                           columns = [str(j) for j in range(datetime.datetime.now().year - aantal_jaren + 1,
                                                            datetime.datetime.now().year + 1)])
wachttijd_wide = pd.concat([instellingen, wachttijden], axis=1)
wachttijd_wide

Unnamed: 0,instelling,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018
0,Instelling 00,15,10,0,16,11,4,13,6,23,6
1,Instelling 01,3,14,6,21,23,8,0,1,7,6
2,Instelling 02,22,2,6,19,25,15,25,1,0,7
3,Instelling 03,4,9,3,8,13,20,9,17,24,25
4,Instelling 04,22,8,4,22,7,11,19,23,22,18
5,Instelling 05,13,10,10,23,3,17,8,7,3,18
6,Instelling 06,18,21,1,10,2,0,9,20,12,2
7,Instelling 07,6,24,4,1,17,13,19,25,24,1
8,Instelling 08,4,12,6,9,19,6,22,17,17,1
9,Instelling 09,24,15,12,16,5,22,8,2,24,6


In [78]:
# convert wide to long
wachttijd_long = pd.melt(wachttijd_wide, id_vars = 'instelling', var_name = 'jaar', value_name = 'wachttijd')
wachttijd_long.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 3 columns):
instelling    200 non-null object
jaar          200 non-null object
wachttijd     200 non-null int32
dtypes: int32(1), object(2)
memory usage: 4.0+ KB


In [79]:
# toon rijen voor laatste jaar
wachttijd_long[wachttijd_long.jaar == max(wachttijd_long.jaar)] # toon laatste jaar

Unnamed: 0,instelling,jaar,wachttijd
180,Instelling 00,2018,6
181,Instelling 01,2018,6
182,Instelling 02,2018,7
183,Instelling 03,2018,25
184,Instelling 04,2018,18
185,Instelling 05,2018,18
186,Instelling 06,2018,2
187,Instelling 07,2018,1
188,Instelling 08,2018,1
189,Instelling 09,2018,6


In [80]:
# terug naar wide
wide = wachttijd_long.pivot(index = 'instelling', columns = 'jaar', values = 'wachttijd')
wide

jaar,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018
instelling,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Instelling 00,15,10,0,16,11,4,13,6,23,6
Instelling 01,3,14,6,21,23,8,0,1,7,6
Instelling 02,22,2,6,19,25,15,25,1,0,7
Instelling 03,4,9,3,8,13,20,9,17,24,25
Instelling 04,22,8,4,22,7,11,19,23,22,18
Instelling 05,13,10,10,23,3,17,8,7,3,18
Instelling 06,18,21,1,10,2,0,9,20,12,2
Instelling 07,6,24,4,1,17,13,19,25,24,1
Instelling 08,4,12,6,9,19,6,22,17,17,1
Instelling 09,24,15,12,16,5,22,8,2,24,6


## Inlezen Excel file

In [81]:
# inlezen tabblad '2015' uit Excel bestand
xlsx = pd.read_excel('../data/bezoekers.xlsx', sheet='2015')
xlsx

Unnamed: 0,Regio,Q1,Q2,Q3,Q4
0,Noord,1200,1210,1205,1220
1,Oost,1285,1296,1292,1305
2,Zuid,1320,1328,1325,1336
3,West,1125,1132,1126,1140
4,Totaal,4930,4966,4948,5001


**>>> Maak opdracht 10a t/m 10d uit het [Jupyter Notebook](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/opdrachten.ipynb) met de opdrachten.**  

## Timeseries (ter info)

In [82]:
# import modules
import pandas as pd
import numpy as np

In [83]:
# dataframe
aantal_perioden = 3287
tsd = pd.DataFrame({'datum': pd.date_range(start = '1/1/2010', periods = aantal_perioden, freq = 'D'),
                    'bezoekers': np.random.choice(range(0, 200), aantal_perioden, replace = True)}).set_index('datum')

In [84]:
# index van het type DatetimeIndex
type(tsd.index)

pandas.core.indexes.datetimes.DatetimeIndex

In [85]:
# toon 10 willekeurige rijen
tsd.sample(n = 10)

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2015-02-27,37
2018-01-16,168
2010-02-19,138
2012-02-22,173
2017-10-20,131
2017-01-02,164
2016-09-04,141
2017-10-06,17
2010-02-12,141
2011-10-21,111


In [86]:
# selecteer de bezoekersaantallen in de periode van 10 oktober 2010 tot en met 15 oktober 2010
tsd['2010-10-10':'2010-10-15']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2010-10-10,66
2010-10-11,157
2010-10-12,107
2010-10-13,168
2010-10-14,89
2010-10-15,138


In [87]:
# geef het (totaal) aantal bezoekers in de periode van 10 oktober 2010 tot en met 15 oktober 2010
tsd['2010-10-10':'2010-10-15'].sum()

bezoekers    725
dtype: int64

In [88]:
# geeft het gemiddeld aantal bezoekers voor december 2017
tsd['2017-12'].mean()

bezoekers    108.483871
dtype: float64

In [89]:
# geef het maximale aantal bezoekers op één dg in de periode (1) december 2017 tot en met 15 januari 2018
tsd.loc['2017-12':'2018-01-15'].max()

bezoekers    199
dtype: int32

In [90]:
# geeft de mediaan voor het aantal bezoekers in 2017
tsd['2017'].median()

bezoekers    99.0
dtype: float64

In [91]:
# omzetten naar één rij per jaar
tsd.resample('Y').sum()

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2010-12-31,35469
2011-12-31,36019
2012-12-31,36987
2013-12-31,35977
2014-12-31,36199
2015-12-31,37017
2016-12-31,36026
2017-12-31,36512
2018-12-31,36646


In [92]:
# geeft het totaal aantal bezoekers per maand in 2014
tsd.resample('M').sum()['2014']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2014-01-31,2947
2014-02-28,2890
2014-03-31,3353
2014-04-30,2386
2014-05-31,2917
2014-06-30,2503
2014-07-31,3161
2014-08-31,3444
2014-09-30,3021
2014-10-31,3699


In [93]:
# geef het totaal aantal bezoekers per week voor februari 2017
tsd.resample('W').sum()['2017-02']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2017-02-05,763
2017-02-12,666
2017-02-19,749
2017-02-26,677


In [94]:
# geef het totaal aantal bezoekers per kwartaal voor 2016
tsd.resample('Q').sum()['2016']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2016-03-31,9191
2016-06-30,8601
2016-09-30,9229
2016-12-31,9005


In [95]:
# geef het gemiddeld aantal bezoekers per 2 weken voor maart 2018
tsd.resample('2W').mean()['2018-03']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-03-04,109.0
2018-03-18,100.071429


In [96]:
# verwijder rijen
tsd.truncate(before = '2018-12-26', copy = False)

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-26,111
2018-12-27,191
2018-12-28,140
2018-12-29,170
2018-12-30,118
2018-12-31,109


In [97]:
# timeserie 3 dagen x 24 uur
aantal_perioden = 3 * 24
tsh = pd.DataFrame({'datum': pd.date_range(start = '1/1/2018', periods = aantal_perioden, freq = 'h'),
                    'waarde': np.random.choice(range(0, 100), aantal_perioden, replace = True)}).set_index('datum')
tsh.sample(frac = 0.15).sort_values(by = 'datum')

Unnamed: 0_level_0,waarde
datum,Unnamed: 1_level_1
2018-01-01 00:00:00,99
2018-01-01 07:00:00,37
2018-01-01 09:00:00,98
2018-01-01 13:00:00,90
2018-01-01 15:00:00,83
2018-01-02 02:00:00,51
2018-01-02 14:00:00,61
2018-01-02 17:00:00,19
2018-01-02 20:00:00,97
2018-01-03 07:00:00,92


In [98]:
# selecteer de uren voor 2 januari 2018 en toon de eerste 5 uren
tsh['2018-01-02'].head()

Unnamed: 0_level_0,waarde
datum,Unnamed: 1_level_1
2018-01-02 00:00:00,3
2018-01-02 01:00:00,12
2018-01-02 02:00:00,51
2018-01-02 03:00:00,37
2018-01-02 04:00:00,64


In [99]:
# selecteer alle uren tussen 12:00 - 18:00 op 2 januari 2018
tsh['2018-01-02 12:00:00':'2018-01-02 18:00:00']

Unnamed: 0_level_0,waarde
datum,Unnamed: 1_level_1
2018-01-02 12:00:00,51
2018-01-02 13:00:00,38
2018-01-02 14:00:00,61
2018-01-02 15:00:00,40
2018-01-02 16:00:00,75
2018-01-02 17:00:00,19
2018-01-02 18:00:00,21


In [100]:
# timeserie 3 dagen x 24 uur x 60 minuten in stappen van 5 minuten
aantal_perioden = 3 * 24 * 60
tsm = pd.DataFrame({'datum': pd.date_range(start = '1/1/2018', periods = aantal_perioden, freq = '5min'),
                    'waarde': np.random.choice(range(0, 100), aantal_perioden, replace = True)}).set_index('datum')
tsm.sample(n = 5).sort_values(by = 'datum')

Unnamed: 0_level_0,waarde
datum,Unnamed: 1_level_1
2018-01-03 10:30:00,40
2018-01-05 00:20:00,27
2018-01-05 01:35:00,55
2018-01-06 21:10:00,32
2018-01-10 22:10:00,81


In [101]:
# selecteer alle '5 minuten' in het uur 14:xx op 2 januari 2018
tsm['2018-01-02 14']

Unnamed: 0_level_0,waarde
datum,Unnamed: 1_level_1
2018-01-02 14:00:00,63
2018-01-02 14:05:00,92
2018-01-02 14:10:00,58
2018-01-02 14:15:00,93
2018-01-02 14:20:00,21
2018-01-02 14:25:00,68
2018-01-02 14:30:00,92
2018-01-02 14:35:00,1
2018-01-02 14:40:00,73
2018-01-02 14:45:00,45


Zie voor meer mogelijkheden onderstaande link:  

[https://pandas.pydata.org/pandas-docs/stable/timeseries.html#timeseries-offset-aliases]

Mogelijk is je bij het werken met bovenstaande tijdreeksen opgevallen dat we ook hier de 'verkorte syntax' gebruiken. Namelijk: `df['<logical condition>']` en niet `df.loc['<logical condition>']`. Dat is helemaal prima, zolang we logische condities gebruiken, of in de termen van timeseries 'time slices'. Er is sprake van een 'time slice' zolang de 'logical condition string' minder accuraat is dat de DatatimeIndex.

In [102]:
# detailniveau DatetimeIndex
tsd.index.resolution

'day'

De logical condition (time slice) moet in dit geval minder nauwkeurig zijn dan één dag.

In [103]:
# slice heeft nauwkeurigheid van een maand
tsd['2018-12'].head()

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-01,150
2018-12-02,158
2018-12-03,193
2018-12-04,188
2018-12-05,81


In [104]:
# slice heeft nauwkeurigheid van 5 dagen
tsd['2018-12-10':'2018-12-14']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-10,34
2018-12-11,94
2018-12-12,186
2018-12-13,168
2018-12-14,36


In [105]:
# slice heeft nauwkeurigheid van een maand
tsd.loc['2018-12'].head()

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-01,150
2018-12-02,158
2018-12-03,193
2018-12-04,188
2018-12-05,81


In [106]:
# slice heeft nauwkeurigheid van 5 dagen
tsd.loc['2018-12-10':'2018-12-14']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-10,34
2018-12-11,94
2018-12-12,186
2018-12-13,168
2018-12-14,36


In [107]:
# exact match met index
tsd.loc['2018-12-31']

bezoekers    109
Name: 2018-12-31 00:00:00, dtype: int32

In [108]:
tsd.tail()

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-27,191
2018-12-28,140
2018-12-29,170
2018-12-30,118
2018-12-31,109


Kortom, het gebruik van de 'verkorte syntax' kan erg handig zijn bij het selecteren van 'time slices' uit 'time series', maar het selecteren van een 'exact match' uit de index is met de 'verkorte syntax' niet mogelijk.  

Pandas is erg consistent qua syntax! Het selecteren van een 'exact match' in de verkorte syntax kan wel als je de datum uitschrijft als 'slice', bijvoorbeeld `tsd['2018-12-31':'2018-12-31']`.

Zoals we al eerder in deze les hebben gezien, heeft de method `.loc` uitgebreidere mogelijkheden ten opzichte van de 'verkorte syntax'. Dat geldt ook voor het werken met time series.