# pandas

De naam [pandas](http://pandas.pydata.org) is afgeleid van de term 'panel data', een term die wordt gebruikt voor gestructureerde multidimensionele datasets. Deze module bevat veel data structuren en analyse tools voor Python, in het bijzonder voor het bewerken en analyseren van numerieke tabellen en tijdreeksen.  

Hierbij nog een handige link naar de [Data Wrangling with pandas Cheat Sheet](http://pandas.pydata.org/Pandas_Cheat_Sheet.pdf).


In [1]:
# import module
import pandas as pd
import numpy as np

In [2]:
# print module version
print('pandas version', pd.__version__)
print('NumPy version', np.__version__)

pandas version 0.23.2
NumPy version 1.14.5


## Inlezen csv

In [3]:
# csv from url (en toon eerst 5 rijen)
pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv', sep=';').head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


**>>> Maak opdracht 7 uit het [Jupyter Notebook](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/opdrachten.ipynb) met de opdrachten.**

## Genereren dataframe

In [4]:
# specificeer kolommen I
pd.DataFrame({'plaats': ['Amsterdam', 'Rotterdam', 'Den Haag', 'Utrecht'],
              'inwoners': [805166, 614543, 507611, 324723]})

Unnamed: 0,plaats,inwoners
0,Amsterdam,805166
1,Rotterdam,614543
2,Den Haag,507611
3,Utrecht,324723


In [5]:
# specificeer kolommen II
kolom_A = ['Amsterdam', 'Rotterdam', 'Den Haag', 'Utrecht']
kolom_B = [805166, 614543, 507611, 324723]
pd.DataFrame(data = list(zip(kolom_A, kolom_B)), columns = ['plaats', 'inwoners'])

Unnamed: 0,plaats,inwoners
0,Amsterdam,805166
1,Rotterdam,614543
2,Den Haag,507611
3,Utrecht,324723


In [6]:
# specificeer rijen
pd.DataFrame([['Amsterdam', 805166],
              ['Rotterdam', 614543],
              ['Den Haag', 507611],
              ['Utrecht', 324723]],
             columns = ['plaats', 'inwoners'])

Unnamed: 0,plaats,inwoners
0,Amsterdam,805166
1,Rotterdam,614543
2,Den Haag,507611
3,Utrecht,324723


In [7]:
# genereer dataframe met random data
pd.DataFrame({'id': np.random.choice(range(10000, 100000), 10, replace=False),
              'geslacht': np.random.choice(list('MV'), 10, replace=True),
              'jaar': np.random.randint(1980, 1990, 10)})

Unnamed: 0,id,geslacht,jaar
0,8786,V,1980
1,8360,V,1984
2,2876,M,1980
3,3090,M,1980
4,8987,V,1989
5,7543,M,1983
6,2635,V,1988
7,8995,V,1980
8,8028,M,1987
9,1278,V,1989


In [16]:
# no seed
np.random.choice(list('ABC'), 10)

array(['A', 'A', 'B', 'B', 'A', 'A', 'A', 'C', 'C', 'C'], dtype='<U1')

In [17]:
# no seed
np.random.choice(list('ABC'), 10)

array(['B', 'C', 'B', 'B', 'C', 'B', 'C', 'C', 'A', 'C'], dtype='<U1')

In [18]:
# seed
np.random.seed(42) # Answer to the Ultimate Question of Life, the Universe, and Everything
np.random.choice(list('ABC'), 10)

array(['C', 'A', 'C', 'C', 'A', 'A', 'C', 'B', 'C', 'C'], dtype='<U1')

In [19]:
# seed
np.random.seed(42) # Answer to the Ultimate Question of Life, the Universe, and Everything
np.random.choice(list('ABC'), 10)

array(['C', 'A', 'C', 'C', 'A', 'A', 'C', 'B', 'C', 'C'], dtype='<U1')

Gebruik `seed()` bij het genereren van data om de gegenereerde data reproduceerbaar te maken.

**>>> Maak opdracht 8 uit het [Jupyter Notebook](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/opdrachten.ipynb) met de opdrachten.**

In [150]:
# genereer dataframe met random data
np.random.seed(42)
aantal = 10
df = pd.DataFrame({'id': np.random.choice(range(10000, 100000), aantal, replace=False),
                   'geslacht': np.random.choice(list('MV'), aantal, replace=True),
                   'jaar': np.random.randint(1980, 2000, aantal)})
df

Unnamed: 0,id,geslacht,jaar
0,99610,M,1991
1,22456,M,1988
2,63403,M,1995
3,72905,V,1986
4,76339,V,1987
5,11966,M,1999
6,98332,V,1984
7,18341,V,1988
8,90680,V,1987
9,16606,V,1999


## Toevoegen kolommen

Het toevoegen van een kolom aan een DataFrame kan op meerdere manieren.  

We gaan een kolom toevoegen met de waarde `A` als `jaar <= 1990` en waarde `B` als `jaar > 1990`.  

Dit gaan we doen met _list comprehension_ (zie notebook [Data Types](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/datatypes.ipynb)) en met behulp van de functie `map()` in combinatie met een lambda expression (zie notebook [Functies](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/functions.ipynb)).

In [151]:
# toevoegen kolom
df['1'] = ['A' if j <= 1990 else 'B' for j in df.jaar] # list comprehesion
df['2'] = list(map(lambda j: 'A' if j <= 1990 else 'B', df.jaar)) # map lambda expression on column

De lambda expressie kan ook direct toegepast worden op een kolom.  
Dat scheelt een `list()` en een `map()` functie en is beter leesbaar (zie ook [The Zen of Python](https://www.python.org/dev/peps/pep-0020/)).

In [152]:
# kolom toevoegen
df['3'] = df.jaar.apply(lambda j: 'A' if j <= 1990 else 'B') # apply lambda expression on column

Wellicht nog beter leesbaar (en sneller!) is om gebruik te maken van de functionaliteit van NumPy.

In [153]:
# toevoegen kolom
df['4'] = np.where(df.jaar <= 1990, 'A', 'B') # numpy where

In [154]:
df

Unnamed: 0,id,geslacht,jaar,1,2,3,4
0,99610,M,1991,B,B,B,B
1,22456,M,1988,A,A,A,A
2,63403,M,1995,B,B,B,B
3,72905,V,1986,A,A,A,A
4,76339,V,1987,A,A,A,A
5,11966,M,1999,B,B,B,B
6,98332,V,1984,A,A,A,A
7,18341,V,1988,A,A,A,A
8,90680,V,1987,A,A,A,A
9,16606,V,1999,B,B,B,B


In [129]:
# drop columns
df.drop(columns=['1', '2', '3', '4'], inplace=True)

**>>> Maak opdracht 9a en 9b uit het [Jupyter Notebook](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/opdrachten.ipynb) met de opdrachten.**  

## Tidy data (wide to long)

In [159]:
# imports
import pandas as pd
import numpy as np
import datetime

In [160]:
# parameters
aantal_instellingen = 20
aantal_jaren = 10

In [163]:
# create wide dataframe
instellingen = pd.DataFrame({'instelling': ['Instelling {:02d}'.format(i) for i in range(aantal_instellingen)]})
wachttijden = pd.DataFrame(np.random.randint(low = 0, high = 26, size = (aantal_instellingen, aantal_jaren)),
                           columns = [str(j) for j in range(datetime.datetime.now().year - aantal_jaren + 1,
                                                            datetime.datetime.now().year + 1)])
wachttijd_wide = pd.concat([instellingen, wachttijden], axis=1)
wachttijd_wide

Unnamed: 0,instelling,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018
0,Instelling 00,7,21,25,18,24,14,4,8,20,18
1,Instelling 01,12,6,24,0,2,6,8,3,20,7
2,Instelling 02,19,17,22,1,13,5,6,23,20,0
3,Instelling 03,15,2,25,24,14,21,10,4,16,15
4,Instelling 04,19,20,17,4,18,7,25,13,10,14
5,Instelling 05,0,19,11,10,14,8,11,0,21,21
6,Instelling 06,1,16,0,9,12,14,4,10,20,25
7,Instelling 07,6,24,3,19,10,6,13,24,6,23
8,Instelling 08,9,15,6,24,21,10,24,18,3,24
9,Instelling 09,1,15,1,25,7,10,25,5,20,17


In [166]:
# convert wide to long
wachttijd_long = pd.melt(wachttijd_wide, id_vars = 'instelling', var_name = 'jaar', value_name = 'wachttijd')
wachttijd_long.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 3 columns):
instelling    200 non-null object
jaar          200 non-null object
wachttijd     200 non-null int32
dtypes: int32(1), object(2)
memory usage: 4.0+ KB


In [167]:
# toon rijen voor laatste jaar
wachttijd_long[wachttijd_long.jaar == max(wachttijd_long.jaar)] # toon laatste jaar

Unnamed: 0,instelling,jaar,wachttijd
180,Instelling 00,2018,18
181,Instelling 01,2018,7
182,Instelling 02,2018,0
183,Instelling 03,2018,15
184,Instelling 04,2018,14
185,Instelling 05,2018,21
186,Instelling 06,2018,25
187,Instelling 07,2018,23
188,Instelling 08,2018,24
189,Instelling 09,2018,17


In [168]:
# terug naar wide
wide = wachttijd_long.pivot(index = 'instelling', columns = 'jaar', values = 'wachttijd')
wide

jaar,2009,2010,2011,2012,2013,2014,2015,2016,2017,2018
instelling,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Instelling 00,7,21,25,18,24,14,4,8,20,18
Instelling 01,12,6,24,0,2,6,8,3,20,7
Instelling 02,19,17,22,1,13,5,6,23,20,0
Instelling 03,15,2,25,24,14,21,10,4,16,15
Instelling 04,19,20,17,4,18,7,25,13,10,14
Instelling 05,0,19,11,10,14,8,11,0,21,21
Instelling 06,1,16,0,9,12,14,4,10,20,25
Instelling 07,6,24,3,19,10,6,13,24,6,23
Instelling 08,9,15,6,24,21,10,24,18,3,24
Instelling 09,1,15,1,25,7,10,25,5,20,17


## Inlezen Excel file

In [174]:
# inlezen tabblad '2015' uit Excel bestand
xlsx = pd.read_excel('../data/bezoekers.xlsx', sheet='2015')
xlsx

Unnamed: 0,Regio,Q1,Q2,Q3,Q4
0,Noord,1200,1210,1205,1220
1,Oost,1285,1296,1292,1305
2,Zuid,1320,1328,1325,1336
3,West,1125,1132,1126,1140
4,Totaal,4930,4966,4948,5001


**>>> Maak opdracht 10a t/m 10d uit het [Jupyter Notebook](https://nbviewer.jupyter.org/github/Brinkhuis/Cursus/blob/master/notebooks/opdrachten.ipynb) met de opdrachten.**  

**>>> Huiswerk: opdracht 9c en 9d.**  

## Timeseries

In [39]:
# import modules
import pandas as pd
import numpy as np

In [40]:
# dataframe
aantal_perioden = 3287
tsd = pd.DataFrame({'datum': pd.date_range(start = '1/1/2010', periods = aantal_perioden, freq = 'D'),
                    'bezoekers': np.random.choice(range(0, 200), aantal_perioden, replace = True)}).set_index('datum')

In [41]:
# index van het type DatetimeIndex
type(tsd.index)

pandas.core.indexes.datetimes.DatetimeIndex

In [42]:
# toon 10 willekeurige rijen
tsd.sample(n = 10)

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2014-02-15,45
2012-01-30,65
2010-11-02,92
2018-10-19,120
2011-03-05,196
2012-05-07,14
2016-05-27,181
2010-06-15,150
2010-09-30,16
2015-01-22,138


In [43]:
# selecteer de bezoekersaantallen in de periode van 10 oktober 2010 tot en met 15 oktober 2010
tsd['2010-10-10':'2010-10-15']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2010-10-10,71
2010-10-11,98
2010-10-12,140
2010-10-13,148
2010-10-14,171
2010-10-15,62


In [44]:
# geef het (totaal) aantal bezoekers in de periode van 10 oktober 2010 tot en met 15 oktober 2010
tsd['2010-10-10':'2010-10-15'].sum()

bezoekers    690
dtype: int64

In [45]:
# geeft het gemiddeld aantal bezoekers voor december 2017
tsd['2017-12'].mean()

bezoekers    106.258065
dtype: float64

In [46]:
# geef het maximale aantal bezoekers in de periode (1) december 2017 tot en met 15 januari 2018
tsd.loc['2017-12':'2018-01-15'].max()

bezoekers    194
dtype: int32

In [47]:
# geeft de mediaan voor het aantal bezoekers in 2017
tsd['2017'].median()

bezoekers    100.0
dtype: float64

In [48]:
# omzetten naar één rij per jaar
tsd.resample('Y').sum()

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2010-12-31,37982
2011-12-31,36919
2012-12-31,34931
2013-12-31,35287
2014-12-31,37562
2015-12-31,36611
2016-12-31,36167
2017-12-31,36676
2018-12-31,36643


In [49]:
# geeft het totaal aantal bezoekers per maand in 2014
tsd.resample('M').sum()['2014']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2014-01-31,2785
2014-02-28,3002
2014-03-31,3309
2014-04-30,2606
2014-05-31,3587
2014-06-30,3319
2014-07-31,2708
2014-08-31,3491
2014-09-30,2812
2014-10-31,3410


In [50]:
# geef het totaal aantal bezoekers per week voor februari 2017
tsd.resample('W').sum()['2017-02']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2017-02-05,859
2017-02-12,488
2017-02-19,543
2017-02-26,509


In [51]:
# geef het totaal aantal bezoekers per 3 maanden voor 2016
tsd.resample('3M').sum()['2016']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2016-01-31,9400
2016-04-30,8217
2016-07-31,9032
2016-10-31,9730


In [52]:
# geef het gemiddeld aantal bezoekers per 2 weken voor maart 2018
tsd.resample('2W').mean()['2018-03']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-03-04,87.571429
2018-03-18,88.928571


In [53]:
# verwijder rijen
tsd.truncate(before = '2018-12-26', copy = False)

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-26,46
2018-12-27,180
2018-12-28,31
2018-12-29,98
2018-12-30,47
2018-12-31,93


In [54]:
# timeserie 3 dagen x 24 uur
aantal_perioden = 3 * 24
tsh = pd.DataFrame({'datum': pd.date_range(start = '1/1/2018', periods = aantal_perioden, freq = 'h'),
                    'waarde': np.random.choice(range(0, 100), aantal_perioden, replace = True)}).set_index('datum')
tsh.sample(frac = 0.15).sort_values(by = 'datum')

Unnamed: 0_level_0,waarde
datum,Unnamed: 1_level_1
2018-01-01 03:00:00,2
2018-01-01 12:00:00,49
2018-01-02 01:00:00,6
2018-01-02 07:00:00,63
2018-01-02 08:00:00,50
2018-01-02 12:00:00,35
2018-01-02 13:00:00,26
2018-01-03 09:00:00,2
2018-01-03 15:00:00,58
2018-01-03 16:00:00,96


In [55]:
# selecteer de uren voor 2 januari 2018 en toon de eerste 5 uren
tsh['2018-01-02'].head()

Unnamed: 0_level_0,waarde
datum,Unnamed: 1_level_1
2018-01-02 00:00:00,60
2018-01-02 01:00:00,6
2018-01-02 02:00:00,56
2018-01-02 03:00:00,50
2018-01-02 04:00:00,16


In [56]:
# selecteer alle uren tussen 12:00 - 18:00 op 2 januari 2018
tsh['2018-01-02 12:00:00':'2018-01-02 18:00:00']

Unnamed: 0_level_0,waarde
datum,Unnamed: 1_level_1
2018-01-02 12:00:00,35
2018-01-02 13:00:00,26
2018-01-02 14:00:00,87
2018-01-02 15:00:00,99
2018-01-02 16:00:00,67
2018-01-02 17:00:00,83
2018-01-02 18:00:00,42


In [57]:
# timeserie 3 dagen x 24 uur x 60 minuten in stappen van 5 minuten
aantal_perioden = 3 * 24 * 60
tsm = pd.DataFrame({'datum': pd.date_range(start = '1/1/2018', periods = aantal_perioden, freq = '5min'),
                    'waarde': np.random.choice(range(0, 100), aantal_perioden, replace = True)}).set_index('datum')
tsm.sample(n = 5).sort_values(by = 'datum')

Unnamed: 0_level_0,waarde
datum,Unnamed: 1_level_1
2018-01-01 01:10:00,27
2018-01-06 15:15:00,55
2018-01-08 22:35:00,78
2018-01-14 04:05:00,8
2018-01-15 01:10:00,32


In [58]:
# selecteer alle '5 minuten' in het uur 14:xx op 2 januari 2018
tsm['2018-01-02 14']

Unnamed: 0_level_0,waarde
datum,Unnamed: 1_level_1
2018-01-02 14:00:00,53
2018-01-02 14:05:00,2
2018-01-02 14:10:00,19
2018-01-02 14:15:00,87
2018-01-02 14:20:00,69
2018-01-02 14:25:00,23
2018-01-02 14:30:00,70
2018-01-02 14:35:00,24
2018-01-02 14:40:00,91
2018-01-02 14:45:00,16


Zie voor meer mogelijkheden onderstaande link:  

[https://pandas.pydata.org/pandas-docs/stable/timeseries.html#timeseries-offset-aliases]

Mogelijk is je bij het werken met bovenstaande tijdreeksen opgevallen dat we ook hier de 'verkorte syntax' gebruiken. Namelijk: `df['<logical condition>']` en niet `df.loc['<logical condition>']`. Dat is helemaal prima, zolang we logische condities gebruiken, of in de termen van timeseries 'time slices'. Er is sprake van een 'time slice' zolang de 'logical condition string' minder accuraat is dat de DatatimeIndex.

In [59]:
# detailniveau DatetimeIndex
tsd.index.resolution

'day'

De logical condition (time slice) moet in dit geval minder nauwkeurig zijn dan één dag.

In [60]:
# slice heeft nauwkeurigheid van een maand
tsd['2018-12'].head()

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-01,151
2018-12-02,21
2018-12-03,157
2018-12-04,94
2018-12-05,40


In [61]:
# slice heeft nauwkeurigheid van 5 dagen
tsd['2018-12-10':'2018-12-14']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-10,161
2018-12-11,131
2018-12-12,126
2018-12-13,71
2018-12-14,101


In [73]:
# slice heeft nauwkeurigheid van een maand
tsd.loc['2018-12'].head()

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-01,151
2018-12-02,21
2018-12-03,157
2018-12-04,94
2018-12-05,40


In [74]:
# slice heeft nauwkeurigheid van 5 dagen
tsd.loc['2018-12-10':'2018-12-14']

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-10,161
2018-12-11,131
2018-12-12,126
2018-12-13,71
2018-12-14,101


In [75]:
# exact match met index
tsd.loc['2018-12-31']

bezoekers    93
Name: 2018-12-31 00:00:00, dtype: int32

In [76]:
tsd.tail()

Unnamed: 0_level_0,bezoekers
datum,Unnamed: 1_level_1
2018-12-27,180
2018-12-28,31
2018-12-29,98
2018-12-30,47
2018-12-31,93


Kortom, het gebruik van de 'verkorte syntax' kan erg handig zijn bij het selecteren van 'time slices' uit 'time series', maar het selecteren van een 'exact match' uit de index is met de 'verkorte syntax' niet mogelijk.  

Pandas is erg consistent qua syntax! Het selecteren van een 'exact match' in de verkorte syntax kan wel als je de datum uitschrijft als 'slice', bijvoorbeeld `tsd['2018-12-31':'2018-12-31']`.

Zoals we al eerder in deze les hebben gezien, heeft de method `.loc` uitgebreidere mogelijkheden ten opzichte van de 'verkorte syntax'. Dat geldt ook voor het werken met time series.

In [175]:
# opdracht 1.7 -- vervolg
xlsx = pd.DataFrame()
quarter_dates = dict({'Q1': '03-31', 'Q2': '06-30', 'Q3': '09-30', 'Q4': '12-31'})
for key in excel.keys():
    sheet = pd.melt(excel[key], id_vars = 'Region', var_name = 'Quarter', value_name = 'Patients')
    sheet['Year'] = key
    sheet['Date'] = ['{}-{}'.format(Y, quarter_dates[Q]) for (Y, Q) in zip(sheet.Year, sheet.Quarter)]
    sheet.Date = pd.to_datetime(sheet.Date)
    sheet.drop(labels=['Quarter', 'Year'], axis = 1, inplace = True)
    sheet.rename(columns={'Region': 'regio', 'Patients': 'aantal', 'Date': 'datum'}, inplace = True)
    xlsx = xlsx.append(sheet, ignore_index = True)
xlsx.set_index(['datum'], inplace = True)
xlsx.fillna(0, inplace = True)
del quarter_dates
xlsx.head(8)

Unnamed: 0_level_0,regio,aantal
datum,Unnamed: 1_level_1,Unnamed: 2_level_1
1990-03-31,North,1200.0
1990-03-31,East,1285.0
1990-03-31,South,1320.0
1990-03-31,West,1125.0
1990-06-30,North,1210.0
1990-06-30,East,1296.0
1990-06-30,South,1328.0
1990-06-30,West,1132.0


In [146]:
xlsx.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 456 entries, 1990-03-31 to 2016-12-31
Data columns (total 2 columns):
regio     456 non-null object
aantal    456 non-null float64
dtypes: float64(1), object(1)
memory usage: 10.7+ KB


In [147]:
# aantal patienten per regio in 2014
xlsx['2014'].groupby(by = 'regio').sum()

Unnamed: 0_level_0,aantal
regio,Unnamed: 1_level_1
East,2524.0
North,3284.0
North-East,3688.0
South,3380.0
South-West,3556.0
West,3244.0


In [180]:
# aantal patienten
xlsx['2014'][xlsx['2014'].regio == 'North'].aantal

datum
2014-03-31    813.0
2014-06-30    817.0
2014-09-30    823.0
2014-12-31    831.0
Name: aantal, dtype: float64

In [184]:
# aantal patienten
xlsx['2014'].loc[xlsx['2014'].regio == 'North']

Unnamed: 0_level_0,regio,aantal
datum,Unnamed: 1_level_1,Unnamed: 2_level_1
2014-03-31,North,813.0
2014-06-30,North,817.0
2014-09-30,North,823.0
2014-12-31,North,831.0


In [193]:
# aantal patienten
xlsx.loc[xlsx.regio == 'North', 'aantal']['2014']

datum
2014-03-31    813.0
2014-06-30    817.0
2014-09-30    823.0
2014-12-31    831.0
Name: aantal, dtype: float64

In [171]:
xlsx.groupby(by = [xlsx.index.year, xlsx.regio]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,aantal
datum,regio,Unnamed: 2_level_1
1990,East,5178.0
1990,North,4835.0
1990,South,5309.0
1990,West,4523.0
1991,East,5182.0
1991,North,4839.0
1991,South,5313.0
1991,West,4527.0
1992,East,5186.0
1992,North,4843.0


In [167]:
xlsx.index.year

Int64Index([1990, 1990, 1990, 1990, 1990, 1990, 1990, 1990, 1990, 1990,
            ...
            2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016, 2016],
           dtype='int64', name='datum', length=456)

In [140]:
xlsx.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 114 entries, 0 to 113
Data columns (total 6 columns):
Region    114 non-null object
Q1        114 non-null int64
Q2        114 non-null float64
Q3        114 non-null float64
Q4        114 non-null int64
Year      114 non-null int64
dtypes: float64(2), int64(3), object(1)
memory usage: 5.4+ KB


In [32]:
xlsx['2014-3M']

Unnamed: 0_level_0,regio,aantal
datum,Unnamed: 1_level_1,Unnamed: 2_level_1
2014-03-31,North,813.0
2014-03-31,North-East,914.0
2014-03-31,East,834.0
2014-03-31,South,837.0
2014-03-31,South-West,881.0
2014-03-31,West,803.0


In [79]:
xlsx.loc['2014'][xlsx.loc['2014'].regio == 'North']

Unnamed: 0_level_0,regio,aantal
datum,Unnamed: 1_level_1,Unnamed: 2_level_1
2014-03-31,North,813.0
2014-06-30,North,817.0
2014-09-30,North,823.0
2014-12-31,North,831.0


In [80]:
xlsx['2014'][xlsx['2014'].regio == 'North']

Unnamed: 0_level_0,regio,aantal
datum,Unnamed: 1_level_1,Unnamed: 2_level_1
2014-03-31,North,813.0
2014-06-30,North,817.0
2014-09-30,North,823.0
2014-12-31,North,831.0
