In [14]:
import numpy as np
import pandas as pd

pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', 100)

### Pandas DataFrame

In [15]:
df = pd.DataFrame([
    {'plaats': 'Amsterdam', 'kengetal': '020', 'provincie': 'NH', 'inwoners': 934_927},
    {'plaats': 'Rotterdam', 'kengetal': '010', 'provincie': 'ZH', 'inwoners': 671_125},
    {'plaats': 'Utrecht', 'kengetal': '030', 'provincie': 'UT', 'inwoners': 374_411},
    {'plaats': 'Groningen', 'kengetal': '050', 'provincie': 'GR', 'inwoners': 243_833},
    {'plaats': 'Den Haag', 'kengetal': '070', 'provincie': 'ZH', 'inwoners': 565_701},
])

df

Unnamed: 0,plaats,kengetal,provincie,inwoners
0,Amsterdam,20,NH,934927
1,Rotterdam,10,ZH,671125
2,Utrecht,30,UT,374411
3,Groningen,50,GR,243833
4,Den Haag,70,ZH,565701


### New Row

In [16]:
new_row = pd.DataFrame([{'plaats': 'Eindhoven', 'kengetal': '050', 'provincie': 'NB', 'inwoners': 246_444}])
new_row



# df = pd.concat([df, new_row], ignore_index=True)
# df

Unnamed: 0,plaats,kengetal,provincie,inwoners
0,Amsterdam,20,NH,934927
1,Rotterdam,10,ZH,671125
2,Utrecht,30,UT,374411
3,Groningen,50,GR,243833
4,Den Haag,70,ZH,565701
5,Eindhoven,50,NB,246444


### Hierarchical Index

In [19]:
df1 = df.set_index(['provincie', 'plaats']).sort_index()
df1

Unnamed: 0_level_0,Unnamed: 1_level_0,kengetal,inwoners
provincie,plaats,Unnamed: 2_level_1,Unnamed: 3_level_1
GR,Groningen,50,243833
NB,Eindhoven,50,246444
NH,Amsterdam,20,934927
UT,Utrecht,30,374411
ZH,Den Haag,70,565701
ZH,Rotterdam,10,671125


In [22]:
df1.loc[('GR')]

Unnamed: 0_level_0,kengetal,inwoners
plaats,Unnamed: 1_level_1,Unnamed: 2_level_1
Groningen,50,243833


In [42]:
df

Unnamed: 0,plaats,kengetal,provincie,inwoners
0,Amsterdam,20,NH,1000000
1,Rotterdam,10,ZH,600000
2,Utrecht,30,UT,368000
3,Groningen,50,GR,200000
4,Den Haag,70,ZH,700000


In [43]:
df.rename(columns = {'plaats': 'city'}, inplace = True)

In [46]:
provincies = {
    'ZH': 'Zuid Holland',
    'NH': 'Noord Holland',
    'UT': 'Utrecht',
    'GR': 'Groningen',
    'DR': 'Drenthe',
    'L': 'Limburg',
}

df['provincie_naam'] = df['provincie'].replace(provincies)

In [47]:
df

Unnamed: 0,city,kengetal,provincie,inwoners
0,Amsterdam,20,Noord Holland,1000000
1,Rotterdam,10,Zuid Holland,600000
2,Utrecht,30,Utrecht,368000
3,Groningen,50,Groningen,200000
4,Den Haag,70,Zuid Holland,700000


### EDA - Exploratory Data Analysis

In [40]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   plaats     5 non-null      object
 1   kengetal   5 non-null      object
 2   provincie  5 non-null      object
 3   inwoners   5 non-null      int64 
dtypes: int64(1), object(3)
memory usage: 288.0+ bytes


In [19]:
df['provincie'].unique()

array(['NH', 'ZH', 'UT', 'GR'], dtype=object)

In [20]:
df['provincie'].value_counts()

provincie
ZH    2
NH    1
UT    1
GR    1
Name: count, dtype: int64

In [24]:
list(df.columns)

['plaats', 'kengetal', 'provincie', 'inwoners']

In [26]:
df.value_counts()

plaats     kengetal  provincie  inwoners
Amsterdam  020       NH         1000000     1
Den Haag   070       ZH         700000      1
Groningen  050       GR         200000      1
Rotterdam  010       ZH         600000      1
Utrecht    030       UT         368000      1
Name: count, dtype: int64

#### Columns

In [33]:
df['plaats']

0    Amsterdam
1    Rotterdam
2      Utrecht
3    Groningen
4     Den Haag
Name: plaats, dtype: object

In [34]:
df['inwoners']

0    1000000
1     600000
2     368000
3     200000
4     700000
Name: inwoners, dtype: int64

In [41]:
df[['provincie','plaats']]

Unnamed: 0,provincie,plaats
0,NH,Amsterdam
1,ZH,Rotterdam
2,UT,Utrecht
3,GR,Groningen
4,ZH,Den Haag


In [45]:
df.iloc[:, [0, 3]]

Unnamed: 0,plaats,inwoners
0,Amsterdam,1000000
1,Rotterdam,600000
2,Utrecht,368000
3,Groningen,200000
4,Den Haag,700000


In [42]:
df['provincie'] == 'ZH'

0    False
1     True
2    False
3    False
4     True
Name: provincie, dtype: bool

In [46]:
df[df['provincie'] == 'ZH']

Unnamed: 0,plaats,kengetal,provincie,inwoners
1,Rotterdam,10,ZH,600000
4,Den Haag,70,ZH,700000


In [50]:
df[(df['inwoners'] >= 500000) & (df['provincie'] == 'ZH')]

Unnamed: 0,plaats,kengetal,provincie,inwoners
1,Rotterdam,10,ZH,600000
4,Den Haag,70,ZH,700000


In [61]:
df.query('`inwoners` >= 500000 and `provincie` == "ZH"')

Unnamed: 0,plaats,kengetal,provincie,inwoners
1,Rotterdam,10,ZH,600000
4,Den Haag,70,ZH,700000


In [63]:
df[['plaats','inwoners']].query('inwoners >= 500000')

Unnamed: 0,plaats,inwoners
0,Amsterdam,1000000
1,Rotterdam,600000
4,Den Haag,700000


In [64]:
df.loc[df['inwoners'] >= 500000, ['plaats','inwoners']]

Unnamed: 0,plaats,inwoners
0,Amsterdam,1000000
1,Rotterdam,600000
4,Den Haag,700000


#### to file

In [67]:
filename = 'data.csv'
df.to_csv(filename, sep = ';', index = False)

In [70]:
filename = 'data.csv'
df_new = pd.read_csv(filename, sep = ';')
df_new

Unnamed: 0,plaats,kengetal,provincie,inwoners
0,Amsterdam,20,NH,1000000
1,Rotterdam,10,ZH,600000
2,Utrecht,30,UT,368000
3,Groningen,50,GR,200000
4,Den Haag,70,ZH,700000


### From Wikipedia

https://nl.wikipedia.org/wiki/Lijst_van_grootste_gemeenten_in_Nederland

In [40]:
tables = pd.read_html('https://nl.wikipedia.org/wiki/Lijst_van_grootste_gemeenten_in_Nederland',
                      decimal=',', thousands='.', index_col=0)
df = tables[0]
df

Unnamed: 0_level_0,Naam,Provincie,Inwoners
Nº,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Amsterdam,Noord-Holland,934927
2,Rotterdam,Zuid-Holland,671125
3,Den Haag,Zuid-Holland,565701
4,Utrecht,Utrecht,374411
5,Eindhoven,Noord-Brabant,246443
6,Groningen,Groningen,243833
7,Tilburg,Noord-Brabant,229797
8,Almere,Flevoland,226630
9,Breda,Noord-Brabant,188217
10,Nijmegen,Gelderland,187011


In [64]:
df_hierarchical = df.set_index(['Provincie', 'Naam']).sort_index()
df_hierarchical

Unnamed: 0_level_0,Unnamed: 1_level_0,Inwoners
Provincie,Naam,Unnamed: 2_level_1
Drenthe,Emmen,109361
Flevoland,Almere,226630
Friesland,Leeuwarden,128857
Gelderland,Apeldoorn,168212
Gelderland,Arnhem,167651
Gelderland,Ede,123489
Gelderland,Nijmegen,187011
Groningen,Groningen,243833
Limburg,Maastricht,125203
Limburg,Venlo,103785


In [65]:
df_hierarchical.index

MultiIndex([(      'Drenthe',               'Emmen'),
            (    'Flevoland',              'Almere'),
            (    'Friesland',          'Leeuwarden'),
            (   'Gelderland',           'Apeldoorn'),
            (   'Gelderland',              'Arnhem'),
            (   'Gelderland',                 'Ede'),
            (   'Gelderland',            'Nijmegen'),
            (    'Groningen',           'Groningen'),
            (      'Limburg',          'Maastricht'),
            (      'Limburg',               'Venlo'),
            ('Noord-Brabant',    ''s-Hertogenbosch'),
            ('Noord-Brabant',               'Breda'),
            ('Noord-Brabant',           'Eindhoven'),
            ('Noord-Brabant',             'Tilburg'),
            ('Noord-Holland',             'Alkmaar'),
            ('Noord-Holland',           'Amsterdam'),
            ('Noord-Holland',             'Haarlem'),
            ('Noord-Holland',      'Haarlemmermeer'),
            ('Noord-Holland'

In [74]:
df_hierarchical['Inwoners']['Noord-Holland', 'Amsterdam']

934927

In [70]:
df_hierarchical['Inwoners']['Noord-Holland', 'Amsterdam']

Naam
Alkmaar           112311
Amsterdam         934927
Haarlem           167763
Haarlemmermeer    163196
Zaanstad          161429
Name: Inwoners, dtype: int64