# Dataframes
## Er zijn verschillende manieren om een dataframe te maken
We kunnen bijvoorbeeld Series met een gemeenschappelijke index combineren. 

In [None]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict)
oppervlakte = pd.Series(oppervlakte_dict)

df_steden = pd.DataFrame({'inwoners': inwoners, 'oppervlakte':oppervlakte})
display(df_steden)

## Series met een name
Wanneer we de series een *name* geven, moeten we zelfs geen dictionary gebruiken. Maar het resultaat is misschien wel verrassend. (rijen en kolommen zijn omgewisseld) De 'name' is gebruikt als indexwaarden

In [None]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict, name='inwoners')
oppervlakte = pd.Series(oppervlakte_dict, name='oppervlakte')

df_steden = pd.DataFrame([inwoners, oppervlakte])
print(df_steden)

## Een dataframe transponeren
We hebben in NumPy gezien dat we rijen en kolommen kunnen omwisselen door te *transponeren*

In [6]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict, name='inwoners')
oppervlakte = pd.Series(oppervlakte_dict, name='oppervlakte')

df_steden = pd.DataFrame([inwoners, oppervlakte])
df_steden = df_steden.transpose() # of df_steden.T
df_steden

Unnamed: 0,inwoners,oppervlakte
Antwerpen,560000,200
Mechelen,90000,65
Leuven,100000,60
Gent,260000,155
Brugge,120000,140
Hasselt,90000,130


## Een index 'hernoemen'
We hebben gezien dat 'mutable' operaties niet zijn toegelaten voor een index. We kunnen met andere woorden een waarde in een index niet veranderen (vergelijk met een tuple of str). We kunnen echter wel de volledige index overschrijven met *rename*.

In [None]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict)
oppervlakte = pd.Series(oppervlakte_dict)

df_steden = pd.DataFrame([inwoners, oppervlakte])
df_steden = df_steden.rename({0:'inwoners', 1:'oppervlakte'})
df_steden

             Antwerpen  Mechelen  Leuven    Gent  Brugge  Hasselt
inwoners        560000     90000  100000  260000  120000    90000
oppervlakte        200        65      60     155     140      130


## Kolommen hernoemen
Wanneer we het vorige dataframe transponeren, zijn de kolomtitels 0, 1 en 2. Die kunnen we ook hernoemen:

In [None]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}

inwoners = pd.Series(inwoners_dict)
oppervlakte = pd.Series(oppervlakte_dict)

df_steden = pd.DataFrame([inwoners, oppervlakte])
df_steden = df_steden.T
df_steden = df_steden.rename(columns={0:'inwoners', 1:'oppervlakte'})
df_steden

# Vertrekken van een NumPy array
Aangezien *inwoners* en *oppervlakte* allemaal getallen zijn, kunnen we ook een NumPy array gebruiken. We moeten dan zelf nog de index- en kolomwaarden voorzien.

In [None]:
import numpy as np
import pandas as pd
steden = ['Antwerpen', 'Mechelen', 'Leuven', 'Gent', 'Brugge', 'Hasselt']
indexen = ['inwoners', 'oppervlakte']
data = np.array([560_000, 90_000, 100_000, 260_000, 120_000, 90_000, 
                 200, 65, 60, 155,140,130]).reshape(2, -1)
df_steden = pd.DataFrame(data)
#df_steden = pd.DataFrame(data, index=indexen)
#df_steden = pd.DataFrame(data, index=indexen, columns=steden)
df_steden

## Een kolom als index gebruiken
Na transponeren van het dataframe hebben we een RangeIndex() (omdat de kolomnamen 0, 1, 2, ...) waren. We kunnen de stad-kolom als index gebruiken met *set_index*

In [None]:
import numpy as np
import pandas as pd
steden = ['Antwerpen', 'Mechelen', 'Leuven', 'Gent', 'Brugge', 'Hasselt']
indexen = ['stad', 'inwoners', 'oppervlakte']
inwoners = np.array([560_000, 90_000, 100_000, 260_000, 120_000, 90_000])
oppervlakte = np.array([200, 65, 60, 155,140,130])
df_steden = pd.DataFrame([steden, inwoners, oppervlakte], index=indexen)
df_steden = df_steden.T
df_steden = df_steden.set_index('stad')
df_steden

## Een kolom toevoegen
Een kolom toevoegen is heel eenvoudig. Vergelijk dit met een *dictionary* in Python

In [None]:
import numpy as np
import pandas as pd
steden = ['Antwerpen', 'Mechelen', 'Leuven', 'Gent', 'Brugge', 'Hasselt']
indexen = ['stad', 'inwoners']
inwoners = np.array([560_000, 90_000, 100_000, 260_000, 120_000, 90_000])
oppervlakte = np.array([200, 65, 60, 155,140,130])
df_steden = pd.DataFrame([steden, inwoners], index=indexen)
df_steden = df_steden.T
df_steden = df_steden.set_index('stad')
df_steden['oppervlakte'] = oppervlakte
df_steden

## Een kolom verwijderen
Om een kolom te verwijderen hebben we een aantal alternatieven. We zien hier dat we voor de 'axis'-parameter ook een tekst kunnen gebruiken. Dat is dus een uitbreiding op de axis-parameter van NumPy. Voor heel wat mensen is 'index' of 'column' duidelijker dan 0 of 1. 

In [None]:
import pandas as pd
inwoners_dict = {"Antwerpen": 560_000, "Mechelen": 90_000, "Leuven": 100_000, "Gent": 260_000, "Brugge": 120_000, "Hasselt": 90_000}
oppervlakte_dict = {"Antwerpen": 200, "Mechelen": 65, "Leuven": 60, "Gent": 155, "Brugge": 140, "Hasselt": 130}
inwoners = pd.Series(inwoners_dict)
oppervlakte = pd.Series(oppervlakte_dict)
df_steden = pd.DataFrame({'inwoners': inwoners, 'oppervlakte':oppervlakte})
df_steden = df_steden.drop(columns='oppervlakte')
#alternatief
#df_steden = df_steden.drop('oppervlakte', axis=1)
#en nog een alternatief
#df_steden = df_steden.drop('oppervlakte', axis='columns')
df_steden