### DataFrames

In [1]:
import pandas as pd
import numpy as np

Laten we een paar manieren bekijken om `DataFrame` objecten te maken:

##### Van een lijst van Series objecten
Hier gaan we dus een Index object maken wat als index zal fungeren voor alle series die als rijen worden toegevoegd aan het DataFrame. Het index object zelf wordt niet aan het DataFrame toegevoegd, maar zit verwerkt in de series objecten.

In [31]:
# Het index object
columns = pd.Index(
    [
        'The Bronx', 
        'Brooklyn', 
        'Manhattan', 
        'Queens', 
        'Staten Island'
    ]
)

##### Enkele series ######

# "rij" counties
counties = pd.Series(
    ['Bronx', 'Kings', 'New York', 'Queens', 'Richmond'],
    index=columns,
    name='county'
)

# "rij" populations
populations = pd.Series(
    [1_418_207, 2_559_903, 1_628_706, 2_253_858, 476_143],
    index = columns,
    name='population'
)

# "rij" gdp
gdp = pd.Series(
    [42.695, 91.559, 600.244, 93.310, 14.514],
    index=columns,
    name='gdp'
)

# "rij" areas
areas = pd.Series(
    [42.10, 70.82, 22.83, 108.53, 58.37],
    index=columns,
    name='area'
)

In [32]:
new_york = pd.DataFrame([counties, populations, gdp, areas])
new_york

Unnamed: 0,The Bronx,Brooklyn,Manhattan,Queens,Staten Island
county,Bronx,Kings,New York,Queens,Richmond
population,1418207,2559903,1628706,2253858,476143
gdp,42.695,91.559,600.244,93.31,14.514
area,42.1,70.82,22.83,108.53,58.37


Zoals je kunt zien, werd de gemeenschappelijke index gebruikt voor de kolomnamen, terwijl de naam van elk series object als rijnaam wordt gebruikt, en elk series object vormt een rij.

Als we willen, kunnen we de tabel **transponeren** (de kolommen en rijen omwisselen):

In [34]:
new_york.transpose() # wijzigt het origineel niet - retourneert een nieuw df!

Unnamed: 0,county,population,gdp,area
The Bronx,Bronx,1418207,42.695,42.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


##### Uit een dictionary van Series-objecten

In [10]:
d = {
    'county': counties,
    'population': populations,
    'gdp': gdp,
    'area': areas
}

new_york = pd.DataFrame(d)
new_york

Unnamed: 0,county,population,gdp,area
The Bronx,Bronx,1418207,42.695,42.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


De dictionary-keys werden de labels voor de kolommen in het dataframe, en de rijen werden uitgelijnd op een gemeenschappelijke rijindex op basis van de series indices.

Opnieuw kunnen we deze tabel transponeren als we dat liever willen:

In [6]:
new_york.transpose()

Unnamed: 0,The Bronx,Brooklyn,Manhattan,Queens,Staten Island
county,Bronx,Kings,New York,Queens,Richmond
population,1418207,2559903,1628706,2253858,476143
gdp,42.695,91.559,600.244,93.31,14.514
area,42.1,70.82,22.83,108.53,58.37


##### Van een dictionary van dictionaries

In [12]:
counties = {
    'The Bronx': 'Bronx',
    'Brooklyn': 'Kings',
    'Manhattan': 'New York',
    'Queens': 'Queens',
    'Staten Island': 'Richmond'
}
populations = {
    # merk op dat de keys niet noodzakelijk in dezelfde volgorde staan
    'Manhattan': 1_628_706,
    'Queens': 2_253_858,
    'Staten Island': 476_143,
    'The Bronx': 1_418_207,
    'Brooklyn': 2_559_903
}
gdp = {
    'The Bronx': 42.695,
    'Brooklyn': 91.559,
    'Manhattan': 600.244,
    'Queens': 93.310,
    'Staten Island': 14.514
}
areas = {
    'The Bronx': 2.10,
    'Brooklyn': 70.82,
    'Manhattan': 22.83,
    'Queens': 108.53,
    'Staten Island': 58.37
}

d = {
    'county': counties,
    'population': populations,
    'gpd': gdp,
    'area': areas
}

new_york = pd.DataFrame(d)
new_york

Unnamed: 0,county,population,gpd,area
The Bronx,Bronx,1418207,42.695,2.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


Zoals je kunt zien werden de keys van de buitenste dictionary de kolommen van het gegevensframe, en de items in de subdictionaries werden "uitgelijnd" naar dezelfde rij-index.

##### Van een list met Dictionaries

We kunnen ook een dataframe maken van een list van dictionaries, maar in dat geval is er niets om de kolomindexwaarden te definiëren, en de manier waarop de gegevens worden geladen is iets anders.  Laat ons even proberen en zien wat er gebeurt.

In [13]:
new_york = pd.DataFrame([counties, populations, gdp, areas])
new_york

Unnamed: 0,The Bronx,Brooklyn,Manhattan,Queens,Staten Island
0,Bronx,Kings,New York,Queens,Richmond
1,1418207,2559903,1628706,2253858,476143
2,42.695,91.559,600.244,93.31,14.514
3,2.1,70.82,22.83,108.53,58.37


Merk op hoe we hier niets hoefden te definiëren voor de rij-indices, dus kregen we uiteindelijk een standaard expliciete index gebaseerd op de positie van elke rij.

We kunnen de rij-indices (de labels) hernoemen, met behulp van de `rename()` methode waarbij we de oude label en de nieuwe label specificeren met behulp van een dictionary:

In [9]:
new_york.rename(index={0: 'county', 1: 'population', 2: 'gdp', 3: 'area'})

Unnamed: 0,The Bronx,Brooklyn,Manhattan,Queens,Staten Island
county,Bronx,Kings,New York,Queens,Richmond
population,1418207,2559903,1628706,2253858,476143
gdp,42.695,91.559,600.244,93.31,14.514
area,2.1,70.82,22.83,108.53,58.37


We zouden deze matrix nu ook kunnen transponeren als we dat zouden willen:

In [10]:
new_york.rename(
    index={0: 'county', 1: 'population', 2: 'gdp', 3: 'area'}
).transpose()

Unnamed: 0,county,population,gdp,area
The Bronx,Bronx,1418207,42.695,2.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


We kunnen ook eerst de gegevens transponeren:

In [11]:
new_york

Unnamed: 0,The Bronx,Brooklyn,Manhattan,Queens,Staten Island
0,Bronx,Kings,New York,Queens,Richmond
1,1418207,2559903,1628706,2253858,476143
2,42.695,91.559,600.244,93.31,14.514
3,2.1,70.82,22.83,108.53,58.37


In [12]:
new_york = new_york.transpose()
new_york

Unnamed: 0,0,1,2,3
The Bronx,Bronx,1418207,42.695,2.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


En nu moeten we de labels op de kolomindex wijzigen, opnieuw met de `rename`-methode:

In [13]:
new_york = new_york.rename(
    columns={0: 'county', 1: 'population', 2: 'gpd', 3: 'area'}
)
new_york

Unnamed: 0,county,population,gpd,area
The Bronx,Bronx,1418207,42.695,2.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


##### Van een lijst van lijsten

In dit voorbeeld is onze data opgemaakt als een lijst van lijsten: (burroughs zijn plaatsnamen)

In [14]:
burroughs = ['The Bronx', 'Brooklyn', 'Manhattan', 'Queens', 'Staten Island']
counties = ['Bronx', 'Kings', 'New York', 'Queens', 'Richmond']
populations = [1_418_207, 2_559_903, 1_628_706, 2_253_858, 476_143]
gdp = [42.695, 91.559, 600.244, 93.310, 14.514]
areas = [42.10, 70.82, 22.83, 108.53, 58.37]

In [15]:
data = [burroughs, counties, populations, gdp, areas]
data

[['The Bronx', 'Brooklyn', 'Manhattan', 'Queens', 'Staten Island'],
 ['Bronx', 'Kings', 'New York', 'Queens', 'Richmond'],
 [1418207, 2559903, 1628706, 2253858, 476143],
 [42.695, 91.559, 600.244, 93.31, 14.514],
 [42.1, 70.82, 22.83, 108.53, 58.37]]

We kunnen het allemaal in een gegevenskader laden:

In [16]:
new_york = pd.DataFrame(
    data, 
    index=['burroughs', 'county', 'population', 'gdp', 'area']
)
new_york

Unnamed: 0,0,1,2,3,4
burroughs,The Bronx,Brooklyn,Manhattan,Queens,Staten Island
county,Bronx,Kings,New York,Queens,Richmond
population,1418207,2559903,1628706,2253858,476143
gdp,42.695,91.559,600.244,93.31,14.514
area,42.1,70.82,22.83,108.53,58.37


Hier ga ik eerst de tabel transponeren:

In [17]:
new_york = new_york.transpose()
new_york

Unnamed: 0,burroughs,county,population,gdp,area
0,The Bronx,Bronx,1418207,42.695,42.1
1,Brooklyn,Kings,2559903,91.559,70.82
2,Manhattan,New York,1628706,600.244,22.83
3,Queens,Queens,2253858,93.31,108.53
4,Staten Island,Richmond,476143,14.514,58.37


Je zult merken dat onze rij-index gebaseerd is op positionele waarden - in plaats willen we echt dat de rij-index gebaseerd is op de namen van de wijken.

Maar aangezien de 'burroughs' al een kolom is in ons gegevensframe, kunnen we eigenlijk de index instellen met behulp van die kolom, via de `set_index()` methode op het dataframe - dit stelt ons in staat om een bestaande kolom te kiezen als rij-index:

In [18]:
new_york.set_index('burroughs')

Unnamed: 0_level_0,county,population,gdp,area
burroughs,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Bronx,Bronx,1418207,42.695,42.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


We hadden elke kolom kunnen kiezen om te gebruiken als de rij-indices:

In [19]:
new_york.set_index('county')

Unnamed: 0_level_0,burroughs,population,gdp,area
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Bronx,The Bronx,1418207,42.695,42.1
Kings,Brooklyn,2559903,91.559,70.82
New York,Manhattan,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Richmond,Staten Island,476143,14.514,58.37


#### Eigenschappen van een DataFrame

De titel boven de index is de indexnaam die Pandas automatisch instelt op basis van de kolomnaam die we hebben gebruikt om de nieuwe index in te stellen.

In [20]:
new_york = new_york.set_index('burroughs')
new_york

Unnamed: 0_level_0,county,population,gdp,area
burroughs,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Bronx,Bronx,1418207,42.695,42.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


We kunnen de rij-index krijgen met behulp van de `index` eigenschap:

In [21]:
new_york.index

Index(['The Bronx', 'Brooklyn', 'Manhattan', 'Queens', 'Staten Island'], dtype='object', name='burroughs')

En we kunnen de kolomindex krijgen met behulp van de `columns` eigenschap:

In [22]:
new_york.columns

Index(['county', 'population', 'gdp', 'area'], dtype='object')

Als we zouden willen, zouden we de naam eigenschap van een van beide indexen kunnen veranderen:

In [15]:
new_york

Unnamed: 0,The Bronx,Brooklyn,Manhattan,Queens,Staten Island
0,Bronx,Kings,New York,Queens,Richmond
1,1418207,2559903,1628706,2253858,476143
2,42.695,91.559,600.244,93.31,14.514
3,2.1,70.82,22.83,108.53,58.37


In [16]:
new_york.index.name = None
new_york

Unnamed: 0,The Bronx,Brooklyn,Manhattan,Queens,Staten Island
0,Bronx,Kings,New York,Queens,Richmond
1,1418207,2559903,1628706,2253858,476143
2,42.695,91.559,600.244,93.31,14.514
3,2.1,70.82,22.83,108.53,58.37


Data frames hebben veel eigenschappen en methoden, waarvan we later in deze sectie meer zullen bestuderen, maar je kunt er meer over lezen in de Pandas documentatie:
https://pandas.pydata.org/pandas-docs/stable/reference/frame.html

Een interessante is de `info` methode:

In [17]:
new_york.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   The Bronx      4 non-null      object
 1   Brooklyn       4 non-null      object
 2   Manhattan      4 non-null      object
 3   Queens         4 non-null      object
 4   Staten Island  4 non-null      object
dtypes: object(5)
memory usage: 288.0+ bytes


Merk op hoe elke kolom van het type 'object' is? Dat is een beetje verrassend, aangezien we homogene gegevens in de kolommen hebben:

In [26]:
new_york

Unnamed: 0,county,population,gdp,area
The Bronx,Bronx,1418207,42.695,42.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


Waarom zien we geen int64 voor population en float64 voor gdp en area?

Bedenk hoe we deze dataset hebben opgebouwd:

In [18]:
burroughs = ['The Bronx', 'Brooklyn', 'Manhattan', 'Queens', 'Staten Island']
counties = ['Bronx', 'Kings', 'New York', 'Queens', 'Richmond']
populations = [1_418_207, 2_559_903, 1_628_706, 2_253_858, 476_143]
gdp = [42.695, 91.559, 600.244, 93.310, 14.514]
areas = [42.10, 70.82, 22.83, 108.53, 58.37]

data = [burroughs, counties, populations, gdp, areas]

new_york = pd.DataFrame(
    data, 
    index=['burroughs', 'county', 'population', 'gdp', 'area']
)

new_york

Unnamed: 0,0,1,2,3,4
burroughs,The Bronx,Brooklyn,Manhattan,Queens,Staten Island
county,Bronx,Kings,New York,Queens,Richmond
population,1418207,2559903,1628706,2253858,476143
gdp,42.695,91.559,600.244,93.31,14.514
area,42.1,70.82,22.83,108.53,58.37


Dit was onze oorspronkelijke dataset, en zoals je kunt zien zijn de kolommen niet homogeen, en onze data is opgeslagen met behulp van het generieke `object`:

In [19]:
new_york.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, burroughs to area
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       5 non-null      object
 1   1       5 non-null      object
 2   2       5 non-null      object
 3   3       5 non-null      object
 4   4       5 non-null      object
dtypes: object(5)
memory usage: 240.0+ bytes


Vervolgens hebben we getransponeerd en de indices hernoemd, maar het onderliggende gegevenstype van elke waarde in de tabel was `object` en dat blijft hetzelfde:

In [20]:
new_york = new_york.transpose()
new_york = new_york.set_index('burroughs')
new_york

Unnamed: 0_level_0,county,population,gdp,area
burroughs,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Bronx,Bronx,1418207,42.695,42.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


In [21]:
new_york.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, The Bronx to Staten Island
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   county      5 non-null      object
 1   population  5 non-null      object
 2   gdp         5 non-null      object
 3   area        5 non-null      object
dtypes: object(4)
memory usage: 200.0+ bytes


Als we de gegevens direct in homogene kolommen hadden geladen, zouden we verschillende datatypen zien die worden gebruikt:

In [22]:
counties = pd.Series(
    ['Bronx', 'Kings', 'New York', 'Queens', 'Richmond'],
    index=columns,
    name='county'
)
populations = pd.Series(
    [1_418_207, 2_559_903, 1_628_706, 2_253_858, 476_143],
    index = columns,
    name='population'
)
gdp = pd.Series(
    [42.695, 91.559, 600.244, 93.310, 14.514],
    index=columns,
    name='gdp'
)
areas = pd.Series(
    [42.10, 70.82, 22.83, 108.53, 58.37],
    index=columns,
    name='area'
)

d = {
    'county': counties,
    'population': populations,
    'gdp': gdp,
    'area': areas
}

new_york_homogeneous = pd.DataFrame(d)
new_york_homogeneous

Unnamed: 0,county,population,gdp,area
The Bronx,Bronx,1418207,42.695,42.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


In [23]:
new_york_homogeneous.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, The Bronx to Staten Island
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   county      5 non-null      object 
 1   population  5 non-null      int64  
 2   gdp         5 non-null      float64
 3   area        5 non-null      float64
dtypes: float64(2), int64(1), object(1)
memory usage: 372.0+ bytes


We kunnen het gegevenstype van een kolom wijzigen - dit zien we later nog.

Eén laatste operatie die we zullen bekijken, is hoe we rijen of kolommen uit ons dataframe kunnen verwijderen.

Net zoals we hebben gezien met `Series` objecten, kunnen we de `drop()` methode gebruiken.

Het verschil hier is dat we mogelijk een rij of een kolom willen verwijderen.

We kunnen (één of meer) kolommen verwijderen door het specificeren van het `columns` argument in de `drop()` methode - het argument kan ofwel een enkele kolomnaam zijn of een lijst van kolomnamen:

In [24]:
new_york

Unnamed: 0_level_0,county,population,gdp,area
burroughs,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
The Bronx,Bronx,1418207,42.695,42.1
Brooklyn,Kings,2559903,91.559,70.82
Manhattan,New York,1628706,600.244,22.83
Queens,Queens,2253858,93.31,108.53
Staten Island,Richmond,476143,14.514,58.37


In [25]:
new_df = new_york.drop(columns='county')
new_df

Unnamed: 0_level_0,population,gdp,area
burroughs,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
The Bronx,1418207,42.695,42.1
Brooklyn,2559903,91.559,70.82
Manhattan,1628706,600.244,22.83
Queens,2253858,93.31,108.53
Staten Island,476143,14.514,58.37


En we kunnen rijen op dezelfde manier verwijderen door de `index` parameter te gebruiken. Opnieuw kan de parameter een enkele rijlabel zijn, of een lijst van rijlabels:

In [26]:
new_df = new_df.drop(index=['Brooklyn', 'Queens'])
new_df

Unnamed: 0_level_0,population,gdp,area
burroughs,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
The Bronx,1418207,42.695,42.1
Manhattan,1628706,600.244,22.83
Staten Island,476143,14.514,58.37


##### Hernoemen van Index Labels

Laten we als slot nog eens kijken naar de `rename()` methode - er zijn een paar manieren waarop we deze methode kunnen gebruiken om de indexlabels opnieuw te definiëren.

In [27]:
df = pd.DataFrame(
    np.arange(9).reshape(3, 3),
    index = list('ABC'),
    columns = list('abc')
)
df

Unnamed: 0,a,b,c
A,0,1,2
B,3,4,5
C,6,7,8


We zagen hoe we de indexlabels van zowel kolommen als rijen konden hernoemen met behulp van een dictionary om van het oude indexlabel naar het nieuwe indexlabel te mappen:

In [28]:
df.rename(
    columns={'a': 'aa', 'b': 'bb', 'c': 'cc'},
    index={'A': 'AA', 'B': 'BB', 'C': 'CC'}
)

Unnamed: 0,aa,bb,cc
AA,0,1,2
BB,3,4,5
CC,6,7,8


Maar als we slechts een subset van de labels willen hernoemen, kunnen we gewoon specificeren welke we willen hernoemen:

In [29]:
df.rename(
    columns={'a': 'aa'},
    index={'A': 'AA'}
)

Unnamed: 0,aa,b,c
AA,0,1,2
B,3,4,5
C,6,7,8
