# Data Frames in Python

Tabellen zijn een uitstekende manier om data gestructureerd op te slaan. Python heeft standaard geen structuur om een tabel te maken. Hiervoor moet een extra module worden geinstalleerd en gebruikt. Een van de meest populaire modules hiervoor is `pandas`. Deze module heeft de `DataFrame` datatype, het ideale datatype om data in een tabel op te slaan. Pandas is een van de meest populaire modules om met tabellen te werken. Veel Data Analisten en Data Scientists die hun werk in Python doen, gebruiken de *Pandas* module om data te analyseren en de structuren.

In deze module leer je o.a. hoe je een Data Frame aanmaakt, gebruikt, structureerd, analyseert en andere handige acties.

## De Pandas module in Python

Pandas is een module die niet standaard in Python inbegrepen is bij de installatie. Daarom moet de Pandas-module geinstalleerd worden. Hiervoor gebruiken we gewoon `pip`. In het Command Prompt of in de Terminal gebruiken we:

`pip install pandas`

Als pandas geinstalleerd is, kunnen wij deze gebruiken in onze Python scripts of notebooks. Om het makkelijker te maken, gebruiken we een *alias* om pandas te gebruiken in ons script. We importeren de `pandas` module als `pd`. Dit stelt ons in staat om voor functies die uit de pandas-module komen met `pd` in plaats van het volledige woord `pandas`. Dit doen we als volgt:

In [1]:
import pandas as pd

We kunnen nu het `pd` command gebruiken om allerlei functies uit de pandas module te gebruiken.

## Een data frame maken in pandas vanuit een lijst

We kunnen een data frame vanaf het begin opbouwen. Een makkelijke manier om dit te doen is aan de hand van lijsten (`list`). Laten we een tabel (data frame) maken met daarin namen van personen, de leeftijden van deze personen en hun woonplaats. Hiervoor maken wij eerst 3 aparte lijsten.

In [2]:
# we maken 3 lijsten
names = ["John", "Jane", "William", "Bob", "Winston", "Rose", "Bill", "Jeanet"]
ages  = [34, 36, 25, 21, 8 , 25, 63, 22]
city  = ["Amsterdam", "New York", "Amsterdam", "Rotterdam", "Barcelona", "New York", "Amsterdam", "New York"]

In [3]:
# De data frame maken
team_df = pd.DataFrame(
{'names': names,
 'ages' : ages,
 'city' : city  
})

Dit levert de tabel/data frame op die we willen zien.

In [4]:
team_df

Unnamed: 0,ages,city,names
0,34,Amsterdam,John
1,36,New York,Jane
2,25,Amsterdam,William
3,21,Rotterdam,Bob
4,8,Barcelona,Winston
5,25,New York,Rose
6,63,Amsterdam,Bill
7,22,New York,Jeanet


## Data Frame bewerkingen

Nu we een data frame hebben, kunnen we er allerlei bewerkingen op uitvoeren. Laten we een iets meer uitgebreide data frame nemen als voorbeed dan wie wij zojuist gemaakt hebben. We gaan een dataset gebruiken die standaard in de `ggplot` module is inbegrepen, de `mtcars` dataset. Deze dataset bevat verschillende informatie opgeslagen in kolommen over een aantal auto's, een mooie dataset om een aantal functies van pandas Data Frames te demonstreren.

Hiervoor moeten we eerst de `ggplot` module installeren.

`pip install ggplot`

In [5]:
from ggplot import mtcars

You can access Timestamp as pandas.Timestamp
  pd.tslib.Timestamp,
  from pandas.lib import Timestamp
  from pandas.core import datetools


In [6]:
mtcars

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


### Kolommen en rijen selecteren

In [7]:
# Selecteer de eerste rij
mtcars.iloc[0]

name    Mazda RX4
mpg            21
cyl             6
disp          160
hp            110
drat          3.9
wt           2.62
qsec        16.46
vs              0
am              1
gear            4
carb            4
Name: 0, dtype: object

In [8]:
# Selecteer de eerste kolom: gebruik de naam van de kolom
mtcars['name']

0               Mazda RX4
1           Mazda RX4 Wag
2              Datsun 710
3          Hornet 4 Drive
4       Hornet Sportabout
5                 Valiant
6              Duster 360
7               Merc 240D
8                Merc 230
9                Merc 280
10              Merc 280C
11             Merc 450SE
12             Merc 450SL
13            Merc 450SLC
14     Cadillac Fleetwood
15    Lincoln Continental
16      Chrysler Imperial
17               Fiat 128
18            Honda Civic
19         Toyota Corolla
20          Toyota Corona
21       Dodge Challenger
22            AMC Javelin
23             Camaro Z28
24       Pontiac Firebird
25              Fiat X1-9
26          Porsche 914-2
27           Lotus Europa
28         Ford Pantera L
29           Ferrari Dino
30          Maserati Bora
31             Volvo 142E
Name: name, dtype: object

### Meerdere rijen en kolommen selecteren

In [9]:
# rij 4 tot 6 selecteren
mtcars.iloc[4:6]

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1


In [10]:
# rijen 1, 3 en 6 selecteren
mtcars.iloc[[1,3,6]]

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4


In [11]:
# de 'name' en 'hp' kolom selecteren
mtcars[['name', 'hp']]

Unnamed: 0,name,hp
0,Mazda RX4,110
1,Mazda RX4 Wag,110
2,Datsun 710,93
3,Hornet 4 Drive,110
4,Hornet Sportabout,175
5,Valiant,105
6,Duster 360,245
7,Merc 240D,62
8,Merc 230,95
9,Merc 280,123


### Een specifiek datapunt uit de dataframe selecteren

In [12]:
# hoeveel 'hp' heeft de Ferrari Dino?
mtcars['hp'][(mtcars['name'] == 'Ferrari Dino')]

29    175
Name: hp, dtype: int64

### Filters toepassen op data frames

In [13]:
# Filteren op auto's die meer dan 200 hp hebben
mtcars[(mtcars['hp'] >= 200)]

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
14,Cadillac Fleetwood,10.4,8,472.0,205,2.93,5.25,17.98,0,0,3,4
15,Lincoln Continental,10.4,8,460.0,215,3.0,5.424,17.82,0,0,3,4
16,Chrysler Imperial,14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4
23,Camaro Z28,13.3,8,350.0,245,3.73,3.84,15.41,0,0,3,4
28,Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
30,Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8


In [14]:
# Filteren op auto's die meer dan 200 hp hebben en meer dan 3 gear
mtcars[(mtcars['hp'] >= 200) & (mtcars['gear'] > 3)]

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
28,Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4
30,Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8


In [15]:
# Alle Toyota's selecteren
mtcars[mtcars['name'].str.contains("Toyota")]

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
19,Toyota Corolla,33.9,4,71.1,65,4.22,1.835,19.9,1,1,4,1
20,Toyota Corona,21.5,4,120.1,97,3.7,2.465,20.01,1,0,3,1


## Dataframe rangschrikken

In [68]:
mtcars_sorted = mtcars.sort_values(['hp'], ascending = False)
mtcars_sorted.head(n=5)

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,transmission
30,Maserati Bora,15.0,8,301.0,335,3.54,3.57,14.6,0,1,5,8,automatic
28,Ford Pantera L,15.8,8,351.0,264,4.22,3.17,14.5,0,1,5,4,automatic
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4,manual
23,Camaro Z28,13.3,8,350.0,245,3.73,3.84,15.41,0,0,3,4,manual
16,Chrysler Imperial,14.7,8,440.0,230,3.23,5.345,17.42,0,0,3,4,manual


## Een gecalculeerde kolom maken

Het is mogelijk om gecalculeerde kolommen te maken. Dit zijn kolommen die een waarde bevatten op basis van een berekening of conditie van waarden in andere kolommen. Hiervoor kunnen we de `where` functie gebruiken uit de `numpy` module.

In [16]:
import numpy as np
mtcars['transmission'] = np.where(mtcars['am'] == 1, 'automatic', 'manual')

In [17]:
# de eerste 5 rijen van de data frame laten zien om de
# nieuwe 'transmission' kolom te bekijken
mtcars.head(n=5)

Unnamed: 0,name,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,transmission
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4,automatic
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4,automatic
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,automatic
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,manual
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2,manual


## Datatypen in Data frames

Data frames kunnen verschillende datatypen bevatten zoals numerieke waarden, datums of tekst. Voor de volgende voorbeelden gaan we de data frame gebruiken die we aan het begin van dit hoofdstuk zelf samengesteld hebben.

In [18]:
# de datatypes bekijken van de 'team_df' data frame
team_df.dtypes

ages      int64
city     object
names    object
dtype: object

In [19]:
team_df

Unnamed: 0,ages,city,names
0,34,Amsterdam,John
1,36,New York,Jane
2,25,Amsterdam,William
3,21,Rotterdam,Bob
4,8,Barcelona,Winston
5,25,New York,Rose
6,63,Amsterdam,Bill
7,22,New York,Jeanet


### Datums toevoegen als "date" datatype

Zie hoofdstuk 3, "Kennismaking met de Python syntax", om terug te zien hoe je met datums kun werken in Python.

In [20]:
# we maken een lijst met datums
startdate = ["2013-01-11", "2010-05-13", "2016-03-03", "2018-01-02", "2013-09-25", "2016-12-22", "1998-11-30", "2017-10-10"]
team_df['startdate'] = startdate

In [21]:
# de 'startdatum' kolom heeft nog geen 'date' als datatype
team_df.dtypes

ages          int64
city         object
names        object
startdate    object
dtype: object

In [25]:
# datatype converteren naar datum-datatype
team_df['startdate'] = pd.to_datetime(team_df['startdate'])
team_df.dtypes

ages                  int64
city                 object
names                object
startdate    datetime64[ns]
dtype: object

In [26]:
team_df.head(n=5)

Unnamed: 0,ages,city,names,startdate
0,34,Amsterdam,John,2013-01-11
1,36,New York,Jane,2010-05-13
2,25,Amsterdam,William,2016-03-03
3,21,Rotterdam,Bob,2018-01-02
4,8,Barcelona,Winston,2013-09-25


In [48]:
import calendar

# een kolom maken met de maandnummer
team_df['startmonth'] = team_df['startdate'].dt.month

# een kolom maken met de maandnaam
team_df['startmonthname'] = team_df['startmonth'].apply(lambda x: calendar.month_abbr[x])

team_df

Unnamed: 0,ages,city,names,startdate,startmonth,startmonthname
0,34,Amsterdam,John,2013-01-11,1,Jan
1,36,New York,Jane,2010-05-13,5,May
2,25,Amsterdam,William,2016-03-03,3,Mar
3,21,Rotterdam,Bob,2018-01-02,1,Jan
4,8,Barcelona,Winston,2013-09-25,9,Sep
5,25,New York,Rose,2016-12-22,12,Dec
6,63,Amsterdam,Bill,1998-11-30,11,Nov
7,22,New York,Jeanet,2017-10-10,10,Oct


In [60]:
# een kolom toevoegen die aangeeft hoeveel dagen iemand al in het team zit
today = datetime.datetime.now().date()
team_df['daysInTeam'] = today - team_df['startdate']
team_df

Unnamed: 0,ages,city,names,startdate,startmonth,startmonthname,daysInTeam
0,34,Amsterdam,John,2013-01-11,1,Jan,1871 days
1,36,New York,Jane,2010-05-13,5,May,2845 days
2,25,Amsterdam,William,2016-03-03,3,Mar,724 days
3,21,Rotterdam,Bob,2018-01-02,1,Jan,54 days
4,8,Barcelona,Winston,2013-09-25,9,Sep,1614 days
5,25,New York,Rose,2016-12-22,12,Dec,430 days
6,63,Amsterdam,Bill,1998-11-30,11,Nov,7027 days
7,22,New York,Jeanet,2017-10-10,10,Oct,138 days
