# Pandas – voorbeelden

In dit notebook vind je de volgende voorbeelden:
- <a href="#pandas_vb1"> Introductie DataFrame </a>
- <a href="#pandas_vb2"> Werken met databestanden </a> 
- <a href="#pandas_vb3">Samenvoegen van DataFrames</a> 
- <a href="#pandas_vb4">Complexere acties</a> 

<a id="pandas_vb1"></a>
## Voorbeeld 1 Introductie DataFrame
De DataFrame Data Structure is bedoeld voor het opslaan en verwerken van twee-dimensionale gegevens.
Je kunt dit vergelijken met de inhoud van een database tabel. 
In dit voorbeeld bekijken we hoe je een dataframe aanmaakt, hoe je gegevens selecteert en hoe je data wijzigt.

Er is ook een een-dimensionale datastructuur: Series. Hier gaan we in dit voorbeeld verder niet op in, maar je kunt hier de documentatie vinden https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html.

*bronvermelding: 
Dit notebook komt van de Coursera cursus 
Introduction to Data Science in Python - week 2
University of Michigan.*

In [1]:
# importeren van de numpy en pandas bibliotheek; Pandas gebruikt NumPy bij verwerkingen
import numpy as np
import pandas as pd

In de praktijk zal een DataFrame vaak gevuld worden met data uit een bronbestand zoals een .csv file. Om de werking van een DataFrame uit te leggen, starten we nu echter met het handmatig vullen van een DataFrame. 

In [3]:
# Aanmaken van een DataFrame door drie series toe te voegen:
# - verkoopgegevens van drie winkels in een Pandas Series zetten

purchase_1 = pd.Series({'Name': 'Chris',
                        'Item Purchased': 'Dog Food',
                        'Cost': 22.50})
purchase_2 = pd.Series({'Name': 'Kevyn',
                        'Item Purchased': 'Kitty Litter',
                        'Cost': 2.50})
purchase_3 = pd.Series({'Name': 'Vinod',
                        'Item Purchased': 'Bird Seed',
                        'Cost': 5.00})

# De gegevens omzetten naar een dataframe doe je door de series te combineren.
# Voordat je dat kunt doen, moet je zowel voor de kolommen als de rijen een 'index' bepalen.
# Zo'n index is een unieke waarde waarmee we straks kunnen gaan zoeken naar specifieke data.
# - De index van de kolommen is simpelweg de naam van die kolom: die is uniek. Met de kolomnaam kun je dus een deel van de data verticaal selecteren.
# - De rij index moeten we toevoegen: dat moet een waarde zijn die liefst uniek is, maar dat hoeft niet. Met deze index kunnen we data horizontaal selecteren.
df = pd.DataFrame([purchase_1, purchase_2, purchase_3], index=['Store 1', 'Store 1', 'Store 2'])

#afdrukken van de dataframe variabele
df

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5
Store 2,Vinod,Bird Seed,5.0


### Selecteren van gegevens

Het selecteren van gegevens is een belangrijk onderdeel tijdens de data understanding fase. Een DataFrame is vaak erg groot (veel rijen en veel kolommen) en om inzicht te krijgen in de data zul je vaak zoekacties uitvoeren om slechts een aantal kolommen of aantal rijen van het DataFrame te bekijken. 

Hieronder tonen we een aantal manieren om data te selecteren.

In [5]:
# Wanneer je van een specifieke index de data wilt oproepen, gebruik je de expliciete key
df.loc['Store 2']

Name                  Vinod
Item Purchased    Bird Seed
Cost                    5.0
Name: Store 2, dtype: object

In [6]:
# een index hoeft niet uniek te zijn: dan worden alle rijen getoond als een datastructuur
df.loc['Store 1']

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5


In [7]:
# Je kunt ook de data van een specifieke rij opvragen met behulp van de impliciete key
df.iloc[0]

Name                 Chris
Item Purchased    Dog Food
Cost                  22.5
Name: Store 1, dtype: object

In [8]:
# Naast rijen, kun je ook kolommen selecteren, gebruik dan de naam van de kolom
# Het resultaat is een Series
df['Cost']

Store 1    22.5
Store 1     2.5
Store 2     5.0
Name: Cost, dtype: float64

In [9]:
# Maar je kunt ook als resultaat een DataFrame met 1 kolom creëren
df[['Cost']]

Unnamed: 0,Cost
Store 1,22.5
Store 1,2.5
Store 2,5.0


In [10]:
# Opvragen van meerdere kolommen met waarden. let op de dubbele [[ ]] die nodig zijn !!
# Het resultaat moet in dit geval een DataFrame zijn omdat een Series niet meerdere kolommen kan bevatten.
df[['Cost','Name']]

Unnamed: 0,Cost,Name
Store 1,22.5,Chris
Store 1,2.5,Kevyn
Store 2,5.0,Vinod


In [11]:
# Opvragen van een combinatie van een rij en een kolom. 
# Let op de komma: er zijn nu 2 parameters voor .loc. De eerste is voor de rij, de tweede voor de kolom.
df.loc['Store 2','Cost']

np.float64(5.0)

In [12]:
# Stel dat je de gegevens van 'Store 1' en 'Store 2' wilt tonen, dan geeft dit commando een fout
# df.loc['Store 1', 'Store 2']
# Dat komt omdat .loc een rij en een kolom verwacht en nu twee rijen als input krijgt

# Wanneer je wilt zoeken op twee rijen, verwacht .loc één parameter die bestaat uit twéé inputs: 
df.loc[['Store 1', 'Store 2']]

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5
Store 2,Vinod,Bird Seed,5.0


In [13]:
# Om het allemaal nog verwarrender te maken kan soms de ',' kommma vervangen worden door ][
# Probeer zelf de volgende maar eens uit
#df.loc['Store 1','Cost']
#df.loc['Store 1']['Cost']
#df.loc['Store 1'][['Name','Cost']]

In [15]:
# Met behulp van de reeks ":" aanduiding kan een vanaf - tot/met waarde opgegeven worden
df.loc['Store 1':'Store 2','Name':'Cost']  # alle rijen vanaf Store 1 t/m Store 2 en de kolommen Cost t/m Name


Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5
Store 2,Vinod,Bird Seed,5.0


### Complexere selecties

In de praktijk zul je vaak de eerste *x* of laatste *y* rijen willen tonen om een beetje inzicht te krijgen in de data.

In [16]:
# Selectie van meerdere rij nummers
df.iloc[[0,2]]

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 2,Vinod,Bird Seed,5.0


In [17]:
# Selectie van meerdere rij nummers met het ':' teken
# Hiermee haal je rows 0 tot 2 op, dus niet tot en met!
df[0:2] 

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5


In [18]:
# Let op: als je met de expliciete key werk, is het wél tot EN MET
df['Store 1':'Store 2'] 

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 1,Kevyn,Kitty Litter,2.5
Store 2,Vinod,Bird Seed,5.0


### Logische selecties

Het selecteren hierboven is interessant wanneer je weet waar je naar op zoek bent: specifieke rijen of kolommen. Logische selecties kun je gebruiken om inzicht te krijgen in de inhoud van het DataFrame. Je kunt zoeken naar data die groter of kleiner is dan een bepaald getal of gelijk is aan bepaalde tekst.

In [19]:
# Alle rijen met Cost >= 5
df[df['Cost'] >= 5]

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 2,Vinod,Bird Seed,5.0


**Uitleg**

De aanroep die hierboven gebruikt wordt, kan wat verwarrend zijn. Je ziet twee keer de naam van het DataFrame df bijvoorbeeld. Laten we deze analyseren van buiten naar binnen toe.

- De buitenste laag is `df[...]`, die hebben we hierboven ook al gezien: hier wordt een bepaalde kolom geselecteerd, zoals met `df['Cost']`
- De binnenste laag is `df['Cost'] >= 5`, dat is een conditie.

Deze aanroep toont dus de waardes van de kolom 'Cost' die voldoen aan deze conditie.

In [20]:
# Alle namen met Cost >= 5
df['Name'][df['Cost'] >= 5]

Store 1    Chris
Store 2    Vinod
Name: Name, dtype: object

Als je een kolom wilt tonen, anders dan diegene waar je de conditie op toepast, moet je die apart noemen. 

1. Je start dus met de selectie `df['Name']`
2. Daarna volgt de conditie `[df['Cost'] > = 5]`, let op: die conditie staat dus ook tussen brackets.

Het is dus eigenlijk `df[KOLOM][CONDITIE]`

Een alternatieve manier om dit te doen is met behulp van een query. Bijvoorbeeld:

In [21]:
df.query('Cost>=5')

Unnamed: 0,Name,Item Purchased,Cost
Store 1,Chris,Dog Food,22.5
Store 2,Vinod,Bird Seed,5.0


### Wijzigen van kolommen en rijen

Je kunt ook met behulp van een berekening nieuwe informatie toevoegen aan het DataFrame, zoals hieronder gebeurt voor de kolom `Bedrag`. Dit zul je in de praktijk vaak doen tijdens de *data preparation* fase.

In [22]:
#toevoegen van een kolom
df['Amount'] = [5, 7, 9]    # met een waarde voor elke regel
df['Location'] = 'Utrecht'  # met enkele waarde: wordt aan elke regel toegekend
df

Unnamed: 0,Name,Item Purchased,Cost,Amount,Location
Store 1,Chris,Dog Food,22.5,5,Utrecht
Store 1,Kevyn,Kitty Litter,2.5,7,Utrecht
Store 2,Vinod,Bird Seed,5.0,9,Utrecht


In [23]:
# Toevoegen van een berekende kolom
df['Bedrag'] = df['Cost'] * df['Amount']
df

Unnamed: 0,Name,Item Purchased,Cost,Amount,Location,Bedrag
Store 1,Chris,Dog Food,22.5,5,Utrecht,112.5
Store 1,Kevyn,Kitty Litter,2.5,7,Utrecht,17.5
Store 2,Vinod,Bird Seed,5.0,9,Utrecht,45.0


Je kunt ook informatie verwijderen met behulp van .drop(). Hiermee kun je rijen of kolom verwijderen.

In [24]:
# het laten vervallen van een rij
df.drop('Store 1')

Unnamed: 0,Name,Item Purchased,Cost,Amount,Location,Bedrag
Store 2,Vinod,Bird Seed,5.0,9,Utrecht,45.0


**Let op!**

De `.drop`-functie beschermt je tegen het perongeluk verwijderen van data. Deze functie creëert een kopie van het DataFrame.

Het df-DataFrame is ongewijzigd gebleven. Je zult dus een nieuw DataFrame moeten aanmaken wanneer je met `.drop` wilt werken.

In [25]:
# dropna maaakt een kopie van de data, origineel is nog aanwezig
df

Unnamed: 0,Name,Item Purchased,Cost,Amount,Location,Bedrag
Store 1,Chris,Dog Food,22.5,5,Utrecht,112.5
Store 1,Kevyn,Kitty Litter,2.5,7,Utrecht,17.5
Store 2,Vinod,Bird Seed,5.0,9,Utrecht,45.0


In [26]:
# Maken van een kopie waaruit de rijen met Store 1 verdwenen zijn:
copy_df = df.copy()
copy_df = copy_df.drop('Store 1')
copy_df

Unnamed: 0,Name,Item Purchased,Cost,Amount,Location,Bedrag
Store 2,Vinod,Bird Seed,5.0,9,Utrecht,45.0


In [27]:
# verwijderen van een kolom
copy_df = copy_df.drop('Location', axis=1)
copy_df

Unnamed: 0,Name,Item Purchased,Cost,Amount,Bedrag
Store 2,Vinod,Bird Seed,5.0,9,45.0


**Uitleg**

Door het `axis` argument te gebruiken, kun je aangeven in welke dimensie je wilt verwijderen. `axis = 0` is de defaultwaarde die staat voor rijen. Die hoef je dus niet te gebruiken, zoals we eerder ook niet gedaan hebben.

Als je afwijkt van de default en een kolom wilt verwijderen, moet je dat argument dus wel meegeven.

<a id="pd_vb_vraag1"></a>
### Vraag bij voorbeeld 1

In bovenstaand voorbeeld notebook zie je dat je er in het DataFrame op twee manieren gezocht wordt:
- Met df.loc['Store 1']
- Met df['Cost']

Beargumenteer wat het verschil is tussen beide zoekacties. Probeer termen als horizontaal en verticaal zoeken, index en kolommen te gebruiken.


In [32]:
# DataFrame.loc[x] wordt gebruikt om rijen te kiezen, ookwel horizontaal zoeken. Je gebruikt dus de indices. Zonder .loc() pak je kolommen
# Hieronder pak ik eerst de rijen met "Store 1" en daarvan de kolom namen. Daarna doe ik dat andersom. Zo zie je dat de volgorde ook niet uitmaakt.
df.loc["Store 1"]["Name"] == df["Name"].loc["Store 1"]

Store 1    True
Store 1    True
Name: Name, dtype: bool

<a id="pandas_vb2"></a>
## Voorbeeld 2 - Werken met databestanden
In dit tweede voorbeeld gaan we kijken naar het inlezen van bestanden en kijken hoe we grotere databestanden kunnen analyseren.

*Bronvermelding: 
Dit voorbeeld komt van de Coursera cursus 
Introduction to Data Science in Python - week 2
University of Michigan.*

In [33]:
# importeren van de numpy en pandas bibliotheek; Pandas gebruikt NumPy bij verwerkingen
import numpy as np
import pandas as pd

### Inlezen van bestanden

In de praktijk worden externe databronnen gebruikt om een DataFrame te vullen. Een veelgebruikt formaat zijn Comma Separated Files: csv-bestanden.  

In [34]:
# inlezen van een csv-bestand en tonen van de eerste 5 rijen
med = pd.read_csv('pandas_olympics.csv')
med.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15
0,,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !,02 !,03 !,Total,№ Games,01 !,02 !,03 !,Combined total
1,Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
2,Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
3,Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
4,Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12


**Let op**

De eerste rij ziet er een beetje raar uit. Als je het csv-bestand opent, zie je dat de eerste rij de kolomnamen bevat. Je ziet ook dat er een extra kolom is aangemaakt met een index voor elke rij.

We moeten het csv-bestand dus op een andere manier importeren.

In [35]:
# Bovenste rij importeren we niet als data en pandas is zo slim om die rij als kolomnamen te gebruiken. 
# Daarnaast voegen we een index toe: de eerste kolom (de landnamen want die zijn uniek).
med = pd.read_csv('pandas_olympics.csv', index_col = 0, skiprows=1)
med.head()

Unnamed: 0,№ Summer,01 !,02 !,03 !,Total,№ Winter,01 !.1,02 !.1,03 !.1,Total.1,№ Games,01 !.2,02 !.2,03 !.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


Je ziet nu in het DataFrame de landnamen als index van de rijen en de kolomnamen als index van de kolommen.

In [36]:
# We zullen later zien dat het opvragen van de kolomnamen heel handig is:
med.columns

Index(['№ Summer', '01 !', '02 !', '03 !', 'Total', '№ Winter', '01 !.1',
       '02 !.1', '03 !.1', 'Total.1', '№ Games', '01 !.2', '02 !.2', '03 !.2',
       'Combined total'],
      dtype='object')

Met dit array van namen kun je later makkelijk kolommen selecteren waarop je jouw model gaat trainen. Dat is handiger dan de kolommen zelf te typen want vaak zitten er slordigheden in databestanden zoals rare tekens, verborgen spaties en andere ongein die je een halve dag debuggen kunnen kosten :-)

In [37]:
# De kolomnamen zeggen nu niet zoveel. Het blijkt dat '01' staat voor 'Gold', '02' voor 'Silver' en '03' voor 'Bronze'.
# Met een simpel scriptje kunnen we die namen aanpassen

# We gaan loopen over alle waardes van med.columns
# We kijken naar de eerste twee karakters van deze waarde
# Indien nodig passen we de waardes aan.
for col in med.columns:
    if col[:2]=='01':
        med.rename(columns={col:'Gold' + col[4:]}, inplace=True)
    if col[:2]=='02':
        med.rename(columns={col:'Silver' + col[4:]}, inplace=True)
    if col[:2]=='03':
        med.rename(columns={col:'Bronze' + col[4:]}, inplace=True)
    if col[:1]=='№':
        med.rename(columns={col:'#' + col[1:]}, inplace=True) 

med.head()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Afghanistan (AFG),13,0,0,2,2,0,0,0,0,0,13,0,0,2,2
Algeria (ALG),12,5,2,8,15,3,0,0,0,0,15,5,2,8,15
Argentina (ARG),23,18,24,28,70,18,0,0,0,0,41,18,24,28,70
Armenia (ARM),5,1,2,9,12,6,0,0,0,0,11,1,2,9,12
Australasia (ANZ) [ANZ],2,3,4,5,12,0,0,0,0,0,2,3,4,5,12


### Eerste analyse

Er zijn een aantal analyses waar je vaak mee start.

In [38]:
# De centrum- en spreidingsmaten van de kwantitatieve variabelen in één oogopslag bekijken
med.describe()

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
count,147.0,147.0,147.0,147.0,147.0,147.0,147.0,147.0,147.0,147.0,147.0,147.0,147.0,147.0,147.0
mean,13.47619,65.428571,64.965986,69.795918,200.190476,6.70068,13.047619,13.034014,12.897959,38.979592,20.176871,78.47619,78.0,82.693878,239.170068
std,7.072359,405.54999,399.30996,427.187344,1231.306297,7.433186,80.799204,80.634421,79.588388,240.917324,13.257048,485.013378,478.860334,505.85511,1469.067883
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,1.0
25%,8.0,0.0,1.0,1.0,2.0,0.0,0.0,0.0,0.0,0.0,11.0,0.0,1.0,1.0,2.5
50%,13.0,3.0,4.0,6.0,12.0,5.0,0.0,0.0,0.0,0.0,15.0,3.0,4.0,7.0,12.0
75%,18.5,24.0,28.0,29.0,86.0,10.0,1.0,2.0,1.0,5.0,27.0,25.5,29.0,32.5,89.0
max,27.0,4809.0,4775.0,5130.0,14714.0,22.0,959.0,958.0,948.0,2865.0,49.0,5768.0,5733.0,6078.0,17579.0


In [39]:
# Overzicht van de inhoud: het aantal niet-missende waardes en het datatype
med.info()

<class 'pandas.core.frame.DataFrame'>
Index: 147 entries, Afghanistan (AFG) to Totals
Data columns (total 15 columns):
 #   Column          Non-Null Count  Dtype
---  ------          --------------  -----
 0   # Summer        147 non-null    int64
 1   Gold            147 non-null    int64
 2   Silver          147 non-null    int64
 3   Bronze          147 non-null    int64
 4   Total           147 non-null    int64
 5   # Winter        147 non-null    int64
 6   Gold.1          147 non-null    int64
 7   Silver.1        147 non-null    int64
 8   Bronze.1        147 non-null    int64
 9   Total.1         147 non-null    int64
 10  # Games         147 non-null    int64
 11  Gold.2          147 non-null    int64
 12  Silver.2        147 non-null    int64
 13  Bronze.2        147 non-null    int64
 14  Combined total  147 non-null    int64
dtypes: int64(15)
memory usage: 18.4+ KB


### Queriën van data

We hebben in het vorige notebook al gezien hoe we data kunnen selecteren met de keys en met logische selecties. We gaan nu ook een aantal queries gebruiken voor een meer geavanceerde analyse.

In [40]:
# Bepalen van welke landen minimaal 1 gouden medaille hebben
med['Gold'] > 0

Afghanistan (AFG)                               False
Algeria (ALG)                                    True
Argentina (ARG)                                  True
Armenia (ARM)                                    True
Australasia (ANZ) [ANZ]                          True
                                                ...  
Independent Olympic Participants (IOP) [IOP]    False
Zambia (ZAM) [ZAM]                              False
Zimbabwe (ZIM) [ZIM]                             True
Mixed team (ZZX) [ZZX]                           True
Totals                                           True
Name: Gold, Length: 147, dtype: bool

Deze aanroep levert een overzicht op waar we niet zo veel mee kunnen. De volgende aanroep zorgt ervoor dat de landen die minimaal 1 gouden medaille hebben opgeslagen worden in een nieuw DataFrame. 

In [41]:
# bepalen van de gegevens rijen met minimaal 1 gouden medaille tijdens de zomerspelen
only_gold = med[med['Gold'] > 0]
only_gold.head()

#dit kan ook met een query:
only_gold = med.query('Gold > 0')

In [42]:
# tellen aantal landen met een gouden medaille - tellen van het aantal rijen van een willekeurige kolom
only_gold['Gold'].count()

np.int64(100)

In [43]:
# tellen aantal landen met een gouden medaille - alternatieve methode
len(only_gold)

100

Stel dat je wilt weten hoeveel landen een gouden medaille hebben gehaald op de zomerspelen **of** op de winterspelen, dan moet je twee condities gebruiken:

1. `med['Gold'] > 0` voor de zomerspelen
2. `med['Gold.1'] > 0` voor de winterspelen

De gecombineerde conditie is dus `(med['Gold'] > 0) | (med['Gold.1'] > 0)` en je die plaats je in `med[HIER]`.


In [44]:
# bepaal het aantal landen met een gouden medaille voor de zomer of voor de winterspelen
len(med[(med['Gold'] > 0) | (med['Gold.1'] > 0)])

101

In [45]:
# Ook dit zou met een query kunnen, dat zou er zo uit moeten zien: 
#len(med.query('Gold > 0 or Gold.1 > 0'))

#Maar dit geeft een foutmelding omdat de query niet om kan gaan met een .1 in een kolomnaam.
#Kijk of je de kolommen kunt hernoemen zodat de . verwijdert wordt en een soortgelijke query wel werkt.

Op dezelfde manier kun je ook een AND-statement gebruiken i.p.v. OR

In [46]:
# bepaal het land met alléén een gouden medaille voor de winterspelen
med[(med['Gold'] == 0 ) & (med['Gold.1'] > 0)]

Unnamed: 0,# Summer,Gold,Silver,Bronze,Total,# Winter,Gold.1,Silver.1,Bronze.1,Total.1,# Games,Gold.2,Silver.2,Bronze.2,Combined total
Liechtenstein (LIE),16,0,0,0,0,18,2,2,5,9,34,2,2,5,9


### Omgaan met missende waarden

In de praktijk zul je merken dat datasets vaak (= altijd) niet perfect zijn... er zullen rijen of kolommen zijn waar waardes missen. Machine Learning modellen vereisen vaak dat waardes altijd gevuld zijn dus hier moeten we *iets* mee doen.

Ontbrekennde meetgegevens willen we graag detecteren en daarna bepalen wat we ermee doen:
- de hele rij met gegevens weghalen
- ontbrekende meetgegevens invullen met een relevante waarde


In [47]:
# inlezen van een dataverzameling met daarin ontbrekende meetgegevens
dfmv = pd.read_csv('pandas_log.csv')

# Je ziet hieronder vaak NaN: not a number. Dat betekent dat een waarde ontbreekt.
dfmv.head()

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,


In [48]:
# bepalen waar er waarden ontbreken kan met de isnull() functie die een boolean retourneert
dfmv.isnull().head()

Unnamed: 0,time,user,video,playback position,paused,volume
0,False,False,False,False,False,False
1,False,False,False,False,True,True
2,False,False,False,False,True,True
3,False,False,False,False,True,True
4,False,False,False,False,True,True


In [49]:
# tellen hoeveel missende waardes er zijn voor elke kolom
dfmv.isna().sum()

time                  0
user                  0
video                 0
playback position     0
paused               30
volume               29
dtype: int64

In [50]:
# bepalen wat we overhouden als we alleen de rijen met volledige meetgegevens hebben
# merk op: met any drop je een rij bij minstens 1 missende waarde, met all moet een hele rij leeg zijn
dfmv.dropna(how='any')

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
13,1469974424,sue,advanced.html,23,False,10.0
24,1469977424,bob,intro.html,1,True,10.0


Het zou erg vervelend zijn als we nog maar 3 rijen overhouden... daarom is het goed om te kijken of we de data niet kunnen opvullen. Dat kunnen we doen met behulp van *gezond boerenverstand* en eventueel wat domeinkennis.

We zien dat `paused` de waardes `True` of `False` heeft. We kunnen er vanuit gaan dat wanneer de waarde leeg is, de waarde `False` toegekend kan worden. 

In [51]:
# opvullen paused informatie met 'False' als deze niet bekend is
dfmv['paused'] = dfmv['paused'].fillna(False)
dfmv

  dfmv['paused'] = dfmv['paused'].fillna(False)


Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,False,
2,1469974544,cheryl,intro.html,9,False,
3,1469974574,cheryl,intro.html,10,False,
4,1469977514,bob,intro.html,1,False,
5,1469977544,bob,intro.html,1,False,
6,1469977574,bob,intro.html,1,False,
7,1469977604,bob,intro.html,1,False,
8,1469974604,cheryl,intro.html,11,False,
9,1469974694,cheryl,intro.html,14,False,


Het vullen van `volume` is uitdagender. We zien dat er van elke `user` precies één keer een waarde voor `volume` bekend is. Die waarde willen we ook voor de overige records van die `user` gebruiken. 

We moeten de data eerst sorteren zodanig dat alle `users` gegroepeerd zijn en de eerste rij een waarde heeft voor `volume`. 

In [52]:
dfmv.sort_values(['user', 'volume'])

Unnamed: 0,time,user,video,playback position,paused,volume
24,1469977424,bob,intro.html,1,True,10.0
4,1469977514,bob,intro.html,1,False,
5,1469977544,bob,intro.html,1,False,
6,1469977574,bob,intro.html,1,False,
7,1469977604,bob,intro.html,1,False,
25,1469977454,bob,intro.html,1,False,
26,1469977484,bob,intro.html,1,False,
27,1469977634,bob,intro.html,1,False,
28,1469977664,bob,intro.html,1,False,
31,1469977694,bob,intro.html,1,False,


Je kunt nu een loopje maken:

- Voor elke rij `i`:
  - Als `volume` leeg is:
    - Geef `volume` van rij `i` de waarde van rij `i-1`

Maar Python zou Python niet zijn als er geen *pythonic* manier is om dit te doen. De `fillna` functie heeft een optie om lege waardes te vullen met de vorige niet-lege waarde: 
Method to use for filling holes in reindexed Series pad / ffill: propagate last valid observation forward to next valid backfill / bfill: use next valid observation to fill gap.

In [53]:
# vul de onbekende waarden op door de voorgaande waarde te kopiëren op volgorde van de index:
dfmv = dfmv.fillna(method='ffill')
dfmv

  dfmv = dfmv.fillna(method='ffill')


Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,False,10.0
2,1469974544,cheryl,intro.html,9,False,10.0
3,1469974574,cheryl,intro.html,10,False,10.0
4,1469977514,bob,intro.html,1,False,10.0
5,1469977544,bob,intro.html,1,False,10.0
6,1469977574,bob,intro.html,1,False,10.0
7,1469977604,bob,intro.html,1,False,10.0
8,1469974604,cheryl,intro.html,11,False,10.0
9,1469974694,cheryl,intro.html,14,False,10.0


<a id="pd_vb_vraag2"></a>
### Vragen bij voorbeeld 2

In het voorbeeld zie je de volgende code: med[med['Gold'] > 0]
- Beargumenteer wat hier gebeurt. Waarom wordt hier twee keer naar het DataFrame med verwezen?

Ook zie je de volgende code: dfmv.dropna(how='any')
- Beargumenteer wat hier gebeurt. Wat is het verschil met how='all' ?

In [62]:
"""
Beargumenteer wat hier gebeurt. Waarom wordt hier twee keer naar het DataFrame med verwezen?
In dat stukje code wordt van DataFrame med alleen de rijen gepakt waarbij het waar is dat de kolom "Gold" groter is dan 0.
Beargumenteer wat hier gebeurt. Wat is het verschil met how='all' ?
"all" verwijdert een rij of kolom waar ALLE waardes NaN zijn.
"any" verwijdert een rij of kolom waar er minstens 1 waarde NaN is.
"""

'\nBeargumenteer wat hier gebeurt. Waarom wordt hier twee keer naar het DataFrame med verwezen?\nIn dat stukje code wordt van DataFrame med alleen de rijen gepakt waarbij het waar is dat de kolom "Gold" groter is dan 0.\nBeargumenteer wat hier gebeurt. Wat is het verschil met how=\'all\' ?\n"all" verwijdert een rij of kolom waar ALLE waardes NaN zijn.\n"any" verwijdert een rij of kolom waar er minstens 1 waarde NaN is.\n'

<a id="pandas_vb3"></a>
## Voorbeeld 3 DataFrames samenvoegen
In het derde voorbeeld gaan we twee DataFrames samenvoegen.

### Bronvermelding
Dit notebook komt van de Coursera cursus 
Introduction to Data Science in Python - week 2
University of Michigan.

In [63]:
import numpy as np
import pandas as pd

Het samenvoegen van gegevens uit meerdere DataFrames tot één geheel kun je (uiteraard) pas doen wanneer je minstens twee DataFrames hebt. 

Als het goed is, hebben de DataFrames een kolom waarvan de inhoud overeenkomt met het andere DataFrame. Die kolommen kies je als index en op die index ga je mergen.

In [64]:
# Staff en student gegevens, waarbij een student ook staff (=student-assistent) kan zijn
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR'},
                         {'Name': 'Kelly', 'Role': 'Course liasion'},
                         {'Name': 'James', 'Role': 'Grader'}])

# zorgen voor de index op Name
staff_df = staff_df.set_index('Name')
print(staff_df)

# idem
student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business'},
                           {'Name': 'Mike', 'School': 'Law'},
                           {'Name': 'Kelly', 'School': 'Engineering'}])
student_df = student_df.set_index('Name')
print(student_df)

                 Role
Name                 
Kelly  Director of HR
Kelly  Course liasion
James          Grader
            School
Name              
James     Business
Mike           Law
Kelly  Engineering


Net zoals bij databases en SQL, zijn er verschillende manieren om twee DataFrames te mergen:
- Outer (alle rijen gaan mee)
- Inner (alleen rijen met overlap gaan mee)
- Left (alle rijen van het eerste DataFrame plus rijen van tweede DataFrame met overlap gaan mee)
- Right (andersom)

In [65]:
pd.merge(staff_df, student_df, how='outer', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
James,Grader,Business
Kelly,Director of HR,Engineering
Kelly,Course liasion,Engineering
Mike,,Law


In [66]:
pd.merge(staff_df, student_df, how='inner', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kelly,Director of HR,Engineering
Kelly,Course liasion,Engineering
James,Grader,Business


In [67]:
pd.merge(staff_df, student_df, how='left', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
Kelly,Director of HR,Engineering
Kelly,Course liasion,Engineering
James,Grader,Business


In [68]:
pd.merge(staff_df, student_df, how='right', left_index=True, right_index=True)

Unnamed: 0_level_0,Role,School
Name,Unnamed: 1_level_1,Unnamed: 2_level_1
James,Grader,Business
Mike,,Law
Kelly,Director of HR,Engineering
Kelly,Course liasion,Engineering


In [69]:
# merging is ook mgeljk zonder index, maar door het aangeven van de kolomnamen
staff_df = staff_df.reset_index()
student_df = student_df.reset_index()
pd.merge(staff_df, student_df, how='left', left_on='Name', right_on='Name')

Unnamed: 0,Name,Role,School
0,Kelly,Director of HR,Engineering
1,Kelly,Course liasion,Engineering
2,James,Grader,Business


In [70]:
# Wanneer er bij het mergen 'identieke' kolommen in beide dataframes staan, dan worden de voorzien van een postfix
staff_df = pd.DataFrame([{'Name': 'Kelly', 'Role': 'Director of HR', 'Location': 'State Street'},
                         {'Name': 'Sally', 'Role': 'Course liasion', 'Location': 'Washington Avenue'},
                         {'Name': 'James', 'Role': 'Grader', 'Location': 'Washington Avenue'}])

student_df = pd.DataFrame([{'Name': 'James', 'School': 'Business', 'Location': '1024 Billiard Avenue'},
                           {'Name': 'Mike', 'School': 'Law', 'Location': 'Fraternity House #22'},
                           {'Name': 'Sally', 'School': 'Engineering', 'Location': '512 Wilson Crescent'}])

pd.merge(staff_df, student_df, how='left', left_on='Name', right_on='Name')

Unnamed: 0,Name,Role,Location_x,School,Location_y
0,Kelly,Director of HR,State Street,,
1,Sally,Course liasion,Washington Avenue,Engineering,512 Wilson Crescent
2,James,Grader,Washington Avenue,Business,1024 Billiard Avenue


In [71]:
# Merging kan ook op meerdere kolommen 
staff_df = pd.DataFrame([{'First Name': 'Kelly', 'Last Name': 'Desjardins', 'Role': 'Director of HR'},
                         {'First Name': 'Sally', 'Last Name': 'Brooks', 'Role': 'Course liasion'},
                         {'First Name': 'James', 'Last Name': 'Wilde', 'Role': 'Grader'}])
student_df = pd.DataFrame([{'First Name': 'James', 'Last Name': 'Hammond', 'School': 'Business'},
                           {'First Name': 'Mike', 'Last Name': 'Smith', 'School': 'Law'},
                           {'First Name': 'Sally', 'Last Name': 'Brooks', 'School': 'Engineering'}])
pd.merge(staff_df, student_df, how='inner', left_on=['First Name','Last Name'], right_on=['First Name','Last Name'])

Unnamed: 0,First Name,Last Name,Role,School
0,Sally,Brooks,Course liasion,Engineering


<a id="pandas_vb4"></a>
## Voorbeeld 4 Complexere acties

In dit laatste voorbeeld gaan we aan de slag met een aantal complexere acties.

***Bronvermelding***
Dit notebook komt van de Coursera cursus 
Introduction to Data Science in Python - week 2
University of Michigan.

In [72]:
import numpy as np
import pandas as pd

In [73]:
# inlezen van bevolkingsgegevens van de USA
dfcs = pd.read_csv('pandas_census.csv')
dfcs.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2011,RDOMESTICMIG2012,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785161,...,0.002295,-0.193196,0.381066,0.582002,-0.467369,1.030015,0.826644,1.383282,1.724718,0.712594
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,7.242091,-2.915927,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,14.83296,17.647293,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-4.728132,-2.50069,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-5.527043,-5.068871,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861


### Krachtige functieverwerking op dataframe rij 

Soms kan het voorkomen dat je een analyse wilt uitvoeren waarvoor geen standaardfunctie is. In dat geval kun je een eigen functie schrijven en deze gebruiken voor het DataFrame met behulp van de de `apply` functie.

####Samenhang apply en eigen functies
De `apply` functie *itereert* over alle rijen of kolommen van een DataFrame. Elke rij of kolom wordt als input gegeven aan de eigen functie die aangeroepen wordt.

####Werking min_max-functie
In het voorbeeld hieronder is er een `min_max` functie geschreven die telkens een *row*  uit het DataFrame als input krijgt. Deze functie zet de waardes van 6 kolommen in een array en retourneert de laagste en hoogste waarde.

In [74]:
# definitie van een python functie die een minimale en maximale waarde van het bevolkingsaantal bepaalt
def min_max(row):
    data = row[['POPESTIMATE2010',
                'POPESTIMATE2011',
                'POPESTIMATE2012',
                'POPESTIMATE2013',
                'POPESTIMATE2014',
                'POPESTIMATE2015']]
    return pd.Series({'min': np.min(data), 'max': np.max(data)})

####Werking apply-functie
De `apply` functie itereert in dit geval over alle rijen (omdat `axis` = 1), roept de `min_max` functie aan en slaat alle resultaten op in een nieuw DataFrame. Dit DataFrame kun je natuurlijk makkelijk toevoegen aan het bestaande DataFrame.

In [75]:
# de gedefinieerde functie op elke rij van de dataset uit laten voeren
dfcsmm = dfcs.apply(min_max, axis=1)
dfcsmm.head()

Unnamed: 0,min,max
0,4785161,4858979
1,54660,55347
2,183193,203709
3,26489,27341
4,22512,22861


Je kunt ook meteen een extra kolom laten toevoegen in het DataFrame.

In [76]:
# definitie van een functie die 2 kolommen toevoegt aan de oorspronkelijke rijen
def min_max_2(row):
    data = row[['POPESTIMATE2010',
                'POPESTIMATE2011',
                'POPESTIMATE2012',
                'POPESTIMATE2013',
                'POPESTIMATE2014',
                'POPESTIMATE2015']]
    row['POPESTIMATEMAX'] = np.max(data)  # extra column
    row['POPESTIMATEMIN'] = np.min(data)  # extra column
    return row
    
dfcsmm2 = dfcs.apply(min_max_2, axis=1)
dfcsmm2.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,COUNTY,STNAME,CTYNAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,...,RDOMESTICMIG2013,RDOMESTICMIG2014,RDOMESTICMIG2015,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015,POPESTIMATEMAX,POPESTIMATEMIN
0,40,3,6,1,0,Alabama,Alabama,4779736,4780127,4785161,...,0.381066,0.582002,-0.467369,1.030015,0.826644,1.383282,1.724718,0.712594,4858979,4785161
1,50,3,6,1,1,Alabama,Autauga County,54571,54571,54660,...,-3.012349,2.265971,-2.530799,7.606016,-2.626146,-2.722002,2.59227,-2.187333,55347,54660
2,50,3,6,1,3,Alabama,Baldwin County,182265,182265,183193,...,21.845705,19.243287,17.197872,15.844176,18.559627,22.727626,20.317142,18.293499,203709,183193
3,50,3,6,1,5,Alabama,Barbour County,27457,27457,27341,...,-7.056824,-3.904217,-10.543299,-4.874741,-2.758113,-7.167664,-3.978583,-10.543299,27341,26489
4,50,3,6,1,7,Alabama,Bibb County,22915,22919,22861,...,-6.201001,-0.177537,0.177258,-5.088389,-4.363636,-5.403729,0.754533,1.107861,22861,22512


### Group by

Group by biedt krachtige verwerkingen om een grote verzameling gegevens per groep te analyseren. Dit is een beetje vergelijkbaar met de SQL GROUP BY functionaliteit.

We gebruiken een dataset demografische gegevens van steden in de Verenigde Staten. We kunnen de data groeperen of stad of staat en binnen die groepen zaken zoals geboortecijfers analyseren.

De eerste analyse is het bepalen van het gemiddeld aantal geboren kinderen per staat.

Daarvoor moet je een aantal acties uitvoeren:
- Alle rijen groeperen op de staat, de kolom `STNAME`. Dat doe je met de `groupby` functie. Deze krijgt de kolom als input. Omdat het een functie is krijg je `dfcs.groupby('STNAME')`. Het resultaat is een soort DataFrame: een groupby object.
- Daarna moet je aangeven voor welke kolom je een analyse wilt toepassen, dus je plakt `['BIRTHS2015']` erachter. Je hebt nu dus één kolom gekozen van het groupby object.
- Tenslotte volgt de `agg` functie die een berekening doet op het groupby object dat je gemaakt hebt. De input voor de functie is een bepaalde berekening, in dit geval is dat `mean`.

In [77]:
# Het bepalen van het gemiddeld aantal geboren kinderen per staat van alle steden in de staat
dfcs.groupby('STNAME')['BIRTHS2015'].agg(['mean']).head()

Unnamed: 0_level_0,mean
STNAME,Unnamed: 1_level_1
Alabama,1714.852941
Alaska,766.533333
Arizona,10923.125
Arkansas,995.263158
California,17079.627119


In [78]:
# Op dezelfde manier kun je de standaarddeviatie bepalen
dfcs.groupby('STNAME')['BIRTHS2015'].agg(['std']).head()

Unnamed: 0_level_0,std
STNAME,Unnamed: 1_level_1
Alabama,7095.862886
Alaska,2225.78161
Arizona,24522.055661
Arkansas,4361.038951
California,67158.151424


In [79]:
# Ook meerdere berekeningen kunnen gezamenlijk uitgevoerd worden
dfcs.groupby('STNAME')['BIRTHS2015'].agg(['mean','sum','min','max']).head()

Unnamed: 0_level_0,mean,sum,min,max
STNAME,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,1714.852941,116610,89,58305
Alaska,766.533333,22996,8,11498
Arizona,10923.125,174770,143,87385
Arkansas,995.263158,75640,48,37820
California,17079.627119,1007698,4,503849


In [80]:
# Kan ook op meerdere kolommmen
(dfcs.groupby(level=0)[['POPESTIMATE2010','POPESTIMATE2011']].agg(['mean','sum'])).head()
# (Hier wordt de index met behulp van een level aangeduidt: level 0 is 'STNAME')

Unnamed: 0_level_0,POPESTIMATE2010,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2011
Unnamed: 0_level_1,mean,sum,mean,sum
0,4785161.0,4785161,4801108.0,4801108
1,54660.0,54660,55253.0,55253
2,183193.0,183193,186659.0,186659
3,27341.0,27341,27226.0,27226
4,22861.0,22861,22733.0,22733


In [81]:
# Nog ingewikkelder: de berekening per kolom verschilt:
(dfcs.groupby(level=0)[['POPESTIMATE2010','POPESTIMATE2011']]
    .agg({'POPESTIMATE2010': np.average, 'POPESTIMATE2011': np.sum})).head()

  .agg({'POPESTIMATE2010': np.average, 'POPESTIMATE2011': np.sum})).head()


Unnamed: 0,POPESTIMATE2010,POPESTIMATE2011
0,4785161.0,4801108
1,54660.0,55253
2,183193.0,186659
3,27341.0,27226
4,22861.0,22733


### Date Functionality in Pandas

Een veelvoorkomend en complexe datatype is dat van datum en tijd. De complexiteit zit 'm in het feit dat er verschillende noteringen zijn en dat elke implementatie wel een uitzonderling lijkt te zijn. Enfin, vaak veel gedoe.

Pandas heeft de volgende datastructuren voor datum en tijd functionaliteiten
- Timestamp: weergave van een datum-tijd punt
- Period: verzameling van datums of tijd van een bepaald type: bijv. Dagen, Minuten, Nanoseconden
- TimeDelta: weergave van de tijdsduur tussen 2 datum-tijd waarden

### Timestamp

In [82]:
# Vormen van een timestamp (datum en tijd punt) uit een tekst.
pd.Timestamp('9/1/2016 10:05AM')

Timestamp('2016-09-01 10:05:00')

In [83]:
# aanmaken van een reeks van timestamps uren 
pd.date_range('2016-01-09 00:00:00', periods = 6, freq = 'H')

  pd.date_range('2016-01-09 00:00:00', periods = 6, freq = 'H')


DatetimeIndex(['2016-01-09 00:00:00', '2016-01-09 01:00:00',
               '2016-01-09 02:00:00', '2016-01-09 03:00:00',
               '2016-01-09 04:00:00', '2016-01-09 05:00:00'],
              dtype='datetime64[ns]', freq='h')

### Period

In [84]:
# aanmaken van een periode van het type Maand
pd.Period('1/2016')

Period('2016-01', 'M')

In [85]:
pd.Period('3/5/2016')

Period('2016-03-05', 'D')

### TimeDelta

In [86]:
# Berekenen van de tijdsduur tussen 2 datums (Amerikaanse notatie !) 
pd.Timestamp('9/3/2016')-pd.Timestamp('9/1/2016')

Timedelta('2 days 00:00:00')