# Python en data

Data science begint met data. Daarom richten we onze aandacht nu op technieken om met data om te gaan in Python. "Core Python" is daarvoor niet altijd direct geschikt, maar gelukkig bestaan er meerdere goed ontwikkelde packages die ons het leven makkelijker maken. Het gaat daarbij om het lezen, bewerken en weer opslaan van data. In de tussentijd zullen we alvast kleine uitstapjes maken naar de analyse van data.

Het is "good practice" om paketten die je gaat gebruiken bovenaan je notebook allemaal tegelijk te importeren. Ik doe dat hier ook, zodat je meteen een overzicht krijgt van wat je te wachten staat.

Vanaf dit notebook worden de instructienotebooks steeds meer alleen code met wat commentaar. Je wordt steeds beter in Python, dus code spreekt meer en meer voor zichzelf.

In [1]:
import numpy as np          # Package voor numerieke bewerkingen, en het werken met arrays
import pandas as pd         # Package voor het werken met data in de vorm van tabellen. Pandas wordt je vriend!

## Numerical Python: numpy

Voor numeriek werk zoals elke data scientist, data-analist etc. iedere dag doet is numpy onmisbaar. Numpy wordt gewoonlijk geimporteerd als np, dus dat doen wij ook.

### Werken met arrays
Numpy maakt gebruik van zogenaamde arrays. Deze lijken in de eerste plaats op lists, maar ze zijn heel wezenlijk anders:
- Binnen een array zijn alle elementen van hetzelfde data type (dus geen mix zoals in lists)
- Op arrays zijn de bewerkingen standaard array-operaties, wat betekent dat ze elementsgewijs worden uitgevoerd. Zo is, voor array a, 3*a gelijk aan een even lange array als a waarin alle elementen met 3 zijn vermenigvuldigd.

Enkele voorbeelden:

In [2]:
mijn_eerste_array = np.array([1, 2, 3, 4])
print(mijn_eerste_array)

keer3 = mijn_eerste_array * 3
print(keer3)

print(mijn_eerste_array + np.array([40, 30, 20, 10]))

# Dingen die dus niet zouden kunnen, maar wel iets opleveren:
huh = np.array([1, 2, 'help'])
print(huh, "bestaat uit alleen maar strings omdat er daar minstens 1 van voorkomt!")

[1 2 3 4]
[ 3  6  9 12]
[41 32 23 14]
['1' '2' 'help'] bestaat uit alleen maar strings omdat er daar minstens 1 van voorkomt!


In [3]:
# Op arrays zijn bijzonder veel bewrekingen gedefinieerd. Veel zijn methoden van het array object, maar numpy kent ook functies die geen methode zijn.

print("Het totaal van mijn eerste array is", mijn_eerste_array.sum())
print("Het gemiddelde van mijn eerste array is", mijn_eerste_array.mean())
print("De mediaan van mijn eerste array is", np.median(mijn_eerste_array))
print()
# Let wel:
print("Zo kan het ook:", sum(mijn_eerste_array), np.sum(mijn_eerste_array))

Het totaal van mijn eerste array is 10
Het gemiddelde van mijn eerste array is 2.5
De mediaan van mijn eerste array is 2.5

Zo kan het ook: 10 10


In [4]:
# Arrays kunnen meer dan 1 dimensie hebben
dim2 = np.array([[1 , 2, 3],
                 [50, 60, 70]])   # Deze mag je op 1 regel definieren, maar dit maakt het leesbaarder
print(dim2)

[[ 1  2  3]
 [50 60 70]]


In [5]:
# Op twee- en hogerdimensionale arrays kun je zulke dingen 
# over de hele array, of langs de rijen of kolommen doen:
print("De verschillende sommen van dim2:")
print("Totale som:", dim2.sum())
# print("Som per kolom:", dim2.sum(axis=0))
# print("Som per rij", dim2.sum(axis=1))

De verschillende sommen van dim2:
Totale som: 186


In [6]:
# Uiteraard zijn deze sommen numpy arrays:
sommetje = dim2.sum(axis=0)
print("Type", type(sommetje), "met shape", sommetje.shape)

Type <class 'numpy.ndarray'> met shape (3,)


### Missing data, NaN, ....

Soms mist er data. Soms is een veld geen keurig getal meer (x/0, log(negatief getal), ...). Een datatype daarvoor in numpy is np.nan:

In [7]:
arr = np.array([1, 2., np.nan, 17.])
print(arr)

[ 1.  2. nan 17.]


In [8]:
# Aggregties hebben vaak een nan-safe variant, maar je moet wel weten wat ze betekenen!
print(arr.sum())
print(np.sum(arr))
print(np.nansum(arr))
# print(np.product(arr))
# print(np.nanprod(arr))
# print(np.mean(arr))
# print(np.nanmean(arr))
# print(np.nansum(arr)/len(arr))
# print(np.nansum(arr) / np.isfinite(arr).sum())

nan
nan
20.0


### Arrays maken zonder eerst een list te schrijven
Er bestaan functies die arrays genereren:

In [9]:
print(np.zeros(3))
print(np.ones((2, 3)))
# print(np.arange(8, dtype=np.float))  # werkt ook zonder dtype, met stapjes etc.
# print(np.arange(2, 5, 0.3))
# print(np.random.random(size=2))
# print(np.random.random(size=(5, 3)))

[0. 0. 0.]
[[1. 1. 1.]
 [1. 1. 1.]]


### Index , slicing, selectie
Indices werken heel vergelijkbaar met die in lists. In meerdere dimenses worden ze gescheiden door komma's, daarbinnen kun je precies dezelfde ranges etc. gebruiken. Let altijd op de volgorde van rijen en kolommen! Dit werkt ook in meerdere dimensies, maar dat is lastiger in tabelvorm weer te geven. Je kunt dergelijke indices ook gebruiken om array-elementen te veranderen. Let daarbij wel op het datatype!

In [10]:
x = np.random.randint(0, 20, size=10)
print(x)
print(x[2])
print(x[2::2])
print(x[3:6])
print(x[-2:])
print()
x2 = np.random.randint(0, 20, size=(3,4))
# print(x2)
# print(x2[:,0])
# print(x2[0,:])
# print(x2[1:3, 1:3])
# print(x2[-1,-2:])
# print()
# x2[0,0] = 100
# print(x2)
# print()
# x2[0,0] = 17.72
# print(x2)  # alles na de komma wordt eraf gehaald!

[ 6 13 10  3  1  6  0  6 10  2]
10
[10  1  0 10]
[3 1 6]
[10  2]



Let erop dat als je sub-arrays selecteert op deze manier, en die bewerkt, dat dan de oorspronkelijke array ook aangepast is! Dit kan heel handig zijn als je snel kleine stukken van een heel grote dataset wil manipuleren! Je kunt het voorkomen met .copy()

In [11]:
print(x2)
print()
x3 = x2[1:3, 1:3]     # Probeer ook met x3 = x2[1:3, 1:3].copy()
print(x3)
print()
# x3[0,0] = 100
# print(x3)
# print()
# print(x2)

[[ 6  2  6 10]
 [13  4 11  4]
 [11  4  4  1]]

[[ 4 11]
 [ 4  4]]



### Reshape, concatenation, splitting

Het kan voor toepassingen handig zijn om verschillende tabellen van vorm te veranderen, aan elkaar te plakken of juist te splitsen. Ook hiervoor bestaan efficiente functinaliteiten in numpy.

In [24]:
# Reshape maakt van je array een andere vorm, wel even groot!
print(x2)
print()
print(x2.reshape(4, 3))  # ELementen "lopen gewoon door", "zoals je ze leest"
print()
# print(x2.reshape(6, -1)) # Met -1 bepaalt numpy welke dimensie je daar nodig hebt.
# print()
# print(x2.transpose())
# print()
# print(x2.reshape(12))
# print(x2.reshape(12)[np.newaxis, :])
# print(x2.reshape(12)[:,np.newaxis])

[[ 6  2  6 10]
 [13  4 11  4]
 [11  4  4  1]]

[[ 6  2  6]
 [10 13  4]
 [11  4 11]
 [ 4  4  1]]



In [38]:
# np.concatenate plakt arrays aan elkaar.
x = np.array([1, 2, 3])
y = np.array([30, 20, 10])
print(np.concatenate([x, y]))
# print(np.concatenate([x, y, y, y]))
print()
# grid = np.array([[1, 2, 3],
#                  [4, 5, 6]])
# print(grid)
# print()
# print(np.concatenate([grid, 10*grid]))
# print()
# print(np.concatenate([grid, 10*grid], axis=1))

[ 1  2  3 30 20 10]



In [39]:
# Met np.split() en varianten daarop kun je juist je arrays in stukjes knippen.
x = [1, 2, 3, 99, 99, 3, 2, 1]
x1, x2, x3 = np.split(x, [3, 5])
print(x1, x2, x3)
print()
# grid = np.arange(16).reshape((4, 4))
# print(grid)
# print()
# boven, onder = np.vsplit(grid, [2])
# print(boven)
# print(onder)
# print()
# links, rechts = np.hsplit(grid, [2])
# print(links)
# print(rechts)

[1 2 3] [99 99] [3 2 1]



### Broadcasting

Broadcasting betekent dat bewerkingen met arrays van verschillende dimensies worden gedaan. Het standaard voorbeeld is erg bekend, maar het kan dus ook op minder triviale manieren.

In [46]:
x = np.array([2, 4, 6])
# Een scalar erbij optellen is broadcasting, de scalar wordt gebroadcast op elk element van de array:
print(x+3)
print()
# In meer dimensies:
y = np.ones((4, 3))   # Met de indices andersom werkt het dus niet!
print(y)
print()
print(x+y)

[5 7 9]

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]

[[3. 5. 7.]
 [3. 5. 7.]
 [3. 5. 7.]
 [3. 5. 7.]]


Broadcasting kan nog veel complexer, maar in de praktijk kom je dt zelden tegen, we zullen het dus voorlopig hierbij laten. In de referenties staan werken met uitgebreidere voorbeelden uitgewerkt.

### Sorteren en set logica

### Functies binnen numpy

## Pandas: Werken met tabellen

Tweedimensionale numpy arrays zijn natuurlijk tabellen. Maar zou het niet handig zijn als kolommen namen hebben, de rijen handige indices die iets betekenen en je allerlei selecties en bewerkingen kunt doen gewoon met die namen. Pandas is een enorm populair package, gemaakt door Wes McKinney die het wilde hebben voor zijn werk in de financiele wereld, dat precies dat doet. We gaan hier uitgebreid op de functionaliteiten in. Zoals gebruikelijk: er is nog veel meer! Ook dit boek staat volledig als notebooks online:
https://github.com/wesm/pydata-book (alleen de tekst ertussen mist, maar de voorbeelden spreken veelal voor zich).

### Series



### Je nieuwe vriend: het DataFrame

### Indices voor rijen, kolommen, filters en selecties

### Selectie met loc en iloc

### Multi-index

### Beschrijvende statistiek

## Data laden en wegschrijven

Doe hier wel csv en excel, verder opverzoek uit les 1
zie mckineey boek


### Data voorbereiden, opschonen en transformeren

### Data combineren

### Reshape en pivot tables

### Aggregeren en groupby

### Datumtijd variabelen en time series

gebruik nog hoofdstuk 7, 8, 10, 11

## Referenties

Python Data Science Handbook (en al het andere youtube- en blogmateriaal van auteur Jake VanderPlas, zie http://jakevdp.github.io/), geheel in notebooks op github: https://jakevdp.github.io/PythonDataScienceHandbook/. Het pandas boek van Wes McKinney: https://github.com/wesm/pydata-book

Antwoorden op al je vragen (of ze staan er al, of je hebt ze snel) op StackOverflow: https://stackoverflow.com/

Documentatie van de voor data science belangrijke paketten: https://docs.scipy.org/doc/, http://pandas.pydata.org/pandas-docs/stable/

Voor visualisatie gebruiken we matplotlib (https://matplotlib.org/ en de gallery op https://matplotlib.org/gallery/index.html), seaborn (https://seaborn.pydata.org/) en bokeh (https://bokeh.pydata.org/en/latest/).

Verder vind je op YouTube veel praatjes en workshops (vaak met materiaal op github). Let er wel op dat je redelijk recent materiaal bekijkt, sommige van deze paketten zijn nog stevig in ontwikkeling. Op YouTube kun je zoeken naar PyData, (Euro)SciPy, Pycon, Enthought en Numfocus. Dat geeft je een hele hoop materiaal.