### Pandas Series

De Pandas `Series` is eigenlijk een 1-dimensionale array met een expliciete index.

Naast deze index hebben we ook de (default) impliciete index, gebaseerd op positie (dus net zoals bij een Python-lijst of NumPy-array).

We kunnen een series object aanmaken door gebruik te maken van Python lists om zowel de index als de waardes te definiëren (denk aan associatieve arrays!).

In [1]:
import pandas as pd
import numpy as np

In [6]:
s = pd.Series([10, 20, 30], index=['a', 'b', 'c'])

In [7]:
s

a    10
b    20
c    30
dtype: int64

Zoals je kunt zien aan de weergave hierboven, hebben we zowel de index als de values (en de values zijn van het gegevenstype int64).

We kunnen nu naar items refereren door gebruik te maken van de expliciete index:

In [8]:
s['a']

10

In [9]:
s['c'] = 1000
s

a      10
b      20
c    1000
dtype: int64

Dit lijkt op Python dictionaries! Python dictionaries zijn één implementatie van associatieve arrays, en de Pandas `Series` is een andere implementatie.

We kunnen meer elementen toevoegen aan de `Series` objecten zoals we zouden doen met een Python `dict`; we wijzen eenvoudig toe aan een nieuwe indexwaarde:

In [6]:
s['d'] = 500
s

a      10
b      20
c    1000
d     500
dtype: int64

Eigenlijk kunnen we een `Series`-instantie maken op basis van een Python `dict`:

In [14]:
hoofdsteden = {
    'Frankrijk': 'Parijs',
    'België': 'Brussel',
    'UK': 'Londen',
    'Portugal': 'Lissabon'
}
s = pd.Series(hoofdsteden)
s

Frankrijk      Parijs
België        Brussel
UK             Londen
Portugal     Lissabon
dtype: object

Zoals je kan zien, werden de keys van de dictionary de indices, en de values in de dictionary werden de values in de series.

We kunnen het indexobject van een reeks verkrijgen door de `index` eigenschap te gebruiken:

In [8]:
s.index

Index(['Frankrijk', 'België', 'UK', 'Portugal'], dtype='object')

En de values:

In [9]:
s.values

array(['Parijs', 'Brussel', 'Londen', 'Lissabon'], dtype=object)

Deze waarden zijn eigenlijk een simpele NumPy-array (er is geen speciale index aan gekoppeld, enkel de positionele index):

In [10]:
type(s.values)

numpy.ndarray

We kunnen zelfs de key/value-paren ophalen door `items()` te gebruiken:

In [11]:
s.items()

<zip at 0x7f0f219a7e00>

Dit is een generatorobject, dus we moeten er doorheen itereren om daadwerkelijk toegang te krijgen tot de waarden:

In [12]:
list(s.items())

[('Frankrijk', 'Parijs'),
 ('België', 'Brussel'),
 ('UK', 'Londen'),
 ('Portugal', 'Lissabon')]

In tegenstelling tot een Python-dictionary kan de index van een `Series` herhaalde elementen bevatten:

In [15]:
streken = pd.Series(
    ['België', 'Antwerpen', 'Brugge', 'Frankrijk', 'UK', 'Londen'],
    index=['land', 'stad', 'stad', 'land', 'land', 'stad']
)

In [16]:
streken

land       België
stad    Antwerpen
stad       Brugge
land    Frankrijk
land           UK
stad       Londen
dtype: object

Zoals je kunt zien bevat onze index herhaalde elementen, wat niet mogelijk is bij een Python-dictionary.

De manier waarop dit werkt wanneer we een item selecteren op indexwaarde is dat alle items die overeenkomen met de indexwaarde worden geretourneerd:

In [17]:
streken['stad']

stad    Antwerpen
stad       Brugge
stad       Londen
dtype: object

Merk op dat een `Series` object werd geretourneerd.

Hoe veranderen we de waarde voor een enkel item?
We doen een toewijzing:

In [16]:
streken['stad'] = 'Kortrijk'

In [17]:
streken

land       België
stad     Kortrijk
stad     Kortrijk
land    Frankrijk
land           UK
stad     Kortrijk
dtype: object

Dat is misschien niet helemaal wat we wilden! :-)

In [18]:
streken = pd.Series(
    ['België', 'Antwerpen', 'Brugge', 'Frankrijk', 'UK', 'Londen'],
    index=['land', 'stad', 'stad', 'land', 'land', 'stad']
)

Herinner je je dat ik sprak over een impliciete positionele index? Dit zijn in feite integers voor de posities `0`, `1`, enzovoort.

We kunnen die numerieke (integer) indices ook gebruiken om naar elementen in de serie te verwijzen:

In [19]:
streken[5]

'Londen'

In [20]:
streken[2:]

stad       Brugge
land    Frankrijk
land           UK
stad       Londen
dtype: object

Dus we kunnen een individueel element wijzigen door gebruik te maken van een positionele index:

In [21]:
streken[5] = 'Madrid'
streken

land       België
stad    Antwerpen
stad       Brugge
land    Frankrijk
land           UK
stad       Madrid
dtype: object

Wat interessant is aan de expliciete index, is dat deze ook gebruikt kan worden in slicing en fancy indexing:

In [22]:
s = pd.Series([10, 20, 30, 40, 50], index=list('abcde'))
s

a    10
b    20
c    30
d    40
e    50
dtype: int64

In [23]:
s['a':'d']

a    10
b    20
c    30
d    40
dtype: int64

In [24]:
s[['a', 'c', 'd']]

a    10
c    30
d    40
dtype: int64

Een belangrijk punt om op te merken is dat bij het gebruik van een expliciete index, de slice **inclusief** het eindpunt is.

Waarom doet Pandas dit?

Voornamelijk omdat wanneer we met labels in plaats van posities werken, het slicen van een serie kennis vereist van het "volgende" label.  Aangezien dit lastig kan zijn (soms is het volgende label niet zomaar gekend) is het meestal makkelijker om te werken met eind-inclusieve reeksen aangezien we de start/eindlabels dan kennen die we willen gebruiken.

Tot nu toe hebben we `[]` gebruikt voor zowel de expliciete index als de positionele (impliciete) index:

In [25]:
s['a'], s[0]

(10, 10)

Dus als Pandas `s['a']` ziet, weet het dat dit de expliciete index is, maar wanneer het `s[0]` ziet, interpreteert het dit correct als de positionele index omdat de aangepaste index uit strings bestaat.

Wat gebeurt er als de expliciete index ook bestaat uit integers?

In [26]:
s = pd.Series([100, 200, 300], index=[10, 20, 30])
s

10    100
20    200
30    300
dtype: int64

In [27]:
s[10]

100

Zoals je kunt zien, zal Pandas in dit geval de expliciete index gebruiken, wat betekent dat we niet langer de positionele index kunnen gebruiken:

In [28]:
try:
    s[0]
except KeyError as ex:
    print('KeyError: ', ex)

KeyError:  0


Maar het wordt nog verwarrender dan dat: als we proberen te slicen, zal Pandas de impliciete index gebruiken, niet de expliciete index:

In [29]:
s[0:3]

10    100
20    200
30    300
dtype: int64

En fancy indexing zal de expliciete index gebruiken:

In [30]:
try:
    s[[0, 3, 4]]
except KeyError as ex:
    print('KeyError:', ex)

KeyError: "None of [Int64Index([0, 3, 4], dtype='int64')] are in the [index]"


Dus het gebruik van de vierkante haakjes (`[]`) werkt, maar kan snel verwarrend worden omdat wat het zal doen met een argument afhant van het gegevenstype van de index.

Pandas implementeert twee attributen, `loc` en `iloc`, die we in plaats daarvan kunnen gebruiken om elementen te benaderen via de expliciete index of via de impliciete positionele index.

De `iloc`-eigenschap wordt gebruikt wanneer we de positionele index willen gebruiken:

In [31]:
s.iloc[0]

100

En het `loc` attribuut wordt gebruikt wanneer we de data willen benaderen met behulp van de expliciete index:

In [32]:
s.loc[10]

100

**Let op**: De `loc` en `iloc` zijn attributen, geen methoden, en we gebruiken vierkante haken (`[]`), geen haakjes (`()`).

Ze ondersteunen allebei slicing en fancy indexing:

In [33]:
s.iloc[0:4]

10    100
20    200
30    300
dtype: int64

In [34]:
s.loc[10:30]

10    100
20    200
30    300
dtype: int64

Let weer op hoe slicing met behulp van de expliciete index inclusief is, in tegenstelling tot wanneer we de impliciete index gebruiken.

We kunnen ook een `name` attribuut opgeven voor elk `Series` object:

In [35]:
s

10    100
20    200
30    300
dtype: int64

In [36]:
s.name = 'test'
s

10    100
20    200
30    300
Name: test, dtype: int64

We kunnen deze naam ook opgeven wanneer we de reeks aanmaken:

In [18]:
streken = pd.Series(
    ['België', 'Antwerpen', 'Brugge', 'Frankrijk', 'UK', 'Londen'],
    index=['land', 'stad', 'stad', 'land', 'land', 'stad'],
    name='streken'
)
streken

land       België
stad    Antwerpen
stad       Brugge
land    Frankrijk
land           UK
stad       Londen
Name: streken, dtype: object

We zullen later zien waarom dit belangrijk is wanneer we kijken naar `DataFrames`.

We kunnen ook boolean masking gebruiken.  De waardes (values) worden gebruikt bij het berekenen van conditionele logische expressies, niet de index.  Er is bijgevolg geen verwarring over welke index boolean masking gebruikt - het gebruikt er geen!

In [19]:
streken[streken != 'Antwerpen']

land       België
stad       Brugge
land    Frankrijk
land           UK
stad       Londen
Name: streken, dtype: object

Hoe verwijderen we een item?

Het is niet zo eenvoudig als je misschien denkt, aangezien we ook een (onveranderlijke) expliciete index hebben die is gekoppeld aan de reeks.

Daarom kunnen we de `drop()`-methode gebruiken, waarbij we de **expliciete** indexen aangeven die we uit de serie willen laten vallen, wat een **nieuwe** serie zal teruggeven, maar zonder de oorspronkelijke serie te beïnvloeden:

In [39]:
s = pd.Series([10, 20, 30], index=list('abc'), name='test')
s

a    10
b    20
c    30
Name: test, dtype: int64

In [40]:
new = s.drop(['a', 'c'])
new

b    20
Name: test, dtype: int64

In [41]:
s

a    10
b    20
c    30
Name: test, dtype: int64

Kunnen we drop op basis van positie (impliciete index) gebruiken?  Niet direct, nee.

We kunnen echter de expliciete indexwaarde voor een specifieke locatie opvragen.

De Index is gewoon een andere serie, met impliciete positionele indexering.

In [42]:
s.index

Index(['a', 'b', 'c'], dtype='object')

Dus we kunnen de expliciete indexwaarde krijgen voor een specifieke (of set van specifieke) positionele indices:

In [43]:
s.index[[0, 2]]

Index(['a', 'c'], dtype='object')

En we kunnen dit nu gebruiken in onze `drop()` functie oproep:

In [44]:
s.drop(s.index[[0, 2]])

b    20
Name: test, dtype: int64

De originele serie wordt echter niet beïnvloed:

In [45]:
s

a    10
b    20
c    30
Name: test, dtype: int64