# Werken met Python

De programmeertaal Python wordt zeer veel gebruikt in data science projecten en bevat een massa aan functies die je kan gebruiken om data te manipuleren en te verwerken. Het grote voordeel van Python is reproduceerbaarheid. Doordat je een script kan schrijven dat de data verwerkt, kan je dit eenvoudig hergebruiken. In dit document wordt een overzicht gegeven van de basis van Python: rekenen met getallen en lijsten. Er wordt verondersteld dat de lezer reeds voorkennis heeft van een andere programmeertaal zoals Java.
We gaan niet in op alle details van deze taal en tonen enkel de dingen die voor deze cursus relevant zijn.

# 1 Python installeren en gebruiken

Python is een programmeertaal, net zoals Java, C#, JavaScript, C++, ... Python bestaat al heel lang: in 1991 zag deze programmeertaal het levenslicht. De taal werd ontwikkeld door de Nederlander Guido Van Rossum en wordt momenteel beheerd door de Python Software Foundation. De naam Python werd geïnspireerd door de televisieshow _Monty Python’s Flying Circus_.

Python is een _scriptingtaal_. Dit wil zeggen dat je afzonderlijke **statements** kan uitvoeren, zonder compileren. Dat zorgt ervoor dat je Python snel kan leren. **Variabelen** hoeven niet expliciet gedeclareerd te worden waardoor alles nog eenvoudiger wordt. Een nadeel in Python is wel dat er heel veel frameworks bestaan en dat het niet eenvoudig is om het juiste te kiezen om een bepaald probleem op te lossen. Bovendien definiëren deze frameworks dikwijls eigen datatypes die soms overlappen met bestaande types. Daardoor kan er verwarring ontstaan, zeker voor een beginnende programmeur.

Je kan Python downloaden via:

<a href="https://www.python.org/downloads/" target="_blank">https://www.python.org/downloads/</a>

Momenteel wordt het meest gewerkt met **versie 3** van Python, maar je zult ook nog programma's tegen komen die in een vorige versie gemaakt zijn. Versie 3 is niet compatibel met de vorige versies (en verklaart waarom sommige mensen toch nog met Python 2 werken). In deze cursus werken we met versie 3.

Python is in principe een soort shell (zoals bash onder Linux). Als je het opstart, krijg je de mogelijkheid om commando's in te geven die dan onmiddellijk uitgevoerd worden.

```{figure} images/image1.png
:name: Python Command Prompt

Python Command Prompt
De Python prompt eindigt bijna altijd met `>>>`. In deze cursus zullen we deze prompt afkorten met `>`.
```

```{hint}
In Linux kan je een Python script maken door de eerste regel te laten beginnen met:

```bash
#!/usr/bin/python3

Dit werkt natuurlijk enkel als `python3` in deze folder geïnstalleerd is.
```

Om iets gemakkelijker met Python te werken, kan je gebruik maken van een IDE (Integrated Development Environment). Deze geeft de mogelijkheid om code te schrijven, fouten op te sporen, variabelen te inspecteren, ... Voor Python bestaan er heel veel IDE's.

Zo is er bijvoorbeeld <a href="https://www.jetbrains.com/pycharm/">PyCharm van Jetbrains.</a>: een commerciële python IDE. Kies voor de **Professional** versie en gebruik dezelfde Jetbrains account als die die je gebruikt voor IntellIJ. Er zijn ook tal van open source IDE's. Spyder is een goed voorbeeld.

Buiten de gewone IDE's voor Python bestaat er ook **Jupyter**. Dit is een programma dat toelaat om documentatie en Pythoncode te combineren.  Deze cursus is geschreven door gebruik te maken van Jupyter.

## Python Script of Jupyter Notebooks

Je kan in je IDE een Pythonscript file aanmaken of een Jupyter Notebook file.

* In een Python scriptfile schrijf je enkel code met commentaar. Je kan deze scripts uitvoeren in een commandline binnen je IDE.

* Een Jupyter Notebook bestaat uit een opeenvolging van codeblokken en/of Markdown blokken die interactief kunnen uitgevoerd worden m.b.v. Ctrl+Enter.

In de les krijg je meer uitleg over het gebruik van één van beide. De codevoorbeelden die je hieronder ziet, kan je noteren in een Python Script of in een codeblok in een Jupyter Notebook.

````{admonition} Python vs Java

* er is geen `;` nodig op het einde van een statement, tenzij er nog een statement op dezelfde lijn staat.
* alle tekens na een `#`-teken worden als commentaar gezien tot het einde van een lijn (vergelijk dit met `//` in Java).
* als je meer lijnen commentaar schrijven, dan kan je iedere lijn laten beginnen met `#`. Maar je kan ook volgende syntax gebruiken:

```python
"""
Dit is commentaar
over verschillende lijnen
verspreid
"""
```

* Er zijn geen accolades `{}` zoals in Java om statements te bundelen. Het aantal spaties in het begin van een lijn bepalen de scope van een codeblock (zie verder). Let dus goed op dat dit aantal juist is. Gebruik **Ctrl-Alt-L** om de code te formatteren, zo ben je zeker dat de code goed geformatteerd is.
* Python is een hybride taal waarin je zowel **functioneel**, **procedureel** als **object georiënteerd** kan werken. Dat is soms verwarrend: soms zul je een functie oproepen en een object als parameter meegeven, soms zul je een methode oproepen op een object en soms zul je een functie als parameter meegeven.
````

# 2 Bibliotheken in Python

We zullen in Python heel wat bibliotheken gebruiken. Dit zijn grote stukken software die door anderen geschreven werden en die je kan gebruiken in je eigen programma. Python bibliotheken dien je te installeren. Hiervoor kan je de IDE gebruiken, maar je kan ook via de command line een bibliotheek installeren. Je gebruikt hiervoor het commando `pip` dat standaard bij python wordt meegeleverd. Als je bijvoorbeeld de bibliotheek `pandas` wil installeren, typ je:

```bash
pip install pandas
```

in een terminal. Bibliotheken hoef je normaal gezien maar 1 maal te installeren. Als de bibliotheek afhankelijk is van andere bibliotheken, dan zullen die normaal gezien automatisch mee geïnstalleerd worden. Maar dat is niet altijd het geval. Soms zal je een bibliotheek handmatig moeten toevoegen om een andere te laten werken.

Het commando `pip` zal de bibliotheek installeren in de huidige **virtual environment** (venv). Een virtual environment is een folder waarin alle bibliotheken en executables staan die je gebruikt. Je kan verschillende virtual environments op één systeem hebben. Dit laat toe om verschillende versies van bibliotheken te gebruiken. Men heeft dit systeem ingevoerd omdat vele bibliotheken van elkaar afhangen en niet altijd compatibel zijn met de laatste versie van elkaar. Op deze manier kan je dan een virtual environment maken met de juiste versies van de bibliotheken die jij wil gebruiken.

Je kan een specifieke versie van een bibliotheek installeren door het versienummer erachter te zetten:

```bash
pip install pandas==1.4.2
```

Als je bibliotheken wil gebruiken, moet je ze importeren in je project (zoals `import` bij Java of `include` bij C). In Python gebeurt dit als volgt:

```python
import math
```

Nu kan je bijvoorbeeld de functie `math.sqrt()` gebruiken om de wortel uit een getal te berekenen.

Soms worden bibliotheken afgekort om typwerk te besparen. Zo kan je schrijven:

```python
import math as m
```

Vanaf nu kan je schrijven: `m.sqrt()`

Je kan ook specifieke functies uit een bibliotheek selecteren met:

```python
from math import sqrt
```

Nu kan je de functie `sqrt()` gewoon gebruiken zonder te verwijzen naar math.

In deze cursus zullen we dikwijls van volgende bibliotheken gebruik maken:

In [1]:
import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

ModuleNotFoundError: No module named 'numpy'

Er zijn twee bibliotheken die heel erg belangrijk zijn: Numpy en Pandas. Deze zul je op veel plaatsen (niet enkel in deze cursus) tegen komen. De Numpy bibliotheek bevat heel wat mogelijkheden om met lijsten van gegevens te rekenen. Pandas wordt gebruikt om data in tabellen te plaatsen en te verwerken. Pandas werd gecreëerd om de functionaliteit van R (een andere zeer populaire programmeertaal voor data science) na te bootsen.


# 3 Python als rekenmachine

Je kan Python als rekenmachine gebruiken. Probeer volgend script uit (alles na een `#`-teken is commentaar):

In [None]:
print(6 * 7)  # eenvoudige vermenigvuldiging

In [None]:
print(2 ** 3)  # machtsverheffing

In [None]:
print((2 + 4) * (9 - 2))  # haakjes

In [None]:
print(60 * math.sin(math.pi / 4))  # # goniometrische functies (radialen)

Bemerk dat `print()` vergelijkbaar is met `System.out.println()` uit Java.

```{admonition} Python Script vs Jupyter Notebook

Je hebt dit `print`-statement niet nodig wanneer je werkt in een Jupyter notebook. De laatste uitvoer van een codecel wordt automatisch getoond. Je mag het `print`-statement nog wel gebruiken, maar het is niet nodig. Je kan er dus tijd mee besparen.

```

# 4 Variabelen

In Python kan je variabelen gebruiken. Je hoeft ze niet te declareren: het type wordt automatisch bepaald en kan zelfs veranderen als je een andere waarde toekent.

Volgende code maakt een variabele aan met de naam `a` en wijst er een getal aan toe:

In [None]:
a = 3 * 14

Je kan de waarde van een variabele opvragen of er berekeningen mee doen:

In [None]:
print(a)

In [None]:
print(a * 7 + 3)

En je kan ook andere waarden toekennen aan de variabele. Het type van de variabele wordt automatisch aangepast, zelfs als er al een andere waarde in de variabele zat:

In [None]:
a = "bla"
print(a)

In [None]:
a = 'bla'
print(a)

In [None]:
a = 42.5
print(a)

In [None]:
a = True
print(a)

De eerste 2 statements laten zien hoe string literals in Python worden gedeclareerd: je kan kiezen voor enkele of dubbele quotes. Je zal beide soorten dikwijls tegen komen.

Het laatste statement laat zien hoe booleans werken: True en False worden met een hoofdletter geschreven.

Python wijst het type automatisch aan een variabele toe. Je kan het type opvragen met de functie type():

In [None]:
a = "bla"
print(type(a))

In [None]:
a = 'bla'
print(type(a))

In [None]:
a = 42.5
print(type(a))

In [None]:
a = True
print(type(a))

In Python wordt er bijna nooit met camel case gewerkt zoals in Java. In de plaats daarvan wordt meestal een underscore gebruikt om woorden te onderscheiden:

In [None]:
mijn_variabele = 127 / 3
print(mijn_variabele)

Bemerk dat het resultaat geen integer is (in Java zou dat wel zo zijn omdat je 2 integers door elkaar deelt). Als je wil dat het resultaat een integer is, gebruik dan de volgende syntax:

In [None]:
mijn_variabele = 127 // 3
print(mijn_variabele)

## 4.1 IEEE 754

Python gebruikt IEEE 754754 doubles (64 bits) als formaat voor kommagetallen. Dit wil zeggen dat je ook de speciale waarden van deze standaard kan gebruiken:

In [None]:
a = math.inf
print(a)

In [None]:
b = math.nan
print(b)

Let op dat je dus ook dezelfde rekenfouten kan maken als in Java of andere programmeertalen die gebruik maken van deze standaard! Kijk maar naar de volgende code:

In [None]:
d = 2927.6 + 67 + 63 + 63 + 70 - 3142.5
print("d = ", d)

Dit resultaat is niet helemaal juist! Het kan erger worden wanneer je hiermee verder rekent.

# 5 Lijsten van gegevens

We zullen in data science enorm dikwijls met lijsten van gegevens werken. Het is dus belangrijk om daar een goede datastructuur voor te hebben. In deze cursus zullen we drie verschillende lijsten gebruiken:

- Python lists: dit zijn de lijsten die ingebouwd zitten in de programmeertaal
- pandas Series: dit zijn lijsten die gedefinieerd worden in de pandas bibliotheek
- Numpy arrays: dit zijn lijsten die gedefinieerd worden in de Numpy bibliotheek

Het is belangrijk om goed te begrijpen dat dit 3 verschillende datastructuren zijn, ondanks het feit dat ze heel erg hard op elkaar lijken. Je zal een lijst dikwijls eerst moeten omzetten naar een ander type lijst om ermee te kunnen werken. We bespreken deze drie lijsten hieronder.

## 5.1 Python list

De Python taal heeft een ingebouwde datastructuur voor lijsten. Deze worden **lists** genoemd. Een list is vergelijkbaar met een `ArrayList` uit Java en kan je als volgt gebruiken:

In [None]:
x = [3, 4, 5, 6, 7, 8, 9, 10]
print(x)

De variabele x bevat nu een lijst met alle getallen tussen 3 en 10.
De lengte van een list kan je opvragen met:

In [None]:
print(len(x))

We gaan dikwijls een lijst nodig hebben met waarden tussen bepaalde grenzen. Dit kunnen we als volgt maken:

In [None]:
x = list(range(3, 11))
print(x)

Dit levert hetzelfde resultaat op als hiervoor.
Een range is een object dat alle waarden tussen 2 grenzen aanduidt. De bovenste grens is niet inbegrepen.

Je kan lists **optellen**. Dit leidt tot het concateneren van de lists:

In [None]:
y = x + [11, 12, 13]
print(y)

Als je lists vermenigvuldigt met een getal, wordt de lijst herhaald:

In [None]:
x = [1, 2, 3]
print(x * 3)

Lists mogen verschillende waarden van verschillende types bevatten:

In [None]:
x = [42, 3.14, "hallo", True]
print(x)

Je kan elementen op verschillende manieren uit een lijst halen met de []. Indexen beginnen altijd met 0.

Probeer eens volgende statements en bekijk de output:

In [None]:
print(x[0])  # het eerste element

In [None]:
print(x[-1])  # het laatste element

Het volgende noemt men "slicing":

In [None]:
print(x[1:4])  # elementen 1, 2 en 3

In [None]:
print(x[1:4:2])  # elementen 1 en 3

In [None]:
print(x[::2])  # elementen 0 en 2

In [None]:
print(x[::-1])  # elementen 3, 2, 1 en 0

Zoals je kan zien, kan je met de [] operator verschillende elementen in 1 keer kiezen. Het resultaat is dan weer een list. De laatste grens is er steeds niet bij inbegrepen. Zo gaat x[1:4] enkel elementen 1, 2 en 3 selecteren. Eigenlijk kan je de selectie zien als een soort for-loop. Het resultaat van result=x[a:b:c] kan vergeleken worden met de volgende for-loop in Java:

```java
result = new ArrayList();
for(int i=a; i<b; i+=c) {
  result.add(x[i])
}
```

Als de laatste waarde negatief is, wordt er achterwaarts door de lijst gelopen.

## 5.2 Pandas Series

In de Pandas bibliotheek worden ook lijsten gedefinieerd. Deze worden **Series** genoemd. Een Series lijkt op een list, maar er zijn toch wel wat verschillen. Een Series kan bijvoorbeeld enkel waarden van 1 type bevatten. De Series houdt dus ergens bij welk type de elementen hebben.

### 5.2.1 Een Pandas Series aanmaken

Je kan een Series maken aan de hand van een list:

In [None]:
lijst = [10, 20, 30, 40, 50, 60]
series = pd.Series(lijst)
print(series)

Je ziet dat een Series verticaal wordt afgebeeld.  De nummers aan de linkerkant tonen de **indexen** van iedere rij.  Eigenlijk is een Series te vergelijken met een `Map` uit Java.  Ze mapt de indexen op waarden.  We komen hier verder op terug. Je kan ook zien dat er een type wordt getoond (`dtype`).  In dit geval worden alle waarden dus opgeslagen als 64-bit integers.

Het is ook mogelijk om een Series terug om te zetten naar een list.  Dat kan bijvoorbeeld handig zijn om de waarden gewoon op 1 lijn af te drukken:

In [None]:
print(series.to_list())

Je kan de lengte van een Series op dezelfde manier bepalen als bij lists:

In [None]:
print(len(series))

### 5.2.2 Rekenen met Series

Je kan rekenen met Series. Dit geeft echter een ander effect dan met lists! Kijk maar naar de output van volgende code. We maken eerst een Series met een aantal waarden:

In [None]:
series = pd.Series([2, 2, 0, 5, 1, 4, 4, 0, 0, 3])
series

Nu kunnen we deze vermenigvuldigen met 3 (om plaats te besparen, drukken we de Series af als een list):

In [None]:
print((series * 3).to_list())

Zoals je ziet, wordt ieder element vermenigvuldigd met 3.  Dit is helemaal anders dan bij lists!  Daar werd de list drie keer herhaald.
Je kan ook een getal optellen bij een Series (dit kan niet bij een list).  Het getal wordt dan bij ieder getal van de Series bijgeteld:

In [None]:
print((series + 10).to_list())

Je kan Series ook met elkaar optellen en vermenigvuldigen.  Om dit te demonstreren, maken we eerst een tweede Series:

In [None]:
series2 = pd.Series([1, 4, 4, 3, 4, 0, 0, 3, 4, 1])
print(series2)

Nu kunnen we zien wat er gebeurt als je ze optelt:

In [None]:
print((series + series2).to_list())

Dit is dus **geen** concatenatie zoals bij lists!  In dit geval worden de elementen van de twee lijsten opgeteld.
Je kan ze ook vermenigvuldigen:

In [None]:
print((series * series2).to_list())

In de vorige voorbeelden hadden de twee Series hetzelfde aantal elementen.  Als dat niet het geval is, worden er NaN waarden toegevoegd (meer hierover in het volgende deel).  Het resultaat zal altijd de lengte hebben van de langste Series die je opgaf.  Volgende code demonstreert dit:

In [None]:
series3 = pd.Series(range(1, 5))
print((series + series3).to_list())

Zoals je kan zien, kan je eenvoudig een operatie op een hele lijst in 1 keer uitvoeren. In andere programmeertalen (zoals Java en C) moet je dat via een for-loop doen. Deze eigenschap maakt het mogelijk om zeer compacte en toch krachtige code te schrijven.

### 5.2.3 Data uit Series selecteren

Je kan data uit een Series selecteren met "slicing" zoals bij lists:

In [None]:
series = pd.Series(range(1, 10))
print(series[2:9:2])

Links zie je de geselecteerde indexen en rechts de waarden die daar staan.  Zoals je ziet gaat de index niet meer van 0 tot het aantal min 1.  Meer informatie hierover, wordt verder gegeven.

Je kan ook meerdere rijen selecteren door de indexen op te sommen:

In [None]:
select = [0, 2, 1]  # gewone list
print(series[select])  # geen for nodig

Met bewerkingen kan je op intelligente manieren data selecteren uit een Series.
We weten al dat je in 1 statement een bewerking kan uitvoeren op ieder element (zoals bij + en *).  Maar je kan dit ook met logische operatoren doen die een boolean produceren.  In dat geval wordt de operatie ook op ieder element uitgevoerd en wordt het resultaat een Series van booleans:

In [None]:
print(series > 4)

Zoals je ziet, wordt ieder element hier vergeleken met 4.  Als het element groter dan vier is, wordt True in het resultaat gestoken en anders False.
Deze lijst van booleans kunnen we nu gebruiken om elementen te selecteren.  We willen alle elementen selecteren waar er True staat in de vorige lijst.  Dit kan als volgt:

In [None]:
print(series[series > 4])

Je kan dus een lijst van booleans meegeven tussen de vierkante haken.  Dit kan niet met lists.  Het is echter heel krachtig en zullen dit heel dikwijls gebruiken.
Hier zie je nog een voorbeeld.  We zoeken alle even getallen in een Series:

In [None]:
even = ((series % 2) == 0)
print(series[even])

Je kan zelfs data selecteren uit een Series op basis van informatie in een andere Series.  Stel dat je volgende 2 Series hebt:

In [None]:
vakken = pd.Series(['data science', 'programmeren', 'databanken', 'hardware', 'operating systems'])
scores = pd.Series([18, 15, 13, 16, 12])

Deze geven weer wat de scores waren voor ieder vak.
We zoeken nu alle vakken waarvoor de score groter was dan 15.  Dit kan als volgt:

In [None]:
print(vakken[scores > 15])

Zoals je ziet, is dit mechanisme enorm handig!

### 5.2.4  Series als een Map

Zoals hiervoor al opgemerkt, is een Series eigenlijk een soort Map (van Java).  Ze associeert keys met values.  In het voorbeeld van de even getallen kan je dit zien.  We vroegen alle even getallen op uit een Series.  Als je goed kijkt, dan zie je dat de index van het resultaat niet van 0 tot en met 3 gaat, maar de oorspronkelijke indexen bevat van de rijen (1, 3, 5 en 7).
Als je een Series maakt, wordt de index gelijk gesteld aan getallen van 0 tot het aantal elementen min 1.
Je kan een index ook meegeven als parameter bij het creëren:

In [None]:
series = pd.Series([10, 20, 30, 40, 50], index=[4, 3, 8, 6, 10])
print(series)

Je ziet dat de volgorde behouden wordt zoals werd opgegeven.
Je kan data toevoegen door iets toe te wijzen aan een bepaalde index.  Die index hoeft niet eens een getal te zijn.  Het volgende voorbeeld illustreert dit:

In [None]:
series[100] = 5
series['hello'] = 42
print(series)

In [None]:
print(series['hello'])

## 5.3 Numpy array

In de Numpy bibliotheek worden ook lijsten gedefinieerd. Deze worden **array** genoemd. Een Numpy array is een soort list.  Een Numpy array kan, zoals een Series, enkel waarden van 1 type bevatten. Er zijn tal van interessante functies in Numpy om arrays te manipuleren. We tonen hier slechts enkele. Probeer volgende code eens uit.

Je kan eenvoudig data genereren met:

In [None]:
arr = np.zeros(10, dtype=int)
print(arr)

In [None]:
arr = np.ones(5, dtype=float)
print(arr)

In [None]:
arr = np.random.randint(6, size=10)
print(arr)  # 10 willekeurige getallen tussen 0 en 5

Een np.arange() is nog handiger dan een range().  Je kan er ook kommagetallen mee genereren:

In [None]:
arr = np.arange(1.1, 2, 0.3)
print(arr)

In [None]:
print(arr[2])  # bemerk de floating point fout weer

Rekenen, slicing en selecteren kan op dezelfde manier als bij een Series.  Een array heeft echter geen index.  De elementen zijn allemaal genummerd van 0 tot het aantal elementen min 1.

Je kan een array maken aan de hand van een list:

In [None]:
lijst = [1, 2, 3]
arr = np.array(lijst)
print(arr)
print(type(arr))

En je kan een Numpy array omzetten naar een list met:

In [None]:
arr = np.random.randint(6, size=10)
lijst = arr.tolist()
print(lijst)
print(type(lijst))

# 6 Specifieke datastructuren

Als we Python gebruiken in de context van data science, dan zijn er nog een paar datastructuren belangrijk. We bespreken die hier.

## 6.1 Categorical

Kwalitatieve gegevens (nominale en ordinale variabelen) kunnen worden gestockeerd in een list, array of Series als strings, maar dat is niet altijd zo ideaal.

Stel dat je aan een aantal personen gevraagd hebt hoe belangrijk ze iets vinden. De resultaten kunnen dan als volgt in een list gestoken worden:

In [None]:
mening = ['niet belangrijk', 'heel belangrijk', 'heel belangrijk',
          'een beetje belangrijk', 'heel belangrijk', 'een beetje belangrijk',
          'een beetje belangrijk', 'niet belangrijk', 'heel belangrijk',
          'heel belangrijk']

Zoals je ziet, zijn er waarden die verschillende keren voorkomen. Er zijn ook waarden die niet voorkomen. Zo was het bijvoorbeeld mogelijk om 'extreem belangrijk' te antwoorden, maar niemand heeft dat gedaan. De waarden nemen ook veel geheugen in beslag aangezien de strings lang zijn en voor iedere waarde een nieuwe string wordt gemaakt. Nu zijn er slechts 10 meningen, maar als dat 10000 meningen worden, zal het geheugengebruik aanzienlijk toenemen.

Om het geheugengebruik te verminderen, zou het beter zijn om 2 lijsten bij te houden: een lijst met alle mogelijke waarden en een lijst met indexen. Dit zou dan zo kunnen:

In [None]:
meningMogelijkheden = ['niet belangrijk', 'een beetje belangrijk',
                       'heel belangrijk', 'extreem belangrijk']
meningIndexen = [0, 2, 2, 1, 2, 1, 1, 0, 2, 2]

In Pandas bestaat er een datastructuur die exact dit doet: de **Categorical**. Deze gebruikt bovenstaande structuur om efficiënt een lijst van strings bij te houden. Een Categorical is dus een object dat 2 lijsten bevat.  Je maakt zo'n Categorical als volgt aan:

In [None]:
meningSeries = pd.Categorical(mening, categories=meningMogelijkheden)
print(meningSeries)

Zoals je kan zien, houdt de variabele meningSeries nu de 2 arrays in zich. De array met indexen wordt echter verborgen en altijd getoond met de echte waarden. Daardoor lijkt deze lijst op een gewone lijst, maar het geheugengebruik is veel efficiënter.

Een Categorical kunnen we dus gebruiken voor nominale data. Als de data ordinaal is (zoals in dit voorbeeld), kunnen we dat als volgt aangeven:

In [None]:
meningSeries = pd.Categorical(mening, categories=meningMogelijkheden, ordered=True)

In de lijst met categorieën staat er nu '<' om aan te duiden dat er een volgorde in de index zit. In de praktijk zullen we nominale en ordinale data bijna altijd omzetten naar een (Pandas) Categorical. De enige uitzondering is een nominale variabele waarbij (bijna) alle waarden anders zijn.

Als je vertrekt van een Categorical, dan kan je alle mogelijke waarden opvragen met:

In [None]:
print(meningSeries.categories.tolist())

En je kan de lijst van indexen opvragen met:

In [None]:
print(meningSeries.codes)

## 6.2 Data frames

In de meeste gevallen zit data in tabellen opgeslagen. Dat komt omdat dit een handig formaat is dat ook in databanken veel gebruikt wordt. In de Pandas bibliotheek is een tabel geïmplementeerd als een **DataFrame**. Eigenlijk is een data frame een collectie van Series van dezelfde lengte. Iedere Series is een kolom uit de tabel. Iedere kolom heeft een naam.  De data zit dus niet per rij gestockeerd zoals bij een databank, maar per kolom.

### 6.2.1 Aanmaken

Om een data frame van nul te maken, hebben we eerst een aantal lijsten nodig (dit kunnen Series, arrays of lists zijn) die we als kolommen gaan gebruiken. Daarna kunnen we de kolommen samenvoegen tot 1 data frame. Je ziet dit in het volgende voorbeeld:

In [None]:
x = pd.Series(range(1, 6))
y = ["foo", "bar", "bla", "boe", "foo"]
z = np.random.randint(10, size=5)
f = pd.DataFrame({'id': x, 'naam': y, 'score': z})
print(f)

We creëerden hier eerst 3 lijsten (als demonstratie wordt ieder type lijst hier gebruikt), elk met 5 elementen. Daarna wordt een tabel gemaakt, waarbij de eerste kolom gelijk wordt aan de Series x en de naam `id` krijgt. De tweede kolom bestaat uit de waarden uit de list y en krijgt de naam `naam` en de derde kolom wordt gemaakt met de array z en krijgt de naam `score`.

### 6.2.2 Lezen en manipuleren

Je kan verschillende gegevens van een data frame opvragen. Het aantal rijen vind je met:

In [None]:
print(len(f))

Het aantal kolommen kan je vinden met:

In [None]:
print(f.columns.size)

De namen van de kolommen kan je vinden met:

In [None]:
print(f.columns.tolist())

De rijnummers in een data frame noemen ze de `index`. Net zoals bij Series zijn deze nummers een soort key die mapt op de rij van de tabel. De rijnummers kan je opvragen met:

In [None]:
print(f.index.tolist())

### 6.2.3 Kolommen

Kolommen selecteren kan door de naam van de kolom te gebruiken. Je kan dit op 2 manieren:

In [None]:
print(f['id'])  # je gebruikt het data frame als een array van Series
print(f.naam)  # je gebruikt de kolomnaam als attribuut

Een kolom is altijd van het type Series:

In [None]:
print(type(f.naam))

Als je een kolom wil verwijderen, dan kan dat als volgt:

In [None]:
f = f.drop(columns='id')
print(f)

Bemerk dat de methode `drop` een nieuw data frame creëert (het data frame zelf wordt niet veranderd). Om het oude data frame te veranderen, wordt de nieuwe waarde toegewezen aan de variabele. Je kan ook de optie `inplace=True` gebruiken. Het data frame zal dan wel aangepast worden:

In [None]:
f.drop(columns='score', inplace=True)
print(f)

Een kolom toevoegen is eigenlijk heel eenvoudig: je wijst er een waarde aan toe:

In [None]:
f['score'] = np.random.randint(10, size=5)
f['key'] = [10, 20, 30, 60, 40]
print(f)

In [None]:
### 6.2.4 Rijen

Als je een rij wil selecteren, dan kan je dat doen a.d.h. van een waarde uit de index met het `loc` attribuut:

In [None]:
f.loc[1]  # de rij met index gelijk aan 1

In [None]:
f.loc[1:3]  # de rijen met index tussen 1 en 3 (inclusief!)

Bemerk dat als je één rij selecteert, de uitkomst een Series is. In de andere gevallen is het resultaat een data frame.

Een rij verwijderen, kan je doen met:

In [None]:
f = f.drop(1)  # verwijder de rij met nummer 1
print(f)

Merk op dat er nu geen rij met nummer 1 meer is! Als je rijnummer 1 opnieuw wil verwijderen, krijg je een fout! Je ziet dat de rijnummers dus eigenlijk een index vormen (zoals de index van een Series).

### 6.2.5 Rij- en kolomnummers

Soms wil je een data frame niet gebruiken via de index- of kolomnamen, maar gewoon als tweedimensionale array waarbij iedere rij en kolom genummerd zijn van 0 tot het aantal min 1. Dit kan als volgt met `iloc`:

In [None]:
print(f.iloc[3, 2])  # selecteer de vierde rij, derde kolom

Je kan één of meerdere rijen selecteren:

In [None]:
print(f.iloc[3])  # vierde rij

In [None]:
print(f.iloc[1:4])  # laatste index telt niet mee

Of kolommen:

In [None]:
print(f.iloc[:, 0])  # eerste kolom

In [None]:
print(f.iloc[:, 1:3])  # kolommen 1 en 2

Of een combinatie:

In [None]:
print(f.iloc[0:2, 1:3])

Merk op dat `iloc` altijd coördinaten gebruikt (die vanaf 0 starten). Als je een rij of kolom verwijdert, dan schuiven alle coördinaten gewoon op. De index-nummers blijven echter gelijk.  Je kan dit in bovenstaand voorbeeld zien aan het feit dat index 1 daar verdwenen is.

# 7 Functies

Aangezien Python een programmeertaal is, zijn functies heel belangrijk. Je kan een functie vergelijken met een static method in Java. Alleen is een functie niet noodzakelijk verbonden aan een klasse.

## 7.1 Functies declareren

Je kan een functie als volgt declareren:

In [None]:
def mijn_functie(n):
    result = math.sqrt(n) / 2
    return result

Merk op dat puntkomma's niet nodig zijn op het einde van een regel op voorwaarde dat er maar 1 statement op de regel staat. Je hoeft ook niet te specificeren welk type de parameter heeft (dit is optioneel).

Merk ook op dat er geen tekens zijn om het begin en einde van de functie weer te geven. Alle statements die behoren tot de functie hebben hetzelfde aantal spaties in het begin van de regel (dezelfde `indentatie`). Als het aantal spaties verandert, behoort die regel niet meer tot de functie. Indentatie is dus zeer belangrijk!

Je kan de functie eenvoudig als volgt gebruiken:

In [None]:
print(mijn_functie(9))

Een functie kan in Python meerdere waarden terug geven. Dit gebeurt via een list:

In [None]:
def minmax(x):
    return [np.min(x), np.max(x)]

Je kan deze functie dan als volgt gebruiken:

In [None]:
mi, ma = minmax([1, 2, 3, 4, 5])
print(mi)
print(ma)

In Python is er geen main() functie. Python voert alle statements in een bestand uit. Je kan echter wel aangeven dat vanaf een bepaalde lijn, alle statements als onderdeel van de `main` beschouwd moeten worden. Dit doe je met de volgende lijn:

```python
if __name__ == '__main__':
```

Daarna schrijf je alle statements met een gelijke indentatie. Bovenstaande is echter niet verplicht. Je kan je statements ook gewoon zonder deze if schrijven.

## 7.2 Parameters

Bovenstaand voorbeeld was een functie met 1 parameter. Je kan in Python natuurlijk ook meerdere parameters ingeven. Je ziet hier een voorbeeld:

In [None]:
def mijn_functie(a, b, c):
    return a + b - c

Je kan deze functie bv als volgt oproepen:

In [None]:
mijn_functie(10, 5, 1)

Een andere manier om een functie op te roepen, is door het expliciet vermelden van de namen van de parameters. Dit maakt code is vele gevallen leesbaarder en het laat zelfs toe om de volgorde te wisselen:

In [None]:
mijn_functie(b=5, a=10, c=1)

Het is dus wel belangrijk om, in dit laatste geval, de namen van de parameters op te geven. Anders weet Python niet welke parameter met welke waarde overeenkomt.

### 7.2.1 Default waarden

Soms wil je bepaalde parameters optioneel maken. Stel dat je een functie wil maken die een getal verhoogt met een bepaalde waarde. Als de waarde niet wordt opgegeven, moet het getal verhoogd worden met 1. Je kan dit als volgt doen:

In [None]:
def verhoog(getal, aantal=1):
    return getal + aantal

Deze functie kan je nu op twee manieren gebruiken:

In [None]:
print(verhoog(41))

In [None]:
print(verhoog(40, 2))

## 7.3 Controlestructuren

Python is een volledige programmeertaal. Je kan dus ook gebruik maken van conditionele en iteratieve statements zoals if, while en for. Het volgende voorbeeld illustreert dit:

In [None]:
def zoek(element, lijst):
    if len(lijst) == 0:
        return False
    else:
        for d in lijst:
            if d == element:
                return True
        return False

De indentatie bepaalt weer waar een groep van statements begint en eindigt!

Een for-loop werkt altijd met een lijst die doorlopen wordt (vergelijk dit met een foreach in Java). Als je een klassieke for-loop wil maken met een index, dan gebruik je de range() functie. Bijvoorbeeld als volgt:

```python
for i in range(0,10)range():
   ...
```

Je kan bovenstaande functie als volgt gebruiken:

In [None]:
print(zoek(4, [3, 4, 6, 8]))

In [None]:
zoek(4, [3, 6, 8])

Je kan dezelfde functie ook met een `while`-loop maken. Dat gaat als volgt:

In [None]:
def zoek(element, lijst):
    if len(lijst) == 0:
        return False
    else:
        i = 0
        while i < len(lijst):
            if lijst[i] == element:
                return True
            i = i + 1
        return False

## 7.4 Functies als parameter

Functies zijn gewone datatypes in Python. Dat betekent dat je een functie ook als parameter kan meegeven aan een andere functie! We gaan in dit document niet helemaal in op de details, maar geven gewoon één voorbeeld om dit duidelijk te maken. Dit mechanisme is enorm krachtig en wordt tegenwoordig meer en meer gebruikt, ook in andere programmeertalen (de tegenhanger in Java heet een **lambda**). Deze manier van programmeren wordt ook wel **functional programming** genoemd.

Hier zie je een voorbeeld:

In [None]:
def pas_functie_toe(lijst, functie):
    resultaat = []
    for element in lijst:
        resultaat = resultaat + [functie(element)]
    return resultaat

Deze functie verwacht een lijst en een andere functie als parameter. Vervolgens zal de gegeven functie worden toegepast op alle elementen van de lijst. Al deze resultaten worden in een lijst geplaatst en terug gegeven.

Om deze functie te gebruiken, definiëren we eerst volgende functie:

In [None]:
def verhoog(n):
    return n + 1

Nu kunnen we de verhoog() functie toepassen op een lijst:

In [None]:
lijst = [10, 20, 30]
result = pas_functie_toe(lijst, verhoog)
result

De bovenstaande functie `pas_functie_toe()` is overigens reeds in Python geïmplementeerd in de Pandas bibliotheek (deze heet `apply()`). Hier zie je hoe je dit kan gebruiken:

In [None]:
lijst = pd.Series([10, 20, 30])
lijst2 = lijst.apply(verhoog)
lijst2.tolist()

Belangrijk hierbij is dat je de for-lus dus niet meer hoeft te schrijven. Als je in Python een for-lus wil schrijven, is er meestal een alternatief mogelijk via functional programming. In deze cursus gaan we dit echter niet afdwingen. Als je dit te moeilijk vindt en liever een for-lus schrijft, dan is dat prima :-).