__info__  
In cellen van dit notebook wordt regelmatig het volgende commando gebruikt: `%%time`  
Dit commando is een IPython/Jupyter notebook [magic command].  
Het commando laat zien hoe lang de executie van de code in de cell duurde.  
Vaak duurt een stukje code micro-seconden (`µs`) of milli-seconden (`ms`).  

[magic command]: https://ipython.readthedocs.io/en/stable/interactive/magics.html

# Comprehensions

## Intro

In dit notebook leren we wat _comprehensions_ zijn in Python.  

Comprehensions zijn constructies waarmee een serie gemaakt kan worden van andere series.  
Het lijkt heel complex, toch is het niet veel anders dan een for-loop.  
Het kan gezien worden als een for-loop, in een lijst, op één regel.

### Hoe is een list comprehension opgebouwd

In [1]:
from IPython import display
display.HTML(filename=r'./docs/comprehension_structure.html')
# hieronder een simpel overzicht over hoe een list comprehension is opgebouwd

In [2]:
een_lijst = [1, 2, 3]  # serie met objecten (list met int's)

comprehension = [nummer for nummer in een_lijst]
comprehension

[1, 2, 3]

### Waarom comprehensions

Wat met een comprehension kan is ook met een simpele for-loop te doen.  
Veelal is de simpele for-loop beter te lezen en te begrijpen voor de onervaren Python ontwikkelaars.  
Toch is een for-loop langdradig en minder efficient dan een comprehension.  

Hieronder een voorbeeld van een for-loop en een list comprehension.  
Beide stukjes code maken een lijst met een miljoen nummers.  

In [3]:
%%time

# een lijst met miljoen nummers maken met een for-loop

miljoen = 1_000_000
miljoen_nummers = list()
for nummer in range(miljoen):
    miljoen_nummers.append(nummer)

CPU times: user 100 ms, sys: 8.86 ms, total: 109 ms
Wall time: 120 ms


In [4]:
%%time

# een lijst met miljoen nummers maken met een list comprehension

miljoen = 1_000_000
miljoen_nummers = [nummer for nummer in range(miljoen)]

CPU times: user 13.2 ms, sys: 39.7 ms, total: 52.8 ms
Wall time: 63.7 ms


Zoals cellen hierboven te zien is, de list comprehension is met 30% tot 60% sneller.  
Ook is de for-loop versie 3 regels, en de list comprehension werkt op 1 regel.  
Het resultaat van beide is hetzelfde, de efficientie is bij de list comprehension beter.  

---

### Comprehensions met een `if` statement

Het is bekend dat er if-statements in for-loops geschreven kan worden.  
Met deze if-statements kan er verschillende acties uitgevoerd worden als de expressie `True` of `False` is.  
Er kan bijvoorbeeld data uit een serie gefilterd worden.

Een comprehension kan ook een if-statement bevatten.  
Hieronder een voorbeeld hoe dat in een list comprehension geschreven kan worden.  

In [5]:
from IPython import display
display.HTML(filename=r'./docs/comprehension_expression_structure.html')
# hieronder een simpel overzicht over hoe een list comprehension met expressie is opgebouwd

Hieronder een voorbeeld van een for-loop en een list comprehension.  
Allebei hebben de loops een if-statement.   
Beide stukjes code maken een lijst met even nummers uit een miljoen aantal nummers. 

In [6]:
%%time

miljoen = 1_000_000
even_nummers = list()
for nummer in range(miljoen):
    if nummer % 2 == 0:
        even_nummers.append(nummer)

CPU times: user 99.7 ms, sys: 18.9 ms, total: 119 ms
Wall time: 125 ms


In [7]:
%%time

miljoen = 1_000_000
even_nummers = [nummer for nummer in range(miljoen) if nummer % 2 == 0]

CPU times: user 33.6 ms, sys: 38.8 ms, total: 72.4 ms
Wall time: 73 ms


---

### Comprehensions met een `if`-`else` statement

Een if-statement om te filteren is handig.  
Maar een if-else-statement is veel handiger.  
Dit kan ook in een comprehension via een [ternary] conditional expression.  

Hieronder een voorbeeld van een list comprehension met een if-else statement.  

[ternary]: https://en.wikipedia.org/wiki/%3F:#Python

In [8]:
from IPython import display
display.HTML(filename=r'./docs/comprehension_ternary_expression.html')
# hieronder een simpel overzicht over hoe een list comprehension met ternary expressie is opgebouwd

Hieronder een voorbeeld van een for-loop en een list comprehension.  
Allebei hebben de loops een if-else-statement.   
Beide stukjes code maken twee lijsten uit een miljoen aantal nummers.  
Een lijst met even nummers en een lijst met oneven nummers. 

In [9]:
%%time

miljoen = 1_000_000
oneven_nummers = list()
even_nummers = list()
for nummer in range(miljoen):
    if nummer % 2 == 0:
        even_nummers.append(nummer)
    else:
        oneven_nummers.append(nummer)

CPU times: user 119 ms, sys: 37.4 ms, total: 157 ms
Wall time: 162 ms


In [10]:
%%time

miljoen = 1_000_000
oneven_nummers = []
even_nummers = [nummer if nummer % 2 == 0 else oneven_nummers.append(nummer) for nummer in range(miljoen)]

CPU times: user 95 ms, sys: 20.5 ms, total: 116 ms
Wall time: 115 ms


---

### Dubbele comprehension

Stel er is een Excel document met meerdere regels.  
Elke regel heeft meerdere cellen met text.  
Het is nodig dat er een lijst wordt gemaakt met de text uit elke cel van het document.  

Een dubbele for-loop helpt dit doel te bereiken.  

```
for row in excel:
   for cell in row:
      # list.append( cell.get_text() )
```

Een for-loop is niet erg efficient, twee for-loops hebben dubbel het probleem.  
Een comprehension efficienter en kan ook meerdere for-loops hebben. 

Hieronder een voorbeeld van een double list comprehension.  

In [11]:
from IPython import display
display.HTML(filename=r'./docs/double_comprehension_structure.html')
# hieronder een simpel overzicht over hoe een dubbel list comprehension met expressie is opgebouwd

Hieronder een voorbeeld van een nested for-loop en een double list comprehension.  
Beide stukjes code maken de gegeven lijst plat.  
Dit gebeurt door de nested lijst uit de lijst te halen en het object aan een lijst toe te voegen.   

In [12]:
%%time

nested_serie = [ ['a', 'b', 'c'], ['d', 'e', 'f'], ['g', 'h', 'i'], ['j', 'k', 'l'], 
                 ['m', 'n', 'o'], ['p', 'q', 'r'], ['s', 't', 'u'], ['v', 'w', 'x'] ]

letter_lijst = list()
for serie in nested_serie:
    for letter in serie:
        letter_lijst.append(letter)

CPU times: user 9 µs, sys: 0 ns, total: 9 µs
Wall time: 11.4 µs


In [13]:
%%time

nested_serie = [ ['a', 'b', 'c'], ['d', 'e', 'f'], ['g', 'h', 'i'], ['j', 'k', 'l'], 
                 ['m', 'n', 'o'], ['p', 'q', 'r'], ['s', 't', 'u'], ['v', 'w', 'x'] ]

letter_lijst = [letter for serie in nested_serie for letter in serie]

CPU times: user 7 µs, sys: 0 ns, total: 7 µs
Wall time: 9.3 µs


#### import this

Als je het kan, zou je het dan moeten doen.  
Je kan ook de vraag op een andere manier stellen: Is dit leesbaar, is dit onderhoudbaar, is dit niet te complex.  

Als er vaak met matrix-structuur gewerkt wordt dan zou het kunnen.  
Is het om een lijst plat te maken dan is de functie `itertools.chain.from_iterable` een betere optie.  

---

### Andere data container comprehensions

Hierboven is gezien dat er een `list` op een efficiente manier gemaakt kan worden met een `list` comprehension.  
Maar Python heeft ook `tuple`, `set` en `dict`.  
Gelukkig wordt de comprehension-syntax op dezelfde manier geschreven.  
Het enige verschil is de container en bij `dict` de notatie.

Voorbeeld: `set` comprehension

In [14]:
nested_serie = [ ['a', 'b', 'c'], ['d', 'e', 'f'], ['g', 'h', 'i'], ['j', 'k', 'l'], 
                 ['d', 'e', 'f'], ['g', 'h', 'i'], ['a', 'b', 'c'], ['j', 'k', 'l'] ]

unieke_letters = {letter for serie in nested_serie for letter in serie}
unieke_letters

{'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l'}

Voorbeeld: `dict` comprehension

In [15]:
from string import ascii_letters

headers = ["plant", "kleur", "klimaat"]
regel = [" Clusia ", "GROEN", "TRopisch\n\r"]

schone_row_dict = {header: value.strip().lower() for header, value in zip(headers, regel)}
schone_row_dict

{'plant': 'clusia', 'kleur': 'groen', 'klimaat': 'tropisch'}

Voorbeeld: `tuple` comprehension

In [16]:
alphabet = tuple(chr(i) for i in range(65, (65 + 26)))
print(alphabet)

('A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z')


Uit alle comprehensions is `tuple` de enige waarbij de comprehension in de functie `tuple` geschreven moet worden.  
Wordt dit niet gedaan dan maakt Python er een `generator` van.

In [17]:
alphabet = (chr(i) for i in range(65, (65 + 26)))
alphabet

<generator object <genexpr> at 0x7f1e0b72deb0>

---

### Goed om te weten

Comprehensions hebben een eigen scope, de `enclosing` scope.  
Comprehensions kunnen dus wel gebruik maken van objecten in een hogere scope, maar kan deze niet overschrijven.  
Dit gedrag is anders dan een for-loop.

Voorbeeld:

In [18]:
y = 0

for y in range(1_000_000):  # `y` wordt overschreven
    pass

print(y)

999999


In [19]:
y = 0

[y for y in range(1_000_000)]  # `y` wordt niet overschreven

print(y)

0


Is het wel nodig om het object in de hogere scope over te schrijven, dan kan dit met de [walrus operator] `:=`

[walrus operator]: https://realpython.com/python-walrus-operator/

In [20]:
y = 0

[(y := i) for i in range(1_000_000)]  # `y` wordt overschreven

y

999999