<a href="https://colab.research.google.com/github/URK-KIPLiIS/Python-lessons/blob/main/ComprehensionsGenerators.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# _Comprehensions_ i generatory w Pythonie

## Wprowadzenie

W języku Python wprowadzono, wzorując się na notacji matematycznej, zwarty i skrócony sposób opisywania kolekcji danych, nazywany _comprehension_ (w swobodnym tłumaczeniu polskim: "wytwornik sekwencji").

Przykład:

W notacji matematycznej zbiór kwadratów liczb naturalnych nie wiekszych niż $10$, zapiszemy następująco:

$$
\{ n^2 : n \in ℕ \ \text{i} \ n < 10 \}
$$

Dwukropek należy czytać: "takich, że". Czyli powyższy zapis przeczytamy jako:

> zbiór kwadratów $n$ takich, że $n$ jest liczbą naturalną mniejszą niż $10$.


W Pythonie zbiór ten zapiszemy następująco:

```python
kwadraty = {n**2 for n in range(10)}
```

UWAGA: zbiór jest strukturą nieuporządkowaną, zatem wydruk jego elementów nie musi być w porządku rosnącym (lub malejącym).

W zależności od potrzeb, możemy również opisywać w ten sposób listy oraz słowniki.

In [50]:
kwadraty_zbior = {n**2 for n in range(10)}
print(kwadraty_zbior)

{0, 1, 64, 4, 36, 9, 16, 49, 81, 25}


In [51]:
kwadraty_lista = [n**2 for n in range(10)]
print(kwadraty_lista)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


In [52]:
kwadraty_slownik = {n : n**2 for n in range(10)}
print(kwadraty_slownik)

{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}


**Ciekawostka**: W Pythonie nie można jawnie stosować notacji _comprehension_ do definiowania wytworników krotek (_tuple comprehension_), tzn. poniższy zapis **nie jest prawidłowy**:

```python
kwadraty_krotka = (n**2 for n in range(10) ) # niepoprawnie
```

Jednakże zarówno krotki, jak i listy, zbiory czy słowniki możemy definiować przy pomocy podobnej notacji: konstruktora i generatora (o tym później).

In [53]:
kwadraty_krotka = (n**2 for n in range(10) ) # tworzony jest obiekt generatora
print(kwadraty_krotka)                       # nie jest to krotka
print(*kwadraty_krotka)                      # odpakowanie generatora do postaci krotki
                                             # od Python 3.5

<generator object <genexpr> at 0x7fefc47f3550>
0 1 4 9 16 25 36 49 64 81


Stsowanie notacji _comprehesion_ zwalnia nas z jawnego generowania sekwencji. Przykładowo, budowę listy kwadratów kolejnych liczb całkowitych możemy zapisać przy użyciu pętli:

In [54]:
kwadraty = []
for n in range(10):
  kwadraty.append(n**2)
print(kwadraty)

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]


## Składnia

Podstawowa składnia zastosowania wytwornika sekwencji (np. dla listy):

```python
sekwencja = [wyrażenie for element in sekwencja_iterowalna]
```

* _wyrażenie_ - wartość, któa zostanie umieszczona na liście
* _element_ - obiekt lub wartość należąca do sekwencji bazowej
* _sekwencja_iterowalna_ - sekwencja (lista, zbiór, ...) lub _generator_, dla których można zastosować petlę `for`.

Bardziej rozbudowaną wersją wytwornika sekwencji jest ta, z uzyciem instrukcji warynkowego wyboru:

```python
sekwencja = [wyrażenie for element in sekwencja_iterowalna if warunek_logiczny]
```

Poniżej przykład:

In [55]:
zdanie = "Ala ma kota, as to Ali pies, który kiedyś będzie duży"
lista_samoglosek_w_zdaniu = [litera for litera in zdanie if litera.lower() in 'aeiouyęą']
print(lista_samoglosek_w_zdaniu)

zbior_samoglosek_w_zdaniu = {litera for litera in zdanie if litera.lower() in 'aeiouyęą'}
print(zbior_samoglosek_w_zdaniu)

['A', 'a', 'a', 'o', 'a', 'a', 'o', 'A', 'i', 'i', 'e', 'y', 'i', 'e', 'y', 'ę', 'i', 'e', 'u', 'y']
{'u', 'A', 'o', 'i', 'ę', 'e', 'a', 'y'}


Poniżej przykłady wyznaczające frekwencję liter w zdaniu:

In [56]:
zdanie = "Ala ma kota, as to Ali pies, który kiedyś będzie duży"

#wariant 1 - dict-comprehension
frekwencja_liter = {litera : zdanie.count(litera) for litera in zdanie}
print(frekwencja_liter)

# wariant 2 - dedykowany obiekt Counter do generowania frekwencji
from collections import Counter
print( Counter(zdanie) ) # zwracany jest obiekt Counter
print( dict(Counter(zdanie) ) ) # konwerujemy obiekt Counter na słownik

{'A': 2, 'l': 2, 'a': 4, ' ': 10, 'm': 1, 'k': 3, 'o': 2, 't': 3, ',': 2, 's': 2, 'i': 4, 'p': 1, 'e': 3, 'ó': 1, 'r': 1, 'y': 3, 'd': 3, 'ś': 1, 'b': 1, 'ę': 1, 'z': 1, 'u': 1, 'ż': 1}
Counter({' ': 10, 'a': 4, 'i': 4, 'k': 3, 't': 3, 'e': 3, 'y': 3, 'd': 3, 'A': 2, 'l': 2, 'o': 2, ',': 2, 's': 2, 'm': 1, 'p': 1, 'ó': 1, 'r': 1, 'ś': 1, 'b': 1, 'ę': 1, 'z': 1, 'u': 1, 'ż': 1})
{'A': 2, 'l': 2, 'a': 4, ' ': 10, 'm': 1, 'k': 3, 'o': 2, 't': 3, ',': 2, 's': 2, 'i': 4, 'p': 1, 'e': 3, 'ó': 1, 'r': 1, 'y': 3, 'd': 3, 'ś': 1, 'b': 1, 'ę': 1, 'z': 1, 'u': 1, 'ż': 1}


Wytworniki sekwencji można zastosować do opisywania bardziej złożonych struktur, np. zagnieżdżając je w sobie:

In [57]:
# tablica 6 wierszy i 5 kolumn, wypełniona domyślnymi wartościami
tablica2D = [[i for i in range(5)] for j in range(6)]
print(tablica2D)

# spłaszczenie tablicy - wypisanie elementów wierszami
tablica1D = []
for wiersz in tablica2D:
  for x in wiersz:
    tablica1D.append(x)
print(tablica1D)

# spłaszczenie tablicy do listy w formie comprehension
tablica1D = [x for wiersz in tablica2D for x in wiersz]
print(tablica1D)

[[0, 1, 2, 3, 4], [0, 1, 2, 3, 4], [0, 1, 2, 3, 4], [0, 1, 2, 3, 4], [0, 1, 2, 3, 4], [0, 1, 2, 3, 4]]
[0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4]
[0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4, 0, 1, 2, 3, 4]


## Generatory

Generator, to specjalna funkcja produkująca sekwencję wartości, ale w specjalny sposób - zwracająca kolejne elementy sekwencji na żądanie. Elementy _wyrzucane_ są z funkcji za pomocą instrukcji `yield` (a nie `return`).

In [58]:
# generator opisujący skończoną sekwencję 0 i 1
def ZeroJeden():
  yield 0;
  yield 1;

for x in ZeroJeden():
  print( x )

print("-----")

for i in range(10):
  for x in ZeroJeden():
    print( x, end=" " )

0
1
-----
0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 

In [59]:
# generator opisujący nieskończoną sekwencję 0 i 1
# zwracający n-krotnie pary 0 1
def ZeroJeden(n):
  for i in range(n):
    yield 0
    yield 1

for x in ZeroJeden(7):
  print( x, end=" " )

0 1 0 1 0 1 0 1 0 1 0 1 0 1 

In [60]:
# generator opisujący nieskończoną sekwencję 0 i 1
# zwracający n pierwszych elementów sekwencji
def CiagZeroJeden(n=0):
  i = 0
  while i < n:
    if i % 2 == 0:
      yield 0
    else:
      yield 1
    i += 1

for x in CiagZeroJeden(7):
  print( x, end=" " )

0 1 0 1 0 1 0 

In [61]:
# generator zwracający kolejne liczby parzyste
# nie wieksze niż n
def Parzyste(n=0):  
  for i in range(n):
    if i % 2==0: yield i

for x in Parzyste(11):
  print(x, end=" ")

0 2 4 6 8 10 

Zamiast tworzyć dedykowane funkcje generujące sekwencję, można zastosować notację _wyrażenia generującego_, podobną do _comprehension_. W tym przypadku używamy nawiasów okrągłych (dlatego nie można tworzyć wytworników krotek - bo notacja jest podobna).

In [62]:
wyrazenie_generujace = (x for x in {0, 1})
print(wyrazenie_generujace)
print( *(wyrazenie_generujace) ) # gwiazdka odpakowuje obiekt typu generator

<generator object <genexpr> at 0x7fefc477ff50>
0 1


Wyrażenia generujące, w powiązaniu z konstruktorem kolekcji wykorzystywane są do budowania kolekcji (w szczególności dla krotek, gdzie notacja _comprehension_ nie działa):

In [63]:
# kwadraty_zbior = {n**2 for n in range(10)}
kwadraty_zbior = set( n**2 for n in range(10) )
print(kwadraty_zbior)

# kwadraty_lista = [n**2 for n in range(10)]
kwadraty_lista = list(n**2 for n in range(10))
print(kwadraty_lista)

# kwadraty_slownik = {n : n**2 for n in range(10)}
kwadraty_slownik = dict( (n,n**2) for n in range(10))
print(kwadraty_slownik)

# kwadraty_krotka = (n**2 for n in range(10) )
kwadraty_krotka = tuple( n**2 for n in range(10) )
print(kwadraty_krotka)  

{0, 1, 64, 4, 36, 9, 16, 49, 81, 25}
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
{0: 0, 1: 1, 2: 4, 3: 9, 4: 16, 5: 25, 6: 36, 7: 49, 8: 64, 9: 81}
(0, 1, 4, 9, 16, 25, 36, 49, 64, 81)


Wyrażenia generujące możemy użyć w powiązaniu z funkcjami (jako argumenty funkcji):

In [75]:
lista = [0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121]
print( sum(n for n in lista) )
print( sum(n for n in lista if n % 2 == 0) )

506
220


Przykład bardziej zaawansowany - generator kolejnych liczb pierwszych

In [64]:
# Sito Eratostenesa jako generator liczb pierwszych
def LiczbyPierwsze(n):
    """generuje sekwencję liczb pierwszych nie większych niż n"""
    primes = set()
    for n in range(2, n):
        if all(n % p > 0 for p in primes):
            primes.add(n)
            yield n

for x in LiczbyPierwsze(100):
  print(x, end=" ")

2 3 5 7 11 13 17 19 23 29 31 37 41 43 47 53 59 61 67 71 73 79 83 89 97 

## Generator _versus_ wytwornik - porównanie

In [65]:
lista = [n ** 2 for n in range(12)]     # lista już jest w pamięci, zajmuje miejsce
generator = (n ** 2 for n in range(12)) # generator jest opisem, nie zajmuje pamięci

print(lista)
print(generator)

# przeglądamy elementy listy, która jest w pamięci
for x in lista:
  print(x, end=" ")

print("\n---")

# z każdym obrotem pętli żądamy wygenerowania kolejnego elementu
for x in generator:
  print(x, end=" ")

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100, 121]
<generator object <genexpr> at 0x7fefc47b64d0>
0 1 4 9 16 25 36 49 64 81 100 121 
---
0 1 4 9 16 25 36 49 64 81 100 121 

Generatory używamy dla opisu dużych zbiorów danych o pewnych charakterystycznych cechach, które da się zapisać kodem.

Przykładem powszechnie uzywanego generatora jest `range(start, stop, step)`.

UWAGA: listy możemy przeglądać wielokrotnie, generator jest jednokrotnego użycia!

In [69]:
generator = (n ** 2 for n in range(12)) 

for x in generator:
  if x > 29: break
  print( x, end=" ")

print()

print( list(generator) ) # elementy, których nie przeglądneliśmy

print( list(generator) ) # jest puty, wyczerpany


0 1 4 9 16 25 
[49, 64, 81, 100, 121]
[]


Elementy zwracane przez generator możemy uzyskiwać przez `next`

In [79]:
def NieskonczonaSekwencjaLiczbNieparzystych():
  i = 1
  while True:
    yield i
    i += 2

liczby_nieparzyste = NieskonczonaSekwencjaLiczbNieparzystych()
while x < 20:
  x = next( liczby_nieparzyste )
  print(x)

1
3
5
7
9
11
13
15
17
19
21
