# Podstawy programowania w analizie danych

## Tomasz Rodak

2017/2018, semestr letni

Wykład IX

# Iteracje

## Iterator

* **Iterator** jest obiektem posiadającym metody `__next__(self)` i `__iter__(self)`. Obiekt ten reprezentuje strumień danych.

* Metoda `__next__()` zwraca kolejne elementy z iteratora.

* Po wyczerpaniu strumienia `__next__()` rzuca wyjątek `StopIteration`.

* W iteratorach metoda `__iter__()` musi mieć postać:
  
  ```python
  def __iter__(self):
      return self
  ```

## Funkcja wbudowane zwracające iteratory

* `iter()`
* `enumerate()`
* `reversed()`
* `zip()`
* `map()`
* `filter()`
* `open()`

## Obiekt iterowalny

**Obiekt iterowalny** to dowolny obiekt, z którego funkcja `iter()` może uzyskać iterator.

Przykłady obiektów iterowalnych:

* listy, łańcuchy, krotki;
* słowniki, zbiory;
* zakresy `range()`;
* obiekty zwracane przez `zip()`, `map()`, `filter()`, `reversed()`, `enumerate()`, `...`
* iteratory;
* obiekty posiadające metodę `__iter__()`.

## `iter(obiekt_iterowalny)`

Funkcja `iter()` wywołana na jednym argumencie tworzy i zwraca iterator, przy czym:
  
* sprawdza najpierw, czy obiekt implementuje metodę `__iter__()`. Jeśli tak wywołuje ją w celu uzyskania iteratora.

* jeśli metoda `__iter__()` nie jest zaimplementowana, ale zaimplementowana jest metoda `__getitem__()`, to Python tworzy iterator, który próbuje pobierać elementy zaczynając od indeksu zero.

* jeśli i to się nie uda, interpreter rzuca wyjątek `TypeError`. Oznacza to, że argument nie jest obiektem iterowalnym.

## Iteracja na obiekcie iterowalnym

Iteracja na obiekcie iterowalnym polega na utworzeniu jego iteratora, a następnie wywoływaniu na nim `next()` aż do wystąpienia wyjątku `StopIteration`.

A zatem pętla

```python
for element in obiekt_iterowalny:
    <instrukcje>
```

sprowadza się do

```python
it = iter(obiekt_iterowalny)

while True:
    try:
        element = next(it)
    except StopIteration:
        del it
        break
    <instrukcje>
```



Podobnie

```python
lst = list(obiekt_iterowalny)
```

jest tym samym co

```python
lst = []

it = iter(obiekt_iterowalny)

while True:
    try:
        element = next(it)
    except StopIteration:
        del it
        break
    lst.append(element)
```

## `iter(f, strażnik)`

Funkcja `iter()` wywołana na dwóch argumentach również zwraca iterator, przy czym:

* pierwszy argument `f` musi być obiektem wywoływalnym;

* drugi argument `strażnik` jest dowolnym obiektem;

* zwracany iterator na każde żądanie `__next__()` wykonuje `f()` i zwraca uzyskaną wartość. Robi to tak długo, aż uzyska wartość równą `strażnik`.

### Przykład

Tworzymy iterator zawierający rzuty sześcienną kostką aż do wystąpienia jedynki.

In [97]:
from random import randint

def rzut_kostką():
    return randint(1, 6)

rzuty = iter(rzut_kostką, 1)

rzuty

<callable_iterator at 0x7fe2c4475828>

Zauważ, że strażnik nie jest elementem iteratora.

In [98]:
list(rzuty)

[6, 2, 5, 5, 3]

## `enumerate(obiekt_iterowalny, start=0)`

* Zwraca iterator.

* Elementy iteratora to krotki
  ```python
  (licznik, element)
  ```
* Liczenie zaczyna się od wartości `start` domyślnie równej `0`.

Numeracja sekwencji zachowuje kolejność.

In [99]:
napis = 'monty python'

list(enumerate(napis))

[(0, 'm'),
 (1, 'o'),
 (2, 'n'),
 (3, 't'),
 (4, 'y'),
 (5, ' '),
 (6, 'p'),
 (7, 'y'),
 (8, 't'),
 (9, 'h'),
 (10, 'o'),
 (11, 'n')]

Elementy w zbiorze nie są uporządkowane, ale i tak można po nich iterować.

In [100]:
napis = 'monty python'

znaki = set(napis)

list(enumerate(znaki))

[(0, 'p'),
 (1, 'o'),
 (2, ' '),
 (3, 'h'),
 (4, 't'),
 (5, 'y'),
 (6, 'n'),
 (7, 'm')]

## `reversed(seq)`

Funkcja `reversed()` zwraca iterator z sekwencji lub obiektu posiadającego metodę `__reversed__()`. 

Kolejność danych w iteratorze jest odwrotna niż w oryginalnym obiekcie.

In [101]:
rev = reversed('Monty Python')

rev

<reversed at 0x7fe2c4470898>

In [102]:
tuple(rev)

('n', 'o', 'h', 't', 'y', 'P', ' ', 'y', 't', 'n', 'o', 'M')

## `zip(*obiekty_iterowalne)`

Zwraca iterator krotek
```python
(a1, a2, ..., an)
```
gdzie element `ai` pochodzi z `i`-tego obiektu iterowalnego.

Zwracany iterator ma tyle elementów co najkrótszy obiekt iterowalny podany jako argument.

Dwa argumenty, najkrótszy długości `3`.

In [112]:
list(zip('abcd', 'xyz'))

[('a', 'x'), ('b', 'y'), ('c', 'z')]

Trzy argumenty, najkrótszy długości `3`.

In [115]:
list(zip(range(10, 20), 'abcdef', 'xyz'))

[(10, 'a', 'x'), (11, 'b', 'y'), (12, 'c', 'z')]

### Zagadka

Co zawiera ten iterator?

```python
zip(*zip('xyz', 'abc'))
```

In [8]:
list(zip(*zip('xyz', 'abc')))

[('x', 'y', 'z'), ('a', 'b', 'c')]

## `map(funkcja, it1, it2, ...)`

Zwraca iterator wartości
```python
funkcja(a1, a2, ...)
```
gdzie element `i`-ty element `a` pochodzi z `i`-tego obiektu iterowalnego `it`.

Tak jak dla `zip()` zwracany iterator ma tyle elementów co najkrótszy obiekt iterowalny podany jako argument.

Częsty zastosowanie -- zamiana łańcuchów na liczby.

In [116]:
liczby = '1 2 3 4 5 6 7 8 9'

list(map(int, liczby.split()))

[1, 2, 3, 4, 5, 6, 7, 8, 9]

Ten sam efekt za pomocą wyrażenia listowego.

In [117]:
liczby = '1 2 3 4 5 6 7 8 9'

[int(k) for k in liczby.split()]

[1, 2, 3, 4, 5, 6, 7, 8, 9]

## `filter(funkcja, it)`

Zwraca iterator z tymi elementami `it`, z których `funkcja` zwraca `True`.

In [122]:
def jest_dodatnia(x):
    return x > 0

liczby = [5, 1, -8, 7, -4, 7, -5, -8, -8, -5]

list(filter(jest_dodatnia, liczby))

[5, 1, 7, 7]

## `open(ścieżka_do_pliku, **kwargs)`

Funkcja `open()` jest nieco odmiennego rodzaju, gdyż jej argument `ścieżka_do_pliku` wskazuje na obiekt zewnętrzny wobec interpretera. 

Funkcja zwraca iterator uzyskany z pliku.

In [168]:
f = open('wyklad_IX.ipynb', encoding='utf8')

f

<_io.TextIOWrapper name='wyklad_IX.ipynb' mode='r' encoding='utf8'>

`f.readline()` zwraca kolejne linie pliku tak jak `f.__next__()`. Metoda `readline()` działa jednak trochę inaczej. Np. po wyczerpaniu strumienia zwraca pusty łańcuch, podczas gdy `__next__()` rzuca `StopIteration`.

In [175]:
f.readline()

'     "slide_type": "slide"\n'

In [176]:
f.readline()

'    }\n'

In [177]:
f.readline()

'   },\n'

## Zakresy `range()`

Zakresy `range()` są obiektami iterowalnymi, ale **nie są** iteratorami.

In [134]:
zakres = range(10, 20, 2)

zakres

range(10, 20, 2)

In [135]:
list(zakres)

[10, 12, 14, 16, 18]

In [136]:
next(zakres)

TypeError: 'range' object is not an iterator

## Kilka funkcji wbudowanych konsumujących obiekty iterowalne

### `sum(it[, start])`

Zwraca sumę elementów z obiektu iterowalnego `it`. Sumowanie zaczyna od wartości `start` domyślnie ustawionej na `0`.

In [11]:
sum([1, 2, 3])

6

In [21]:
sum([1, 2, 3], 100)

106

### `all(it)`, `any(it)`

Odpowiadają kwantyfikatorom "dla każdego" i "istnieje"

`all()` zwraca `True`, gdy **wszystkie** elementy `it` dają wartość `True`. W przeciwnym razie zwraca `False`.

`any()` zwraca `True`, gdy **pewien** elementy `it` da wartość `True`, w przeciwnym razie -- `False`.

In [15]:
a, b, c = ['', ''], ['', 'xyz'], ['a', 'b']

print(all(a), all(b), all(c))

False False True


In [16]:
a, b, c = ['', ''], ['', 'xyz'], ['a', 'b']

print(any(a), any(b), any(c))

False True True


### `min(it[, klucz, wartość_domyślna])`, `max(it[, klucz, wartość_domyślna])`

* Zwracają minimum/maksimum elementów z `it`

* Jeśli `klucz` nie został podany, elementy muszą być porównywalne.

* `klucz` jest jednoargumentową funkcją zwracającą porównywalne elementy. Wywołania tej funkcji na elementach `it` umożliwiają znalezienie wartości minimalnej/maksymalnej.

* `wartość_domyślna` jest wartością zwracaną, gdy `it` okaże się pusty.

In [20]:
lst = list(enumerate('monty python'))
lst

[(0, 'm'),
 (1, 'o'),
 (2, 'n'),
 (3, 't'),
 (4, 'y'),
 (5, ' '),
 (6, 'p'),
 (7, 'y'),
 (8, 't'),
 (9, 'h'),
 (10, 'o'),
 (11, 'n')]

Co zwrócą
```python
max(lst)
```
oraz
```python
max(lst, key=lambda u: u[1])
```

In [18]:
max(lst)

(11, 'n')

In [19]:
max(lst, key=lambda u: u[1])

(4, 'y')

## Tworzenie iteratorów za pomocą klas

Klasa tworzy iteratory, gdy posiada metody 

* `__next__(self)`
* `__iter__(self)`

przy czym `__iter__()` musi być postaci

```python
def __iter__(self):
    return self
```

## Klasa `PostępArytmetyczny`

Utworzymy klasę `PostępArytmetyczny` zwracającą iteratory z postępem arytmetycznym o zadanym wyrazie początkowym, różnicy i liczbie wyrazów.

**Testy**

In [146]:
postęp = PostępArytmetyczny(a=2, r=4, n=3)

assert [next(postęp), next(postęp), next(postęp)] == [2, 6, 10]

try:
    next(postęp)
except StopIteration:
    pass
else:
    raise AssertionError('PostępArytmetyczny został wyczerpany.')

a, r, n = 123, -13, 100
postęp = PostępArytmetyczny(a, r, n)

assert list(postęp) == list(range(a, a + n*r, r))

In [145]:
class PostępArytmetyczny:
    
    def __init__(self, a, r, n):
        self.a, self.r, self.n = a, r, n
        self._k, self._w = 0, a - r
    
    def __repr__(self):
        return 'PostępArytmetyczny(a={}, r={}, n={})'.format(self.a, self.r, self.n)
    
    def __next__(self):
        if self._k == self.n:
            raise StopIteration
        
        self._k += 1
        self._w += self.r
        return self._w
        
    def __iter__(self):
        return self

Przerzucenie postępu do listy.

In [188]:
postęp = PostępArytmetyczny(2, 3, 10)
list(postęp)

[2, 5, 8, 11, 14, 17, 20, 23, 26, 29]

Iteracja po postępie pętlą `for-in`

In [189]:
postęp = PostępArytmetyczny(2, 3, 10)

for x in postęp:
    print(x, end=', ')

2, 5, 8, 11, 14, 17, 20, 23, 26, 29, 

Wysumowanie wyrazów.

In [190]:
postęp = PostępArytmetyczny(2, 3, 10)
sum(postęp)

155

## Iteratory nieskończone

Iteratory zwracają elementy jedynie na żądanie, mogą więc reprezentować obiekty faktycznie nieskończone.

Napiszmy klasę `Kwadraty` zwracającą iterator zawierający wszystkie liczby naturalne będące kwadratami, czyli `0, 1, 4, 9, 16, ...`.

**Testy**

In [194]:
kw = Kwadraty()

assert next(kw) == 0
assert next(kw) == 1
assert next(kw) == 4

assert [next(kw) for _ in [1, 2, 3]] == [9, 16, 25]

In [193]:
class Kwadraty:
    
    def __init__(self):
        self.licznik = -1
        
    def __next__(self):
        self.licznik += 1
        return self.licznik ** 2
    
    def __iter__(self):
        return self

## Podsumowanie

### Iterator

* **Iterator** to obiekt implementujący metody `__next__(self)` oraz `__iter__(self)`.
* Metoda `__next__()` zwraca kolejny element lub wywołuje wyjątek `StopIteration`, gdy nie ma już więcej elementów.
* Metoda `__iter__()` powinna mieć postać:
  ```python
  def __iter__(self):
      return self
  ```
* Dzięki implementacji `__iter__()` iterator jest obiektem iterowalnym.
* Iterator jest **leniwy**: produkuje wartości na żądanie.
* Iterator można przebiec **tylko raz**. Po wyczerpaniu jest bezużyteczny.

### Obiekt iterowalny

* **Obiekt iterowalny** to dowolny obiekt, z którego funkcja `iter()` może uzyskać iterator. 
* Obiektami iterowalnymi są:
  * obiekty implementujące metodę `__iter__()`,
  * obiekty implementujące metodę `__getitem__()` przyjmującą indeksy zaczynające się od zera.
  * w szczególności iterowalne są: sekwencje, słowniki, zbiory, strumienie plików i praktycznie wszystkie kontenery z biblioteki standardowej.
* Obiekt iterowalny zawsze może wystąpić w pętli `for`:
  ```python
  for element in obiekt_iterowalny:
      ...
  ```