Source: https://manhhomienbienthuy.bitbucket.io/2016/Jan/05/python-iterator-generator.html

<img src="./Screenshots/PyIterGener.PNG">

## Iterator

Chúng ta có thể sử dụng vòng lặp **`for`** để duyệt qua các phần tử của một **`list`**:

In [2]:
for i in [1, 2, 3, 4]:
    print(i)

1
2
3
4


Nếu chúng ta sử dụng **`for`** cho một **`string`**, chúng ta sẽ duyệt qua các ký tự của nó:

In [3]:
for c in "Python":
    print(c)

P
y
t
h
o
n


Nếu chúng ta sử dụng một **`dict`**, chúng ta sẽ duyệt qua các **`key`** của nó:

In [4]:
for k in {'x': 1, 'y': 2}:
    print(k)

x
y


Nếu chúng ta sử dụng một **`file`**, chúng ta sẽ duyệt qua các line (dòng) trong file đó:

In [5]:
for line in open("a.txt"):
    print(line)

line 1

line 2

...

line n


Có rất nhiều đối tượng chúng ta có thể sử dụng vòng lặp **`for`**. Những đối tượng đó gọi là những đối tượng **`"iterable"`**. Và thao tác duyệt qua những đối tượng này gọi là **`iteration`**.

Có một số hàm dựng sẵn có Python cho phép thao tác với những đối tượng này:

In [6]:
",".join(["a", "b", "c"])

'a,b,c'

In [7]:
",".join({"x": 1, "y": 2})

'x,y'

In [8]:
list("python")

['p', 'y', 't', 'h', 'o', 'n']

In [9]:
list({"x": 1, "y": 2})

['x', 'y']

## Giao thức interation

Những đối tượng "iterable" có thể được duyệt qua các phần tử, bởi vì chúng được cài đặt **phương thức `__iter__`**. Phương thức này sẽ trả về một đối tượng iterator. Đối tượng này cần phải hỗ trợ giao thức iteration (sẽ được nói đến sau). Nếu một đối tượng "iterable" có nhiều kiểu duyệt phần tử khác nhau, có thể chúng ta sẽ cần thêm các xử lý để xác định iterator. (Ví dụ một đồ thị có thể duyệt theo chiều rộng và theo chiều sâu.)

Với đối tượng iterator, nó cần phải được cài đặt hai phương thức sau, và bộ hai phương thức này được gọi là **giao thức iteration**.

- Phương thức **`__iter__`** trả về chính đối tượng iterator. Phương thức này được yêu cầu cài đặt cho cả đối tượng "iterable" và iterator để có thể sử dụng các câu lệnh for và in.
- Phương thức **`__next__`** (ở Python 2 là next) trả về phần tử tiếp theo. Nếu không còn phần tử nào nữa thì StopIteration exception sẽ được raise.

Một hàm dựng sẵn của Python là **`iter`** nhận đầu vào là một đối tượng "iterable" và trả về kết quả là một iterator.

In [10]:
x = iter([1, 2, 3])
x

<list_iterator at 0x19d291814c8>

In [11]:
x.__next__()

1

In [12]:
x.__next__()

2

In [13]:
x.__next__()

3

In [14]:
x.__next__()

StopIteration: 

Mỗi khi chúng ta gọi phương thức **`__next__`** (ở Python 2 là next) thì iterator sẽ trả cho chúng ta phần tử tiếp theo của nó. 
<br/>Nếu không còn phần tử nào trong iterator, **StopIteration** sẽ được trả về.

Chúng ta có thể tự cài đặt iterator là một class. Ví dụ dưới đây là một iterator hoạt động tương tự như hàm **`range`** có sẵn của Python.

In [23]:
class yrange:
    
    def __init__(self, n):
        self.i = 0
        self.n = n
        
    def __iter__(self):
        return self
    
    def __next__(self):
        if self.i < self.n:
            i = self.i
            self.i += 1
            return i
        else:
            raise StopIteration()

Phương thức **`__iter__`** sẽ làm đối tượng trở thành đối tượng "iterable". 
<br/>Về bản chất, hàm **`iter`** sẽ gọi đến phương thức **`__iter__`** này của mỗi đối tượng.

Giá trị trả về của **`__iter__`** là một iterator. Nó cần có phương thức **`__next__`** và cần trả về **StopIteration** nếu không còn phần thử nào nữa.

In [24]:
y = yrange(3)

In [25]:
y.__next__()

0

In [26]:
y.__next__()

1

In [27]:
y.__next__()

2

In [28]:
y.__next__()

StopIteration: 

Có nhiều hàm dựng sẵn của Python cho nhận tham số đầu vào là iterator. Ví dụ:

In [21]:
list(yrange(5))

[0, 1, 2, 3, 4]

In [22]:
sum(yrange(5))

10

Trong các ví dụ trên, iterator và đối tượng "iterable" là một. Bởi vì phương thức **`__iter__`** chỉ đơn giản là trả về self. 
<br/>Không phải trường hợp nào iterator và đối tượng "iterable" cũng là một, như ví dụ dưới đây:

In [29]:
class zrange:

    def __init__(self, n):
        self.n = n

    def __iter__(self):
        return zrange_iter(self.n)

class zrange_iter:

    def __init__(self, n):
        self.i = 0
        self.n = n

    def __iter__(self):
        # Iterators are iterables too.
        # Adding this functions to make them so.
        return self

    def __next__(self):
        if self.i < self.n:
            i = self.i
            self.i += 1
            return i
        else:
            raise StopIteration()

Iterator của Python có một đặc điểm là nó chỉ có thể được **duyệt qua 1 lần**. Nên nếu đã duyệt qua phần tử nào rồi thì bạn không thể duyệt qua nó thêm lần nào nữa.

Vì đặc điểm trên, nên nếu iterator và đối tượng "iterable" là một, thì nó cũng chỉ có thể thực hiện iteration một lần. Nhưng nếu chúng không phải là một, thì bạn có thể thực hiện bao nhiêu lần tùy ý.

In [30]:
y = yrange(5)

In [31]:
list(y)

[0, 1, 2, 3, 4]

In [32]:
list(y)

[]

In [33]:
z = zrange(5)

In [34]:
list(z)

[0, 1, 2, 3, 4]

In [35]:
list(z)

[0, 1, 2, 3, 4]

## Generator

Generator là cách đơn giản để tạo ra iterator. 
<br/>Một generator là một hàm trả kết quả về là một chuỗi kết quả thay vì một giá trị duy nhất.

In [37]:
def yrange2(n):
    i = 0
    while i < n:
        yield i
        i += 1

Mỗi lần lệnh **`yield`** được chạy, nó sẽ sinh ra một giá trị mới. (Vì thế nó mới được gọi là generator).

In [39]:
y = yrange2(3)
y

<generator object yrange2 at 0x0000019D29207E48>

In [40]:
y.__next__()

0

In [41]:
y.__next__()

1

In [42]:
y.__next__()

2

In [43]:
y.__next__()

StopIteration: 

Một generator cũng là một iterator nên bạn không cần phải lo lắng về giao thức iteration.

`Từ generator được sử dụng cho cả hàm (hàm generator là hàm đã nói ở trên) và kết quả mà hàm đó sinh ra (đối tượng được hàm generator sinh ra cũng được gọi là generator). Vì vậy đôi khi việc này gây khó hiểu một chút.`

Vậy một generator hoạt động như thế nào? Khi hàm generator được gọi, nó trả kết quả là một đối tượng generator và **không thực sự gọi và thực thi hàm**. Khi phương thức **`__next__`** được gọi, hàm generator sẽ bắt đầu chạy, cho tới khi nó gặp lệnh **`yield`**. Giá trị được yield sẽ được trả về cho hàm **`__next__`**.

In [48]:
def foo():
    print('begin')
    for i in range(3):
        print("before yield", i)
        yield i
        print("after yield", i)
    print("end")

In [49]:
f = foo()

In [50]:
f.__next__()

begin
before yield 0


0

In [51]:
f.__next__()

after yield 0
before yield 1


1

In [52]:
f.__next__()

after yield 1
before yield 2


2

In [53]:
f.__next__()

after yield 2
end


StopIteration: 

In [54]:
f.__next__()

StopIteration: 

In [None]:
f.__next__()

Dưới đây là một ví dụ khác:

In [55]:
def integers():
    """Infinite sequence of integers."""
    i = 1
    while True:
        yield i
        i = i + 1

def squares():
    for i in integers():
        yield i * i

def take(n, seq):
    """Returns first n values from the given sequence."""
    seq = iter(seq)
    result = []
    try:
        for i in range(n):
            result.append(seq.__next__())
    except StopIteration:
        pass
    return result

In [56]:
print(take(5, squares()))

[1, 4, 9, 16, 25]


## Biểu thức generator

Biểu thức generator là một biến thể của **list comprehension**. Nó trông rất giống list comprehension nhưng nó trả về một generator thay vì một list.

In [57]:
a = (x*x for x in range(10))
a

<generator object <genexpr> at 0x0000019D2917B448>

In [58]:
sum(a)

285

Chúng ta có thể sử dụng biểu thức generator như tham số của một số hàm đối với iterator:

In [59]:
sum((x * x for x in range(10)))

285

Nếu chỉ có một generator được truyền vào hàm, thì chúng ta có thể bỏ bớt dấu ngoặc của biểu thức generator:

In [60]:
sum(x * x for x in range(10))

285

Một ví dụ rất thú vị khác. Giả sử chúng ta cần tìm n bộ ba số Pythagoras. Một bộ 3 số (x, y, z) được gọi là bộ ba số Pythagoras nếu $x^2 + y^2 = z^2$.

In [65]:
pyt = ((x, y, z) 
    for z in integers()
    for y in range(1, z)
    for x in range(1, y)
    if x * x + y * y == z * z)

In [66]:
take(10, pyt)

[(3, 4, 5),
 (6, 8, 10),
 (5, 12, 13),
 (9, 12, 15),
 (8, 15, 17),
 (12, 16, 20),
 (15, 20, 25),
 (7, 24, 25),
 (10, 24, 26),
 (20, 21, 29)]

## Tại sao nên sử dụng generator

### Đơn giản hóa code

Đơn giản hóa code là một kết quả của hàm và biểu thức generator. Để minh họa cho việc này, chúng ta sẽ lấy một ví dụ cụ thể.

Chúng ta sẽ so sánh việc cài đặt hàm **`firstn`** (hàm trả về n số nguyên không âm đầu tiên) với `n` có thể rất lớn và giả sử rằng mỗi số cần một lượng bộ nhớ tương đối nhiều.

Đầu tiên, một cách làm thông thường đó là sử dụng list:

In [72]:
def firstn(n):
    num, nums = 0, []
    while num < n:
        nums.append(num)
        num += 1
    return nums

sum_of_first_n = sum(firstn(1000000))
print(sum_of_first_n)

499999500000


Đoạn code trên đơn giản và dễ hiểu. Tất nhiên là nó hoạt động tốt, ngoại trừ một vấn đề nhỏ là nó lưu toàn bộ list trong bộ nhớ. Trong phần lớn các trường hợp, điều đó là không hay khi phải sử dụng đến dung lượng bộ nhớ lớn đến vậy.

Bây giờ, chúng ta thử sử dụng iterator. Dưới đây là một cài đặt cho việc này.

In [74]:
class firstn(object):

    def __init__(self, n):
        self.n = n
        self.num, self.nums = 0, []

    def __iter__(self):
        return self

    def __next__(self):
        if self.num < self.n:
            cur, self.num = self.num, self.num + 1
            return cur
        else:
            raise StopIteration()

sum_of_first_n = sum(firstn(1000000))
print(sum_of_first_n)

499999500000


Đoạn code trên đã hoạt động như chúng ta mong muốn, nhưng nó có một số vấn đề như:
- Có nhiều mẫu dựng sẵn được sử dụng.
- Logic được thể hiện một cách phức tạp.
- Code mới quá dài chỉ để xây dựng một iterator.

Chúng ta có thể sử dụng generator để xây dựng iterator ngắn gọn hơn. Chúng ta có thể cài đặt như sau:

In [76]:
def firstn(n):
    num = 0
    while num < n:
        yield num
        num += 1

sum_of_first_n = sum(firstn(1000000))
print(sum_of_first_n)

499999500000


### Nâng cao hiệu suất

Việc sử dụng generator có thể nâng cao hiệu suất bởi vì generator chỉ thực sự sinh kết quả khi được gọi. Do đó, nó sẽ sử dụng ít bộ nhớ hơn. Ngoài ra, chúng ta không cần phải chờ tất cả các phần tử của nó được sinh ra hết mới có thể sử dụng. Chúng sẽ được sinh trong quá trình chúng ta gọi generator. Đây là những hiệu quả đạt được khi chúng ta sử dụng iterator, mà generator là cách ngắn gọn để tạo ra một iterator.

Để minh họa, chúng ta sẽ so sánh hai hàm dựng sẵn của Python 2 là range và xrange.
<br/>Cả range và xrange đều biểu thị một khoảng các số nguyên. Tuy nhiên, range trả về một list còn xrange trả về một generator.

Bây giờ, chúng ta sẽ tính tổng của 1 triệu số nguyên không âm đầu tiên.

In [77]:
# using non-generator
sum_of_first_n = sum(range(1000000))

In [78]:
# using generator
sum_of_first_n = sum(xrange(1000000))

NameError: name 'xrange' is not defined

## Itertools

Module **`itertools`** là thư viện chuẩn của Python. Nó cung cấp cho chúng ta rất nhiều công cụ để làm việc với các iterator.
<br/> Trong bài viết này, chúng ta sẽ điểm qua một số hàm thú vị.

**`chain`** sẽ gộp các iterator với nhau tạo thành một iterator.

In [81]:
import itertools

it1 = iter([1, 2, 3])
it2 = iter([4, 5, 6])

In [82]:
itertools.chain(it1, it2)

<itertools.chain at 0x19d290a3a48>

In [83]:
list(itertools.chain(it1, it2))

[1, 2, 3, 4, 5, 6]

**`dropwhile`** trả về kết quả là một iterator từ một đối tượng "iterable" bằng cách loại bỏ các phần tử ở đầu đối tượng iterable thỏa mãn điều kiện nào đó. Kể từ lúc điều kiện được thỏa mãn, nó sẽ trả về các phần tử từ đó trở đi.

In [84]:
itertools.dropwhile(lambda x: x < 5, [1, 4, 6, 4, 1])

<itertools.dropwhile at 0x19d29229dc8>

In [90]:
list(itertools.dropwhile(lambda x: x < 5, [1, 4, 6, 4, 1]))

[6, 4, 1]

**`takewhile`** có phần ngược với **`dropwhile`**, nó trả về một iterator bằng cách lấy ra các phần tử từ đối tượng "iterable" chừng nào điều kiện còn được thỏa mãn.

In [91]:
itertools.takewhile(lambda x: x < 5, [1, 4, 6, 4, 1])

<itertools.takewhile at 0x19d2923ecc8>

In [92]:
 list(itertools.takewhile(lambda x: x < 5, [1, 4, 6, 4, 1]))

[1, 4]