<a href="https://colab.research.google.com/github/vuduclyunitn/learning_python/blob/master/S%C3%A1ch_Effective_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Dịch từ sách Effective Python 59 specific ways to write better Python. Tác giả: Brett Slatkin

## Nên sử dụng ```enumerate``` thay vì ```range```

Hàm có sẵn ```range``` hữu dụng cho các vòng lặp qua một tập hợp các số **nguyên**

In [4]:
from random import randint
random_bits = 0
for i in range(64):
  if randint(0, 1):
    random_bits |= 1 << i
    print(random_bits)

2
6
14
30
286
798
1822
3870
36638
167710
429854
954142
2002718
4099870
8294174
25071390
58625822
192843550
461279006
998149918
3145633566
7440600862
16030535454
33210404638
170649358110
445527265054
995283078942
3194306334494
11990399356702
29582585401118
64766957489950
135135701667614
416610678378270
979560631799582
2105460538642206
11112659793383198
29127058302865182
317357434454576926
1470278939061423902
3776121948275117854
8387807966702505758
17611180003557281566


Khi bạn cần lặp qua một cấu trúc dữ liệu như là danh sách của các chuỗi văn bản, bạn có thể lặp trực tiếp qua danh sách này.

In [5]:
flavor_list = ["vanilla", "chocolate", "pecan", "strawberry"]
for flavor in flavor_list:
  print("%s is delicious" % flavor)

vanilla is delicious
chocolate is delicious
pecan is delicious
strawberry is delicious


Thông thường, bạn muốn lặp qua một danh sách và bạn muốn biết được chỉ số (index) của phần tử hiện thời trong danh sách. Ví dụ, bạn muốn in ra xếp hạng của các món kem yêu thích của mình. Có một cách để làm điều này là sử dụng ```range```.

In [7]:
for i in range(len(flavor_list)):
  flavor = flavor_list[i]
  print("%d: %s" % (i+1, flavor))

1: vanilla
2: chocolate
3: pecan
4: strawberry


Đoạn mã trên nhìn không được gọn cho lắm, so với các vòng lặp được thực hiện trên ```flavor_list``` hay dùng ```range```. Bạn phải lấy ra kích thước của danh sách. Bạn phải dùng chỉ số để lấy ra phần tử. Điều này làm cho đoạn code khó đọc.


Python cung cấp một hàm có sẵn ```enumerate``` để giải quyết vấn đề này. ```enumerate``` bao bất cứ iterator nào với một generator. Generator này tạo ra các cặp chỉ số và giá trị từ iterator. Đoạn mã dưới đây nhìn sáng sủa hơn nhiều

In [8]:
for i, flavor in enumerate(flavor_list):
  print("%d: %s" % (i + 1, flavor))

1: vanilla
2: chocolate
3: pecan
4: strawberry


Bạn còn có thể làm cho đoạn code trên gọn hơn nữa khi chỉ định cho ```enumerate``` bắt đầu từ một giá trị nào đó (1 trong trường hợp dưới đây)

In [11]:
for i, flavor in enumerate(flavor_list, 1):
  print("%d: %s" % (i, flavor))

1: vanilla
2: chocolate
3: pecan
4: strawberry


### Nhứng điều cần nhớ


*   ```enumerate``` cung cấp một cú pháp tinh gọn giúp lặp qua một iterator và lấy ra chỉ số của mỗi phần tử tương ứng.
*   Nên sử dụng ```enumerate``` thay vì lặp sử dụng ```range``` và dùng chỉ số để lấy phần tử.
* Bạn có thể cung cấp một tham số thứ 2 chỉ định số bắt đầu được đếm cho chỉ số (mặc định là 0)



## Sử dụng ```zip``` để xử lý các iterators song song

Thông thường bạn làm việc với nhiều danh sách của các đối tượng liên quan. Sử dụng list comprehension cho phép ta nhận một danh sách nguồn và lấy về một danh sách đã qua xử lý. Như ví dụ dưới đây

In [0]:
names = ["Cecilia", "Lise", "Marie"]
letters = [len(n) for n in names]

Các phần tử trong danh sách mới có liên quan với các phần tử trong danh sách gốc thông qua các chỉ số của nó. Để lặp qua hai danh sách này song song, bạn có thể lặp qua chiều dài của danh sách gốc, lấy chiều dài của mỗi phần tử trong danh sách gốc thông qua danh sách mới với một chỉ số.

In [13]:
longest_name = None
max_letters = 0

for i in range(len(names)):
  count = letters[i]
  if count > max_letters:
    longest_name = names[i]
    max_letters = count

print(longest_name)

Cecilia


Vấn đề ở đây đó là vòng lặp phía trên nhìn rối. Các chỉ số của ```names``` và ```letters``` làm cho code khó đọc. Ta dùng chỉ số ```i``` tới hai lần. Sử dụng ```enumerate``` có thể cải thiện vấn đề một chút, nhưng nó vẫn không phải là một giải pháp tốt.

In [0]:
for i, name in enumerate(names):
  count = letters[i]
  if count > max_letters:
    longest_name = name 
    max_letters = count

Để làm cho đoạn mã sáng sủa hơn, Python cung cấp hàm có sẵn ```zip```. Trong Python 3, ```zip``` bao hai hay nhiều iterators với một generator. ```zip``` sinh ra các tuples chứa giá trị tiếp theo từ mỗi iterator. Đoạn mã dưới đây nhìn gọn hơn rất nhiều so với việc dùng chỉ số với nhiều danh sách

In [15]:
for name, count in zip(names, letters):
  if count > max_letters:
    longest_name = name
    max_letters = count 

print(longest_name)

Cecilia


Có hai vấn đề với hàm có sẵn ```zip```. Vấn đề đầu tiên đó là trong Python 2 ```zip``` không phải là một generator; nó sẽ chiếm hết các iterators được cung cấp và trả về một danh sách các tuples nó tạo. Điều này có thể làm cho nó sử dụng rất nhiều bộ nhớ và làm cho trương chình crash. Nếu bạn muốn ```zip``` các iterators rất lớn trong Python 2, bạn nên sử dụng ```izip``` từ module có sẵn ```itertools```  

Vấn đề thứ hai đó là trong trường hợp các iterators đầu vào có chiều dài khác nhau ```zip``` cư xử một cách lạ lùng. Ví dụ, bạn thêm một tên khác vào danh sách phía trên nhưng quên cập nhật danh sách chứa kích số lượng các kí tự. Khi bạn chạy ```zip``` trên hai danh sách đầu vào này, kết quả sẽ không như mong đợi.

In [16]:
names.append("Rosalind")
for name, count in zip(names, letters):
  print(name)

Cecilia
Lise
Marie


Phần tử mới thêm vào 'Rosalind' không được in ra. Đó là cách ```zip``` làm việc. Nó duy trì xuất ra các tuples cho đến khi iterator bên trong cạn kiệt. Cách tiếp cận này hoạt động tốt khi bạn biết rằng các iterators có cùng một chiều dài, điều thường thấy đối với các danh sách được tạo bởi list comprehensions. Trong nhiều trường hợp khác, cách cư xử thông qua việc cắt bớt các phần tử của ```zip``` gây ngạc nhiên và tệ. Nếu bạn không tự tin về chiều dài của các danh sách bạn muốn zip chúng, ví như không chắc rằng các danh sách này bằng nhau, hãy xem xét sử dụng hàm ```zip_longest``` từ thư viện ```itertools```

In [18]:
from itertools import zip_longest

names.append("Rosalind")
for name, count in zip_longest(names, letters):
  print(name, count)

Cecilia 7
Lise 4
Marie 5
Rosalind None
Rosalind None
Rosalind None


Ở ví dụ trên ta thấy rằng các phần tử mới vẫn được in ra, nhưng nếu ta không cập nhật danh sách đếm số lượng kí tự thì giá trị đó sẽ là None. 

### Các thứ cần nhớ


*   Hàm có sẵn ```zip``` có thể được sử dụng để lặp qua nhiều iterators song song.

*   Trong Python 3, ```zip``` là một generator tạo ra các tuples. Trong Python 2, ```zip``` trả về một danh sách đầy đủ các tuples.

* ```zip``` cắt bỏ kết quả một cách thầm lặng nếu bạn cung cấp các iterators với chiều dài khác nhau. 

* Hàm ```zip_longest``` từ module có sẵn ```itertools``` cho phép bạn lặp qua nhiều iterators khác nhau song song bất kể kích thước của chúng thế nào. 



## Biết cách cắt các sequences

Python có các cú pháp cho việc cắt các sequences thành các mảnh. Việc cắt này giúp bạn truy cập vào một phần nhỏ các phần tử của sequence với một nỗ lực nhỏ. Cách sử dụng đơn giản nhất là đối với các kiểu có sẵn như là ```list```, ```str```, và ```bytes```. Phép cắt này có thể được mở rộng cho bất cứ lớp Python nào triển khai các phương thức đặc biệt ```__getitem__``` và ```__setitem__```. 

Dạng đơn giản nhất của cú pháp cắt là ```somelist[start:end]```, ở đó ```start``` được bao gồm và ```end``` được trừ ra. Ví dụ:

In [19]:
a = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
print('First four: ', a[:4])
print('Last four: ', a[-4:])
print('Middle two: ', a[3:-3])

First four:  ['a', 'b', 'c', 'd']
Last four:  ['e', 'f', 'g', 'h']
Middle two:  ['d', 'e']


Khi cắt từ đầu của một danh sách, bạn nên bỏ đi chỉ số 0 ban đầu để cho code nhìn sáng sủa hơn. Hai cách viết đều mang lại kết quả như nhau.

In [0]:
assert a[:5] == a[0:5]

Khi cắt từ cuối danh sách, bạn nên bỏ đi chỉ số cuối bởi vì nó dư thừa

In [0]:
assert a[5:] == a[5:len(a)]

Sử dụng các số âm cho việc cắt trở nên hữu ích cho  các chỉ số tương đối với cuối của một danh sách. Tất cả các dạng cắt này trở nên rõ ràng với một người mới đọc mã của bạn. 

In [22]:
a[:]

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']

In [23]:
a[:5]

['a', 'b', 'c', 'd', 'e']

In [24]:
a[:-1]

['a', 'b', 'c', 'd', 'e', 'f', 'g']

In [26]:
a[:-2]

['a', 'b', 'c', 'd', 'e', 'f']

Kĩ thuật cắt sử dụng các chỉ số ```start``` và ```end``` để kiểm soát truy cập các phần tử trong danh sách. Truy cập các phần tử có chỉ số nằm ngoài biên giới danh sách sẽ tạo ra lỗi.

In [27]:
a[20]

IndexError: ignored

**Chú ý** Nên biết rằng try cập vào danh sách sử dụng một chỉ số âm là một trong số các trường hợp gây ra các kết quả ngạc nhiên từ phép cắt. Ví dụ, ```somelist[-n:]``` sẽ hoạt động tốt khi ```n``` lớn hơn một (ví dụ, ```somelist[-3:]```). Tuy nhiên, khi ```n``` bằng 0, thì ```somelist[-0:]``` sẽ trả lại một bản sao của danh sách ban đầu. Danh sách sao này trỏ tới danh sách ban đầu. Thay đổi kết quả phép cắt sẽ không ảnh hưởng tới danh sách ban đầu. 

In [0]:
b = a[-0:]

In [29]:
b

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']

In [0]:
b.append("i")

In [31]:
b

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i']

In [32]:
a

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']

In [33]:
c = a[4:]
print("Before: ", b)
c[1] = 99
print("After: ", b)
print("No change: ", a)

Before:  ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i']
After:  ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i']
No change:  ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']


Khi được sử dụng trong các phép gán, các lát cắt sẽ thay thế dải được chỉ định trong danh sách ban đầu. Không 

 như các phép gán tuple (như là ```a, b = c[:2]```), chiều dài của các phép gán không nhất thiết phải giống nhau. Các giá trị trước và sau lát cắt được gán sẽ được bảo tồn. Danh sách sẽ phình ra hay co lại để chứa các giá trị mới.

In [34]:
print('Before ', a)
a[2:7] = [99, 22, 14]
print('After ', a)

Before  ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h']
After  ['a', 'b', 99, 22, 14, 'h']


In [36]:
print('Before ', a)
a[2:4] = [1, 2, 3]
print('After ', a)

Before  ['a', 'b', 99, 22, 14, 'h']
After  ['a', 'b', 1, 2, 3, 14, 'h']


Nếu bạn để cả các chỉ số bắt đầu và kết thúc trống khi cắt, bạn sẽ có được một bản sao của danh sách ban đầu.

In [0]:
b = a[:]
assert b == a and b is not a

Nếu bạn gán một lát cắt không có chỉ số bắt đầu và kết thúc, bạn sẽ thay thế toàn bộ nội dung của nó với một bản sao mà lát cắt đó tham chiếu tới (thay vì cấp phát một danh sách mới)

In [41]:
b = a
print('Before', a)
a[:] = [4, 5, 6]
assert a is b
print('After', a)

Before [101, 102, 103]
After [4, 5, 6]


### Những thứ cần nhớ


*   Tránh quá chi tiết: đừng sử dụng 0 như là chỉ số bắt đầu hoặc độ dài của sequence cho chỉ số kết thúc
*   Phép cắt cho phép ta dễ dàng biểu diễn các phạm vi trước và sau của một sequence (như là ```a[:20]``` hay ```a[-20:]```)
* Gán cho một dải trong một sequence một dải giá trị khác sẽ thay thế dải đó trong danh sách ban đầu với dải cung cấp ngay cả khi kích thước của các dải khác nhau.



## Tận dụng lợi thế của mỗi khối try/except/else/finally

Khi lập trình đôi lúc bạn muốn xử lý các ngoại lệ xảy ra. Các ngoại lệ này được bắt lại trong các khối ```try```, ```except```, ```else```, và ```finally```. Mỗi khối đảm nhiệm mỗi nhiệm vụ riêng biệt, và có những sự kết hợp giữa các khối này trở nên hữu dụng.

### Khối Finally
Sử dụng ```try/finally``` khi bạn muốn các ngoại lệ được truyền rộng rãi đi, nhưng bạn cũng muốn chạy các mã dọn dẹp (cleanup code) ngay cả khi các ngoại lệ xảy ra. Một ứng dụng phổ biến của ```try/finally``` đó là đóng các file handles.

In [0]:
handle = open('random_data.txt') # Có thể gây ra ngoại lệ IOError
try:
  data = handle.read() # Có thể gây ra ngoại lệ UnicodeDecodeError
finally:
  handle.close()

Bất cứ ngoại lệ nào được gây ra bởi phương thức ```read``` sẽ được lan tới code gọi phương thức đó (calling code), phương thức ```close``` của handle được đảm bảo chạy trong khối ```finally```. Bạn phải gọi ```open``` trước khối ```try``` bởi vì các ngoại lệ thường xảy ra khi mở file (như ```IOError``` nếu file không tồn tại) nên bỏ qua khối ```finally```.

### Khối Else

Sử dụng ```try/except/else``` để làm cho rõ ràng ngoại lệ nào sẽ được xử lý bởi code của bạn và ngoại lệ nào sẽ lan truyền đi. Khi khối ```try``` không khởi lên một ngoại lệ, khối ```else``` sẽ chạy. Khối ```else``` giúp bạn tối thiểu hoá lượng code trong khối ```try``` và làm cho code dễ đọc hơn. Ví dụ, bạn muốn nạp (load) dữ liệu từ diển JSON và trả về giá trị của một key dựa trên một string được cung cấp. Nhìn vào ví dụ sau:

In [0]:
def load_json_key(data, key):
  try:
    result_dict = json.loads(data) # Có thể tạo ra ValueError
  except ValueError as e:
    raise KeyError from e 
  else:
    return result_dict[key] # Có thể tạo ra KeyError

Nếu dữ liệu không phải là JSON hợp lệ, khi đó giải mã sử dụng ```json.loads``` sẽ tạo ra một ```ValueError```. Ngoại lệ này được bắt bởi khối ```except``` và được xử lý ở đó. Nếu việc giải mã thành công, khi đó chìa khoá được yêu cầu sẽ được trả về trong khối ```else```. Nếu việc dò chìa khoá tạo ra bất cứ ngoại lệ nào, chúng sẽ lan truyền tới code gọi bởi vì chúng nằm bên ngoài khối ```try```. Khối ```else``` đảm bảo rằng những gì đi theo sau ```try/except``` được tách biệt rõ ràng khỏi khối ```except```. Điều này làm cho việc lan toả ngoại lệ trở nên rõ ràng hơn. 

### Mọi thứ cùng với nhau 

Sử dụng ```try/except/else/finally``` khi bạn muốn làm tất cả trong cùng một câu tổng hợp. Ví dụ, bạn muốn đọc mô tả công việc cần làm từ một file, xử lý nó, và sau đó cập nhật file này. Ở đây, khối ```try``` được sử dụng để đọc file và xử lý nó. Khối ```except``` được sử dụng để xử lý các ngoại lệ được mong đợi từ khối ```try```. Khối ```else``` được sử dụng để cập nhật file và cho phép các ngoại lệ liên quan được lan toả. Khối ```finally``` dọn dẹp file handle

In [0]:
UNDEFINED = object()

def divide_json(path):
  handle = open(path, 'r+') # Có thể tạo ra lỗi IOError
  try:
    data = handle.read() # Có thể tạo ra lỗi UnicodeDecodeError 
    op = json.loads(data) # Có thể tạo ra lỗi ValueError 
    value = (op["numerator"] / op["denominator"])
  except ZeroDivisionError as e:
    return UNDEFINED
  else:
    op['result'] = value 
    result = json.dumps(op)
    handle.seek(0)
    handle.write(result) # Có thể tạo ra lỗi IOError 
    return value 
  finally:
    handle.close() # Luôn luôn chạy 

Cấu trúc trên đặc biệt hữu dụng bởi vì tất cả các khối cùng làm việc với nhau một cách hợp lý. Ví dụ, nếu một ngoại lệ xảy ra trong khối ```else``` trong khi ghi lại dữ liệu kết quả, khối ```finally``` sẽ vẫn chạy và đóng file handle.

### Những điều cần nhớ.


*   Sử dụng ```try/finally``` giúp bạn chạy các khối code dọn dẹp bất kể các ngoại lệ xảy ra trong khối ```try```
*   Khối ```else``` giúp bạn tối thiểu hoá lượng code trong các khối ```try``` và tách biệt trường hợp thành công từ các khối ```try/except```. 
* Khối ```else``` có thể được sử dụng để thực hiện các hành động bổ sung sau một khối ```try``` thành công nhưng trước khối ```finally``` được sử dụng để dọn dẹp.



## Nên dùng các ngoại lệ thay vì trả về None

Khi viết các hàm tiện ích (utility functions), các lập trình viên thường đứng trước một lựa chọn cho việc trả về giá trị ```None``` có mang một ý nghĩa gì hay không trong một số trường hợp. Ví dụ, bạn muốn một hàm trợ giúp (helper function) cho việc chia một số cho một số khác. Trong trường hợp chia cho số 0, trả lại ```None``` dường như tự nhiên bởi vì kết quả chưa được định nghĩa.

In [0]:
def divide(a, b):
  try:
    return a/b
  except ZeroDivisionError:
    return None

Cod sử dụng hàm này có thể diễn giải kết quả trả về tương ứng.

In [47]:
result = divide(3, 0)
if result is None:
  print("Invalid inputs")

Invalid inputs


Điều gì xảy ra khi số được chia hay tử số bằng 0? Thực hiện phép chia này sẽ tạo ra kết quả bằng 0 (nếu số bị chia hay mẫu số khác 0). Điều này có thể tạo ra các vấn đề khi bạn đánh giá kết quả trong một điều kiện như là câu lệnh ```if```. Bạn có thể tìm kiếm các giá trị ```False``` khi bạn nhắc tới các lỗi thay vì ```None```. 

In [48]:
x, y= 0, 5
result = divide(x, y)

if not result:
  print("Invalid inputs") # Điều này sai

Invalid inputs


Đây là một lỗi phổ biến khi ```None``` có ý nghĩa đặc biệt. Đó là lý do tại sao trả về ```None``` từ một hàm dễ sai. Có hai cách để giảm đi các lỗi như vậy.

Cách đầu tiên là chia giá trị trả về thành một một tuple có hai phần tử. Phần đầu tiên của tuple chỉ ra rằng phép tính thành công hay thất bại. Phần thứ hai là kết quả thực sự được tính toán



In [0]:
def divide(a, b):
  try:
    return True, a/b
  except ZeroDivisionError:
    return False, None

Các lời gọi tới hàm này phải rã tuple trả về. Điều này bắt họ (các hàm gọi) phải xem xét phần nào trong tuple là kết quả, và phần nào là trạng thái của phép tính. 

In [51]:
success, result = divide(4, 0)
if not success:
  print("Invalid inputs")

Invalid inputs


Vấn đề là ở chỗ các lời gọi hàm có thể dễ dàng lờ đi phần đầu của tuple trả về (sử dụng biến có hai dấu gạch châu ```__````, một quy ước của Python dành cho các biến không được sử dụng). Đoạn code sử dụng dưới đây nhìn không sai nếu chỉ xét thoáng qua. Nhưng nó trở nên tệ khi kết quả trả về là ```None```

In [55]:
_, result = divide(0, 3)

if not result:
  print("Invalid inputs")

Invalid inputs


Ở ví dụ trên, dù phép tính là hợp lệ nhưng đoạn mã vẫn in ra kết quả sai, bởi vì ta đã kiểm tra sai biến.

Cách thứ hai tốt hơn là không bao giờ trả về ```None```. Thay vào đó, khởi lên một ngoại lệ cho người gọi và để họ xử lý nó. Ở đây, tôi chuyển ```ZeroDivisionError``` sang ```ValueError``` để nói cho người gọi biết rằng giá trị nhập vào là tệ.

In [0]:
def divide(a, b):
  try:
    return a / b
  except ZeroDivisionError as e:
    raise ValueError('Invalid inputs') from e

In [57]:
divide(1, 0)

ValueError: ignored

Bây giờ người gọi nên xử lý ngoại lệ trong trường hợp input nhập vào không hợp lệ. NGười gọi không cần thiết phải yêu cầu một câu điều kiện trên giá trị trả về của một hàm. Nếu hàm này không gây ra một ngoại lệ, khi đó giá trị trả về phải là tốt. Kết quả của của việc xử lý ngoại lệ thật rõ ràng.

In [58]:
x, y = 5, 2
try:
  result = divide(x, y)
except ValueError:
  print("Invalid inputs")
else:
  print("Result is %.1f" %result)

Result is 2.5


In [59]:
x, y = 5, 0
try:
  result = divide(x, y)
except ValueError:
  print("Invalid inputs")
else:
  print("Result is %.1f" %result)

Invalid inputs


### Những điều cần nhớ


*   Các hàm trả về ```None``` để ám chỉ một ý nghĩa đặc biệt dễ bị sai bởi vì ```None``` và các giá trị khác (ví dụ như số 0, hoặc một chuỗi rỗng) đều được đánh giá là ```False``` trong các câu điều kiên
*   Khởi lên các ngoại lệ để ám chỉ các tình huống đặc biệt thay vì trả về ```None```. Mong đợi code gọi xử lý các ngoại lệ hợp khi khi chúng được mô tả. 



In [0]:
a = None
assert not a == False

## Xem xét sử dụng các Generators thay vì trả về các danh sách 

Lựa chọn đơn giản nhất cho các hàm muốn trả về một chuỗi các kết quả là trả về một danh sách các phần tử. Ví dụ, bạn muốn tìm chỉ số của mỗi từ trong một chuỗi. Trường hợp này, tôi dồn các kết quả vào trong một danh sách sử dụng phương thức ```append``` và trả nó về vào cuối hàm.


In [0]:
def index_words(text):
  result = []
  if text:
    result.append(0)
  for index, letter in enumerate(text):
    if letter == " ":
      result.append(index + 1)
  return result 

Đoạn mã hoạt động đối với một vài input

In [63]:
address = 'Four score and seven years ago...'
result = index_words(address)
print(result[:3])

[0, 5, 11]


Có hai vấn đề với hàm ```index_words```. 

Vấn đề thứ nhất là đoạn mã được biết nhìn hơi dày và rắc rối. Mỗi lần một kết quả mới được gọi, tôi gọi phương thức ```append```. Kích thước của lời gọi (```result.append```) làm giảm đi tầm quan trọng của giá trị được thêm vào trong danh sách (```index + 1```). Có một dòng để tạo danh sách kết quả và một dòng khác trả lại kết quả. Trong khi thân hàm chứa khoảng 130 kí tự (trừ ra khoảng trắng), chỉ có 75 kí tự là quan trọng.

Có một cách tốt hơn để viết hàm này đó là sử dụng một *generator*. Các generators là những hàm sử dụng các câu lệnh ```yield```. Khi được gọi, các hàm generator không chạy gì cả mà thay vào đó nó trả về một iterator. Với mỗi lời gọi hàm ```next``` có sẵn trong python sẽ làm cho generator tiến tới câu lệnh ```yield``` tiếp theo. Mỗi giá trị được truyền tới ```yield``` bởi generator sẽ được trả về tới người gọi bởi iterator. 

Ở đây tôi định nghĩa một hàm generator tạo ra kết quả giống như cách làm sử dụng danh sách phía trên.

In [0]:
def index_words_iter(text):
  if text:
    yield 0
  for index, letter in enumerate(text):
    if letter == " ":
      yield index + 1

Đoạn code phía trên dễ đọc hơn rất nhiều bởi vì tất cả các tương tác với danh sách kết quả đều được loại bỏ. Thay vào đó các kết quả được đưa cho các biểu thức ```yield```. Iterator được trả về bởi lời gọi generator có thể dễ dàng được chuyển thành mọt danh sách bằng cách truyền nó cho hàm có sẵn ```list```. 

In [0]:
result = list(index_words_iter(address))

In [66]:
result

[0, 5, 11, 15, 21, 27]

Vấn đề thứ hai với ```index_words``` đó là hàm này yêu cầu tất cả các kết quả được lưu vào trong một danh sách trước khi được trả về. Đối với các inputs lớn, việc này có thể làm cho chương trình của bạn tiêu tốn hết bộ nhớ và crash. Ngược lại, một phiên bản generator của hàm này có thể dễ dàng được thích ứng để nhận các inputs với bất cứ chiều dài nào.

Ở đây tôi định nghĩa một generator lấy input từ một file, mỗi thời điểm một dòng và xuất ra các kết quả mỗi từ một lần. Bộ nhớ của hàm nà được giới hạn tới độ dài cực đại của mỗi dòng input đầu vào

In [0]:
def index_file(handle):
  offset = 0
  for line in handle:
    if line:
      yield offset
    for letter in line:
      offset += 1
      if letter == ' ':
        yield offset

Chạy generator phái trên cho ra cùng kết quả

In [68]:
from itertools import islice
with open("address.txt") as f:
  it = index_file(f)
  results = islice(it, 0, 3)
  print(list(results))

[0, 2, 7]


Vấn đề của việc định nghĩa các generators như thế này đó là các lời gọi phải biết được rằng các iterators được trả về là stateful (nghĩa là máy tính sẽ lưu trữ trạng thái các tương tác) và không thể tái sử **dụng**

### Những điều cần nhớ


*   Sử dụng generators có thể làm cho code sáng sủa hơn thay vì dùng các danh sách để lưu trữ các kết quả tích luỹ
*   Iterator trả về bởi một generator tạo một tập các giá trị được gửi tới các biểu diễn ```yield``` bên trong thân hàm generator.
* Các generators có thể tạo ra một chuỗi các kết quả cho các inputs lớn tuỳ ý bởi vì bộ nhớ hoạt động của chúng không bao gồm tất cả các inputs và outputs.

