# B05 List comprehension

## Mục đích

Giới thiệu chức năng **list comprehension** trong Python. (Xoa-di không biết dịch sang tiếng Việt như thế nào.)


## Bài toán

Chúng ta có danh sách các số từ 0 đến 5. Làm thế nào để tính bình phương của tất cả các số này?

Các bạn tự suy nghĩ trước khi xem đoạn code dưới đây nhé.

In [1]:
num = list(range(6))
num_2 = []
for a in num:
    num_2.append(a ** 2)
print(num_2)

[0, 1, 4, 9, 16, 25]


Giải thích:

* Dòng lệnh đầu tiên tạo ra một danh sách các số từ 0 đến 5. Lệnh `range(6)` tạo ra một khoảng từ 0 đến 5 (nhớ kĩ đoạn này nhé), và `list()` biến khoảng này thành dữ liệu kiểu danh sách.
* Chúng ta lặp qua tất cả các số trong danh sách `num`, và ghi nhận kết quả bình phương của mỗi số vào trong `num_2`. Bạn nhớ phải khởi tạo danh sách `num_2` trước khi lặp nhé.


## List comprehension

Python cung cấp cho chúng ta một cách đơn giản hơn để thực hiện vòng lặp như ở trên và không phải khởi tạo biến `num_2`. Chức năng này gọi là **list comprehension**. Bạn xem dòng lệnh dưới đây:

In [2]:
[a ** 2 for a in num]

[0, 1, 4, 9, 16, 25]

Dòng lệnh này có thể được hiểu là:

* Tạo ra một danh sách (`[]`)
* Trong đó mỗi phần tử có giá trị là `a ** 2`
* Và `a` là một giá trị trong danh sách `num`

Một vài ví dụ để bạn tham khảo.

In [3]:
words = [" A", "B ", " C "]
[s.strip() for s in words]

['A', 'B', 'C']

In [4]:
age = [16, 19, 21]
[a > 18 for a in age]

[False, True, True]

Bạn có thể thêm điều kiện `if` trong list comprehension. Chỉ những giá trị nào thỏa mãn điều kiện mới được đưa vào danh sách mới. Trong ví dụ dưới đây, chỉ có những giá trị lớn hơn 18 mới được đưa vào danh sách.

In [5]:
age = [16, 19, 21]
[a for a in age if a > 18]

[19, 21]

Bạn thậm chí có thể thêm `else` để tạo ra hai cách tính toán cho hai trường hợp khác nhau. Thứ tự trình bày trong list comprehension sẽ thay đổi một chút.

In [6]:
age = [16, 19, 21]
["Gia" if a > 18 else "Tre" for a in age]

['Tre', 'Gia', 'Gia']

Sự khác nhau về thứ tự trình bày là do Python có một cú pháp như sau:

In [7]:
a = 16
result = "Gia" if a > 18 else "Tre"
print(result)

Tre


Cú pháp này được giới thiệu để rút gọn cho đoạn lệnh sau:

```python
if a > 18:
    result = "Gia"
else:
    result = "Tre"
```

Vì vậy, dòng lệnh `["Gia" if a > 18 else "Tre" for a in age]` chính là `[<giá_trị_nào_đó> for a in age]` mà thôi.

Lưu ý: nếu đã dùng, bạn phải dùng cả cấu trúc `... if ... else ...` như trên. Bạn không thể viết chỉ có phần `if` mà không có phần `else`.

```
>>> a = 16
>>> "Gia" if a > 18
  File "<stdin>", line 1
    "Gia" if a > 18
                  ^
SyntaxError: invalid syntax
```


## *Bài toán*: Loại bỏ các chuỗi kí tự toàn dấu cách trong danh sách

Ở bài trước, chúng ta đã có một giải pháp cho việc này. Nhìn dòng lệnh khá phức tạp:

In [8]:
origin = [" python", "for   ", "   ", "  str ", "iterable"]
n = len(origin)
n_pop = 0
for i in range(n):
    if origin[i - n_pop].strip() == "":
        origin.pop(i - n_pop)
        n_pop += 1    # n_pop = n_pop + 1
print(origin)

[' python', 'for   ', '  str ', 'iterable']


Chúng ta có một cách khác như dưới đây. Bạn nhớ đọc kĩ và hiểu tường tận cách làm dưới đây nhé. Cách này không những thoáng đãng hơn, mà lại còn cho phép bạn "strip" dấu cách thừa của những phần tử còn lại.

In [9]:
origin = [" python", "for   ", "   ", "  str ", "iterable"]
result = []
for s in origin:
    if s.strip() != "":
        result.append(s.strip())
print(result)

['python', 'for', 'str', 'iterable']


***Bạn sẽ dùng list comprehension như thế nào?***

In [10]:
origin = [" python", "for   ", "   ", "  str ", "iterable"]
[s.strip() for s in origin if s.strip() != ""]

['python', 'for', 'str', 'iterable']

## Tối ưu hóa (bạn có thể bỏ qua phần này)

Nếu nhìn vào 3 giải pháp cho bài toán Loại bỏ các chuỗi kí tự toàn dấu cách trong danh sách, bạn sẽ thấy giải pháp 2 và 3 dễ hiểu hơn nhiều so với giải pháp 1. Giải pháp đọc dễ hiểu (gọi là code trong sáng) không đồng nghĩa với **tối ưu**.

Khi tiến hành giải quyết một vấn đề bằng máy tính, người lập trình cần tính đến hai yếu tố:

* **Thời gian**: Cả 3 giải pháp này đều lặp từ phần tử đầu tiên đến phần tử cuối cùng của danh sách. Tức là nếu danh sách có 100 phần tử, giải pháp nào cũng phải lặp 100 lần. Như vậy, về mặt thời gian, chúng gần như tương đương nhau. Tuy nhiên, list comprehension được tối ưu cho trình phiên dịch của Python, nên nó sẽ nhanh hơn vòng lặp `for`.
* **Không gian**: Ở đây là nói đến bộ nhớ trong máy tính (RAM). RAM của máy cũng như kho hàng, lớp học, quán cafe, sân vận động - sức chứa có hạn. Tưởng tượng nếu đây không phải là danh sách 5 phần tử, mà là danh sách 5 TRIỆU phần tử, điều gì sẽ xảy ra? Giải pháp 2 và 3 phải tạo ra thêm một danh sách mới, và trong trường hợp xấu nhất là không có chuỗi kí tự nào toàn dấu cách, thì danh sách này cũng sẽ có 5 TRIỆU phần tử. Vậy là bạn đang "double" không gian bộ nhớ dành cho chương trình của bạn. Vì vậy, về mặt không gian, giải pháp 1 tối ưu hơn, vì nó thao tác trên chính danh sách ban đầu. Trong trường hợp bạn không cần phải giữ lại danh sách ban đầu, hoặc muốn thay đổi chính nội dung của danh sách này, hãy nghĩ đến những thuật toán như giải pháp 1.


## Lượng giá

Đừng quên ôn bài với [bài tập lượng giá](https://forms.gle/FNxa93BsiPW3Nskr6).

---

[Bài trước](./04_strlistfor.ipynb) - [Danh sách bài](../README.md) - [Bài sau](./06_str.ipynb)