# Chuỗi: Giới thiệu

Một loại đối tượng cơ bản trong Python là **chuỗi** (sequence). Chuỗi giống như một danh sách được đánh số của các đối tượng, có thể ví như một danh sách mua sắm. Tất cả các chuỗi đều có thứ tự cụ thể và có thể chứa bất kỳ số lượng phần tử nào.

Các kiểu dữ liệu chuỗi chính mà chúng ta sẽ làm việc trong khóa học này là:
* **chuỗi ký tự** (strings), mà chúng ta đã sử dụng từ truoc
* **danh sách** (lists); và
* **bộ** (tuples)

Chúng ta sẽ giới thiệu danh sách và bộ trong bài tập này.

# Chuỗi ký tự như các dãy tuần tự (Strings as sequences)

Chúng ta bắt đầu thảo luận về các dãy tuần tự với việc xem xét chi tiết về chuỗi ký tự. Chuỗi ký tự trông như thế này:

`'44 cats?!'`

Chuỗi ký tự là **dãy tuần tự** của các ký tự. Python đánh số vị trí của mỗi ký tự trong chuỗi, bắt đầu với ký tự đầu tiên ở vị trí số 0, và tiếp tục tuần tự từ trái sang phải. Ví dụ, các ký tự khác nhau trong chuỗi `"Python"` được đánh số như sau:

| ký tự | P | y | t | h | o | n |
|-------|---|---|---|---|---|---|
| chỉ số | 0 | 1 | 2 | 3 | 4 | 5 |

Để truy cập một ký tự ở một vị trí cụ thể, chúng ta có thể chỉ định số vị trí của nó bên trong dấu ngoặc vuông. Kỹ thuật này được gọi là **lập chỉ mục** hoặc **đánh chỉ số** chuỗi. Vị trí mà chúng ta chỉ định bên trong dấu ngoặc vuông được gọi là **chỉ số**. Đây là một ví dụ:

```python
s = "The number is 42."
```

```python
print(s[0])
```

```python
print(s[1])
```

**Kết quả:**
```
T
```

```
h
```

Mỗi ký tự trong chuỗi đều có thể được lập chỉ mục theo cách này. Hãy thử tìm hiểu kết quả sẽ là gì trước khi chạy đoạn code sau:

```python
s = "The number is 42."
```

```python
print(s[3])
```

```python
print(s[16])
```

Chỉ số `0` trả về chữ cái đầu tiên của chuỗi, tức là `T`, chỉ số `1` trả về chữ cái thứ hai `h` và cứ thế tiếp tục. Lưu ý rằng chỉ số `3` trả về khoảng trắng giữa `The` và `number`. Chuỗi có tổng cộng 17 ký tự (bao gồm cả khoảng trắng và dấu chấm), vì vậy chỉ số hợp lệ cuối cùng là 16 và trả về `.`, như mong đợi.

# Thêm về Chỉ mục Chuỗi (String Indexing)

Điều gì xảy ra khi chúng ta cố gắng truy cập một chỉ mục nằm ngoài phạm vi của chuỗi? Hãy thử chạy đoạn code sau:

```python
s = "The number is 42."
```

```python
print(s[17])
```

Chỉ mục `17` nằm ngoài phạm vi các chỉ mục hợp lệ và việc cố gắng truy cập một chỉ mục không hợp lệ sẽ dẫn đến thông báo lỗi. Làm thế nào để tìm ra chỉ mục hợp lệ lớn nhất trong một chuỗi mà không phải tự đếm? Chỉ mục hợp lệ lớn nhất bằng độ dài của chuỗi trừ đi một (nhớ rằng chúng ta bắt đầu đếm từ `0`). Python có một hàm tích hợp sẵn cho mục đích này: hàm `len()`. Hàm `len()` được sử dụng như sau:

```python
s = "The number is 42."
```

```python
n = len(s)
```

```python
print(n)
```

```python
print(len("Hello"))
```

```python
17
```

```python
5
```

Lưu ý rằng `len()` hoạt động hơi giống như hàm `print()`: bạn đưa vào chuỗi mà bạn muốn đo độ dài bên trong dấu ngoặc đơn. Tuy nhiên, không giống như hàm `print()` (không có đầu ra), đầu ra của `len()` là một `int`: số lượng ký tự trong chuỗi.

Cuối cùng, điều quan trọng là phải cẩn thận với các chuỗi rỗng khi sử dụng chỉ mục. Chuỗi rỗng không có ký tự nào, thậm chí không có ở chỉ mục 0. Điều này có thể dẫn đến lỗi runtime nếu chúng ta bỏ qua khả năng của chuỗi rỗng.

```python
s = ""
```

```python
print(s[0])
```

# Chỉ số âm của chuỗi (Negative String Indexing)

Chúng ta đã thấy điều gì xảy ra khi chỉ số quá lớn. Vậy điều gì xảy ra nếu chỉ số nhỏ hơn 0?

```python
s = "The number is 42."
```

```python
print(s[-1])
```

```python
print(s[-2])
```

```python
print(s[-3])
```

```python
print(s[-17])
```

**Kết quả:**
```
.
```

```
2
```

```
4
```

```
T
```

Điều này không tạo ra lỗi. Thay vào đó, các chỉ số âm hoạt động từ cuối chuỗi, vì vậy `-1` chỉ định ký tự cuối cùng, đó là **.** và `-17` chỉ định ký tự thứ 17 từ cuối lên, đó là **T** (thực tế là ký tự đầu tiên của chuỗi). 

Quay lại ví dụ `"Python"` từ trước đó, chỉ số âm của mỗi ký tự như sau:

| ký tự | P | y | t | h | o | n |
|-------|---|---|---|---|---|---|
| chỉ số | -6 | -5 | -4 | -3 | -2 | -1 |

Bây giờ bạn đã học được hai cách để truy cập các ký tự trong chuỗi, từ đầu hoặc từ cuối!

**Lưu ý thêm**

Chú ý rằng các chỉ số âm bắt đầu từ `-1` (one-offset) trong khi các chỉ số dương bắt đầu từ `0` (zero-offset). Bạn nghĩ tại sao lại như vậy?

# Truy cập Chuỗi con (Slicing)

Cho đến bây giờ, bạn đã có thể truy cập từng ký tự riêng lẻ của một chuỗi. Bạn có thể truy cập một dãy các chữ cái của một chuỗi, tức là một chuỗi con, bằng cách nối từng ký tự của dãy này. Tuy nhiên, điều này nhanh chóng trở nên phức tạp nếu chuỗi con dài hơn một vài ký tự.

```python
s = "The number is 42."
```

```python
print(s[1] + s[2] + s[3] + s[4] + s[5])
```

```
he nu
```

Python cung cấp một phương pháp thuận tiện để truy cập chuỗi con: bạn chỉ cần chỉ định chỉ số bắt đầu và chỉ số kết thúc **(không bao gồm)**. Phương pháp này còn được gọi là **slicing** (cắt lát). Ví dụ, đoạn code sau làm những gì đoạn code trên làm nhưng theo cách hiệu quả hơn nhiều. Nó truy cập chuỗi con của chuỗi `"The number is 42."` bắt đầu từ chỉ số `1`, đến (nhưng không bao gồm) chỉ số `6`.

```python
s = "The number is 42."
```

```python
print(s[1:6])
```

```
he nu
```

Ký hiệu `1:6` được gọi là một slice (lát cắt). Hãy nhớ rằng một slice bắt đầu từ chỉ số đầu tiên nhưng kết thúc trước một chỉ số cuối. Điều này phù hợp với việc đánh chỉ số: đánh chỉ số cũng bắt đầu từ số không và đi đến trước một của độ dài chuỗi. Bạn có thể thấy điều này bằng cách slicing với giá trị của `len`:

```python
s = "The number is 42."
```

```python
print(len(s))
```

```python
print(s[0:len(s)])
```

```
17
```

```
The number is 42.
```

# Thêm về Cắt Chuỗi (Slicing)

Bạn cũng có thể cắt chuỗi với chỉ số âm. Quy tắc cơ bản giống nhau là bắt đầu từ chỉ số đầu và dừng trước một vị trí của chỉ số cuối:

```python
s = "The number is 42."
```

```python
print(s[4:-7])
```
```
number
```

```python
print(s[-7:-1])
```
```
 is 42
```

```python
print(s[-6:len(s)])
```
```
is 42.
```

Python cung cấp hai cách viết tắt cho các giá trị cắt phổ biến:
1. Nếu chỉ số bắt đầu là 0 thì bạn có thể bỏ trống
2. Nếu chỉ số kết thúc là độ dài của chuỗi thì bạn có thể bỏ trống

như thế này:

```python
s = "The number is 42."
```

```python
print(s[:5])
```
```
The n
```

```python
print(s[5:])
```
```
umber is 42.
```

```python
print(s[:])
```
```
The number is 42.
```

# Thay đổi Kích thước Bước và Hướng

Bạn có thể chỉ định một số thứ ba trong slice (sau dấu hai chấm thứ hai) để chỉ ra bước nhảy qua chuỗi cho mỗi phần tử được bao gồm trong slice. Mặc định, số này là `1`, có nghĩa là **tất cả** các phần tử sẽ được bao gồm. Nếu thay vì lấy tất cả các phần tử, bạn muốn lấy **mỗi phần tử thứ hai**, bạn có thể sử dụng giá trị bước là `2`:

```python
s = "abcdef"
```

```python
print(s[::2])
```

Bạn cũng có thể chỉ định bước với một phạm vi:

```python
s = "abcdef"
```

```python
print(s[0:3:2])
```

Nếu bước là -1, nó sẽ đảo ngược hướng của chuỗi mà bạn đang slice. Lưu ý rằng hướng của các chỉ số cũng phải được thay đổi (ký tự ngoài cùng bên phải bây giờ là chỉ số bắt đầu và ký tự ngoài cùng bên trái là chỉ số kết thúc):

```python
s = "abcdef"
```

```python
print(s[2::-1])
```

```python
print(s[2:0:-1])
```

```python
print(s[-4:-6:-1])
```

Một chuỗi rỗng sẽ được trả về nếu không có gì ở giữa các chỉ số. Một chuỗi rỗng cũng được trả về nếu slice chứa các chỉ số không tồn tại (khác với indexing, điều này sẽ dẫn đến `IndexError`):

```python
s = "abcdef"
```

```python
print(s[0:2:-1])
```

```python
print(s[20:30])
```

# Tóm tắt về Lập chỉ mục và Cắt lát

Trong những slide vừa qua, chúng ta đã giới thiệu về chuỗi (sequences) và xem xét cách chúng ta có thể lập chỉ mục và cắt lát chuỗi ký tự như một kiểu tuần tự mà chúng ta đã quen thuộc:

* **Chuỗi** là các kiểu dữ liệu chứa một tập hợp có thứ tự của nhiều thứ. Chuỗi ký tự là một chuỗi các ký tự.
* Các phần tử trong chuỗi được đánh số bắt đầu từ 0 cho phần tử ngoài cùng bên trái và tăng dần, hoặc -1 cho phần tử ngoài cùng bên phải và giảm dần.
* **Lập chỉ mục** hoặc **Chỉ số hóa** cho phép trích xuất một phần tử cụ thể từ chuỗi. Điều này được thực hiện bằng cách đặt chỉ số của phần tử đó trong dấu ngoặc vuông.

```python
print("let's index"[2])
```

* Việc cố gắng lập chỉ mục vượt quá độ dài của chuỗi sẽ dẫn đến lỗi `IndexError`.
* Hàm `len()` có thể được sử dụng để tìm độ dài của chuỗi bằng cách chèn chuỗi vào giữa các dấu ngoặc. Nó trả về độ dài của chuỗi dưới dạng `int`.
* **Lát cắt** là một chuỗi con của một chuỗi nào đó. Việc cắt lát được thực hiện bằng cách viết chỉ số bắt đầu, dấu hai chấm `:` và chỉ số kết thúc bên trong dấu ngoặc vuông.

```python
print("let's slice"[4:7])
```

* Cắt lát bắt đầu với phần tử tại chỉ số bắt đầu và lấy tất cả các phần tử cho đến **nhưng không bao gồm** phần tử tại chỉ số kết thúc.
* Nếu chỉ số bắt đầu là đầu chuỗi, bạn có thể để trống; nếu chỉ số kết thúc là cuối chuỗi, bạn có thể để trống.
* Một số "bước" thứ ba có thể được thêm vào lát cắt sau dấu hai chấm thứ hai, kiểm soát tần suất các phần tử từ chuỗi được thêm vào lát cắt. Bước -1 sẽ đảo ngược chuỗi.
* Một lát cắt rỗng hoặc lát cắt trên các chỉ số không tồn tại sẽ trả về một chuỗi rỗng.

# Ôn tập Slicing và Indexing
Hãy thử sửa đổi đoạn code này để kiểm tra hiểu biết của bạn!

```python
text = 'apologetic telekinesis'
```

```python
print(text)
```

**1.**
Nhấp để chạy chương trình. Nó sẽ in ra văn bản! `text`

**2.**
Bạn có thể sử dụng index cho `text` để chỉ in ra `'g'` không?

**3.**
Bạn có thể slice để lấy từ `'get'` ra khỏi `text` không?

**4.**
Sử dụng step size âm, bạn có thể slice để lấy từ `'cite'` ra khỏi `text` không?

**5.**
Câu cuối cùng! Bạn có thể slice để lấy tất cả các phụ âm ra khỏi `text` không?
*Gợi ý: Mỗi ký tự thứ hai là một phụ âm trong những từ này*