# Kiểu dữ liệu chuỗi ký tự

## Giới thiệu

Chuỗi ký tự, hay `str`, là một trong những kiểu dữ liệu cơ bản của python.

`str` là một chuỗi các ký tự được nằm trong (được giới hạn bởi) dấu nháy đơn `''` hoặc nháy kép `""`

Ví dụ :

In [1]:
print("Đây là một chuỗi ký tự")

Đây là một chuỗi ký tự


In [2]:
print('Đây cũng là một chuỗi ký tự')

Đây cũng là một chuỗi ký tự


Về cơ bản, độ dài `str` của python chỉ bị giới hạn bởi bộ nhớ của máy tính. Nghĩa là, nếu bộ nhớ cho phép, bạn có thể tạo ra một `str` chứa 1,000,000,000 ký tự.

Và bạn cũng có thể tạo ra một `str` trống, không chứa ký tự nào

In [25]:
print('')




Để biết được độ dài (hay số ký tự) của một `str`, bạn có thể dùng hàm `len()` như sau :

In [4]:
len('Đây là một chuỗi rất dài!')

25

## Cách giới hạn một `str`

Như ở phần giới thiệu, một `str` của python có thể được giới hạn bằng hai cách, đó là dùng `''` hoặc `""`. Tại sao lại thế?

Lý do rất đơn giản, giả sử `str` của bạn chỉ có thể giới hạn bằng `''` và bạn muốn có ký tự `'` trong `str`. Chẳng hạn như thế này :

In [5]:
'I've a dream'

SyntaxError: ignored

Như các bạn có thể thấy, khi gặp dấu `'` thứ hai, python đã tự động xác định `I` là `str`.

Phần còn lại, do không nằm trong cú pháp nào của python nên bị báo lỗi.

Để giải quyết vấn đề này, người ta có 3 cách :
1. Dùng `""` để giới hạn chuỗi khi muốn dùng `''` trong chuỗi và ngược lại.
2. Dùng ký tự đặc biệt `\`
3. Dùng đến nháy ba `'''...'''` hoặc `"""..."""`

Cách thứ nhất, bạn có thể xem những ví dụ sau đây :

In [6]:
"I've a dream"

"I've a dream"

In [7]:
'She said: "I want to go home"'

'She said: "I want to go home"'

Tuy nhiên, cách thứ nhất chỉ hiệu quả trong trường hợp chỉ có 1 dấu nằm lồng trong nhau, cùng xem ví dụ sau :

In [8]:
'She said : "I've a dream"'

SyntaxError: ignored

Như các bạn có thể thấy, trong trường hợp này, việc tồn tại của `I've` khiến cho không thể giới hạn chuỗi một cách hiệu quả. Vì vậy, người ta phải sử dụng đến ký tự `\`

## Ký tự `\`

Trong nhiều ngôn ngữ lập trình, người ta thường dùng ký tự `\` (xuyệt phải) với ý nghĩa là một ký tự đặc biệt.

Khi một trình biên dịch hoặc thông dịch gặp ký tự `\` này, trình biên dịch hoặc thông dịch sẽ hiểu rằng một (hoặc vài) ký tự đi sau `\` có ý nghĩa khác với bình thường.

Ký tự `\` còn được gọi là escaped character. Hàm ý là một (hoặc vài) ký tự theo sau nó được thoát (escaped) khỏi ý nghĩa ban đầu. 

Một số chuỗi thường gặp trong python

|Chuỗi|Ý nghĩa|
|:---:|---|
|`\t`|Nhảy 1 tab|
|`\n`|Xuống dòng|
|`\'`|Ký tự `'`|
|`\"`|Ký tự `"`|
|`\\`|Ký tự `\`|

Tuy nhiên, các chuỗi này chỉ có thể thể hiện được khi dùng lệnh `print()`

Một số ví dụ :

In [23]:
print('She said : "I\'ve a dream"')

She said : "I've a dream"


In [27]:
print('Ai là người lấy cắp nỏ thần của An Dương Vương?\nDạ, không liên quan đến em, em không biết bạn Vương!\nĐể em đi báo công an ạ!')

Ai là người lấy cắp nỏ thần của An Dương Vương?
Dạ, không liên quan đến em, em không biết bạn Vương!
Để em đi báo công an ạ!


In [28]:
print('a\t+\tb\t=\tc')

a	+	b	=	c


## Dấu nháy ba `'''...'''` hoặc `"""..."""`

Ngoài ra, python còn có một cách để giới hạn chuỗi, đó là dùng dấu nháy ba. Công dụng chính của dấu nháy ba là cho phép bạn viết một `str` trên nhiều dòng khác nhau.

In [29]:
print('a
b')

SyntaxError: ignored

In [32]:
print('''Trăm năm trong cõi người ta
Ai ai cũng phải thở ra hít vào
Gần gần như cái nước Lào
Người người đều phải hít vào thở ra''')

Trăm năm trong cõi người ta
Ai ai cũng phải thở ra hít vào
Gần gần như cái nước Lào
Người người đều phải hít vào thở ra


Ngoài ra, nó có công dụng phụ là bạn có thể dùng *nháy đơn* và nháy kép trong `str` mà không cần đi kèm với `\`

In [31]:
print('''
"Anh vào chưa?"
"Anh ra rồi!"
''')


"Anh vào chưa?"
"Anh ra rồi!"



# Một số thao tác trên chuỗi ký tự

## Trích xuất chuỗi con
Về cơ bản, bạn có thể xem chuỗi là một mảng các ký tự, vì vậy, bạn có thể lấy một chuỗi con từ chuỗi cho trước theo cách sau :
```
<tên_chuỗi>[bắt_đầu:kết_thúc]
```
Với ý nghĩa là, trích chuỗi con từ `tên_chuỗi`, lấy từ vị trí `bắt_đầu` cho đến **ngay trước** vị trí `kết_thúc`

Python hỗ trợ hai cách đánh số `str`, đó là số thứ tự dương và số thứ tự âm như hình sau :

![Cách đánh số `str`](https://developers.google.com/edu/python/images/hello.png)

Một số điểm cần lưu ý :
- Bạn có thể bỏ trống `bắt_đầu`, python sẽ lấy từ đầu chuỗi.
- Bạn cũng có thể bỏ trống kết thúc, python sẽ lấy đến hết chuỗi.
- Nhắc lại, trong trường hợp có `kết_thúc`, Python sẽ **không** lấy phần tử ở vị trí `kết_thúc`.
- Bạn có thể sử dụng cách đánh số thứ tự dương hoặc số thứ tự âm hoặc cả hai đều được.

Cùng xem các ví dụ sau :

In [0]:
a = 'Hello'

In [40]:
# chỉ rõ bắt đầu và kết thúc
a[1:4]

'ell'

In [41]:
# bỏ trống bắt đầu
a[:3]

'Hel'

In [42]:
# bỏ trống kết thúc
a[2:]

'llo'

In [43]:
# dùng cách đánh số thứ tự âm
a[-3:]

'llo'

In [44]:
# dùng kết hợp số thứ tự âm và dương
a[1:-1]

'ell'

**Câu hỏi** :
1. Trong trường hợp `bắt_đầu` và `kết_thúc` cùng tính âm dương, nếu như `bắt_đầu` >= `kết_thúc` thì sẽ trả về kết quả như thế nào?
2. Trong cách đánh số thứ tự dương, nếu `kết_thúc` lớn hơn độ dài của chuỗi thì chuyện gì sẽ xảy ra?

## Nối chuỗi
Để nối hai hay nhiều chuỗi với nhau, bạn có thể dùng một trong 2 cách sau :
1. Dùng phép `+`
2. Dùng dấu `()`

Cùng theo dõi ví dụ các ví dụ :

In [50]:
print('Apple' + ', ' + 'Banana')

Apple, Banana


In [49]:
print((
    'Apple'
    ', '
    'Banana'
))

Apple, Banana


Tuy nhiên, cách 2 chỉ áp dụng được cho chuỗi chứ không áp dụng được cho biến kiểu chuỗi

In [0]:
a = 'Apple'
b = 'Banana'

In [52]:
print(a + '\n' + b)

Apple
Banana


In [55]:
print((
    a
    '\n'
    b
))

SyntaxError: ignored

## Một số phương thức của `str`

Như đã nói, mỗi phần tử trong python đều là một đối tượng. Và `str` cũng không ngoại lệ.

Trong mục này, sẽ giới thiệu một số phương thức của kiểu `str`.

Chúng ta cũng quy ước gọi chuỗi thực hiện phương thức là chuỗi gốc.

Phương thức `.upper()` biến toàn bộ chuỗi gốc thành ký tự in hoa.

Phương thức `.lower()` biến toàn bộ chuỗi gốc thành ký tự in thường.

In [64]:
s = 'Hello'
print(s.upper())
print(s.lower())

HELLO
hello


Phương thức `.strip()` loại bỏ toàn bộ khoảng trắng ở đầu và cuối chuỗi gốc.

In [63]:
s2 = '   Hello  !  '
print(s2)
print(s2.strip())

   Hello  !  
Hello  !


Phương thức `.startswith(<chuỗi_thử>)` sẽ kiểm tra xem chuỗi gốc có bắt đầu bằng `chuỗi_thử` hay không.

Phương thức `.endswith(<chuỗi_thử>)` sẽ kiểm tra xem chuỗi gốc có kết thúc bằng `chuỗi_thử` hay không.

In [62]:
s3 = 'Apple, Banana, Cherry'
print(s3.startswith('Apple'))
print(s3.endswith('Banana'))

True
False


Phương thức `.find(<chuỗi_tìm>)` sẽ tìm kiếm `chuỗi_tìm` trong chuỗi gốc :
- Nếu có `chuỗi_tìm` thì sẽ trả về vị trí đầu tiên xuất hiện.
- Nếu không có sẽ trả về -1

In [65]:
s4 = 'Hello'
print(s4.find('l'))
print(s4.find('a'))

2
-1


Phương thức `.split(<chuỗi_tách>)` sẽ tách chuỗi gốc theo `chuỗi_tách`.

In [66]:
s5 = 'Apple, Banana, Cherry'
print(s5.split(','))

['Apple', ' Banana', ' Cherry']


**Câu hỏi** :
1. Nếu `chuỗi_tách` không tồn tại trong chuỗi gốc, điều gì sẽ xảy ra khi gọi `.split(<chuỗi_tách>)`?
2. Bạn có thể bỏ trống phần `chuỗi_tách`, nhưng điều gì sẽ xảy ra khi gọi `.split()`?

Trên đây là một số phương thức của chuỗi, bạn có thể xem toàn bộ phương thức của chuỗi tại [đây](https://docs.python.org/3/library/stdtypes.html#string-methods)