# B11 Định dạng chuỗi kí tự

## Mục đích

Giới thiệu về cú pháp cơ bản cho định dạng chuỗi kí tự trong Python.


## Hiển thị số thập phân

Nếu sử dụng hàm `str()` để chuyển giá trị `1/13` sang số thập phân, bạn sẽ thấy kết quả trông khó coi như thế này.

In [1]:
str(1/13)

'0.07692307692307693'

Thông thường, chúng ta chỉ muốn hiển thị 2 hoặc 3 chữ số sau dấu thập phân. Một cách làm là sử dụng hàm `round()` để làm tròn trước khi chuyển sang chuỗi kí tự. Tuy nhiên cách làm đó không hiệu quả nếu chúng ta có rất nhiều số cần phải chuyển. Đó là lúc định dạng chuỗi kí tự vào cuộc. Chúng ta sẽ cùng xem một ví dụ trước khi phân tích cú pháp của string formatting.

In [2]:
md = 4.2352365
cil = 3.4262116
ciu = 5.0442614

print("MD (95%CI):", "{:.2f} ({:.2f}, {:.2f})".format(md, cil, ciu))

MD (95%CI): 4.24 (3.43, 5.04)


Bạn có thể thấy rõ sự tiện lợi của việc dùng string formatting không chỉ dừng lại ở việc làm tròn số, mà còn giúp chúng ta đặt các số vào giữa chuỗi kí tự phức tạp. Làm quen với việc định dạng chuỗi kí tự, bạn có thể thoải mái sắp xếp thứ tự và cách hiển thị các kết quả phân tích để đưa vào trong báo cáo.

Chúng ta sẽ tìm hiểu chuỗi định dạng ở trong ví dụ trên: `"{" : <định_dạng> "}"`

* Cặp dấu ngoặc móc là bắt buộc phải có để báo cho Python biết chúng ta đang miêu tả một chuỗi định dạng.
* Quy cách định dạng đặt đằng sau dấu hai chấm. Trong ví dụ này, quy cách định dạng là `.2f`. Nó có nghĩa là hiển thị số thập phân dưới dạng fixed-point (`f`), chính xác 2 chữ số sau dấu thập phân (`.2`).

Bạn có thể hiển thị một số định dạng số khác như sau:

Định dạng  | Ý nghĩa
-----------|-------------------------------------------------
`"b"` | Số nhị phân
`"d"` | Số nguyên ở dạng thập phân (cơ số 10)
`"x"` | Số thập lục phân (cơ số 16)
`"e"`, `"E"` | Số thập phân ở dạng mũ
`"f"`, `"F"` | Số thập phân ở dạng con trỏ tĩnh
`"g"`, `"G"` | Định dạng phù hợp nhất
`"%"` | Phần trăm
`"s"` | Chuỗi kí tự

Hãy cùng xem một số ví dụ.

In [3]:
a = 140.23626180
b = 4.6101976201

print("{:.2f} {:.2f}".format(a, b))
print("{:.2e} {:.2e}".format(a, b))
print("{:g} {:g}".format(a, b))
print("{:.2g} {:.2g}".format(a, b))
print("{:.2%} {:.2%}".format(a, b))

140.24 4.61
1.40e+02 4.61e+00
140.236 4.6102
1.4e+02 4.6
14023.63% 461.02%


Như bạn thấy, sau khi miêu tả chuỗi định dạng, chúng ta phải sử dụng hàm `format()`. Số lượng đối số trong hàm `format()` phải bằng hoặc nhiều hơn số lượng chuỗi định dạng. Lưu ý: nếu các chuỗi định dạng được viết như trên, các đối số đã được cung cấp cho các chuỗi định dạng theo thứ tự từ trái qua phải.

Python 3.8 giới thiệu một cú pháp khác không cần hàm `format()` tên là **f-string**.

In [4]:
f"{b:.2f} {a:.2g}"

'4.61 1.4e+02'

Cách viết này cũng cho phép chúng ta tùy biến sắp xếp thứ tự của các biến khi đưa vào chuỗi định dạng. Chúng ta có thể sử dụng cùng một biến cho nhiều chuỗi định dạng khác nhau.

In [5]:
f"{a:.2f} {a:.4g} {b:.3e} {a:.3e}"

'140.24 140.2 4.610e+00 1.402e+02'

Với `format()` chúng ta cũng có thể làm tương tự nhưng sẽ hơi mất công hơn.

In [6]:
print("{b:.2f} {a:.2g}".format(b=b, a=a))                 # Sử dụng đối số
print("{0:.2f} {0:.4g} {1:.3e} {0:.3e}".format(a, b))     # Sử dụng chỉ mục

4.61 1.4e+02
140.24 140.2 4.610e+00 1.402e+02


## Lấy giá trị từ trong danh sách

Trong một số trường hợp, chúng ta muốn định dạng các giá trị lấy từ trong một danh sách. Chẳng hạn, một hàm phân tích số liệu trả về kết quả của MD và CI dưới dạng một tuple. Chúng ta có hai cách xử lí vấn đề này.

In [7]:
md = 4.2352365
cil = 3.4262116
ciu = 5.0442614

result = (md, cil, ciu)

print("{r[0]:.2f} ({r[1]:.2f}, {r[2]:.2f})".format(r=result))    # Chỉ mục
print("{:.2f} ({:.2f}, {:.2f})".format(*result))                 # Giải nén

4.24 (3.43, 5.04)
4.24 (3.43, 5.04)


Cách làm thứ hai có lẽ khá dễ hiểu, không cần giải thích thêm. Còn trong cách làm đầu tiên, chúng ta giải nén các phần tử trong danh sách thành các đối số của hàm `format()`. Dễ dàng nhận thấy rằng các đối số này sẽ được cung cấp cho các chuỗi định dạng theo thứ tự từ trái qua phải. Bạn có thể sử dụng chỉ mục để điều chỉnh việc hiển thị này. Ví dụ:

In [8]:
"Gioi han tren cua trung binh la {2:.2f}, con gioi han duoi la {1:.2f}, va trung binh la {0:.2f}".format(*result)

'Gioi han tren cua trung binh la 5.04, con gioi han duoi la 3.43, va trung binh la 4.24'

Nếu sử dụng f-string, chúng ta có thể viết là:

In [9]:
f"Gioi han tren cua trung binh la {result[2]:.2f}, con gioi han duoi la {result[1]:.2f}, va trung binh la {result[0]:.2f}"

'Gioi han tren cua trung binh la 5.04, con gioi han duoi la 3.43, va trung binh la 4.24'

Cách làm này bất tiện hơn một chút so với việc giải nén vào hàm `format()` và dùng chỉ mục. Chúng ta còn có thể giải nén từ điển để sử dụng chìa khóa thay cho chỉ mục. Cách làm này sẽ đảm bảo được chúng ta cung cấp chính xác nội dung cần định dạng cho từng chuỗi định dạng (thay vì phải ghi nhớ thứ tự các chỉ mục, và thứ tự này có thể bị thay đổi khi chúng ta viết lại mã lệnh trả kết quả sau này).

In [10]:
result = {
    "md": md,
    "cil": cil,
    "ciu": ciu
}

"Gioi han tren cua trung binh la {ciu:.2f}, con gioi han duoi la {cil:.2f}, va trung binh la {md:.2f}".format(**result)

'Gioi han tren cua trung binh la 5.04, con gioi han duoi la 3.43, va trung binh la 4.24'

## Căn lề và độ rộng

Giả sử bạn có tên và kết quả thi của một số học sinh. Bạn muốn in ra một bảng kết quả. Chúng ta thường căn lề trái cho tên học sinh và căn lề phải cho điểm số. Ngoài ra, chúng ta cũng thường quy định số kí tự tối đa sẽ hiện ra cho mỗi nội dung này. Bạn có thể sử dụng string formatting cho việc này.

In [11]:
scores = [
    ["Nguyen Thi Van", 86.244],
    ["Duong Hoang Quan", 90.113],
    ["Hoang Thi Minh", 7.314]
]

for score in scores:
    print("{:40s}{:>5.2f}".format(*score))

Nguyen Thi Van                          86.24
Duong Hoang Quan                        90.11
Hoang Thi Minh                           7.31


Con số 40 và 5 là độ rộng, hay số kí tự tối thiểu mà chúng ta sẽ in ra. Kí tự `>` được thêm vào chuỗi định dạng thứ hai để báo cho Python căn lề phải các số này. Các kí tự còn lại dành cho căn lề bao gồm: `<` cho căn lề trái, `=` cho căn giữa, và `^` cho căn lề hai bên.

Để hiểu rõ hơn về định dạng của độ rộng, chúng ta sẽ thử thay đổi một chút.

In [12]:
for score in scores:
    print("{:s}{:>5.2f}".format(*score))

Nguyen Thi Van86.24
Duong Hoang Quan90.11
Hoang Thi Minh 7.31


Khi bỏ định dạng độ rộng của họ tên, chúng ta thấy điểm số được in nối tiếp ngay sau khi kết thúc chuỗi kí tự họ tên. Tuy nhiên, sau họ tên học sinh `"Hoang Thi Minh"`, chúng ta thấy một dấu cách. Đó là do độ rộng tối thiểu của điểm số là 5, nhưng học sinh này chỉ được 7.31 điểm (4 kí tự) nên Python thêm một kí tự cách vào trước chuỗi kí tự để căn lề phải.

## Một số định dạng khác

### Thêm dấu phân tách hàng nghìn

Với các số dài, chúng ta có thể thêm dấu phân tách hàng nghìn cho dễ đọc. Trong tiếng Anh, dấu này là dấu phẩy `,`.

In [13]:
"{:,d}".format(891642127506)

'891,642,127,506'

### Hiển thị dấu âm/dương

Bạn có thể tùy chọn việc hiển thị dấu âm/dương ở tất cả các số (`"+"`), chỉ ở số âm (`"-"`), hoặc thêm một dấu cách vào trước số dương (`" "`).

In [14]:
print("{:-} {:-}".format(1.5, -1.5))
print("{:+} {:+}".format(1.5, -1.5))
print("{: } {: }".format(1.5, -1.5))

1.5 -1.5
+1.5 -1.5
 1.5 -1.5


### Hiển thị chữ số 0 đằng trước

Trong một số trường hợp, bạn muốn hiển thị một số chữ số 0 đằng trước số cho đủ độ rộng. Cách làm này thường sử dụng trong việc tạo ra mã số dựa trên số thứ tự (mã số nghiên cứu, mã số hàng hóa, v.v.).

In [15]:
"TIA-{site:03d}-{study_no:04d}".format(site=20, study_no=17)

'TIA-020-0017'

## Tùy biến chuỗi định dạng trước khi hiển thị

Bạn có thể tạo ra một chuỗi định dạng ... bằng chuỗi định dạng (gọi là **nested formatting**) để thay đổi cách thức hiển thị. Ví dụ, bạn có thể cho phép người dùng tùy biến độ rộng và số chữ số sau dấu thập phân.

In [16]:
def get_estimate(result, width, precision):
    return "{md:{w}.{p}f} ({cil:{w}.{p}f}, {ciu:{w}.{p}f})".format(**result, w=width, p=precision)

result = {
    "md": md,
    "cil": cil,
    "ciu": ciu
}

print(get_estimate(result, 4, 2))
print(get_estimate(result, 6, 3))

4.24 (3.43, 5.04)
 4.235 ( 3.426,  5.044)


## Một số kí tự đặc biệt

Không nằm trong nội dung định dạng, nhưng bạn cũng nên làm quen với hai kí tự đặc biệt là xuống dòng (`"\n"`) và tab (`"\t"`). Quan sát ví dụ.

In [17]:
a = -121350.3249
name = "some_var"
print("{0:^{1}} = {2: f}\n|{0}| = {3: f}".format(name, len(name) + 2, a, abs(a)))
print("{0:^{1}} = {2: f}\t|{0}| = {3: f}".format(name, len(name) + 2, a, abs(a)))

 some_var  = -121350.324900
|some_var| =  121350.324900
 some_var  = -121350.324900	|some_var| =  121350.324900


---

[Bài trước](./10_slicing.ipynb) - [Danh sách bài](../README.md) - [Bài sau]()