# Chương 7: Nhập và lưu trữ dữ liệu
<hr>

Truy cập dữ liệu là bước khởi đầu thiết yếu trong hầu hết các quy trình làm việc của nhà khoa học dữ liệu. Đây là một chủ đề có phạm vi rộng, đủ để phát triển thành một chuyên khảo riêng. Trong khuôn khổ chương này, nội dung sẽ tập trung vào các thao tác đọc và ghi dữ liệu bằng thư viện pandas, mặc dù trong thực tiễn, có nhiều công cụ bổ trợ khác có thể được sử dụng tùy theo ngữ cảnh và yêu cầu cụ thể của bài toán. Để khai thác đầy đủ các tính năng của pandas liên quan đến nhập xuất dữ liệu, người đọc được khuyến khích tham khảo thêm tài liệu chính thức từ dự án pandas.

Các hoạt động nhập và xuất dữ liệu thường được phân loại thành một số nhóm chính như sau:

    * Đọc dữ liệu từ các tệp văn bản và các định dạng văn bản tối ưu hơn trên đĩa cứng;
    * Tải dữ liệu từ các hệ quản trị cơ sở dữ liệu;
    * Tương tác với các nguồn dữ liệu qua mạng, chẳng hạn như thông qua các API web.

Trong chương này, các nhóm nội dung nêu trên sẽ lần lượt được trình bày. Cuối chương, tài liệu sẽ cung cấp một tổng quan ngắn gọn về định dạng tệp nhị phân HDF5 – một định dạng phổ biến trong lưu trữ dữ liệu khoa học – cũng như cách thức thao tác với các tệp dữ liệu định dạng Microsoft Excel.

## Đọc và lưu dữ liệu ở định dạng văn bản

Thư viện pandas cung cấp một số hàm để dễ dàng đọc dữ liệu dạng bảng dưới dạng đối tượng DataFrame. Bảng ... tóm tắt khá đầy đủ, mặc dù một vài trong số đó, như `read_csv` và `read_table` có lẽ là những hàm bạn đọc sẽ sử dụng nhiều nhất.

Bảng ... các hàm đọc dữ liệu trong pandas

| Hàm         | Mô tả                                                                                                |
|---------------|------------------------------------------------------------------------------------------------------|
| `read_csv`    | Tải dữ liệu được phân tách từ một tệp, URL, hoặc đối tượng tương tự tệp; dấu phân tách mặc định là dấu phẩy             |
| `read_table`  | Tải dữ liệu được phân tách từ một tệp, URL, hoặc đối tượng tương tự tệp; dấu phân tách mặc định là ký tự tab ('\t')     |
| `read_fwf`    | Đọc dữ liệu ở định dạng cột có độ rộng cố định (tức là, không có dấu phân tách)                                              |
| `read_clipboard` | Phiên bản của `read_csv` đọc dữ liệu từ clipboard; hữu ích để chuyển đổi bảng từ các trang web thành DataFrame |
| `read_excel`  | Đọc dữ liệu dạng bảng từ tệp Excel XLS hoặc XLSX                                                              |
| `read_hdf`    | Đọc các tệp HDF5 được viết bằng pandas                                                                              |
| `read_html`   | Đọc tất cả các bảng tìm thấy trong tài liệu HTML đã cho                                                               |
| `read_json`   | Đọc dữ liệu từ một chuỗi biểu diễn JSON (JavaScript Object Notation)                                               |
| `read_feather`| Đọc định dạng tệp nhị phân Feather                                                                               |
| `read_orc`    | Đọc định dạng tệp nhị phân Apache ORC                                                                                |
| `read_parquet`| Đọc định dạng tệp nhị phân Apache Parquet                                                                           |
| `read_pickle` | Đọc một đối tượng Python tùy ý được lưu trữ ở định dạng pickle của Python                                                    |
| `read_sas`    | Đọc một tập dữ liệu SAS được lưu trữ ở một trong các định dạng tùy chỉnh của hệ thống SAS                                    |
| `read_spss`   | Đọc một tệp dữ liệu được tạo bởi SPSS                                                                              |
| `read_sql_query`| Đọc kết quả của một truy vấn SQL (sử dụng SQLAlchemy) dưới dạng DataFrame                                         |
| `read_sql_table`| Đọc toàn bộ bảng SQL (sử dụng SQLAlchemy) dưới dạng DataFrame                                                      |
| `read_stata`  | Đọc một tập dữ liệu từ định dạng tệp Stata                                                                              |
| `read_xml`    | Đọc một tập hợp các bảng tìm thấy trong một tệp XML đã cho                                                              |

Trong phần này, chúng ta sẽ cung cấp một cái nhìn tổng quan về cơ chế hoạt động của các hàm nhập dữ liệu, đặc biệt là khi làm việc với các tệp văn bản. Việc xử lý dữ liệu từ tệp văn bản thường tiềm ẩn nhiều thách thức do tính không đồng nhất của cấu trúc dữ liệu thực tế. Do đó, các hàm phân tích cú pháp trong pandas (như `read_csv`, `read_table`, v.v.) được thiết kế với nhiều tham số linh hoạt nhằm hỗ trợ người dùng xử lý các tình huống ngoại lệ một cách hiệu quả.

Mặc dù nhiều tham số trong số này là tùy chọn và có thể bỏ qua trong các tình huống đơn giản, nhưng để làm chủ công cụ, người học cần hiểu rõ một số tham số quan trọng thường xuyên được sử dụng.

Một số hàm như `read_csv` còn hỗ trợ cơ chế suy luận kiểu dữ liệu (type inference). Điều này đặc biệt hữu ích vì định dạng tệp CSV không cung cấp thông tin rõ ràng về kiểu dữ liệu của từng cột. Do đó, `pandas` sẽ cố gắng tự động xác định xem một cột có chứa số thực, số nguyên, giá trị logic (boolean), hay chuỗi ký tự. Tuy nhiên, trong một số trường hợp đặc biệt — như dữ liệu ngày tháng, hoặc các kiểu dữ liệu do người dùng định nghĩa — việc suy luận tự động có thể không chính xác, và người dùng cần chỉ định rõ kiểu mong muốn để đảm bảo quá trình xử lý dữ liệu diễn ra đúng đắn.

Để minh họa, chúng ta sẽ bắt đầu với một ví dụ đơn giản: đọc một tệp CSV nhỏ bằng hàm `read_csv`

In [1]:
# Lệnh này dùng cho môi trường shell (Linux/macOS)
# !cat examples/ex1.csv
# Trên Windows, bạn có thể dùng:
# !type .\examples\ex1.csv

# Để mô phỏng output:
print("a,b,c,d,message\n1,2,3,4,hello\n5,6,7,8,world\n9,10,11,12,foo")

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


Do đây là dữ liệu được phân tách bằng dấu phẩy, chúng ta có thể sử dụng `read_csv` để đọc nó vào một DataFrame:

In [7]:
import pandas as pd
import numpy as np

df = pd.read_csv("data/ex1.csv")
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


Hàm đọc dữ liệu của `pandas` luôn mặc định hiểu dòng đầu tiên trong file là tên các cột. Trong trường hợp dòng đầu tiên là dữ liệu chứ không phải tên cột, chúng ta sử dụng tham số `header=None`. Ví dụ chúng ta có dữ liệu như sau

In [10]:
# Để mô phỏng output:
print("1,2,3,4,hello\n5,6,7,8,world\n9,10,11,12,foo")

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


Giả sử dữ liệu được lưu trong một file .csv là "ex2.csv". Câu lệnh để đọc dữ liệu như sau:

In [14]:
pd.read_csv("data/ex2.csv", header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [None]:
Hoặc chúng ta có thể gán tên cột dữ liệu bằng tham số `names` trong hàm `read_csv`

In [13]:
pd.read_csv("data/ex2.csv", names=["a", "b", "c", "d", "message"])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


Trong trường hợp bạn đọc muốn một cột, chẳng hạn cột `message` là chỉ số hàng của DataFrame hãy sử dụng tham số `index_col`:

In [16]:
names = ["a", "b", "c", "d", "message"]
pd.read_csv("data/ex2.csv", names=names, index_col="message")

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


Trong trường hợp bạn muốn tạo một chỉ số được phân cấp qua nhiều cột, hãy khởi tạo một danh sách các số hoặc tên cột:

In [18]:
# !cat examples/csv_mindex.csv
print("key1,key2,value1,value2\none,a,1,2\none,b,3,4\none,c,5,6\none,d,7,8\ntwo,a,9,10\ntwo,b,11,12\ntwo,c,13,14\ntwo,d,15,16")

# Tạo tệp csv_mindex.csv giả lập
with open("data/csv_mindex.csv", "w") as f:
    f.write("key1,key2,value1,value2\none,a,1,2\none,b,3,4\none,c,5,6\none,d,7,8\ntwo,a,9,10\ntwo,b,11,12\ntwo,c,13,14\ntwo,d,15,16")

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [19]:
parsed = pd.read_csv("data/csv_mindex.csv",
                       index_col=["key1", "key2"])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


Trong nhiều trường hợp, một bảng có thể không sử dụng dấu phân tách cố định, mà sử dụng khoảng trắng hoặc một ký tự khác khác để tách các cột. Hãy xem xét một tệp văn bản như sau:

In [20]:
# !cat examples/ex3.txt
print("            A         B         C\naaa -0.264438 -1.026059 -0.619500\nbbb  0.927272  0.302904 -0.032399\nccc -0.264273 -0.386314 -0.217601\nddd -0.871858 -0.348382  1.100491")

# Tạo tệp ex3.txt giả lập
with open("data/ex3.txt", "w") as f:
    f.write("            A         B         C\n")
    f.write("aaa -0.264438 -1.026059 -0.619500\n")
    f.write("bbb  0.927272  0.302904 -0.032399\n")
    f.write("ccc -0.264273 -0.386314 -0.217601\n")
    f.write("ddd -0.871858 -0.348382  1.100491\n")

            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


Trong trường hợp này, chúng ta có thể sử dụng một **biểu thức chính quy** làm dấu phân tách cho `read_csv`. Khi phân tách giữa các cột là một hay một số khoảng trắng, biểu thức chính quy biểu thị là `\s+`. Do đó, hàm đọc dữ liệu sẽ như sau:

In [21]:
result = pd.read_csv("data/ex3.txt", sep="\s+")
result

  result = pd.read_csv("data/ex3.txt", sep="\s+")


Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


Trong trường hợp số lượng giá trị trong dòng tiêu đề nhỏ hơn số lượng giá trị trong các dòng dữ liệu khác, hàm `read_csv` sẽ suy luận rằng cột đầu tiên không thuộc về dữ liệu chính mà đóng vai trò là chỉ số của đối tượng `DataFrame`. Đây là một cơ chế mặc định của `pandas` khi xử lý các tệp dữ liệu có cấu trúc không chuẩn.

Các hàm phân tích cú pháp trong `pandas` được thiết kế với nhiều tham số linh hoạt nhằm hỗ trợ người dùng xử lý các tình huống ngoại lệ có thể phát sinh trong thực tiễn. Ví dụ, nếu muốn loại bỏ một số dòng cụ thể khỏi quá trình đọc dữ liệu, người dùng có thể sử dụng tham số `skiprows`. Ví dụ chúng ta có một file .csv như sau:

In [22]:
# !cat examples/ex4.csv
print("# hey!\na,b,c,d,message\n# just wanted to make things more difficult for you\n# who reads CSV files with computers, anyway?\n1,2,3,4,hello\n5,6,7,8,world\n9,10,11,12,foo")

# Tạo tệp ex4.csv giả lập
with open("data/ex4.csv", "w") as f:
    f.write("# hey!\n")
    f.write("a,b,c,d,message\n")
    f.write("# just wanted to make things more difficult for you\n")
    f.write("# who reads CSV files with computers, anyway?\n")
    f.write("1,2,3,4,hello\n")
    f.write("5,6,7,8,world\n")
    f.write("9,10,11,12,foo\n")

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [None]:
Chúng ta sử loại các dòng không cần thiết như sau:

In [None]:
pd.read_csv("data/ex4.csv", skiprows=[0, 2, 3])

Việc xử lý các giá trị bị thiếu là một vấn đề quan trọng và thường xuyên phức tạp. Dữ liệu bị thiếu thường không có mặt (chuỗi rỗng) hoặc được đánh dấu bằng một số giá trị sentinel. Theo mặc định, pandas sử dụng một tập hợp các giá trị sentinel phổ biến, như `NA` và `NULL`:

In [23]:
# !cat examples/ex5.csv
print("something,a,b,c,d,message\none,1,2,3,4,NA\ntwo,5,6,,8,world\nthree,9,10,11,12,foo")

# Tạo tệp ex5.csv giả lập
with open("data/ex5.csv", "w") as f:
    f.write("something,a,b,c,d,message\n")
    f.write("one,1,2,3,4,NA\n")
    f.write("two,5,6,,8,world\n")
    f.write("three,9,10,11,12,foo\n")

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo


In [25]:
result = pd.read_csv("data/ex5.csv")
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


Nhớ lại rằng pandas xuất các giá trị bị thiếu dưới dạng `NaN`, vì vậy chúng ta có hai giá trị null hoặc thiếu trong `result`:

In [26]:
pd.isna(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


Tham số `na_values` được sử dụng để gán giá trị cho các vị trí không quan sát được:

In [28]:
result = pd.read_csv("data/ex5.csv", na_values=["NULL"]) # Sẽ không thay đổi gì ở đây vì NULL không có trong ex5.csv và NA đã là mặc định
result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


Mặc dù hiếm khi xảy ra, nhưng đôi khi chúng ta cần chuyển đổi các giá trị thành `NaN`. Phương pháp để thực hiện việc này là sử dụng một từ điển để gán giá trị cho tham số `na_values`

In [33]:
vals = {"message": ["foo", "NA"], "something": ["two"]}
pd.read_csv("data/ex5.csv", na_values = vals,
              keep_default_na=False) # Thêm keep_default_na=False để NA mặc định không được dùng

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


Bảng .... liệt kê một số tùy chọn thường được sử dụng trong `pandas.read_csv`.

Bảng 6-2: Một số tham số của hàm `pandas.read_csv`

| Tham số          | Mô tả                                                                                                                            |
|-------------------|----------------------------------------------------------------------------------------------------------------------------------|
| `path`              | Chuỗi chỉ ra vị trí hệ thống tệp, URL, hoặc đối tượng tương tự tệp.                                                   |
| `sep` hoặc `delimiter`| Chuỗi ký tự hoặc biểu thức chính quy được sử dụng để tách các trường trong mỗi hàng.                                                         |
| `header`            | Số hàng để sử dụng làm tên cột; mặc định là 0 (dòng đầu tiên), nhưng nên là `None` nếu không có dòng tiêu đề.                           |
| `index_col`         | Số cột hoặc tên cột để sử dụng làm chỉ số hàng trong kết quả; có thể là một tên/số duy nhất hoặc một danh sách chúng cho một chỉ mục phân cấp. |
| `names`             | Danh sách tên cột cho kết quả.                                                               |
| `skiprows`          | Số dòng ở đầu tệp cần bỏ qua hoặc danh sách các số dòng (bắt đầu từ 0) cần bỏ qua.                     |
| `na_values`         | Chuỗi các giá trị cần thay thế bằng NA. Chúng được thêm vào danh sách mặc định trừ khi `keep_default_na=False` được truyền.                                                                              |
| `keep_default_na`   | Có sử dụng danh sách giá trị NA mặc định hay không (`True` theo mặc định).                                                                  |
| `comment`           | Ký tự để tách các nhận xét khỏi cuối các dòng.                                                             |
| `parse_dates`       | Cố gắng phân tích cú pháp dữ liệu thành `datetime`; `False` theo mặc định. Nếu `True`, sẽ cố gắng phân tích cú pháp tất cả các cột. Nếu không, có thể chỉ định một danh sách các số cột hoặc tên cột để phân tích cú pháp. Nếu một phần tử của danh sách là tuple hoặc danh sách, nó sẽ kết hợp nhiều cột lại với nhau và phân tích cú pháp thành ngày (ví dụ, nếu ngày/giờ được tách ra làm hai cột). |
| `keep_date_col`     | Nếu nối các cột để phân tích cú pháp ngày, giữ lại các cột đã nối; `False` theo mặc định.                                              |
| `converters`        | Từ điển chứa ánh xạ số cột hoặc tên cột tới các hàm (ví dụ, `{"foo": f}` sẽ áp dụng hàm `f` cho tất cả các giá trị trong cột "foo"). |
| `dayfirst`          | Khi phân tích cú pháp các ngày không rõ ràng, coi như định dạng quốc tế (ví dụ, `7/6/2012` -> 7 tháng 6, 2012); `False` theo mặc định. |
| `date_parser`       | Hàm để sử dụng để phân tích cú pháp ngày.                                                                                             |
| `nrows`             | Số dòng cần đọc từ đầu tệp (không tính tiêu đề).                                                                                             |
| `iterator`          | Trả về một đối tượng `TextFileReader` để đọc tệp theo từng phần. Đối tượng này cũng có thể được sử dụng với câu lệnh `with`.                                   |
| `chunksize`         | Đối với lặp lại, kích thước của các phần tệp.                                                                                   |
| `skip_footer`       | Số dòng cần bỏ qua ở cuối tệp.                                                    |
| `verbose`           | In thông tin phân tích cú pháp khác nhau, như thời gian dành cho mỗi giai đoạn của quá trình chuyển đổi tệp và thông tin sử dụng bộ nhớ.                                    |
| `encoding`          | Mã hóa văn bản (ví dụ, `"utf-8"` cho văn bản mã hóa UTF-8). Mặc định là `"utf-8"` nếu `None`.                       |
| `squeeze`           | Nếu dữ liệu được phân tích cú pháp chỉ chứa một cột, trả về một Series.                                                                   |
| `thousands`         | Dấu phân tách hàng nghìn (ví dụ, `","` hoặc `"."`); mặc định là `None`.                                                                   |
| `decimal`           | Dấu phân tách thập phân trong số (ví dụ, `"."` hoặc `","`); mặc định là `"."`.                                                        |
| `engine`            | Công cụ phân tích cú pháp và chuyển đổi CSV để sử dụng; có thể là `"c"`, `"python"`, hoặc `"pyarrow"`. Mặc định là `"c"`, mặc dù công cụ `"pyarrow"` mới hơn có thể phân tích một số tệp nhanh hơn nhiều. Công cụ `"python"` chậm hơn nhưng hỗ trợ một số tính năng mà các công cụ khác không có. |

### Đọc dữ liệu văn bản theo từng phần
<hr>

Khi xử lý các tệp dữ liệu rất lớn hoặc để tìm ra tập hợp các tham số chính xác để xử lý một tệp lớn đúng cách, bạn có thể muốn chỉ đọc một phần nhỏ của tệp hoặc đọc lần lượt qua các phần nhỏ của tệp. Để tránh hiển thị dữ liệu bị tràn dòng, trước khi xem xét một tệp lớn, chúng ta sẽ hạn chế số dòng hiển thị của `pandas` như sau:

In [None]:
pd.options.display.max_rows = 6

Bây giờ chúng ta có:

In [34]:
# Tạo tệp ex6.csv giả lập lớn
import numpy as np
num_rows = 10000
data_ex6 = pd.DataFrame({
    'one': np.random.randn(num_rows),
    'two': np.random.randn(num_rows),
    'three': np.random.randn(num_rows),
    'four': np.random.randn(num_rows),
    'key': np.random.choice(list('ABCDEFGHIJKLMNOPQRSTUVWXYZ'), num_rows)
})
data_ex6.to_csv("data/ex6.csv", index=False)

result = pd.read_csv("data/ex6.csv")
result

Unnamed: 0,one,two,three,four,key
0,-0.356175,-0.482113,-0.507278,-0.934626,W
1,1.585085,1.841935,-1.042228,-1.025426,C
2,0.640408,-1.066684,0.278641,-0.414255,F
3,0.326434,-0.458086,-1.372874,0.171574,Z
4,0.287408,0.321350,-0.128788,0.991900,C
...,...,...,...,...,...
9995,0.543649,-1.251549,-1.158379,-1.034230,B
9996,0.053509,-0.202851,-1.475204,0.834955,G
9997,0.695790,0.317303,1.993931,-1.062276,I
9998,0.010298,-1.610878,1.664979,-1.200185,V


Dấu ba chấm `...` trong hiển thị cho biết các hàng ở giữa DataFrame đã bị bỏ qua.

Nếu bạn muốn chỉ đọc một số lượng nhỏ các hàng (mà không đọc toàn bộ tệp), hãy chỉ định điều đó bằng `nrows`:

In [35]:
pd.read_csv("data/ex6.csv", nrows=5)

Unnamed: 0,one,two,three,four,key
0,-0.356175,-0.482113,-0.507278,-0.934626,W
1,1.585085,1.841935,-1.042228,-1.025426,C
2,0.640408,-1.066684,0.278641,-0.414255,F
3,0.326434,-0.458086,-1.372874,0.171574,Z
4,0.287408,0.32135,-0.128788,0.9919,C


Để đọc một tệp dữ liệu theo từng phần, hay còn được gọi là đọc theo từng "chunk", hãy chỉ định một `chunksize` làm số lượng hàng:

In [36]:
chunker = pd.read_csv("data/ex6.csv", chunksize=1000)
type(chunker)

pandas.io.parsers.readers.TextFileReader

Đối tượng `TextFileReader` được trả về bởi `pandas.read_csv` cho phép bạn lặp qua các phần của tệp theo kích thước `chunksize`. Ví dụ, chúng ta có thể lặp qua `ex6.csv`, tổng hợp các giá trị trong cột "key" như sau:

In [39]:
chunker = pd.read_csv("data/ex6.csv", chunksize=1000)
res = pd.Series([], dtype='int64') 
for piece in chunker:
    res = res.add(piece["key"].value_counts(), fill_value=0)
res = res.sort_values(ascending=False)

Sau đó, chúng ta có:

In [40]:
res[:10]

key
M    430.0
O    413.0
U    413.0
A    409.0
J    408.0
C    404.0
V    401.0
D    398.0
R    395.0
S    392.0
dtype: float64

`TextFileReader` cũng được trang bị phương thức `get_chunk` cho phép bạn đọc các phần có kích thước tùy ý.

### Ghi dữ liệu vào văn bản
<hr>

Dữ liệu sau khi được xử lý cũng có thể được xuất ra một định dạng văn bản được phân tách. Ví dụ với một data đã được tạo ở trên

In [41]:
data = pd.read_csv("data/ex5.csv")
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


Phương thức `to_csv` của DataFrame được dùng để ghi dữ liệu ra một tệp được phân tách bằng dấu phẩy:

In [44]:
data.to_csv("data/out.csv")

In [45]:
# !cat examples/out.csv
with open("data/out.csv", "r") as f:
    print(f.read())

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo



Các ký tự phân tách khác dấy phẩy cũng có thể được sử dụng bằng cách sử dụng tham số `sep`

In [None]:
data.to_csv("data/out.csv", sep = "|")

In [None]:
# !cat examples/out.csv
with open("data/out.csv", "r") as f:
    print(f.read())

Các giá trị bị thiếu xuất hiện dưới dạng rỗng trong văn bản đầu ra. Bạn có thể muốn biểu thị chúng bằng một số giá trị khác bằng cách sử dụng tham số `na_rep`

In [None]:
data.to_csv(sys.stdout, na_rep="NULL")

Nếu không có các tùy chọn khác được chỉ định, cả chỉ số hàng và cột đều được ghi. Nếu không muốn ghi chỉ số hàng và cột, hãy sửa dụng các tham số `index` và `header`

In [None]:
data.to_csv(sys.stdout, index=False, header=False)

### Dữ liệu JSON

JSON (viết tắt của JavaScript Object Notation) đã trở thành một trong những định dạng chuẩn để gửi dữ liệu bằng các yêu cầu HTTP giữa các trình duyệt web và các ứng dụng khác. Đây là một định dạng dữ liệu tự do hơn nhiều so với định dạng văn bản dạng bảng như CSV. Đây là một ví dụ:

In [52]:
obj = """{
    "name": "Wes",
    "cities_lived": ["Akron", "Nashville", "New York", "San Francisco"],
    "pet": null,
    "siblings": [{
        "name": "Scott",
        "age": 34, 
        "hobbies": ["guitars", "soccer"]
    }, {
        "name": "Katie",
        "age": 42,
        "hobbies": ["diving", "art"]
    }]
} """

Biểu diễn dữ liệu JSON rất gần với ngôn ngữ Python hợp lệ ngoại trừ giá trị `null` và một số sắc thái khác, chẳng hạn như không cho phép dấu phẩy ở cuối danh sách. Các kiểu cơ bản là đối tượng (từ điển), mảng (danh sách), chuỗi, số, boolean và null. Tất cả các khóa trong một đối tượng phải là chuỗi. Có một số thư viện Python để đọc và ghi dữ liệu JSON. Chúng ta sẽ sử dụng thư viện `json` đã được tích hợp sẵn vào thư viện chuẩn Python.

Để chuyển đổi một chuỗi JSON thành dạng Python, hãy sử dụng `json.loads`:

In [53]:
import json
result = json.loads(obj)
result

{'name': 'Wes',
 'cities_lived': ['Akron', 'Nashville', 'New York', 'San Francisco'],
 'pet': None,
 'siblings': [{'name': 'Scott', 'age': 34, 'hobbies': ['guitars', 'soccer']},
  {'name': 'Katie', 'age': 42, 'hobbies': ['diving', 'art']}]}

`json.dumps`, ngược lại, chuyển đổi một đối tượng Python trở lại thành JSON:

In [54]:
asjson = json.dumps(result)
asjson

'{"name": "Wes", "cities_lived": ["Akron", "Nashville", "New York", "San Francisco"], "pet": null, "siblings": [{"name": "Scott", "age": 34, "hobbies": ["guitars", "soccer"]}, {"name": "Katie", "age": 42, "hobbies": ["diving", "art"]}]}'

Cách bạn chuyển đổi một đối tượng JSON hoặc danh sách các đối tượng thành DataFrame hoặc một cấu trúc dữ liệu khác cho phân tích sẽ tùy thuộc vào bạn. Một cách thuận tiện là truyền một danh sách các từ điển (trước đây là các đối tượng JSON) cho hàm tạo DataFrame và chọn một tập hợp con các trường dữ liệu:

In [55]:
siblings = pd.DataFrame(result["siblings"], columns=["name", "age"])
siblings

Unnamed: 0,name,age
0,Scott,34
1,Katie,42


Hàm `pandas.read_json` có thể tự động chuyển đổi các tập dữ liệu JSON theo một số cách sắp xếp cụ thể thành Series hoặc DataFrame. Ví dụ:

In [56]:
# !cat examples/example.json
print('[{"a": 1, "b": 2, "c": 3},\n {"a": 4, "b": 5, "c": 6},\n {"a": 7, "b": 8, "c": 9}]')

# Tạo tệp example.json giả lập
with open("data/example.json", "w") as f:
    f.write('[{"a": 1, "b": 2, "c": 3},\n {"a": 4, "b": 5, "c": 6},\n {"a": 7, "b": 8, "c": 9}]')

[{"a": 1, "b": 2, "c": 3},
 {"a": 4, "b": 5, "c": 6},
 {"a": 7, "b": 8, "c": 9}]


Các tùy chọn mặc định cho `pandas.read_json` giả định rằng mỗi đối tượng trong mảng JSON là một hàng trong bảng:

In [57]:
data = pd.read_json("data/example.json")
data

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


Chúng ta sẽ thực hành nhiều hơn với dữ liệu dạng JSON trong phần phân tích dữ liệu của cuốn sách này.

## Thu thập dữ liệu web
<hr>

Python có nhiều thư viện để đọc và ghi dữ liệu ở các định dạng HTML và XML phổ biến. Điển hình có thể kể đến `lxml`, `Beautiful Soup` và `html5lib`. Trong khi `lxml` thường nhanh hơn đáng kể trong việc phân tích cú pháp các tệp XML và HTML rất lớn, các thư viện khác như `Beautiful Soup` và `html5lib` có thể xử lý tốt hơn các tệp HTML hoặc XML bị lỗi.

`pandas` sử dụng hàm `pandas.read_html` để tự động phân tích cú pháp các bảng từ các tệp HTML và cố gắng chuyển thành các đối tượng DataFrame. Trước  tiên, bạn đọc phải cài đặt một số thư viện bổ sung được sử dụng bởi `read_html`:

In [None]:
# conda install lxml beautifulsoup4 html5lib
# Nếu bạn không dùng conda, pip install lxml beautifulsoup4 html5lib cũng sẽ hoạt động.

Hàm `pandas.read_html` có một số tùy chọn, nhưng hàm sẽ mặc định tìm kiếm và cố gắng phân tích cú pháp tất cả dữ liệu dạng bảng chứa trong các thẻ `<table>`. Hãy quan sát ví dụ sau:

In [65]:
# Tạo tệp fdic_failed_bank_list.html giả lập 
# Nội dung thực tế của tệp này khá dài, đây là phiên bản rút gọn với cấu trúc tương tự
html_content = """
<table>
  <thead>
    <tr>
      <th>Bank Name</th>
      <th>City</th>
      <th>ST</th>
      <th>CERT</th>
      <th>Acquiring Institution</th>
      <th>Closing Date</th>
      <th>Updated Date</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>Allied Bank</td>
      <td>Mulberry</td>
      <td>AR</td>
      <td>91</td>
      <td>Today's Bank</td>
      <td>September 23, 2016</td>
      <td>November 17, 2016</td>
    </tr>
    <tr>
      <td>The Woodbury Banking Company</td>
      <td>Woodbury</td>
      <td>GA</td>
      <td>11297</td>
      <td>United Bank</td>
      <td>August 19, 2016</td>
      <td>November 17, 2016</td>
    </tr>
  </tbody>
</table>
"""
import os
if not os.path.exists("examples"):
    os.makedirs("examples")
with open("examples/fdic_failed_bank_list.html", "w") as f:
    f.write(html_content)

tables = pd.read_html("examples/fdic_failed_bank_list.html")
len(tables)

1

In [66]:
failures = tables[0]
failures.head()

Unnamed: 0,Bank Name,City,ST,CERT,Acquiring Institution,Closing Date,Updated Date
0,Allied Bank,Mulberry,AR,91,Today's Bank,"September 23, 2016","November 17, 2016"
1,The Woodbury Banking Company,Woodbury,GA,11297,United Bank,"August 19, 2016","November 17, 2016"


Như bạn sẽ học trong các chương về xử lý và phân tích dữ liệu, từ đây chúng ta có thể tiến hành một số tính toán, chẳng hạn như số lượng ngân hàng phá sản theo năm:

In [67]:
close_timestamps = pd.to_datetime(failures["Closing Date"])
close_timestamps.dt.year.value_counts()

Closing Date
2016    2
Name: count, dtype: int64

## Đọc dữ liệu từ Microsoft Excel

`pandas` cũng hỗ trợ đọc dữ liệu dạng bảng được lưu trữ trong các tệp Excel từ phiên bản 2003 bằng cách sử dụng `pandas.ExcelFile` hoặc `pandas.read_excel`. Bên trong, các công cụ này sử dụng các thư viện bổ trợ `xlrd` và `openpyxl` để đọc các tệp XLS kiểu cũ và XLSX mới hơn, tương ứng. Các gói này phải được cài đặt riêng biệt với `pandas`

In [68]:
## !pip install openpyxl xlrd

Collecting openpyxl
  Downloading openpyxl-3.1.5-py2.py3-none-any.whl.metadata (2.5 kB)
Collecting xlrd
  Downloading xlrd-2.0.1-py2.py3-none-any.whl.metadata (3.4 kB)
Collecting et-xmlfile (from openpyxl)
  Downloading et_xmlfile-2.0.0-py3-none-any.whl.metadata (2.7 kB)
Downloading openpyxl-3.1.5-py2.py3-none-any.whl (250 kB)
Downloading xlrd-2.0.1-py2.py3-none-any.whl (96 kB)
Downloading et_xmlfile-2.0.0-py3-none-any.whl (18 kB)
Installing collected packages: xlrd, et-xmlfile, openpyxl
Successfully installed et-xmlfile-2.0.0 openpyxl-3.1.5 xlrd-2.0.1



[notice] A new release of pip is available: 24.3.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Để sử dụng `pandas.ExcelFile`, hãy tạo một ví dụ:

In [69]:
# Tạo tệp ex1.xlsx giả lập
df_to_excel = pd.DataFrame({
    'Unnamed: 0': [0, 1, 2],
    'a': [1, 5, 9],
    'b': [2, 6, 10],
    'c': [3, 7, 11],
    'd': [4, 8, 12],
    'message': ['hello', 'world', 'foo']
})
try:
    df_to_excel.to_excel("data/ex1.xlsx", sheet_name="Sheet1", index=False)
    xlsx = pd.ExcelFile("data/ex1.xlsx")
except ImportError:
    xlsx = None
    print("Thư viện openpyxl chưa được cài đặt. Bỏ qua ví dụ Excel.")

if xlsx:
    print(xlsx.sheet_names)

['Sheet1']


Dữ liệu được lưu trữ trong một trang tính sau đó có thể được đọc vào DataFrame bằng `parse`:

In [70]:
if xlsx:
    print(xlsx.parse(sheet_name="Sheet1"))

   Unnamed: 0  a   b   c   d message
0           0  1   2   3   4   hello
1           1  5   6   7   8   world
2           2  9  10  11  12     foo


Bảng Excel này có một cột chỉ số, vì vậy chúng ta có thể chỉ định bằng tham số `index_col`:

In [71]:
if xlsx:
    # Đọc lại với index_col, tệp gốc ex1.xlsx không có cột chỉ mục rõ ràng là cột 0
    # để khớp với output của sách, chúng ta sẽ đọc lại tệp đã tạo
    # và giả sử cột 'Unnamed: 0' là chỉ mục mong muốn
    frame_excel_indexed = xlsx.parse(sheet_name="Sheet1", index_col=0)
    print(frame_excel_indexed)

            a   b   c   d message
Unnamed: 0                       
0           1   2   3   4   hello
1           5   6   7   8   world
2           9  10  11  12     foo


Nếu bạn đang đọc nhiều trang tính trong một tệp, thì việc tạo `pandas.ExcelFile` sẽ nhanh hơn. Trong trường hợp bạn chỉ làm việc trên 1 trang tính cụ thể, bạn có thể sử dụng `pandas.read_excel`:

In [72]:
if xlsx: # Kiểm tra xem xlsx có được khởi tạo không
    frame = pd.read_excel("data/ex1.xlsx", sheet_name="Sheet1")
    print(frame)

   Unnamed: 0  a   b   c   d message
0           0  1   2   3   4   hello
1           1  5   6   7   8   world
2           2  9  10  11  12     foo


Để lưu dữ liệu `pandas` vào định dạng Excel, trước tiên bạn phải tạo một `ExcelWriter`, sau đó ghi dữ liệu vào đó bằng phương thức `to_excel`:

In [75]:
if xlsx: # Sử dụng frame từ ô trước
    try:
        writer = pd.ExcelWriter("data/ex2.xlsx")
        frame.to_excel(writer, "Sheet1")
        writer.close() # Sách gốc dùng writer.save() nhưng API mới hơn có thể dùng close()
    except ImportError:
        print("Thư viện openpyxl chưa được cài đặt để ghi Excel.")

  frame.to_excel(writer, "Sheet1")


Bạn cũng có thể truyền đường dẫn tệp cho `to_excel` và tránh dùng `ExcelWriter`:

In [76]:
if xlsx: # Sử dụng frame từ ô trước
    try:
        frame.to_excel("data/ex2.xlsx")
    except ImportError:
        print("Thư viện openpyxl chưa được cài đặt để ghi Excel.")

## Tương tác với API Web
<hr>

Nhiều trang web có các API công khai cung cấp nguồn cấp dữ liệu qua JSON hoặc một số định dạng khác. Có một số cách để truy cập các API này từ Python; một phương pháp mà bạn đọc nên dùng là sử dụng thư viện `requests`

In [77]:
#!pip install requests




[notice] A new release of pip is available: 24.3.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Dưới đây là một ví dụ về truy cập dữ liệu về các tỉnh thành, huyện, thị xã, xã tại Việt Nam. 

In [None]:
import requests

# Lấy dữ liệu tất cả tỉnh
resp = requests.get("https://provinces.open-api.vn/api/p/")
resp.raise_for_status()
provinces = pd.DataFrame(resp.json())
provinces

Sau khi có code của các tỉnh, chúng ta có thể truy cập vào các đơn vị huyện, thị xã của tỉnh. Chẳng hạn như các quận huyện của Hà Nội

In [None]:
# Lấy dữ liệu tỉnh Hà Nội (code=01) bao gồm quận/huyện
resp2 = requests.get("https://provinces.open-api.vn/api/p/01?depth=2")
resp2.raise_for_status()
hanoi = resp2.json()
hanoi = pd.DataFrame(hanoi["districts"])
hanoi

Sau cùng là thông tin về các phường của quận Ba Đình

In [142]:
# Bước 3: Lấy phường thuộc Quận Ba Đình (code = 1)
url_ba_dinh = "https://provinces.open-api.vn/api/d/1?depth=2"
ba_dinh_data = requests.get(url_ba_dinh).json()

# Đưa vào DataFrame
df_wards = pd.DataFrame(ba_dinh_data['wards'])
print(df_wards[['code', 'name']])

    code               name
0      1     Phường Phúc Xá
1      4   Phường Trúc Bạch
2      6   Phường Vĩnh Phúc
3      7     Phường Cống Vị
4      8   Phường Liễu Giai
5     13  Phường Quán Thánh
6     16     Phường Ngọc Hà
7     19   Phường Điện Biên
8     22     Phường Đội Cấn
9     25  Phường Ngọc Khánh
10    28      Phường Kim Mã
11    31    Phường Giảng Võ
12    34  Phường Thành Công


## Tương tác với cơ sở dữ liệu
<hr>

Trong môi trường kinh doanh, nhiều dữ liệu có thể không được lưu trữ trong các tệp văn bản hoặc Excel. Các cơ sở dữ liệu quan hệ dựa trên SQL (chẳng hạn như SQL Server, PostgreSQL và MySQL) được sử dụng rộng rãi, và nhiều cơ sở dữ liệu thay thế đã trở nên khá phổ biến. Việc lựa chọn cơ sở dữ liệu thường phụ thuộc vào hiệu suất, tính toàn vẹn dữ liệu và nhu cầu mở rộng của một ứng dụng.

`pandas` có một số hàm để đơn giản hóa việc tải kết quả của một truy vấn SQL vào DataFrame. Ví dụ, tôi sẽ tạo một cơ sở dữ liệu SQLite3 bằng trình điều khiển `sqlite3` tích hợp sẵn của Python:

In [None]:
import sqlite3

query = """
CREATE TABLE test
(a VARCHAR(20), b VARCHAR(20),
 c REAL,        d INTEGER
);"""

con = sqlite3.connect("mydata.sqlite")
try:
    con.execute(query)
    con.commit()
except sqlite3.OperationalError as e:
    print(f"Lỗi khi tạo bảng (có thể bảng đã tồn tại): {e}")

Sau đó, chèn một vài hàng dữ liệu:

In [None]:
data_sql = [("Atlanta", "Georgia", 1.25, 6),
            ("Tallahassee", "Florida", 2.6, 3),
            ("Sacramento", "California", 1.7, 5)]
stmt = "INSERT INTO test VALUES(?, ?, ?, ?)"

try:
    con.executemany(stmt, data_sql)
    con.commit()
except sqlite3.IntegrityError as e:
    print(f"Lỗi khi chèn dữ liệu (có thể dữ liệu đã tồn tại): {e}")

Hầu hết các trình điều khiển SQL Python trả về một danh sách các tuple khi chọn dữ liệu từ một bảng:

In [None]:
cursor = con.execute("SELECT * FROM test")
rows = cursor.fetchall()
rows

Bạn có thể truyền danh sách các tuple cho hàm tạo DataFrame, nhưng bạn cũng cần tên cột, chứa trong thuộc tính `description` của con trỏ. Lưu ý rằng đối với SQLite3, mô tả con trỏ chỉ cung cấp tên cột, nhưng đối với một số trình điều khiển cơ sở dữ liệu khác, thông tin cột được cung cấp nhiều hơn:

In [None]:
cursor.description

In [None]:
pd.DataFrame(rows, columns=[x[0] for x in cursor.description])

Đây là khá nhiều công việc xử lý mà bạn không muốn lặp lại mỗi khi truy vấn cơ sở dữ liệu. Dự án SQLAlchemy là một bộ công cụ SQL Python phổ biến giúp trừu tượng hóa nhiều khác biệt phổ biến giữa các cơ sở dữ liệu SQL. pandas có hàm `read_sql` cho phép bạn đọc dữ liệu dễ dàng từ một kết nối SQLAlchemy chung. Bạn có thể cài đặt SQLAlchemy bằng conda như sau:

In [None]:
# conda install sqlalchemy

Bây giờ, chúng ta sẽ kết nối với cùng một cơ sở dữ liệu SQLite bằng SQLAlchemy và đọc dữ liệu từ bảng đã tạo trước đó:

In [None]:
try:
    import sqlalchemy as sqla
    db = sqla.create_engine("sqlite:///mydata.sqlite")
    print(pd.read_sql("SELECT * FROM test", db))
except ImportError:
    print("Thư viện SQLAlchemy chưa được cài đặt. Bỏ qua ví dụ SQLAlchemy.")
finally:
    con.close() # Đóng kết nối sqlite3 ban đầu
    # Xóa tệp sqlite để các lần chạy sau không bị lỗi
    if os.path.exists("mydata.sqlite"):
        os.remove("mydata.sqlite")

Nhập dữ liệu thường là bước đầu tiên trong quy trình phân tích dữ liệu. Chúng ta đã xem xét một số công cụ hữu ích trong chương này sẽ giúp bạn bắt đầu. Trong các chương sắp tới, chúng ta sẽ tìm hiểu sâu hơn về xử lý dữ liệu, trực quan hóa dữ liệu, phân tích chuỗi thời gian và các chủ đề khác.