#### Chapter 6
# Data Loading, Storage, and File Formats

- Đọc dữ liệu và làm cho nó có thể truy cập được (thường gọi là nạp dữ liệu) là bước đầu tiên cần thiết để sử dụng hầu hết các công cụ trong cuốn sách này. 
- Thuật ngữ phân tích cú pháp (parsing) đôi khi cũng được dùng để mô tả việc nạp dữ liệu dạng văn bản và diễn giải chúng thành các bảng và các kiểu dữ liệu khác nhau. 
- Tôi sẽ tập trung vào việc nhập và xuất dữ liệu bằng pandas, mặc dù còn có rất nhiều công cụ trong các thư viện khác hỗ trợ đọc và ghi dữ liệu ở nhiều định dạng khác nhau.

- Việc nhập và xuất dữ liệu thường rơi vào một số loại chính: 
    - đọc các tệp văn bản và các định dạng lưu trữ hiệu quả hơn trên đĩa
    - nạp dữ liệu từ cơ sở dữ liệu, 
    - tương tác với các nguồn mạng như web APIs.

## 6.1 Reading and Writing Data in Text Format

- pandas có nhiều hàm để đọc dữ liệu dạng bảng thành đối tượng DataFrame. Bảng 6-1 tóm tắt một số hàm trong số đó; 
- Trong cuốn sách này, pandas.read_csv là một trong những hàm được sử dụng thường xuyên nhất. 

> Chúng ta sẽ tìm hiểu về các định dạng dữ liệu nhị phân ở Mục 6.2, “Định dạng dữ liệu nhị phân,” tại trang 193.

> Table 6-1. Text and binary data loading functions in pandas

| Function       | Description                                                                                   |
|----------------|-----------------------------------------------------------------------------------------------|
| read_csv       | Load delimited data from a file, URL, or file-like object; use comma as default delimiter     |
| read_fwf       | Read data in fixed-width column format (i.e., no delimiters)                                  |
| read_clipboard | Variation of read_csv that reads data from the clipboard; useful for converting tables from web pages |
| read_excel     | Read tabular data from an Excel XLS or XLSX file                                              |
| read_hdf       | Read HDF5 files written by pandas                                                             |
| read_html      | Read all tables found in the given HTML document                                              |
| read_json      | Read data from a JSON string, file, URL, or file-like object                                  |
| read_feather   | Read the Feather binary file format                                                           |
| read_orc       | Read the Apache ORC binary file format                                                        |
| read_parquet   | Read the Apache Parquet binary file format                                                    |
| read_pickle    | Read an object stored by pandas using the Python pickle format                                |
| read_sas       | Read a SAS dataset stored in one of the SAS system’s custom storage formats                   |
| read_spss      | Read a data file created by SPSS                                                              |
| read_sql       | Read the results of a SQL query (using SQLAlchemy)                                            |
| read_sql_table | Read a whole SQL table (using SQLAlchemy); equivalent to using a query that selects everything |
| read_stata     | Read a dataset from Stata file format                                                         |
| read_xml       | Read a table of data from an XML file                                                         |


- Tôi sẽ đưa ra phần tổng quan về cơ chế hoạt động của các hàm này, vốn được dùng để chuyển đổi dữ liệu dạng văn bản thành một DataFrame. 
- Các tham số tùy chọn cho những hàm này có thể rơi vào một vài nhóm sau:

> Indexing

- Có thể coi một hoặc nhiều cột là DataFrame trả về, và quyết định có lấy tên cột từ tệp, từ các tham số bạn cung cấp, hoặc không lấy tên cột nào cả.

> Type inference and data conversion

- Bao gồm các chuyển đổi giá trị do người dùng định nghĩa và danh sách tùy chỉnh cho các giá trị bị thiếu.

> Date and time parsing

- Hỗ trợ khả năng kết hợp, chẳng hạn kết hợp thông tin ngày và giờ nằm rải rác ở nhiều cột thành một cột duy nhất trong kết quả.

> Iterating

- Hỗ trợ việc lặp qua các khối dữ liệu nhỏ của những tệp rất lớn.

> Unclean data issues

- Bao gồm bỏ qua các hàng hoặc phần chân (footer), chú thích, hoặc những vấn đề nhỏ khác như dữ liệu số có dấu phẩy phân tách hàng nghìn.

Bởi vì dữ liệu trong thế giới thực thường rất lộn xộn, một số hàm nạp dữ liệu (đặc biệt là pandas.read_csv) theo thời gian đã tích lũy một danh sách dài các tham số tùy chọn. <br>
Việc cảm thấy choáng ngợp trước số lượng tham số khác nhau là điều bình thường (pandas.read_csv có khoảng 50 tham số). <br>
Tài liệu trực tuyến của pandas có rất nhiều ví dụ về cách hoạt động của từng tham số, vì vậy nếu bạn gặp khó khăn khi đọc một tệp cụ thể, có thể sẽ có một ví dụ tương tự đủ gần để giúp bạn tìm ra các tham số phù hợp.
<br><br>
Một số hàm trong số này thực hiện suy luận kiểu dữ liệu, bởi vì kiểu dữ liệu của các cột không nằm trong định dạng dữ liệu. 
<br>Điều đó có nghĩa là bạn không nhất thiết phải chỉ định cột nào là số thực, số nguyên, Boolean hay chuỗi. Các định dạng dữ liệu khác, như HDF5, ORC và Parquet, có thông tin về kiểu dữ liệu được nhúng sẵn trong chính định dạng.

- Việc xử lý ngày tháng và các kiểu dữ liệu tùy chỉnh khác có thể cần thêm công sức.

In [1]:
import numpy as np
import pandas as pd
np.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc("figure", figsize=(10, 6))
pd.options.display.max_colwidth = 75
pd.options.display.max_columns = 20
np.set_printoptions(precision=4, suppress=True)

> Hãy bắt đầu với một tệp văn bản CSV (comma-separated values) nhỏ:

In [2]:
!cat examples/ex1.csv

a,b,c,d,message
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

> Vì đây là dữ liệu được phân tách bằng dấu phẩy, nên chúng ta có thể dùng pandas.read_csv để đọc nó vào một DataFrame:

In [3]:
df = pd.read_csv("examples/ex1.csv")

In [4]:
df

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


> Một tệp không phải lúc nào cũng có hàng tiêu đề. Hãy xem xét tệp sau:

In [5]:
!cat examples/ex2.csv

1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo

- Để đọc tệp này, bạn có một vài lựa chọn. Bạn có thể để pandas tự gán tên cột mặc định, hoặc bạn có thể tự chỉ định tên cột:

In [6]:
pd.read_csv("examples/ex2.csv", header=None)

Unnamed: 0,0,1,2,3,4
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


In [7]:
pd.read_csv("examples/ex2.csv", names=["a", "b", "c", "d", "message"])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


> Giả sử bạn muốn cột message trở thành chỉ mục (index) của DataFrame trả về. Bạn có thể chỉ định cột ở vị trí số 4 hoặc cột có tên "message" bằng cách sử dụng tham số index_col:

In [8]:
names = ["a", "b", "c", "d", "message"]
pd.read_csv("examples/ex2.csv", names=names, index_col="message")

Unnamed: 0_level_0,a,b,c,d
message,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
hello,1,2,3,4
world,5,6,7,8
foo,9,10,11,12


- Nếu bạn muốn tạo một chỉ mục phân cấp (hierarchical index) (sẽ được thảo luận trong Mục 8.1, “Đánh chỉ mục phân cấp,” ở trang 247) từ nhiều cột, hãy truyền vào một danh sách các số thứ tự cột hoặc tên cột:

In [9]:
!cat examples/csv_mindex.csv

key1,key2,value1,value2
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


In [10]:
parsed = pd.read_csv("examples/csv_mindex.csv",
                     index_col=["key1", "key2"])
parsed

Unnamed: 0_level_0,Unnamed: 1_level_0,value1,value2
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
one,a,1,2
one,b,3,4
one,c,5,6
one,d,7,8
two,a,9,10
two,b,11,12
two,c,13,14
two,d,15,16


- Trong một số trường hợp, một bảng có thể không có ký tự phân tách cố định, mà dùng khoảng trắng hoặc một mẫu ký tự khác để tách các trường. Hãy xem xét một tệp văn bản có dạng như sau:

In [11]:
!cat examples/ex3.txt

            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491


- Mặc dù bạn có thể tự xử lý thủ công, nhưng trong trường hợp này các trường được tách bằng một lượng khoảng trắng không cố định. Với những tình huống như vậy, bạn có thể truyền một biểu thức chính quy (regular expression) làm ký tự phân tách cho pandas.read_csv. Biểu thức này có thể được viết là \s+, và khi đó ta sẽ có:

In [12]:
result = pd.read_csv("examples/ex3.txt", sep=r"\s+")
result

Unnamed: 0,A,B,C
aaa,-0.264438,-1.026059,-0.6195
bbb,0.927272,0.302904,-0.032399
ccc,-0.264273,-0.386314,-0.217601
ddd,-0.871858,-0.348382,1.100491


- Bởi vì số lượng tên cột ít hơn số cột dữ liệu một cột, nên trong trường hợp đặc biệt này, pandas.read_csv sẽ suy luận rằng cột đầu tiên nên được dùng làm chỉ mục (index) của DataFrame.

- Các hàm phân tích tệp có rất nhiều tham số bổ sung để giúp bạn xử lý sự đa dạng của các định dạng tệp ngoại lệ (xem danh sách một phần trong Bảng 6-2). Ví dụ, bạn có thể bỏ qua hàng đầu tiên, hàng thứ ba và hàng thứ tư của một tệp bằng tham số skiprows:

In [13]:
!cat examples/ex4.csv

# hey!
a,b,c,d,message
# just wanted to make things more difficult for you
# who reads CSV files with computers, anyway?
1,2,3,4,hello
5,6,7,8,world
9,10,11,12,foo


In [14]:
pd.read_csv("examples/ex4.csv", skiprows=[0, 2, 3])

Unnamed: 0,a,b,c,d,message
0,1,2,3,4,hello
1,5,6,7,8,world
2,9,10,11,12,foo


- Xử lý giá trị bị thiếu là một phần quan trọng và thường khá tinh tế trong quá trình đọc tệp. Dữ liệu bị thiếu thường hoặc là không xuất hiện (chuỗi rỗng), hoặc được đánh dấu bằng một giá trị đại diện (sentinel / placeholder). Mặc định, pandas sử dụng một tập hợp các giá trị đại diện thường gặp, chẳng hạn như NA và NULL:

In [15]:
!cat examples/ex5.csv

something,a,b,c,d,message
one,1,2,3,4,NA
two,5,6,,8,world
three,9,10,11,12,foo

In [16]:
result = pd.read_csv("examples/ex5.csv")

result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- Hãy nhớ rằng pandas hiển thị các giá trị bị thiếu dưới dạng NaN, vì vậy trong kết quả chúng ta có hai giá trị null hoặc bị thiếu:

In [17]:
pd.isna(result)

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,True,False,False
2,False,False,False,False,False,False


- Tùy chọn `na_values` chấp nhận một dãy (sequence) các chuỗi để bổ sung vào danh sách mặc định những chuỗi được nhận diện là giá trị bị thiếu:

In [18]:
result = pd.read_csv("examples/ex5.csv", na_values=["NULL"])

result

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- pandas.read_csv có một danh sách gồm nhiều cách biểu diễn giá trị NA mặc định, nhưng các giá trị mặc định này có thể bị vô hiệu hóa bằng tùy chọn `keep_default_na`:

In [21]:
result2 = pd.read_csv("examples/ex5.csv", keep_default_na=False)

result2

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [22]:

result2.isna()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False


In [24]:
result3 = pd.read_csv("examples/ex5.csv", keep_default_na=False, na_values=["NA"])
result3

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


In [25]:
result3.isna()

Unnamed: 0,something,a,b,c,d,message
0,False,False,False,False,False,True
1,False,False,False,False,False,False
2,False,False,False,False,False,False


> Các giá trị đại diện cho NA khác nhau có thể được chỉ định cho từng cột trong một dictionary:

In [26]:
sentinels = {"message": ["foo", "NA"], "something": ["two"]}
pd.read_csv("examples/ex5.csv", na_values=sentinels, keep_default_na=False)

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,,5,6,,8,world
2,three,9,10,11.0,12,


> Table 6-2 lists some frequently used options in pandas.read_csv.

| Argument        | Description |
|-----------------|-------------|
| path            | String indicating filesystem location, URL, or file-like object. |
| sep or delimiter| Character sequence or regular expression to use to split fields in each row. |
| header          | Row number to use as column names; defaults to 0 (first row), but should be None if there is no header row. |
| index_col       | Column numbers or names to use as the row index in the result; can be a single name/number or a list of them for a hierarchical index. |
| names           | List of column names for result. |
| skiprows        | Number of rows at beginning of file to ignore or list of row numbers (starting from 0) to skip. |
| na_values       | Sequence of values to replace with NA. They are added to the default list unless `keep_default_na=False` is passed. |
| keep_default_na | Whether to use the default NA value list or not (True by default). |
| comment         | Character(s) to split comments off the end of lines. |
| parse_dates     | Attempt to parse data to datetime; False by default. If True, will attempt to parse all columns. Otherwise, can specify a list of column numbers or names to parse. If element of list is tuple or list, will combine multiple columns together and parse to date. |
| keep_date_col   | If joining columns to parse date, keep the joined columns; False by default. |
| converters      | Dictionary containing column number or name mapping to functions (e.g., {"foo": f} would apply the function f to all values in the "foo" column). |
| dayfirst        | When parsing potentially ambiguous dates, treat as international format (e.g., 7/6/2012 → June 7, 2012); False by default. |
| date_parser     | Function to use to parse dates. |
| nrows           | Number of rows to read from beginning of file (not counting the header). |
| iterator        | Return a TextFileReader object for reading the file piecemeal. This object can also be used with the `with` statement. |
| chunksize       | For iteration, size of file chunks. |
| skip_footer     | Number of lines to ignore at end of file. |
| verbose         | Print various parsing information, like the time spent in each stage of the file conversion and memory use information. |
| encoding        | Text encoding (e.g., "utf-8" for UTF-8 encoded text). Defaults to "utf-8" if None. |
| squeeze         | If the parsed data contains only one column, return a Series. |
| thousands       | Separator for thousands (e.g., "," or "."); default is None. |
| decimal         | Decimal separator in numbers (e.g., "." or ","); default is ".". |
| engine          | CSV parsing and conversion engine to use; can be one of "c", "python", or "pyarrow". The default is "c", though the newer "pyarrow" engine can parse some files much faster. The "python" engine is slower but supports some features that the other engines do not. |


## Reading Text Files in Pieces

- Khi xử lý các tệp rất lớn hoặc khi cần tìm ra tập hợp tham số phù hợp để xử lý đúng một tệp lớn, bạn có thể chỉ muốn đọc một phần nhỏ của tệp hoặc lặp qua những khối nhỏ hơn của tệp.

> Trước khi chúng ta xem xét một tệp lớn, hãy điều chỉnh thiết lập hiển thị của pandas để gọn gàng hơn:

In [27]:
pd.options.display.max_rows = 10

> Giờ bạn có thể:

In [28]:
result = pd.read_csv("examples/ex6.csv")

result

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.501840,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q
...,...,...,...,...,...
9995,2.311896,-0.417070,-1.409599,-0.515821,L
9996,-0.479893,-0.650419,0.745152,-0.646038,E
9997,0.523331,0.787112,0.486066,1.093156,K
9998,-0.362559,0.598894,-1.843201,0.887292,G


- Dấu ba chấm `...` cho biết rằng các hàng ở giữa của **DataFrame** đã được lược bỏ.

- Nếu bạn chỉ muốn đọc một số lượng nhỏ các hàng (tránh việc đọc toàn bộ tệp), hãy chỉ định bằng tham số `nrows`:

In [29]:
pd.read_csv("examples/ex6.csv", nrows=5)

Unnamed: 0,one,two,three,four,key
0,0.467976,-0.038649,-0.295344,-1.824726,L
1,-0.358893,1.404453,0.704965,-0.200638,B
2,-0.50184,0.659254,-0.421691,-0.057688,G
3,0.204886,1.074134,1.388361,-0.982404,R
4,0.354628,-0.133116,0.283763,-0.837063,Q


- Để đọc một tệp theo từng phần, hãy chỉ định `chunksize` dưới dạng số lượng hàng:

In [30]:
chunker = pd.read_csv("examples/ex6.csv", chunksize=1000)
type(chunker)

pandas.io.parsers.readers.TextFileReader

- Đối tượng TextFileReader được trả về bởi pandas.read_csv cho phép bạn lặp qua các phần của tệp theo `chunksize`. 
- Ví dụ, chúng ta có thể lặp qua tệp ex6.csv, đồng thời tổng hợp số lần xuất hiện của các giá trị trong cột "key", như sau:

In [31]:
chunker = pd.read_csv("examples/ex6.csv", chunksize=1000)
tot = pd.Series([], dtype='int64')
for piece in chunker:
    tot = tot.add(piece["key"].value_counts(), fill_value=0)
tot = tot.sort_values(ascending=False)

> Khi đó chúng ta sẽ có:

In [32]:
tot[:10]

key
E    368.0
X    364.0
L    346.0
O    343.0
Q    340.0
M    338.0
J    337.0
F    335.0
K    334.0
H    330.0
dtype: float64

- TextFileReader cũng được trang bị phương thức `get_chunk`, cho phép bạn đọc từng phần với kích thước tùy ý.

## Writing Data to Text Format

> Dữ liệu cũng có thể được xuất ra định dạng có ký tự phân tách. Hãy xem xét một trong những tệp CSV đã được đọc trước đó:

In [34]:
data = pd.read_csv("examples/ex5.csv")
data

Unnamed: 0,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- Sử dụng phương thức `to_csv` của DataFrame, chúng ta có thể ghi dữ liệu ra một tệp được phân tách bằng dấu phẩy (CSV):

In [35]:
data.to_csv("examples/out.csv")
!cat examples/out.csv

,something,a,b,c,d,message
0,one,1,2,3.0,4,
1,two,5,6,,8,world
2,three,9,10,11.0,12,foo


- Tất nhiên, bạn cũng có thể sử dụng các ký tự phân tách khác (ghi ra **sys.stdout** để in kết quả dạng văn bản ra **console** thay vì ghi vào tệp):

In [36]:
import sys
data.to_csv(sys.stdout, sep="|")

|something|a|b|c|d|message
0|one|1|2|3.0|4|
1|two|5|6||8|world
2|three|9|10|11.0|12|foo


- Các giá trị bị thiếu sẽ xuất hiện dưới dạng chuỗi rỗng trong đầu ra. Bạn có thể muốn biểu thị chúng bằng một giá trị đại diện khác:

In [37]:
data.to_csv(sys.stdout, na_rep="NULL")


,something,a,b,c,d,message
0,one,1,2,3.0,4,NULL
1,two,5,6,NULL,8,world
2,three,9,10,11.0,12,foo


- Khi không chỉ định thêm tùy chọn nào khác, cả nhãn hàng (row labels) và nhãn cột (column labels) đều sẽ được ghi ra. Cả hai đều có thể bị vô hiệu hóa:

In [38]:
data.to_csv(sys.stdout, index=False, header=False)

one,1,2,3.0,4,
two,5,6,,8,world
three,9,10,11.0,12,foo


> Bạn cũng có thể ghi chỉ một tập con các cột, và theo thứ tự mà bạn chọn:

In [39]:
data.to_csv(sys.stdout, index=False, columns=["a", "b", "c"])

a,b,c
1,2,3.0
5,6,
9,10,11.0


## Working with Other Delimited Formats

- Có thể nạp hầu hết các dạng dữ liệu dạng bảng từ ổ đĩa bằng các hàm như `pandas.read_csv`. Tuy nhiên, trong một số trường hợp, có thể cần phải xử lý thủ công. 
- Việc nhận được một tệp có một hoặc nhiều dòng bị lỗi định dạng khiến `pandas.read_csv` gặp sự cố là điều không hiếm.
- Để minh họa các công cụ cơ bản, hãy xem xét một tệp CSV nhỏ:

In [40]:
!cat examples/ex7.csv

"a","b","c"
"1","2","3"
"1","2","3"


- Đối với bất kỳ tệp nào có ký tự phân tách chỉ gồm một ký tự, bạn có thể sử dụng mô-đun csv tích hợp sẵn của Python. Để dùng nó, hãy truyền vào một tệp đã mở hoặc một đối tượng giống tệp (file-like object) cho csv.reader:

In [41]:
import csv
f = open("examples/ex7.csv")
reader = csv.reader(f)

- Lặp qua reader giống như lặp qua một tệp sẽ trả về các danh sách giá trị, với mọi ký tự ngoặc kép được loại bỏ:

In [42]:
for line in reader:
    print(line)

['a', 'b', 'c']
['1', '2', '3']
['1', '2', '3']


In [43]:
f.close()

- Từ đó, phần việc còn lại tùy thuộc vào bạn để thực hiện các thao tác wrangling cần thiết nhằm đưa dữ liệu về dạng bạn cần. Hãy làm từng bước một. Trước hết, ta đọc tệp vào một danh sách các dòng:

In [44]:
with open("examples/ex7.csv") as f: 
    lines = list(csv.reader(f))