# D01 Pandas: Data Frame và Series

## Mục đích

Giới thiệu hai kiểu dữ liệu quan trọng trong thư viện [Pandas](https://pandas.pydata.org/): Data Frame và Series.


## Đọc dữ liệu

Thông thường dữ liệu của bạn sẽ được lưu trữ trên một file nào đó hoặc trong máy chủ dữ liệu (ví dụ, SQL Server). Chúng ta sẽ cần đọc dữ liệu vào trong bộ nhớ để thao tác.

Chẳng hạn, bạn có thể đọc file Excel `hrm.xlsx` vào Python bằng hàm `pandas.read_excel()`. Sau đó chúng ta sẽ kiểm tra cấu trúc của bộ số liệu này.

In [1]:
import pandas as pd
d = pd.read_excel("hrm.xlsx")
d.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 330 entries, 0 to 329
Data columns (total 26 columns):
 #   Column                     Non-Null Count  Dtype         
---  ------                     --------------  -----         
 0   id                         330 non-null    int64         
 1   sex                        330 non-null    int64         
 2   yob                        330 non-null    int64         
 3   height                     316 non-null    float64       
 4   weight                     324 non-null    float64       
 5   date_exam                  330 non-null    datetime64[ns]
 6   endo_avail                 330 non-null    int64         
 7   eso_LA                     305 non-null    float64       
 8   hp_endo                    302 non-null    float64       
 9   hp_breath                  0 non-null      float64       
 10  hrm_avail                  330 non-null    int64         
 11  les_baserestp              328 non-null    float64       
 12  les_irp4

## Data frame

Như bạn thấy, Pandas lưu trữ bảng số liệu trong kiểu dữ liệu `pandas.DataFrame`. Một data frame có *n* cột, mỗi cột có *m* hàng, tương tự như một mảng hai chiều m x n của NumPy, nhưng điểm khác quan trọng giữa data frame và mảng hai chiều là kiểu dữ liệu của tất cả phần tử của một mảng hai chiều phải giống nhau. Đối với data frame, các phần tử trong một cột phải có kiểu dữ liệu giống nhau, nhưng kiểu dữ liệu của các cột có thể khác nhau (xem ví dụ trên).

Chúng ta có thể xem thông tin về số hàng và số cột qua thuộc tính `shape`.

In [2]:
d.shape

(330, 26)

Bạn có thể lấy danh sách các cột thông qua thuộc tính `columns`. Chúng ta sẽ tìm hiểu kĩ hơn về index và columns ở trong bài sau.

In [3]:
print(d.columns)

Index(['id', 'sex', 'yob', 'height', 'weight', 'date_exam', 'endo_avail',
       'eso_LA', 'hp_endo', 'hp_breath', 'hrm_avail', 'les_baserestp',
       'les_irp4s', 'fssg', 'q_fssg_01_nongrat', 'q_fssg_02_dayhoi',
       'q_fssg_03_nangbung', 'q_fssg_04_xoanguc', 'q_fssg_05_metsauan',
       'q_fssg_06_nongratsauan', 'q_fssg_07_hong', 'q_fssg_08_daylucan',
       'q_fssg_09_nuotnghen', 'q_fssg_10_dichtraolen', 'q_fssg_11_onhieu',
       'q_fssg_12_nongratcuixuong'],
      dtype='object')


Chúng ta có thể xem phần đầu của data frame bằng hàm `head()`.

In [4]:
d.head()

Unnamed: 0,id,sex,yob,height,weight,date_exam,endo_avail,eso_LA,hp_endo,hp_breath,...,q_fssg_03_nangbung,q_fssg_04_xoanguc,q_fssg_05_metsauan,q_fssg_06_nongratsauan,q_fssg_07_hong,q_fssg_08_daylucan,q_fssg_09_nuotnghen,q_fssg_10_dichtraolen,q_fssg_11_onhieu,q_fssg_12_nongratcuixuong
0,1,0,1944,1.5,42.0,2019-02-25,1,0.0,0.0,,...,3.0,2.0,2.0,0.0,1.0,2.0,1.0,0.0,1.0,0.0
1,2,0,1976,1.5,48.0,2019-02-23,1,0.0,1.0,,...,0.0,0.0,0.0,0.0,4.0,0.0,1.0,0.0,3.0,0.0
2,3,1,1990,1.6,46.0,2019-02-23,1,1.0,0.0,,...,4.0,0.0,1.0,2.0,0.0,0.0,0.0,2.0,4.0,0.0
3,4,1,1974,1.7,67.0,2019-02-19,1,0.0,0.0,,...,2.0,0.0,2.0,1.0,0.0,2.0,0.0,2.0,2.0,0.0
4,5,0,1985,1.6,46.0,2019-02-23,1,1.0,1.0,,...,0.0,3.0,1.0,3.0,2.0,0.0,3.0,0.0,4.0,0.0


Hoặc xem phần cuối của data frame bằng hàm `tail()`.

In [5]:
d.tail(3)

Unnamed: 0,id,sex,yob,height,weight,date_exam,endo_avail,eso_LA,hp_endo,hp_breath,...,q_fssg_03_nangbung,q_fssg_04_xoanguc,q_fssg_05_metsauan,q_fssg_06_nongratsauan,q_fssg_07_hong,q_fssg_08_daylucan,q_fssg_09_nuotnghen,q_fssg_10_dichtraolen,q_fssg_11_onhieu,q_fssg_12_nongratcuixuong
327,331,0,1965,1.5,47.0,2019-05-21,0,,,,...,0.0,0.0,0.0,0.0,1.0,0.0,2.0,0.0,1.0,0.0
328,332,0,1970,1.52,53.0,2019-04-30,1,0.0,0.0,,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,2.0,0.0
329,333,0,1959,1.55,48.0,2019-04-30,1,0.0,0.0,,...,3.0,2.0,3.0,2.0,0.0,0.0,0.0,2.0,1.0,0.0


Bạn có thể lấy dữ liệu của một cột bằng cách gọi tên cột đó. Chúng ta sẽ tìm hiểu kĩ hơn về slicing ở bài sau.

In [6]:
d["id"]

0        1
1        2
2        3
3        4
4        5
      ... 
325    329
326    330
327    331
328    332
329    333
Name: id, Length: 330, dtype: int64

Việc tạo cột mới trong Pandas hết sức dễ dàng. Pandas cung cấp nhiều tính năng để biến đổi dữ liệu. Chúng ta sẽ làm quen với các tính năng này trong các bài tiếp theo.

In [7]:
d["bmi"] = d["weight"] / d["height"] ** 2
d["bmi"]

0      18.666667
1      21.333333
2      17.968750
3      23.183391
4      17.968750
         ...    
325    17.850623
326    20.395421
327    20.888889
328    22.939751
329    19.979188
Name: bmi, Length: 330, dtype: float64

## Series

Khi lấy ra một cột trong data frame, chúng ta nhận được kiểu dữ liệu `pandas.Series`. Series là một chuỗi các giá trị có cùng kiểu (gọi là `dtype`). Do vậy, thông thường series chứa nội dung của một cột. Nhưng nếu lấy ra một hàng, bạn cũng có một series; trong trường hợp này kiểu dữ liệu của các phần tử trong series sẽ không giống nhau, và Pandas sẽ coi kiểu dữ liệu chung của series là `object`.

In [8]:
d.iloc[0, 0:5]    # Hàng thứ 0 trong data frame, giới hạn ở cột thứ 0 đến 4.

id           1
sex          0
yob       1944
height     1.5
weight    42.0
Name: 0, dtype: object

Bạn có thể thao tác trên series như trên mảng một chiều của NumPy. Tất cả các phép toán đều đã được vector hóa.

In [9]:
d["height"] * 100

0      150.0
1      150.0
2      160.0
3      170.0
4      160.0
       ...  
325    157.0
326    155.0
327    150.0
328    152.0
329    155.0
Name: height, Length: 330, dtype: float64

In [10]:
d["sex"] == 1

0      False
1      False
2       True
3       True
4      False
       ...  
325    False
326    False
327    False
328    False
329    False
Name: sex, Length: 330, dtype: bool

Pandas cũng cung cấp các hàm để phục vụ các toán tử này. Sự khác biệt giữa hàm và toán tử là hàm cho phép "lấy đầy" các giá trị NA bằng một giá trị nào đó.

In [11]:
d["sex"].eq(1)

0      False
1      False
2       True
3       True
4      False
       ...  
325    False
326    False
327    False
328    False
329    False
Name: sex, Length: 330, dtype: bool

Bạn cũng có thể áp dụng tính toán cho toàn bộ data frame, các phép tính sẽ được thực hiện trên từng phần tử (từng ô), nhưng nên hạn chế làm cách này trừ khi bạn xác định việc áp dụng cho nhiều cột là an toàn.

In [12]:
d.filter(like="q_fssg_") >= 3

Unnamed: 0,q_fssg_01_nongrat,q_fssg_02_dayhoi,q_fssg_03_nangbung,q_fssg_04_xoanguc,q_fssg_05_metsauan,q_fssg_06_nongratsauan,q_fssg_07_hong,q_fssg_08_daylucan,q_fssg_09_nuotnghen,q_fssg_10_dichtraolen,q_fssg_11_onhieu,q_fssg_12_nongratcuixuong
0,False,False,True,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,True,False,False,False,True,False
2,True,True,True,False,False,False,False,False,False,False,True,False
3,False,False,False,False,False,False,False,False,False,False,False,False
4,True,False,False,True,False,True,False,False,True,False,True,False
...,...,...,...,...,...,...,...,...,...,...,...,...
325,False,True,False,True,True,False,True,True,False,True,True,False
326,False,True,False,False,True,False,True,False,True,False,False,False
327,False,False,False,False,False,False,False,False,False,False,False,False
328,False,False,False,False,False,False,False,False,False,False,False,False


## Tạo mới Data frame và Series

Có nhiều cách để tạo mới data frame và series. Cách đầu tiên là dùng từ điển. Chúng ta dùng cách này để đặt tên cho mỗi cột trong data frame hoặc mỗi phần tử trong series.

In [13]:
pd.DataFrame({
    "sex": [0, 1, 1, 0],
    "age": [21, 29, 33, 24]
})

Unnamed: 0,sex,age
0,0,21
1,1,29
2,1,33
3,0,24


In [14]:
pd.Series({
    "sex": 0,
    "age": 21
})

sex     0
age    21
dtype: int64

Đối với data frame, bạn cung cấp các danh sách giá trị cho từng cột (chìa khóa trong từ điển). Còn đối với series, bạn cung cấp các giá trị cho từng chìa khóa. Nếu bạn cung cấp danh sách các giá trị, Pandas sẽ coi như giá trị của chìa khóa đó là danh sách (chứ không mở rộng thành nhiều series).

In [15]:
pd.Series({
    "sex": [0, 1],
    "age": 21
})

sex    [0, 1]
age        21
dtype: object

Một cách tạo data frame mới khác là dùng danh sách cho từng hàng, trong trường hợp này bạn sẽ cần thêm tên cột vào trong đối số `columns`.

In [16]:
pd.DataFrame([
    [0, 21],
    [1, 29]
], columns=["sex", "age"])

Unnamed: 0,sex,age
0,0,21
1,1,29


Bạn có thể thêm cả tên hàng vào đối số `index` nếu cần.

In [17]:
pd.DataFrame([
    [0, 21],
    [1, 29]
], columns=["sex", "age"], index=["Mai", "Hung"])

Unnamed: 0,sex,age
Mai,0,21
Hung,1,29


Bạn có thể tạo data frame từ các series, vì series cũng là một dạng danh sách. Điểm thú vị của series là mỗi giá trị có một "tên gọi", gọi là "nhãn" hay "index". Khi tạo data frame từ các series, bạn không cần xác định đúng thứ tự của đối tượng trong series, vì Pandas sẽ tự động ghép các giá trị có cùng index vào cùng một hàng.

In [18]:
sex = pd.Series([0, 1], index=["Mai", "Hung"])
age = pd.Series([29, 21], index=["Hung", "Mai"])

print(sex)
print(age)

df = pd.DataFrame({
    "sex": sex,
    "age": age
})
df

Mai     0
Hung    1
dtype: int64
Hung    29
Mai     21
dtype: int64


Unnamed: 0,sex,age
Hung,1,29
Mai,0,21


Cung cấp danh sách trống để tạo data frame hoặc series không có bản ghi nào.

In [19]:
pd.DataFrame([], columns=["sex", "age"])

Unnamed: 0,sex,age


In [20]:
pd.Series([], dtype="float64")

Series([], dtype: float64)

## Bổ sung nội dung

Để thêm các nội dung mới vào cuối series, bạn sử dụng hàm `pandas.concat()`. Nội dung thêm vào cũng phải là series, và nếu series ban đầu có index thì series mới thêm vào cũng nên có index. Chú ý rằng đoạn lệnh sau KHÔNG lưu lại nội dung đã bổ sung của series vào bộ nhớ mà chỉ hiện ra màn hình. Bạn cần dùng lệnh gán (ví dụ, `sex = pd.concat(...)`) để lưu lại dữ liệu mới.

In [21]:
new_sex = pd.Series([0, 1, 1], index=["Trang", "Minh", "Thang"])
pd.concat([sex, new_sex])

Mai      0
Hung     1
Trang    0
Minh     1
Thang    1
dtype: int64

Tương tự, bạn có thể thêm các hàng mới vào data frame bằng cách này. Các hàng mới này cần là một data frame (thậm chí ngay cả khi có 1 hàng bạn cũng cần tạo data frame).

In [22]:
new_person = pd.DataFrame({
    "sex": [0],
    "age": [31]
}, index=["Hang"])

pd.concat([df, new_person])

Unnamed: 0,sex,age
Hung,1,29
Mai,0,21
Hang,0,31


---

[Bài trước](../03_math/04_stats.ipynb) - [Danh sách bài](../README.md) - [Bài sau](./02_colindex.ipynb)