# D02 Tên cột (columns) và hàng (index)

## Mục đích

Giới thiệu cách Pandas lưu trữ tên cột và hàng. Hiểu biết về tên gọi sẽ giúp bạn thực hiện việc slicing trong Pandas hiệu quả.


## Index

Index là thuật ngữ dùng để chỉ tên hàng trong Pandas. Index đóng vai trò như chìa khóa để định vị các hàng trong data frame; ví dụ, khi ghép hai bộ dữ liệu với nhau theo hàng (join), Pandas sẽ sử dụng index để kiểm tra hàng nào sẽ ghép với hàng nào.

Bạn có thể xem được danh sách index qua thuộc tính `index`. Nếu bạn đọc file dữ liệu bằng lệnh sau, index sẽ được tạo ra mặc định là các số từ 0 đến n - 1 với n là số hàng trong bộ dữ liệu của bạn.

In [1]:
import pandas as pd
d = pd.read_excel("../assets/hrm.xlsx")
d.index

RangeIndex(start=0, stop=330, step=1)

Khi hiển thị dữ liệu dưới dạng bảng, bạn sẽ nhìn thấy index ở ngoài cùng bên trái.

In [2]:
d.iloc[:5, :5]

Unnamed: 0,id,sex,yob,height,weight
0,223,1,1975,1.69,65.0
1,236,1,1971,1.67,65.0
2,256,1,1970,1.7,59.0
3,296,1,1982,1.71,70.0
4,310,0,1980,1.45,42.0


### Thiết lập index

Vì index là công cụ để định vị các hàng và truy xuất chúng, thông thường người ta sẽ để index là những giá trị không trùng lặp (unique hay non-duplicated). Nếu bạn có một cột như vậy trong bộ dữ liệu (ví dụ, mã số nghiên cứu, mã số hồ sơ bệnh viện, v.v.), bạn có thể dùng nó để làm index.

Bạn có thể thiết lập index ngay từ lúc tải dữ liệu vào Python:

```python
d = pd.read_excel(..., index_col="id")
```

Hoặc thiết lập lại sau đó:

In [3]:
d = d.set_index("id")
d.iloc[:5, :5]

Unnamed: 0_level_0,sex,yob,height,weight,date_exam
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
223,1,1975,1.69,65.0,2019-03-23
236,1,1971,1.67,65.0,2019-03-19
256,1,1970,1.7,59.0,2019-03-06
296,1,1982,1.71,70.0,2019-04-23
310,0,1980,1.45,42.0,2019-03-28


So sánh với kết quả hiển thị dữ liệu ở trên, bạn sẽ thấy rằng cột `id` đã trở thành index và bị "loại bỏ" khỏi các cột trong bảng. Khi thiết lập index bằng một (hoặc vài) cột nào đó, các cột này sẽ không còn truy cập được.

Để bỏ việc thiết lập index, bạn sử dụng hàm `reset_index()`.

In [4]:
d = d.reset_index()
d.iloc[:5, :5]

Unnamed: 0,id,sex,yob,height,weight
0,223,1,1975,1.69,65.0
1,236,1,1971,1.67,65.0
2,256,1,1970,1.7,59.0
3,296,1,1982,1.71,70.0
4,310,0,1980,1.45,42.0


Trong một số trường hợp, bạn muốn gán dữ liệu cho index nhưng không phải là các dữ liệu có sẵn trong data frame. Bạn chỉ cần cung cấp một danh sách có độ dài bằng số hàng cho thuộc tính `index`.

```python
d.index = [...]
```

### Index đa cấp

Bạn có thể thiết lập nhiều cột làm index bằng cách cung cấp một danh sách tên cột, chúng ta gọi là index đa cấp. Chúng ta sẽ tìm hiểu kĩ hơn về index đa cấp cùng với kiểu dữ liệu `pandas.MultiIndex` trong một bài khác.

In [5]:
d = d.set_index(["date_exam", "id"])
d.iloc[:5, :5]

Unnamed: 0_level_0,Unnamed: 1_level_0,sex,yob,height,weight,endo_avail
date_exam,id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2019-03-23,223,1,1975,1.69,65.0,1
2019-03-19,236,1,1971,1.67,65.0,1
2019-03-06,256,1,1970,1.7,59.0,1
2019-04-23,296,1,1982,1.71,70.0,1
2019-03-28,310,0,1980,1.45,42.0,1


Bạn có thể loại bỏ chỉ một (vài) cấp trong các cấp của index. Các cấp bị loại bỏ sẽ được đẩy lên đầu tiên trong data frame.

In [6]:
d = d.reset_index("date_exam")
d.iloc[:5, :5]

Unnamed: 0_level_0,date_exam,sex,yob,height,weight
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
223,2019-03-23,1,1975,1.69,65.0
236,2019-03-19,1,1971,1.67,65.0
256,2019-03-06,1,1970,1.7,59.0
296,2019-04-23,1,1982,1.71,70.0
310,2019-03-28,0,1980,1.45,42.0


## Đặt tên cho index

Khi reset toàn bộ index, bạn nhận thấy index không có tên. Bạn có thể đặt tên cho nó bằng hàm `rename_axis(index=...)`. Dòng lệnh dưới đây gọi các hàm theo dạng nối tiếp (chaining functions), sử dụng output của hàm trước làm input của hàm sau. Ví dụ, `reset_index()` sẽ reset toàn bộ index mà chúng ta thiết lập, sau đó index trong bộ số liệu đã được reset này sẽ được đổi tên thành `"stt"`. Lưu ý: lệnh dưới đây không lưu lại các thay đổi này vào trong bộ nhớ.

In [7]:
d.reset_index().rename_axis(index="stt").iloc[:5, :5]

Unnamed: 0_level_0,id,date_exam,sex,yob,height
stt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,223,2019-03-23,1,1975,1.69
1,236,2019-03-19,1,1971,1.67
2,256,2019-03-06,1,1970,1.7
3,296,2019-04-23,1,1982,1.71
4,310,2019-03-28,0,1980,1.45


## Kiểu dữ liệu của index

Chúng ta sẽ cùng xem kiểu dữ liệu của index hiện tại (cột `id`).

In [8]:
d.index

Int64Index([ 223,  236,  256,  296,  310,  312,  326,  339,  342,  347,
            ...
            4089, 4109, 4132, 4150, 4189, 4200, 4214, 4216, 4220, 4240],
           dtype='int64', name='id', length=330)

Vì cột `id` là dữ liệu kiểu `int`, khi thiết lập nó làm index, Pandas sẽ sử dụng lớp `Int64Index` cho index của data frame này. Tất cả các kiểu dữ liệu của index đều kế thừa từ lớp [`pandas.Index`](https://pandas.pydata.org/docs/reference/api/pandas.Index.html). Bạn có thể tham khảo thêm các thuộc tính và phương thức của lớp này; có rất nhiều tính năng hay. Ví dụ, bạn có thể loại bỏ hẳn một cấp ra khỏi index đa cấp.

In [9]:
a = pd.DataFrame({
    "xn": "ctm",
    "time": range(5),
    "value": range(100, 105)
}).set_index(["xn", "time"])

print(a)

print(a.index.droplevel("xn"))

          value
xn  time       
ctm 0       100
    1       101
    2       102
    3       103
    4       104
Int64Index([0, 1, 2, 3, 4], dtype='int64', name='time')


Thay vì loại bỏ theo cách này và gán lại vào index, bạn có thể loại bỏ một (vài) cấp ra khỏi index trực tiếp trên data frame bằng hàm `droplevel()`. Cách thiết lập đối số hơi khác: bạn sẽ cung cấp đối số `axis=0` để báo hiệu cho Pandas biết bạn đang loại bỏ một cấp trong index.

In [10]:
a.droplevel(level="xn", axis=0)

Unnamed: 0_level_0,value
time,Unnamed: 1_level_1
0,100
1,101
2,102
3,103
4,104


## Cột

Nếu đã hiểu về index thì rất dễ để hiểu về cột, vì Pandas lưu trữ thông tin về cột như là một loại index.

In [11]:
d.columns

Index(['date_exam', 'sex', 'yob', 'height', 'weight', 'endo_avail', 'eso_LA',
       'hp_endo', 'hp_breath', 'hrm_avail', 'les_baserestp', 'les_irp4s',
       'fssg', 'q_fssg_01_nongrat', 'q_fssg_02_dayhoi', 'q_fssg_03_nangbung',
       'q_fssg_04_xoanguc', 'q_fssg_05_metsauan', 'q_fssg_06_nongratsauan',
       'q_fssg_07_hong', 'q_fssg_08_daylucan', 'q_fssg_09_nuotnghen',
       'q_fssg_10_dichtraolen', 'q_fssg_11_onhieu',
       'q_fssg_12_nongratcuixuong'],
      dtype='object')

Chúng ta không có các tính năng thiết lập và reset cột như đối với index, nhưng bạn cũng có thể đặt tên cho danh sách các cột.

In [12]:
a = pd.DataFrame({
    "t0": range(100, 105),
    "t1": range(10, 15),
    "t2": range(50, 55)
})

a.rename_axis(columns="timepoint")

timepoint,t0,t1,t2
0,100,10,50
1,101,11,51
2,102,12,52
3,103,13,53
4,104,14,54


Bạn có thể đổi tên cả danh sách cột và index cùng nhau bằng hàm `rename_axis()`.

In [13]:
a.rename_axis(columns="timepoint", index="stt")

timepoint,t0,t1,t2
stt,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,100,10,50
1,101,11,51
2,102,12,52
3,103,13,53
4,104,14,54


## Ví dụ

Chúng ta sẽ có các bài riêng để nói về các thao tác trên index và columns. Trong ví dụ dưới đây mình sẽ "nhá hàng" một số tính năng liên quan tới thao tác trên index và columns.

In [14]:
# Tạo biến tuổi và phân loại tuổi (>45 và <=45)
d["age"] = d["date_exam"].dt.year.sub(d["yob"])
d["age_gt45"] = d["age"].gt(45).astype(int)

# Thống kê IRP4s và áp lực nền khi nghỉ của LES theo giới và tuổi
d_agg = d.groupby(["sex", "age_gt45"])[["les_irp4s", "les_baserestp"]].agg(["mean", "std"])
d_agg

Unnamed: 0_level_0,Unnamed: 1_level_0,les_irp4s,les_irp4s,les_baserestp,les_baserestp
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,std,mean,std
sex,age_gt45,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
0,0,5.656,4.303189,18.699,8.635041
0,1,6.408197,4.756789,18.898361,8.733426
1,0,4.319298,4.198785,14.529825,7.362816
1,1,4.977551,4.438621,14.946939,10.837995


In [15]:
# Đặt tên cho các cấp của cột
d_agg = d_agg.rename_axis(columns=["var", "stats"])
d_agg

Unnamed: 0_level_0,var,les_irp4s,les_irp4s,les_baserestp,les_baserestp
Unnamed: 0_level_1,stats,mean,std,mean,std
sex,age_gt45,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
0,0,5.656,4.303189,18.699,8.635041
0,1,6.408197,4.756789,18.898361,8.733426
1,0,4.319298,4.198785,14.529825,7.362816
1,1,4.977551,4.438621,14.946939,10.837995


In [16]:
# Tạo cột Mean (SD)
# Trước khi tạo, chúng ta sẽ chuyển cấp var từ cột xuống index (gọi là stacking)
d_agg = d_agg.stack("var")
d_agg["mean_sd"] = d_agg.apply(lambda x: "{:.1f} ({:.1f})".format(*x), axis=1)
d_agg

Unnamed: 0_level_0,Unnamed: 1_level_0,stats,mean,std,mean_sd
sex,age_gt45,var,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,0,les_baserestp,18.699,8.635041,18.7 (8.6)
0,0,les_irp4s,5.656,4.303189,5.7 (4.3)
0,1,les_baserestp,18.898361,8.733426,18.9 (8.7)
0,1,les_irp4s,6.408197,4.756789,6.4 (4.8)
1,0,les_baserestp,14.529825,7.362816,14.5 (7.4)
1,0,les_irp4s,4.319298,4.198785,4.3 (4.2)
1,1,les_baserestp,14.946939,10.837995,14.9 (10.8)
1,1,les_irp4s,4.977551,4.438621,5.0 (4.4)


In [17]:
# Giữ lại cột Mean (SD) và chuyển ngược lại var lên cột (unstacking).
d_agg = d_agg["mean_sd"].unstack("var")
d_agg

Unnamed: 0_level_0,var,les_baserestp,les_irp4s
sex,age_gt45,Unnamed: 2_level_1,Unnamed: 3_level_1
0,0,18.7 (8.6),5.7 (4.3)
0,1,18.9 (8.7),6.4 (4.8)
1,0,14.5 (7.4),4.3 (4.2)
1,1,14.9 (10.8),5.0 (4.4)


In [18]:
# Đổi tên
cols_dict = {
    "sex": "Giới",
    "age_gt45": "Tuổi",
    "les_baserestp": "LES restp (base)",
    "les_irp4s": "IRP 4s"
}
rep_dict = {
    "sex": {0: "Nữ", 1: "Nam"},
    "age_gt45": {0: "<= 45", 1: "> 45"}
}

d_agg.reset_index().replace(rep_dict).rename_axis(columns="").rename(columns=cols_dict)

Unnamed: 0,Giới,Tuổi,LES restp (base),IRP 4s
0,Nữ,<= 45,18.7 (8.6),5.7 (4.3)
1,Nữ,> 45,18.9 (8.7),6.4 (4.8)
2,Nam,<= 45,14.5 (7.4),4.3 (4.2)
3,Nam,> 45,14.9 (10.8),5.0 (4.4)


Chúng ta có thể "chain" tất cả các dòng lệnh trên lại.

In [19]:
d.groupby(["sex", "age_gt45"])[["les_irp4s", "les_baserestp"]] \
    .agg(["mean", "std"]).rename_axis(columns=["var", "stats"]) \
    .stack("var").apply(lambda x: "{:.1f} ({:.1f})".format(*x), axis=1) \
    .unstack("var").reset_index().replace(rep_dict) \
    .rename_axis(columns="").rename(columns=cols_dict)

Unnamed: 0,Giới,Tuổi,LES restp (base),IRP 4s
0,Nữ,<= 45,18.7 (8.6),5.7 (4.3)
1,Nữ,> 45,18.9 (8.7),6.4 (4.8)
2,Nam,<= 45,14.5 (7.4),4.3 (4.2)
3,Nam,> 45,14.9 (10.8),5.0 (4.4)


---

[Bài trước](./01_pandas.ipynb) - [Danh sách bài](../README.md) - [Bài sau](./03_slicing.ipynb)