# D15 Số liệu dạng danh mục

## Mục đích

Trong bài này chúng ta sẽ làm quen với kiểu số liệu dạng danh mục (categorical).


## Categorical hay string?

Lấy ví dụ chúng ta có dữ liệu về trình độ học vấn được mã hóa như sau: 1=Trung học phổ thông trở xuống, 2=Đại học, cao đẳng, 3=Sau đại học. Thông thường bộ số liệu gốc của bạn khi xuất ra sẽ có dạng mã (code) là các số. Trong hầu hết các công cụ phân tích số liệu, chúng ta sẽ cần chuyển chúng sang dạng chuỗi kí tự (nhãn, label) để hiển thị kết quả. Hãy xem kích thước của bộ số liệu.

In [1]:
import pandas as pd
import numpy as np

n = 1000
np.random.seed(0)

d = pd.DataFrame({
    "id": range(n),
    "sex": np.random.choice([1, 2], n, replace=True),
    "edu": np.random.choice([1, 2, 3], n, replace=True)
})

d.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   id      1000 non-null   int64
 1   sex     1000 non-null   int32
 2   edu     1000 non-null   int32
dtypes: int32(2), int64(1)
memory usage: 15.8 KB


Chúng ta sẽ dán nhãn cho biến `edu`.

In [2]:
edu_labels = ["Trung học phổ thông trở xuống", "Đại học, cao đẳng", "Sau đại học"]
edu_dict = dict(zip([1, 2, 3], edu_labels))
d["edu"] = d["edu"].replace(edu_dict)

d.head()

Unnamed: 0,id,sex,edu
0,0,1,Sau đại học
1,1,2,Trung học phổ thông trở xuống
2,2,2,Trung học phổ thông trở xuống
3,3,1,Sau đại học
4,4,2,Trung học phổ thông trở xuống


In [3]:
d.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   id      1000 non-null   int64 
 1   sex     1000 non-null   int32 
 2   edu     1000 non-null   object
dtypes: int32(1), int64(1), object(1)
memory usage: 19.7+ KB


Mặc dù bạn thấy kích thước của cơ sở dữ liệu không tăng lên nhiều (4 KB), nhưng hãy nhớ rằng chúng ta chỉ có 1000 bản ghi và mới dán nhãn cho 1 biến. Nếu bạn có 1000 biến và hàng triệu bản ghi, kích thước bộ số liệu trong bộ nhớ máy tính sẽ phình ra đáng kể.

Hãy cũng xem dữ liệu categorical thì sẽ như thế nào.

In [4]:
d["edu"] = pd.Categorical(d["edu"])

d.head()

Unnamed: 0,id,sex,edu
0,0,1,Sau đại học
1,1,2,Trung học phổ thông trở xuống
2,2,2,Trung học phổ thông trở xuống
3,3,1,Sau đại học
4,4,2,Trung học phổ thông trở xuống


In [5]:
d.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   id      1000 non-null   int64   
 1   sex     1000 non-null   int32   
 2   edu     1000 non-null   category
dtypes: category(1), int32(1), int64(1)
memory usage: 12.9 KB


Bạn có thể thấy về mặt hiển thị kết quả thì không có gì khác nhau (đều hiển thị label), nhưng kích thước bộ nhớ đã giảm đi đáng kể, thậm chí còn thấp hơn so với lúc để dưới dạng code. Hãy quan sát series của `edu`.

In [6]:
d["edu"].head()

0                      Sau đại học
1    Trung học phổ thông trở xuống
2    Trung học phổ thông trở xuống
3                      Sau đại học
4    Trung học phổ thông trở xuống
Name: edu, dtype: category
Categories (3, object): ['Sau đại học', 'Trung học phổ thông trở xuống', 'Đại học, cao đẳng']

Nếu bạn đã sử dụng R thì có thể đã quen với kiểu dữ liệu `factor`. Dữ liệu categorical trong Pandas cũng tương tự như factor trong R: chúng thực sự là các giá trị số, và mỗi giá trị này được dán cho một nhãn. Hiệu quả cải thiện bộ nhớ chỉ có được nếu số lượng hạng mục (category) trong số liệu của bạn ít hơn rất nhiều so với số bản ghi.

## Các đặc trưng của dữ liệu categorical

### Nhãn có và không có thứ tự

Chúng ta có thể giả sử rằng trình độ học vấn sẽ tăng dần từ "THPT trở xuống" cho đến "Sau đại học" (biến thứ hạng), và muốn số liệu categorical thể hiện điều này. Dữ liệu categorical như vậy được gọi là danh mục có thứ tự (ordered).

In [7]:
d["edu"] = pd.Categorical(d["edu"], categories=edu_labels, ordered=True)
d["edu"].head()

0                      Sau đại học
1    Trung học phổ thông trở xuống
2    Trung học phổ thông trở xuống
3                      Sau đại học
4    Trung học phổ thông trở xuống
Name: edu, dtype: category
Categories (3, object): ['Trung học phổ thông trở xuống' < 'Đại học, cao đẳng' < 'Sau đại học']

Bạn có thể thấy rằng nếu như dữ liệu categorical có thứ tự thì Pandas sẽ hiển thị các hạng mục theo thứ tự tăng dần đã được quy định. Dữ liệu có thứ tự có thể so sánh nhỏ hơn và lớn hơn được.

In [8]:
d2 = pd.DataFrame({
    "edu": d["edu"],
    "other_edu": d.loc[::-1, "edu"].rename(index=lambda x: n - x - 1)
})

d2.head()

Unnamed: 0,edu,other_edu
0,Sau đại học,"Đại học, cao đẳng"
1,Trung học phổ thông trở xuống,"Đại học, cao đẳng"
2,Trung học phổ thông trở xuống,Sau đại học
3,Sau đại học,"Đại học, cao đẳng"
4,Trung học phổ thông trở xuống,Sau đại học


In [9]:
d2["compare"] = d2["edu"] > d2["other_edu"]

d2.head()

Unnamed: 0,edu,other_edu,compare
0,Sau đại học,"Đại học, cao đẳng",True
1,Trung học phổ thông trở xuống,"Đại học, cao đẳng",False
2,Trung học phổ thông trở xuống,Sau đại học,False
3,Sau đại học,"Đại học, cao đẳng",True
4,Trung học phổ thông trở xuống,Sau đại học,False


### Dữ liệu categorical bị giới hạn bởi danh sách hạng mục

Bạn có thể giới hạn các hạng mục trong dữ liệu categorical để loại bỏ các nội dung không chính xác. Chẳng hạn, trong dữ liệu dưới đây có một dòng ghi là "Không rõ", bạn có thể muốn chuyển nó thành NA thay vì thêm một hạng mục vào dữ liệu categorical.

In [10]:
# Nếu không giới hạn
pd.Categorical(["Cấp 1", "Cấp 2", "Cấp 3", "Không rõ"])

['Cấp 1', 'Cấp 2', 'Cấp 3', 'Không rõ']
Categories (4, object): ['Cấp 1', 'Cấp 2', 'Cấp 3', 'Không rõ']

In [11]:
# Có giới hạn
pd.Categorical(["Cấp 1", "Cấp 2", "Cấp 3", "Không rõ"],
    categories=["Cấp 1", "Cấp 2", "Cấp 3"])

['Cấp 1', 'Cấp 2', 'Cấp 3', NaN]
Categories (3, object): ['Cấp 1', 'Cấp 2', 'Cấp 3']

### Kiểu dữ liệu của hạng mục

Khác với R, hạng mục trong Pandas có thể là bất kì kiểu dữ liệu nào.

In [12]:
pd.Categorical([1, 2, 3])

[1, 2, 3]
Categories (3, int64): [1, 2, 3]

In [13]:
s1 = pd.to_datetime(["2022-10-01", "2022-11-01", "2022-12-01"])
pd.Categorical(s1)

[2022-10-01, 2022-11-01, 2022-12-01]
Categories (3, datetime64[ns]): [2022-10-01, 2022-11-01, 2022-12-01]

## Tạo số liệu categorical

### Số liệu label

Nếu số liệu đã ở dưới dạng label, bạn không cần "convert" từ code sang nữa mà có thể chuyển thẳng sang số liệu categorical.

In [14]:
s2 = pd.Series(["Nam", "Nữ", "Không tiết lộ", "Nữ", "Nữ", "Nam"], name="sex")
s2

0              Nam
1               Nữ
2    Không tiết lộ
3               Nữ
4               Nữ
5              Nam
Name: sex, dtype: object

In [15]:
s2.astype("category")

0              Nam
1               Nữ
2    Không tiết lộ
3               Nữ
4               Nữ
5              Nam
Name: sex, dtype: category
Categories (3, object): ['Không tiết lộ', 'Nam', 'Nữ']

In [16]:
pd.Series(["Nam", "Nữ", "Không tiết lộ", "Nữ", "Nữ", "Nam"], name="sex", dtype="category")

0              Nam
1               Nữ
2    Không tiết lộ
3               Nữ
4               Nữ
5              Nam
Name: sex, dtype: category
Categories (3, object): ['Không tiết lộ', 'Nam', 'Nữ']

Cách sau đây sẽ không tạo ra series.

In [17]:
pd.Categorical(s2)

['Nam', 'Nữ', 'Không tiết lộ', 'Nữ', 'Nữ', 'Nam']
Categories (3, object): ['Không tiết lộ', 'Nam', 'Nữ']

### Số liệu code

Với số liệu code, bạn có thể dùng `replace()` để thay thế code bằng label, sau đó chuyển sang dữ liệu categorical. Hoặc bạn có thể dùng hàm `from_codes()` của dữ liệu categorical. Tuy nhiên để sử dụng được cách này, code của bạn phải bắt đầu liên tục từ giá trị 0.

In [18]:
s3 = [1, 0, 1, 1, 1, 0, 1, 0]
pd.Categorical.from_codes(s3, ["Nam", "Nữ"])

['Nữ', 'Nam', 'Nữ', 'Nữ', 'Nữ', 'Nam', 'Nữ', 'Nam']
Categories (2, object): ['Nam', 'Nữ']

### Phân nhóm từ số liệu liên tục

Bạn có thể dùng hàm `cut()` để thực hiện việc phân nhóm này. Mặc định số liệu categorical được tạo thành sẽ được tạo label tự động và có thứ tự.

In [19]:
s4 = np.random.uniform(15, 35, size=10)
s4

array([22.79097015, 20.27535373, 33.89251437, 17.71096866, 29.40531705,
       33.50790051, 28.29331173, 23.4610888 , 18.9798188 , 22.34950645])

In [20]:
pd.cut(s4, [0, 18.5, 25, 100])

[(18.5, 25.0], (18.5, 25.0], (25.0, 100.0], (0.0, 18.5], (25.0, 100.0], (25.0, 100.0], (25.0, 100.0], (18.5, 25.0], (18.5, 25.0], (18.5, 25.0]]
Categories (3, interval[float64, right]): [(0.0, 18.5] < (18.5, 25.0] < (25.0, 100.0]]

Bạn có thể thay đổi label cho số liệu categorical mới được tạo ra.

In [21]:
bmi_labels = ["Underweight", "Normal", "Overweight"]
s4_cat = pd.cut(s4, [0, 18.5, 25, 100],
    labels=bmi_labels)
s4_cat

['Normal', 'Normal', 'Overweight', 'Underweight', 'Overweight', 'Overweight', 'Overweight', 'Normal', 'Normal', 'Normal']
Categories (3, object): ['Underweight' < 'Normal' < 'Overweight']

Hàm `cut()` có một vài thiết lập quan trọng, bạn nên nghiên cứu và luyện tập thêm để đảm bảo việc sinh số liệu được chính xác.

## Thao tác với hạng mục

### Đổi tên hạng mục

Tương tự như index, Pandas cho phép bạn đổi tên hạng mục bằng từ điển, hàm, hoặc danh sách. Nếu là danh sách, danh sách label mới cần có kích thước bằng với danh sách hạng mục hiện tại, và Pandas sẽ đổi tên theo thứ tự tương ứng.

In [22]:
s4_cat.rename_categories(lambda x: f"BMI ({x})")

['BMI (Normal)', 'BMI (Normal)', 'BMI (Overweight)', 'BMI (Underweight)', 'BMI (Overweight)', 'BMI (Overweight)', 'BMI (Overweight)', 'BMI (Normal)', 'BMI (Normal)', 'BMI (Normal)']
Categories (3, object): ['BMI (Underweight)' < 'BMI (Normal)' < 'BMI (Overweight)']

In [23]:
bmi_newlabels = ["Nhẹ cân", "Bình thường", "Thừa cân"]
bmi_dict = dict(zip(bmi_labels, bmi_newlabels))

s4_cat.rename_categories(bmi_dict)

['Bình thường', 'Bình thường', 'Thừa cân', 'Nhẹ cân', 'Thừa cân', 'Thừa cân', 'Thừa cân', 'Bình thường', 'Bình thường', 'Bình thường']
Categories (3, object): ['Nhẹ cân' < 'Bình thường' < 'Thừa cân']

In [24]:
s4_cat.rename_categories(bmi_newlabels)

['Bình thường', 'Bình thường', 'Thừa cân', 'Nhẹ cân', 'Thừa cân', 'Thừa cân', 'Thừa cân', 'Bình thường', 'Bình thường', 'Bình thường']
Categories (3, object): ['Nhẹ cân' < 'Bình thường' < 'Thừa cân']

### Thêm bớt hạng mục

Bạn không thể cung cấp dữ liệu mới là các hạng mục không tồn tại trong danh sách hạng mục hiện tại. Trước khi thêm dữ liệu như vậy, bạn cần mở rộng danh sách hạng mục.

In [25]:
s4_cat.categories

Index(['Underweight', 'Normal', 'Overweight'], dtype='object')

In [26]:
s4_cat = s4_cat.add_categories("Obese")
s4_cat.categories

Index(['Underweight', 'Normal', 'Overweight', 'Obese'], dtype='object')

In [27]:
s4_cat[0] = "Obese"
s4_cat

['Obese', 'Normal', 'Overweight', 'Underweight', 'Overweight', 'Overweight', 'Overweight', 'Normal', 'Normal', 'Normal']
Categories (4, object): ['Underweight' < 'Normal' < 'Overweight' < 'Obese']

Khi phân tích số liệu, Pandas sẽ hiển thị kết quả phân tích cho tất cả các hạng mục, kể cả khi không có bản ghi nào.

In [28]:
n = 10
d3 = pd.DataFrame({
    "id": range(n),
    "sex": pd.Categorical(np.random.choice(["M", "F"], size=n, replace=True),
        categories=["M", "F", "Other"]),
    "bmi": np.random.uniform(16, 35, size=n)
})

d3

Unnamed: 0,id,sex,bmi
0,0,F,33.317567
1,1,M,21.250406
2,2,F,23.020947
3,3,F,23.217984
4,4,M,26.648561
5,5,M,28.696146
6,6,F,21.447617
7,7,F,16.369787
8,8,F,23.585225
9,9,F,21.862031


In [29]:
d3["sex"].value_counts()

F        7
M        3
Other    0
Name: sex, dtype: int64

Bạn có thể sẽ muốn loại bỏ những hạng mục không tồn tại trong bộ số liệu, ví dụ khi tính BMI theo giới.

In [30]:
d3.groupby("sex")["bmi"].agg(["mean", "std"])

Unnamed: 0_level_0,mean,std
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
M,25.531704,3.846465
F,23.260165,5.066778
Other,,


Chúng ta có thể loại bỏ từng hạng mục cụ thể, hoặc loại bỏ tất cả các hạng mục không dùng đến.

In [31]:
d3["sex"].cat.remove_categories("Other")

0    F
1    M
2    F
3    F
4    M
5    M
6    F
7    F
8    F
9    F
Name: sex, dtype: category
Categories (2, object): ['M', 'F']

In [32]:
d3["sex"] = d3["sex"].cat.remove_unused_categories()

d3.groupby("sex")["bmi"].agg(["mean", "std"])

Unnamed: 0_level_0,mean,std
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
M,25.531704,3.846465
F,23.260165,5.066778


Bạn có thể sắp xếp lại các hạng mục theo thứ tự nhất định để phục vụ việc hiển thị phân tích số liệu. Ví dụ, chúng ta muốn kết quả phân tích sẽ hiển thị Nữ ("F") trước Nam ("M").

In [33]:
d3["sex"] = d3["sex"].cat.reorder_categories(["F", "M"])
d3["sex"]

0    F
1    M
2    F
3    F
4    M
5    M
6    F
7    F
8    F
9    F
Name: sex, dtype: category
Categories (2, object): ['F', 'M']

In [34]:
d3.groupby("sex")["bmi"].agg(["mean", "std"])

Unnamed: 0_level_0,mean,std
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
F,23.260165,5.066778
M,25.531704,3.846465


Với tất cả những kiến thức đã học, chúng ta sẽ sẵn sàng cho ví dụ trong bài sau: tạo ra data dictionary và sử dụng nó để label số liệu dạng code.

---

[Bài trước](./14_datetime.ipynb) - [Danh sách bài](../README.md) - [Bài sau]()