# D12 Ghép các bộ dữ liệu

## Mục đích

Giới thiệu tính năng concat, merge, và join của Pandas.


## Các kịch bản bổ sung số liệu

Trong công việc liên quan tới số liệu, chúng ta thường xuyên cần phải bổ sung số liệu vào một bộ số liệu ban đầu. Ví dụ:

- Bổ sung thêm các bản ghi mới vào trong bộ số liệu.
- Ghép các bộ số liệu của các điểm nghiên cứu hoặc các năm khác nhau.
- Nối bộ số liệu của các biểu mẫu khác nhau với nhau (ví dụ, số liệu về bệnh nhân ghép với kết quả xét nghiệm).
- v.v.

Để làm công việc này, chúng ta sẽ cần sử dụng tính năng ghép các bộ số liệu. Có hai kịch bản chính.

### Bổ sung bản ghi mới

Trong ví dụ dưới đây, chúng ta có bộ số liệu ban đầu có 5 hàng.

In [1]:
import pandas as pd

d = pd.DataFrame({
    "id": range(1, 6),
    "sex": [0, 0, 1, 0, 1],
    "bmi": [19.6, 23.2, 23.8, 21.6, 22.5],
    "qol": [100, 80, 85, 90, 78]
})

d

Unnamed: 0,id,sex,bmi,qol
0,1,0,19.6,100
1,2,0,23.2,80
2,3,1,23.8,85
3,4,0,21.6,90
4,5,1,22.5,78


Chúng ta muốn ghép thêm 3 hàng mới vào trong bộ số liệu này.

In [2]:
d_addrows = pd.DataFrame({
    "id": range(10, 13),
    "sex": [1, 1, 0],
    "bmi": [21, 29.4, 27.1]
})

d_addrows

Unnamed: 0,id,sex,bmi
0,10,1,21.0
1,11,1,29.4
2,12,0,27.1


### Bổ sung cột mới

Chúng ta cũng có thể thêm một số cột mới vào bộ số liệu ban đầu.

In [3]:
d_addcols = pd.DataFrame({
    "eval": [1, 3, 5, 3, 4],
    "intervention": [0, 1, 1, 1, 0]
}, index=[0, 2, 3, 4, 5])

d_addcols

Unnamed: 0,eval,intervention
0,1,0
2,3,1
3,5,1
4,3,1
5,4,0


## Các hình thức ghép nối

Chúng ta có thể ghép các cột của cùng các bộ số liệu và cho ra các kết quả khác nhau.

![](https://cdn.educba.com/academy/wp-content/uploads/2019/11/joins-in-mysql-1.png)

Kiểu ghép nối | Kết quả
--------------|-----------------------------------------------
LEFT JOIN     | Lấy toàn bộ dữ liệu của bộ số liệu ban đầu, ghép với các bản ghi của bộ số liệu bổ sung có chung ID với bộ số liệu ban đầu
RIGHT JOIN    | Lấy toàn bộ dữ liệu của bộ số liệu bổ sung, ghép với các bản ghi của bộ số liệu ban đầu có chung ID với bộ số liệu bổ sung
OUTER JOIN    | Còn gọi là FULL JOIN. Lấy tất cả dữ liệu của cả hai bộ số liệu
INNER JOIN    | Chỉ lấy những bản ghi có ID ở cả hai bộ số liệu
CROSS JOIN    | Ghép từng bản ghi ở bộ số liệu ban đầu với từng bản ghi ở bộ số liệu bổ sung

Chúng ta sẽ xem một số ví dụ trước khi tìm hiểu cách thực hiện trong Pandas.

### OUTER JOIN

Chúng ta sẽ xem kết quả OUTER JOIN trước để hình dung kết quả khi ghép tất cả các dữ liệu của hai bộ số liệu cho dù có một số ID không tồn tại trong mỗi bộ số liệu.

In [4]:
d.join(d_addcols, how="outer")

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1.0,0.0,19.6,100.0,1.0,0.0
1,2.0,0.0,23.2,80.0,,
2,3.0,1.0,23.8,85.0,3.0,1.0
3,4.0,0.0,21.6,90.0,5.0,1.0
4,5.0,1.0,22.5,78.0,3.0,1.0
5,,,,,4.0,0.0


Như bạn thấy, dòng `5` không xuất hiện ở bộ số liệu ban đầu, và dòng `1` không có trong bộ số liệu bổ sung. Trong OUTER JOIN, dữ liệu ở các dòng không tồn tại sẽ là missing (NA).

### LEFT JOIN

Trong LEFT JOIN, dòng `5` sẽ không được thêm vào vì nó không tồn tại trong bộ số liệu ban đầu.

In [5]:
d.join(d_addcols, how="left")

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1,0,19.6,100,1.0,0.0
1,2,0,23.2,80,,
2,3,1,23.8,85,3.0,1.0
3,4,0,21.6,90,5.0,1.0
4,5,1,22.5,78,3.0,1.0


### RIGHT JOIN

Trong RIGHT JOIN, dòng `1` sẽ không được thêm vào vì nó không tồn tại trong bộ số liệu bổ sung.

In [6]:
d.join(d_addcols, how="right")

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1.0,0.0,19.6,100.0,1,0
2,3.0,1.0,23.8,85.0,3,1
3,4.0,0.0,21.6,90.0,5,1
4,5.0,1.0,22.5,78.0,3,1
5,,,,,4,0


### INNER JOIN

Trong INNTER JOIN, dòng `1` và `5` đều sẽ không được thêm vào. Bộ số liệu cuối cùng chỉ giữ lại những bản ghi có ID xuất hiện cả ở trong hai bộ số liệu.

In [7]:
d.join(d_addcols, how="inner")

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1,0,19.6,100,1,0
2,3,1,23.8,85,3,1
3,4,0,21.6,90,5,1
4,5,1,22.5,78,3,1


### CROSS JOIN

In [8]:
d.join(d_addcols, how="cross")

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1,0,19.6,100,1,0
1,1,0,19.6,100,3,1
2,1,0,19.6,100,5,1
3,1,0,19.6,100,3,1
4,1,0,19.6,100,4,0
5,2,0,23.2,80,1,0
6,2,0,23.2,80,3,1
7,2,0,23.2,80,5,1
8,2,0,23.2,80,3,1
9,2,0,23.2,80,4,0


## Concat, merge và join

Đây là ba tính năng ghép các bộ số liệu khác nhau của Pandas. Chúng có một số đặc điểm khác nhau căn bản:

Tính năng | Đặc điểm
----------|--------------------------------------------------------------------
Concat    | Chuyên dùng để gộp nhiều bộ số liệu với nhau. Có thể ghép cột (theo index) hoặc hàng (theo columns).
Merge     | Chỉ ghép được hai bộ số liệu cùng một lúc. Chuyên dùng để ghép cột (theo index).
Join      | Hàm thuộc tính của data frame, nối các bộ số liệu bằng chaining.

Bạn có thể đọc thêm bài viết [này](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html) để làm quen với cú pháp hàm và các tính năng. Mình sẽ chỉ lấy một vài ví dụ thường gặp.

### Ghép các hàng

Đây là chức năng chuyên biệt của `pandas.concat()` mà hai hàm còn lại không có. Tốc độ xử lí của concat rất nhanh, do đó, nó được khuyến cáo sử dụng trong mọi trường hợp bạn muốn ghép theo index hoặc theo columns. Bạn có thể cung cấp các bộ số liệu dưới dạng một danh sách.

In [9]:
pd.concat([d, d_addrows])

Unnamed: 0,id,sex,bmi,qol
0,1,0,19.6,100.0
1,2,0,23.2,80.0
2,3,1,23.8,85.0
3,4,0,21.6,90.0
4,5,1,22.5,78.0
0,10,1,21.0,
1,11,1,29.4,
2,12,0,27.1,


Bạn có thể concat bảo tồn index của các bộ số liệu, do đó chúng ta sẽ có một số hàng có cùng index. Bạn nên thận trọng với việc này, có thể khắc phục bằng cách luôn có một trường số liệu unique cho tất cả các bản ghi (trong ví dụ này là `"id"`) hoặc đảm bảo dữ liệu trong index là unique (ví dụ, `.set_index("id")`).

Bạn cũng có thể thêm chỉ một dòng mới (kiểu series) vào bộ số liệu ban đầu. Chúng ta sẽ cần chuyển series thành data frame sau đó transpose nó.

In [10]:
s_newrow = pd.Series({
    "id": 6,
    "sex": 1,
    "bmi": 19.2,
    "qol": 99
})

s_newrow

id      6.0
sex     1.0
bmi    19.2
qol    99.0
dtype: float64

In [11]:
pd.concat([d, s_newrow.to_frame().T])

Unnamed: 0,id,sex,bmi,qol
0,1.0,0.0,19.6,100.0
1,2.0,0.0,23.2,80.0
2,3.0,1.0,23.8,85.0
3,4.0,0.0,21.6,90.0
4,5.0,1.0,22.5,78.0
0,6.0,1.0,19.2,99.0


Concat có thể ghép nhiều bộ số liệu cùng một lúc.

In [12]:
pd.concat([d, s_newrow.to_frame().T, d_addrows])

Unnamed: 0,id,sex,bmi,qol
0,1.0,0.0,19.6,100.0
1,2.0,0.0,23.2,80.0
2,3.0,1.0,23.8,85.0
3,4.0,0.0,21.6,90.0
4,5.0,1.0,22.5,78.0
0,6.0,1.0,19.2,99.0
0,10.0,1.0,21.0,
1,11.0,1.0,29.4,
2,12.0,0.0,27.1,


Nếu cung cấp danh sách các bộ số liệu dưới dạng từ điển, bạn sẽ tạo ra một index nhiều tầng. Rất tiện lợi trong việc đánh dấu số liệu đến từ nguồn nào.

In [13]:
pd.concat({"df1": d, "df2": d_addrows})

Unnamed: 0,Unnamed: 1,id,sex,bmi,qol
df1,0,1,0,19.6,100.0
df1,1,2,0,23.2,80.0
df1,2,3,1,23.8,85.0
df1,3,4,0,21.6,90.0
df1,4,5,1,22.5,78.0
df2,0,10,1,21.0,
df2,1,11,1,29.4,
df2,2,12,0,27.1,


### Ghép các cột

Mặc định, concat sẽ ghép các cột trong các bộ số liệu theo hình thức OUTER JOIN. Bạn cần thêm đối số `axis=1`.

In [14]:
pd.concat([d, d_addcols], axis=1)

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1.0,0.0,19.6,100.0,1.0,0.0
1,2.0,0.0,23.2,80.0,,
2,3.0,1.0,23.8,85.0,3.0,1.0
3,4.0,0.0,21.6,90.0,5.0,1.0
4,5.0,1.0,22.5,78.0,3.0,1.0
5,,,,,4.0,0.0


Bạn có thể thay đổi thiết lập mặc định này bằng đối số `join`.

In [15]:
pd.concat([d, d_addcols], axis=1, join="inner")

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1,0,19.6,100,1,0
2,3,1,23.8,85,3,1
3,4,0,21.6,90,5,1
4,5,1,22.5,78,3,1


Kết quả tương tự có thể được tạo ra bằng hàm `pandas.merge()`. Mặc định, merge sử dụng một (hoặc vài) cột làm trường chìa khóa để ghép các bộ số liệu.

In [16]:
d_addcols2 = d_addcols.copy(deep=True)
d_addcols2["id"] = [1, 3, 4, 5, 6]
pd.merge(left=d, right=d_addcols2, on="id")

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1,0,19.6,100,1,0
1,3,1,23.8,85,3,1
2,4,0,21.6,90,5,1
3,5,1,22.5,78,3,1


Bạn có thể thấy rằng mặc định của merge là INNER JOIN. Chúng ta có thể thay đổi thiết lập này bằng đối số `how`.

In [17]:
pd.merge(left=d, right=d_addcols2, on="id", how="left")

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1,0,19.6,100,1.0,0.0
1,2,0,23.2,80,,
2,3,1,23.8,85,3.0,1.0
3,4,0,21.6,90,5.0,1.0
4,5,1,22.5,78,3.0,1.0


Hàm `.join()` mặc định sử dụng index làm trường chìa khóa.

In [18]:
d.join(d_addcols)

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1,0,19.6,100,1.0,0.0
1,2,0,23.2,80,,
2,3,1,23.8,85,3.0,1.0
3,4,0,21.6,90,5.0,1.0
4,5,1,22.5,78,3.0,1.0


Với lệnh trên bạn sẽ không thể ghép được bộ số liệu ban đầu với `d_addcols2` vì có cột `"id"` có tên giống nhau ở hai bộ số liệu. Chúng ta sẽ thêm thiết lập để tạo tên mới cho các cột giống nhau.

In [19]:
d.join(d_addcols2, lsuffix="_x", rsuffix="_y")

Unnamed: 0,id_x,sex,bmi,qol,eval,intervention,id_y
0,1,0,19.6,100,1.0,0.0,1.0
1,2,0,23.2,80,,,
2,3,1,23.8,85,3.0,1.0,3.0
3,4,0,21.6,90,5.0,1.0,4.0
4,5,1,22.5,78,3.0,1.0,5.0


Trong trường hợp bạn muốn sử dụng cột `"id"` để join, hãy chuyển nó thành index ở bộ số liệu bổ sung.

In [20]:
d.join(d_addcols2.set_index("id"), on="id")

Unnamed: 0,id,sex,bmi,qol,eval,intervention
0,1,0,19.6,100,1.0,0.0
1,2,0,23.2,80,,
2,3,1,23.8,85,3.0,1.0
3,4,0,21.6,90,5.0,1.0
4,5,1,22.5,78,3.0,1.0


### Bộ số liệu có trường chìa khóa không unique

Trong nhiều trường hợp, bạn sẽ phải các bộ số liệu có trường chìa khóa không unique. Ví dụ, bạn có danh sách kết quả xét nghiệm, mỗi bệnh nhân có nhiều ngày xét nghiệm khác nhau, như ví dụ dưới đây.

In [21]:
d_addcols3 = pd.DataFrame({
    "id": [1, 1, 2, 3, 4, 5, 5],
    "hb": [100, 102, 120, 135, 128, 142, 130]
})

d_addcols3

Unnamed: 0,id,hb
0,1,100
1,1,102
2,2,120
3,3,135
4,4,128
5,5,142
6,5,130


Các tính năng ghép sẽ sử dụng hình thức CROSS JOIN cho các đối tượng có nhiều hơn một bản ghi.

In [22]:
pd.concat([d.set_index("id"), d_addcols3.set_index("id")], axis=1)

Unnamed: 0_level_0,sex,bmi,qol,hb
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0,19.6,100,100
1,0,19.6,100,102
2,0,23.2,80,120
3,1,23.8,85,135
4,0,21.6,90,128
5,1,22.5,78,142
5,1,22.5,78,130


In [23]:
pd.merge(d, d_addcols3, on="id")

Unnamed: 0,id,sex,bmi,qol,hb
0,1,0,19.6,100,100
1,1,0,19.6,100,102
2,2,0,23.2,80,120
3,3,1,23.8,85,135
4,4,0,21.6,90,128
5,5,1,22.5,78,142
6,5,1,22.5,78,130


In [24]:
d.join(d_addcols3.set_index("id"), on="id")

Unnamed: 0,id,sex,bmi,qol,hb
0,1,0,19.6,100,100
0,1,0,19.6,100,102
1,2,0,23.2,80,120
2,3,1,23.8,85,135
3,4,0,21.6,90,128
4,5,1,22.5,78,142
4,5,1,22.5,78,130


---

[Bài trước](./11_tabulation.ipynb) - [Danh sách bài](../README.md) - [Bài sau](./13_string.ipynb)