#**CONCATENATE (NỐI) & MERGE (KẾT HỢP)**

In [None]:
# Nhập thư viện
import pandas as pd

#1. Concatenate (Nối)

Concatenate (Nối) thường được sử dụng để nối hai hoặc nhiều DataFrame theo chiều ngang (column-wise) hoặc dọc (row-wise).

*Concatenate trong Pandas tương đương với UNION trong SQL.*

Trong ví dụ bên dưới, bảng df1, df2, df3 được nối với nhau theo chiều ngang (column-wise) để tại ra bảng Result.

![](https://pandas.pydata.org/pandas-docs/stable/_images/merging_concat_basic.png)

Code thực hiện

In [None]:
# Tạo bảng df1, df2, df3

df1 = pd.DataFrame({"A": ["A0", "A1", "A2", "A3"],
                    "B": ["B0", "B1", "B2", "B3"],
                    "C": ["C0", "C1", "C2", "C3"],
                    "D": ["D0", "D1", "D2", "D3"]},
                   index=[0, 1, 2, 3])

df2 = pd.DataFrame({"A": ["A4", "A5", "A6", "A7"],
                    "B": ["B4", "B5", "B6", "B7"],
                    "C": ["C4", "C5", "C6", "C7"],
                    "D": ["D4", "D5", "D6", "D7"]},
                   index=[4, 5, 6, 7])

df3 = pd.DataFrame({"A": ["A8", "A9", "A10", "A11"],
                    "B": ["B8", "B9", "B10", "B11"],
                    "C": ["C8", "C9", "C10", "C11"],
                    "D": ["D8", "D9", "D10", "D11"]},
                   index=[8, 9, 10, 11])

Để nối bảng, dùng `pd.concat()`. Cú pháp của hàm gồm 2 tham số chính:
- Danh sách các bảng (dataframe) cần nối
- Trục để thực hiện nối: axis=1 là thêm cột, axis=0 là thêm dòng.

In [None]:
# Nhớ cho các bảng cần nối vào 1 danh sách []
# Ví dụ: Thêm dòng
pd.concat([df1, df2, df3], axis=0)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


**Concat on axis=1** -> Thêm cột

In [None]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [None]:
df2

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [None]:
df3

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


In [None]:
pd.concat([df1, df2, df3], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


# 2. Merge


Trong thư viện pandas của Python, hàm `merge()` được sử dụng để kết hợp (merge) hai hoặc nhiều DataFrame dựa trên một hoặc nhiều cột chung.

*Quá trình này tương tự như việc thực hiện các hoạt động join trong SQL.*

![](https://lh3.googleusercontent.com/-n76c6dtr5sw/YBO5d-3PzGI/AAAAAAAAAh8/xiT6YIzePLEXArb8uU1f1vgg8JRXYeg8ACLcBGAsYHQ/image.png) <img src='https://i.imgur.com/lnSYp5D.png' width=400>

**Merge trên một cột key**

In [None]:
left = pd.DataFrame({"key": ["K0", "K1", "K2", "K3", "K6", "K7"],
                     "A": ["A0", "A1", "A2", "A3", "A6", "A7"],
                     "B": ["B0", "B1", "B2", "B3", "B6", "B7"]})
left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3
4,K6,A6,B6
5,K7,A7,B7


In [None]:
right = pd.DataFrame({"key": ["K0", "K1", "K2", "K3", "K4", "K5"],
                      "C": ["C0", "C1", "C2", "C3", "C4", "C5"],
                      "D": ["D0", "D1", "D2", "D3", "D4", "D5"]})
right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3
4,K4,C4,D4
5,K5,C5,D5


In [None]:
# tên cột key phải giống nhau ở cả hai bảng
pd.merge(left, right, how='right', on="key")

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3
4,K4,,,C4,D4
5,K5,,,C5,D5


**Merge trên hai cột key**

In [None]:
left = pd.DataFrame({"key1": ["K0", "K0", "K1", "K2"],
                     "key2": ["K0", "K1", "K0", "K1"],
                     "A": ["A0", "A1", "A2", "A3"],
                     "B": ["B0", "B1", "B2", "B3"]})
left

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [None]:
right = pd.DataFrame({"key1": ["K0", "K1", "K1", "K2"],
                      "key2": ["K0", "K0", "K0", "K0"],
                      "C": ["C0", "C1", "C2", "C3"],
                      "D": ["D0", "D1", "D2", "D3"]})
right

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [None]:
pd.merge(left, right, how='inner', on=["key1", "key2"])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


Cú pháp của **pd.merge**

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html

Dưới đây là mô tả chi tiết về các tham số chính:

* `left`: DataFrame bên trái cần được kết hợp.

* `right`: DataFrame bên phải cần được kết hợp.

* `how`: Loại kết hợp (inner, outer, left, right). Mặc định là 'inner'.

* `on`: Tên cột hoặc danh sách các cột chung dùng để kết hợp.

* `left_on`: Cột hoặc danh sách các cột trên DataFrame bên trái được sử dụng để kết hợp.

* `right_on`: Cột hoặc danh sách các cột trên DataFrame bên phải được sử dụng để kết hợp.

* `left_index`: Nếu là True, sử dụng chỉ số của DataFrame bên trái làm cột kết hợp.

* `right_index`: Nếu là True, sử dụng chỉ số của DataFrame bên phải làm cột kết hợp.

In [None]:
left = pd.DataFrame({"A": ["A0", "A1", "A2", "A3"],
                     "B": ["B0", "B1", "B2", "B3"],
                     "sample_A": ["C0", "C1", "C2", "C3"]},
                    index=pd.Index(["KEY1", "KEY2", "KEY3", "KEY4"]))
left

Unnamed: 0,A,B,sample_A
KEY1,A0,B0,C0
KEY2,A1,B1,C1
KEY3,A2,B2,C2
KEY4,A3,B3,C3


In [None]:
right = pd.DataFrame({"C": ["C0", "C1", "C2", "C3"],
                      "D": ["D0", "D1", "D2", "D3"],
                      "sample_B": ["C1", "C2", "KEY4", "KEY5"]},
                     index=pd.Index(["KEY0", "KEY1", "KEY2", "KEY7"]))
right

Unnamed: 0,C,D,sample_B
KEY0,C0,D0,C1
KEY1,C1,D1,C2
KEY2,C2,D2,KEY4
KEY7,C3,D3,KEY5


In [None]:
pd.merge(left[['A', 'B']], right[['C', 'D']], how='inner',
         left_index=True, right_index=True)

Unnamed: 0,A,B,C,D
KEY1,A0,B0,C1,D1
KEY2,A1,B1,C2,D2


In [None]:
pd.merge(left, right, how='inner', left_on='sample_A', right_on='sample_B')

Unnamed: 0,A,B,sample_A,C,D,sample_B
0,A1,B1,C1,C0,D0,C1
1,A2,B2,C2,C1,D1,C2


🙋🏻‍♂️ **TIPS**

1/ Các bảng có cùng tên cột key --> Dùng ON

2/ Các bảng có tên cột key khác nhau --> Dùng LEFT_ON, RIGHT_ON

3/ Các bảng đều sử dụng index làm cột key --> Dùng LEFT_INDEX, RIGHT_INDEX


❗️ **Nên chọn ra những cột quan trọng từ mỗi bảng trước khi nối**

# 3. Ví dụ 1: Nối bảng

Khám phá dữ liệu về dịch vụ điện thoại. Dữ liệu gồm 2 bảng:

- `usage`: thông tin sử dụng điện thoại của người dùng bao gồm số phút gọi đi, số lượng tin nhắn gửi đi, số lượng data đã sử dụng.
- `device`: thông tin về sản phẩm điện thoại người dùng sử dụng.

In [None]:
usage = pd.read_csv('user_usage.csv')
device = pd.read_csv('user_device.csv').drop(columns='user_id')

In [None]:
usage

Unnamed: 0,outgoing_mins_per_month,outgoing_sms_per_month,monthly_mb,use_id
0,21.97,4.82,1557.33,22787
1,1710.08,136.88,7267.55,22788
2,1710.08,136.88,7267.55,22789
3,94.46,35.17,519.12,22790
4,71.59,79.26,1557.33,22792
...,...,...,...,...
235,260.66,68.44,896.96,25008
236,97.12,36.50,2815.00,25040
237,355.93,12.37,6828.09,25046
238,632.06,120.46,1453.16,25058


In [None]:
device

Unnamed: 0,use_id,platform,platform_version,device,use_type_id
0,22782,ios,10.2,"iPhone7,2",2
1,22783,android,6.0,Nexus 5,3
2,22784,android,5.1,SM-G903F,1
3,22785,ios,10.2,"iPhone7,2",3
4,22786,android,6.0,ONE E1003,1
...,...,...,...,...,...
267,23049,android,6.0,SM-G900F,1
268,23050,ios,10.2,"iPhone7,2",3
269,23051,ios,10.2,"iPhone7,2",3
270,23052,ios,10.1,"iPhone8,4",3


Một lỗi thường gặp khi làm việc với nhiều bảng là cố gộp tất cả các bảng vào nhau ngay từ đầu.

- Việc gộp tất cả các bảng ngay từ đầu dẫn tới một bảng cuối khổng lồ và gây khó khăn cho việc xử lý dữ liệu.

Khi làm việc với nhiều bảng, chúng ta nên:

- Định nghĩa câu hỏi.
- Chỉ gộp những cột cần thiết để trả lời được câu hỏi.

*Trong ví dụ này, sinh viên có thể gộp 2 bảng vào và dùng bảng kết quả để trả lời những câu hỏi còn lại của bài tập. Tuy nhiên, trong trường hợp chúng ta có một bảng với hàng triệu dòng và rất nhiều cột, cần cân nhắc kỹ trước khi gộp.*

## Question 1: Nền tảng (platform) nào có trung bình sử dụng internet hàng tháng cao nhất (MB)?


Để trả lời câu hỏi này, chúng ta cần những thông tin sau:
- Monthly Usage trong bảng `usage`
- Platform trong bảng `device`
- Hai bảng này đều có cột key là use_id

In [None]:
q1 = pd.merge(left = device[['use_id', 'platform']],
              right = usage[['use_id', 'monthly_mb']],
              on = 'use_id',
              how = 'inner')

q1

Unnamed: 0,use_id,platform,monthly_mb
0,22787,android,1557.33
1,22788,android,7267.55
2,22789,android,7267.55
3,22790,android,519.12
4,22792,android,1557.33
...,...,...,...
154,23043,android,5191.12
155,23044,android,3114.67
156,23046,android,5191.12
157,23049,android,519.12


In [None]:
q1.groupby('platform')['monthly_mb'].mean()

platform
android    4221.387834
ios         961.155000
Name: monthly_mb, dtype: float64

Khách hàng dùng thiết bị Android dùng Internet nhiều hơn (gần gấp 5 lần khách hàng dùng IOS)

## Question 2: *(Your turn)*

Giữa 2 loại use_type_id, so sánh:

- Trung bình outgoing_mins_per_month
- Trung bình outgoing_sms_per_month
- Trung bình monthly_mb

In [None]:
# YOUR CODE HERE
q2 = pd.merge(left = device[['use_id', 'use_type_id']],
              right = usage,
              on = 'use_id',
              how = 'inner')

q2.groupby('use_type_id')[['outgoing_mins_per_month', 'outgoing_sms_per_month', 'monthly_mb']].mean()

Unnamed: 0_level_0,outgoing_mins_per_month,outgoing_sms_per_month,monthly_mb
use_type_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,201.258535,85.354586,4221.387834
2,366.06,293.975,961.155


# 4. Ví Dụ 2 - Self Join

Chúng ta có một bộ dữ liệu về việc nộp bài tập của sinh viên. Một sinh viên có thể nộp bài tập nhiều lần. Mỗi hàng là một lần nộp bài.

Làm thế nào chúng ta biết được đã bao lâu kể từ lần đầu tiên sinh viên đó nộp bài tập?

In [None]:
students = {'id':['001', '002', '003', '001', '003', '001'],
            'submissionAt': ['12/08/2021', '12/08/2021', '13/08/2021', '13/08/2021', '15/08/2021', '17/08/2021']}

students = pd.DataFrame(students)
students['submissionAt'] = pd.to_datetime(students['submissionAt'], dayfirst=True)
students

Unnamed: 0,id,submissionAt
0,1,2021-08-12
1,2,2021-08-12
2,3,2021-08-13
3,1,2021-08-13
4,3,2021-08-15
5,1,2021-08-17


In [None]:
# Bước 1: Tìm thời gian nộp bài lần đầu tiên
first_sub = students.groupby('id')['submissionAt'].min().reset_index()
first_sub

Unnamed: 0,id,submissionAt
0,1,2021-08-12
1,2,2021-08-12
2,3,2021-08-13


In [None]:
# Bước 2: Join bảng students với first_sub
final = pd.merge(students, first_sub, how='left', on='id')
final.columns = ['id', 'submissionAt', 'firstSubmission']
final

Unnamed: 0,id,submissionAt,firstSubmission
0,1,2021-08-12,2021-08-12
1,2,2021-08-12,2021-08-12
2,3,2021-08-13,2021-08-13
3,1,2021-08-13,2021-08-12
4,3,2021-08-15,2021-08-13
5,1,2021-08-17,2021-08-12


In [None]:
# Bước 3: Tính thời gian
final['Duration'] = final['submissionAt'] - final['firstSubmission']
final

Unnamed: 0,id,submissionAt,firstSubmission,Duration
0,1,2021-08-12,2021-08-12,0 days
1,2,2021-08-12,2021-08-12,0 days
2,3,2021-08-13,2021-08-13,0 days
3,1,2021-08-13,2021-08-12,1 days
4,3,2021-08-15,2021-08-13,2 days
5,1,2021-08-17,2021-08-12,5 days
