# Ghép nối các cấu trúc dữ liệu pandas (Concatenating pandas structure)

In [1]:
import pandas as pd

Pandas cung cấp hai phương thức:

1. pd.concat(). Linh hoạt và có thể làm tốt cả việc ghép nối theo hàng và cột.


2. .append(). Chỉ ghép nối theo hàng nhưng cách sử dụng linh hoạt dễ nhớ.

Phương thức concat thực hiện tất cả các hoạt động ghép nối trên một trục trong khi thực hiện logic như union hoặc intersection của các chỉ mục (nếu có) trên các trục khác.

**pd.concat ( objs, axis = 0, join = 'outer', join_axes = None, ignore_index = False, keys = None, levels = None, names = None, verify_integrity = False, copy = True )**

Tham số thường dùng:

* **objs:** danh sách các object Series, DataFrame, hoặc Panel
* **axis** (mặc định 0): 
    * 0: concat theo cột 
    * 1: concat theo hàng
* **join:** inner/ outer (mặc định outer)
* **ignore_index:** 
    * mặc định False 
    * giá trị True: giá trị index sẽ không được sử dụng trong khi concat. Kết quả trả về index được đánh lại từ 0

### Từ khóa axis
Mặc định axis = 0, nghĩa là các dataframe sẽ được ghép chồng theo hàng (row).

In [2]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']}, index = [0, 1, 2, 3])
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']}, index=[4, 5, 6, 7]) 
df3 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']}, index=[2, 3, 6, 7])

Cụ thể hình dạng df1, df2, df3 như sau:

In [3]:
print ('>>> df1')
print (df1)
print ('\n>>> df2')
print (df2)
print ('\n>>> df3')
print (df3)

>>> df1
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
2  A2  B2  C2  D2
3  A3  B3  C3  D3

>>> df2
    A   B   C   D
4  A4  B4  C4  D4
5  A5  B5  C5  D5
6  A6  B6  C6  D6
7  A7  B7  C7  D7

>>> df3
    B   D   F
2  B2  D2  F2
3  B3  D3  F3
6  B6  D6  F6
7  B7  D7  F7


**Ghép df1, df3, df2 với axis = 0 (xếp chồng theo hàng):**

In [4]:
pd.concat([df1, df3, df2])

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7
4,A4,B4,C4,D4,
5,A5,B5,C5,D5,


**Ghép df1,df2 với axis = 1:**

In [5]:
pd.concat([df1, df3, df2], axis = 1)

Unnamed: 0,A,B,C,D,B.1,D.1,F,A.1,B.2,C.1,D.2
0,A0,B0,C0,D0,,,,,,,
1,A1,B1,C1,D1,,,,,,,
2,A2,B2,C2,D2,B2,D2,F2,,,,
3,A3,B3,C3,D3,B3,D3,F3,,,,
4,,,,,,,,A4,B4,C4,D4
5,,,,,,,,A5,B5,C5,D5
6,,,,,B6,D6,F6,A6,B6,C6,D6
7,,,,,B7,D7,F7,A7,B7,C7,D7


### Từ khóa ignore_index

Từ khóa **.ignore_index = True** để đảm bảo sau khi ghép nối, các index của bảng mới được reset để loại bỏ repeated index labels. Nó tương đương với **.reset_index(drop=True)**

In [6]:
df4 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']},index=[0, 2, 3, 4])
df4

Unnamed: 0,B,D,F
0,B2,D2,F2
2,B3,D3,F3
3,B6,D6,F6
4,B7,D7,F7


In [7]:
pd.concat([df1, df4])

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
0,,B2,,D2,F2
2,,B3,,D3,F3
3,,B6,,D6,F6
4,,B7,,D7,F7


In [8]:
pd.concat([df1, df4], ignore_index = True)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [9]:
pd.concat([df1, df4]).reset_index(drop = True)

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
4,,B2,,D2,F2
5,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


tương tự các cho append().

Cả hai concat() và append() cho kết quả giống nhau. NaN sẽ tự điền trong trường hợp thiếu thông tin.

### Từ khóa keys

Nếu như không muốn reset indexes của các dataframes mà muốn đánh dấu index đó đến từ dataframe nào thì giải pháp ở đây chính là sử dụng multi-level indexing qua từ khóa keys.

In [10]:
pd.concat([df1, df2], keys = ['df1', 'df2'])

Unnamed: 0,Unnamed: 1,A,B,C,D
df1,0,A0,B0,C0,D0
df1,1,A1,B1,C1,D1
df1,2,A2,B2,C2,D2
df1,3,A3,B3,C3,D3
df2,4,A4,B4,C4,D4
df2,5,A5,B5,C5,D5
df2,6,A6,B6,C6,D6
df2,7,A7,B7,C7,D7


In [11]:
pd.concat([df1, df2], keys = ['df1', 'df2'], axis = 1)

Unnamed: 0_level_0,df1,df1,df1,df1,df2,df2,df2,df2
Unnamed: 0_level_1,A,B,C,D,A,B,C,D
0,A0,B0,C0,D0,,,,
1,A1,B1,C1,D1,,,,
2,A2,B2,C2,D2,,,,
3,A3,B3,C3,D3,,,,
4,,,,,A4,B4,C4,D4
5,,,,,A5,B5,C5,D5
6,,,,,A6,B6,C6,D6
7,,,,,A7,B7,C7,D7


### Từ khóa join
Ý nghĩa là kết hợp các hàng của nhiều dataframe với nhau. Có nhiều loại join chủ yếu là hai loại ”inner” và “outer”.

+ outer: sẽ gồm toàn bộ các index của tất cả các dataframe và giá trị NaN sẽ được điền khi thiếu thông tin.

+ inner: sẽ chỉ gồm các index chung của các dataframe.

In [12]:
df5 = pd.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
                    'D': ['D2', 'D3', 'D6', 'D7'],
                    'F': ['F2', 'F3', 'F6', 'F7']}, index = [2, 3, 6, 7])
df5

Unnamed: 0,B,D,F
2,B2,D2,F2
3,B3,D3,F3
6,B6,D6,F6
7,B7,D7,F7


In [13]:
pd.concat([df1, df5]) # mặc định join = 'outer'

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7


In [14]:
pd.concat([df1, df5], join = 'inner')

Unnamed: 0,B,D
0,B0,D0
1,B1,D1
2,B2,D2
3,B3,D3
2,B2,D2
3,B3,D3
6,B6,D6
7,B7,D7


### append() 

Ngoài cách dùng concat như trên, còn một cách khác sử dụng phương thức append() khi ghép hai list với nhau. Và chúng chỉ có thể ghép các frame theo trục axis = 0.

In [15]:
df1.append([df3, df2])

Unnamed: 0,A,B,C,D,F
0,A0,B0,C0,D0,
1,A1,B1,C1,D1,
2,A2,B2,C2,D2,
3,A3,B3,C3,D3,
2,,B2,,D2,F2
3,,B3,,D3,F3
6,,B6,,D6,F6
7,,B7,,D7,F7
4,A4,B4,C4,D4,
5,A5,B5,C5,D5,


Thực tế ta đã đưa ra các ví dụ về ghép nối các frame có **ndim** khác nhau. Coi các đối tượng **Series** như các frame với **ndim** = 1. Ta ghép nối như sau:

In [16]:
s1 = pd.Series(['X0', 'X1', 'X2', 'X3'], name = 'X')
s1.ndim

1

In [17]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [18]:
pd.concat([df1, s1], axis = 1)

Unnamed: 0,A,B,C,D,X
0,A0,B0,C0,D0,X0
1,A1,B1,C1,D1,X1
2,A2,B2,C2,D2,X2
3,A3,B3,C3,D3,X3


Khi dùng append() sẽ được hiểu là thêm hàng vào frame.



In [19]:
s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index = [1, 2, 3, 4])
s2

1    X0
2    X1
3    X2
4    X3
dtype: object

In [20]:
df1.append(s2, ignore_index = True)

Unnamed: 0,A,B,C,D,1,2,3,4
0,A0,B0,C0,D0,,,,
1,A1,B1,C1,D1,,,,
2,A2,B2,C2,D2,,,,
3,A3,B3,C3,D3,,,,
4,,,,,X0,X1,X2,X3


In [21]:
s3 = pd.Series(['X0', 'X1', 'X2', 'X3'], index = ['A', 'B', 'C', 'D'])
df1.append(s3, ignore_index = True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,X0,X1,X2,X3


Ngoài dataframe hoặc series thì append() hoặc pd.concat() cũng chấp nhận đầu vào là dictionary.

Ví dụ ghép một dictionary vào một dataframe qua append(). NaN sẽ tự điền trong trường hợp thiếu thông tin.

In [22]:
dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4},{'A': 5, 'B': 6, 'C': 7, 'Y': 8}]
df1.append(dicts, ignore_index = False)

Unnamed: 0,A,B,C,D,X,Y
0,A0,B0,C0,D0,,
1,A1,B1,C1,D1,,
2,A2,B2,C2,D2,,
3,A3,B3,C3,D3,,
0,1,2,3,,4.0,
1,5,6,7,,,8.0


### Tổng hợp dữ liệu từ nhiều files đơn lẻ 
Kết hợp các tools mà pandas cung cấp và dùng một **loop/comprehension** để tổng hợp thành list các dataframe và sử dụng **concat()** hoặc **append()** để ghép nối chúng

Bài toán: Một thư mục chứa 100 files “sales_[0-100].csv” có định dạng *csv cách thức tổng hợp sẽ là:

**B1. Dùng glob() để liệt kê toàn bộ tên các files “sales_[0-100].csv”.**

**B2. Dùng loop hoặc comprehension và read_csv() để đọc toàn bộ các csv files và tạo ra một list các dataframes.**

**B3. Concat() chúng lại thành một dataframe duy nhất.**

*Kết hợp nhiều dataframe đến từ nhiều nguồn khác nhau trong thế giới thực qua các phương thức **.append()** và **pd.concat()** để tạo thành một một dataframe duy nhất giúp cho việc khai phá dữ liệu trở lên dễ dàng hơn*