# Combining Datasets: Concat and Append

In [1]:
import pandas as pd
import numpy as np

In [2]:
## Hàm tạo nhanh dataframe

In [3]:
def make_df(cols, ind):
    """Quickly make a DataFrame"""
    data = {c: [str(c) + str(i) for i in ind]
            for c in cols}
    return pd.DataFrame(data, ind)

# example DataFrame
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


## Recall: Concatenation of NumPy Arrays

In [4]:
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [5]:
x = [[1, 2],
     [3, 4]]
np.concatenate([x, x], axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

## Simple Concatenation with pd.concat

* Pandas có một hàm, pd.concat (), có cú pháp tương tự như np.concatenate nhưng chứa một số tùy chọn mà chúng ta sẽ thảo luận ngay sau đây:

* pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)

* pd.concat () có thể được sử dụng để nối đơn giản các đối tượng Series hoặc DataFrame, giống như np.concatenate () có thể được sử dụng để nối các mảng đơn giản:

In [6]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [9]:
df1 = make_df('AB', [1, 2])
df2 = make_df('AB', [3, 4])
display(df1, df2, pd.concat([df1, df2]))

Unnamed: 0,A,B
1,A1,B1
2,A2,B2


Unnamed: 0,A,B
3,A3,B3
4,A4,B4


Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


In [14]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
display(df3, df4, pd.concat([df3, df4], axis=1))

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


Unnamed: 0,C,D
0,C0,D0
1,C1,D1


Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1


### Duplicate indices

* Một điểm khác biệt quan trọng giữa np.concatenate và pd.concat là phép ghép Pandas bảo toàn các chỉ số, ngay cả khi kết quả sẽ có các chỉ số trùng lặp! Hãy xem xét ví dụ đơn giản này:

In [15]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index  # make duplicate indices!
display(x, y, pd.concat([x, y]))

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


Unnamed: 0,A,B
0,A2,B2
1,A3,B3


Unnamed: 0,A,B
0,A0,B0
1,A1,B1
0,A2,B2
1,A3,B3


### Thêm khóa MultiIndex

* Một tùy chọn khác là sử dụng tùy chọn khóa để chỉ định nhãn cho các nguồn dữ liệu; kết quả sẽ là một chuỗi được lập chỉ mục phân cấp chứa dữ liệu:

In [17]:
display(x, y, pd.concat([x, y], keys=['x', 'y']))

Unnamed: 0,A,B
0,A0,B0
1,A1,B1


Unnamed: 0,A,B
0,A2,B2
1,A3,B3


Unnamed: 0,Unnamed: 1,A,B
x,0,A0,B0
x,1,A1,B1
y,0,A2,B2
y,1,A3,B3


### Concatenation with joins

* Trong thực tế, dữ liệu từ các nguồn khác nhau có thể có các bộ tên cột khác nhau và pd.concat cung cấp một số tùy chọn trong trường hợp này. Hãy xem xét sự kết hợp của hai DataFrames sau, có một số cột (nhưng không phải tất cả!) Chung:

In [28]:
df5 = make_df('ABC', [1, 2])
df6 = make_df('BCD', [3, 4])
display(df5, df6, pd.concat([df5, df6]))

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2


Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4


Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


* Theo mặc định, các mục nhập không có sẵn dữ liệu được điền bằng các giá trị NA. Để thay đổi điều này, chúng ta có thể chỉ định một trong một số tùy chọn cho các tham số nối và join_axes của hàm nối. Theo mặc định, phép nối là sự kết hợp của các cột đầu vào (tham gia = 'bên ngoài'), nhưng chúng ta có thể thay đổi điều này thành phần giao nhau của các cột bằng cách sử dụng tham gia = 'bên trong':

In [30]:
display(df5, df6,
        pd.concat([df5, df6], join='inner'))

Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2


Unnamed: 0,B,C,D
3,B3,C3,D3
4,B4,C4,D4


Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


* Một tùy chọn khác là chỉ định trực tiếp chỉ mục của các cột còn lại bằng cách sử dụng đối số join_axes, lấy một danh sách các đối tượng chỉ mục. Ở đây, chúng tôi sẽ chỉ định rằng các cột được trả về phải giống với các cột của đầu vào đầu tiên:

## append() method

* Bởi vì nối mảng trực tiếp rất phổ biến, các đối tượng Series và DataFrame có một phương thức nối thêm có thể thực hiện điều tương tự với ít lần nhấn phím hơn. Ví dụ: thay vì gọi pd.concat ([df1, df2]), bạn có thể chỉ cần gọi df1.append (df2):

In [35]:
display(df1, df2, df1.append(df2))

  display(df1, df2, df1.append(df2))


Unnamed: 0,A,B
1,A1,B1
2,A2,B2


Unnamed: 0,A,B
3,A3,B3
4,A4,B4


Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4


* Hãy nhớ rằng không giống như các phương thức append () và expand () của danh sách Python, phương thức append () trong Pandas không sửa đổi đối tượng gốc – thay vào đó nó tạo một đối tượng mới với dữ liệu được kết hợp. Nó cũng không phải là một phương pháp hiệu quả, vì nó liên quan đến việc tạo ra một chỉ mục và bộ đệm dữ liệu mới. Do đó, nếu bạn dự định thực hiện nhiều thao tác nối thêm, nói chung tốt hơn là nên xây dựng một danh sách các DataFrame và chuyển tất cả chúng cùng một lúc vào hàm concat ().

* Trong phần tiếp theo, chúng ta sẽ xem xét một cách tiếp cận khác mạnh mẽ hơn để kết hợp dữ liệu từ nhiều nguồn, hợp nhất / tham gia kiểu cơ sở dữ liệu được triển khai trong pd.merge. Để biết thêm thông tin về concat (), append () và chức năng liên quan, hãy xem phần "Merge, Join và Concatenate" của tài liệu Pandas.