In [1]:
import pandas
import numpy 

def makeDataFrame(cols, indices):
    data = {
        col: [str(col) + str(index) for index in indices]
        for col in cols
    }
    return pandas.DataFrame(data, indices)

makeDataFrame("ABC", range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


In [2]:
"""Concatenation of Numpy arrays"""
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
numpy.concatenate([x, y, z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [3]:
"""SImple concatenation với pandas.concat"""

series1 = pandas.Series(["A", "B", "C"], index = [1, 2, 3])
series2 = pandas.Series(["D", "E", "F"], index = [4, 5, 6])

pandas.concat([
    series1,
    series2
])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [4]:

dataFrame1 = makeDataFrame("AB", [1, 2])
dataFrame2 = makeDataFrame("AB", [3, 4])
print(dataFrame1); print(dataFrame2); print(pandas.concat([dataFrame1, dataFrame2]))

    A   B
1  A1  B1
2  A2  B2
    A   B
3  A3  B3
4  A4  B4
    A   B
1  A1  B1
2  A2  B2
3  A3  B3
4  A4  B4


In [5]:
dataFrame3 = makeDataFrame("AB", [0, 1])
dataFrame4 = makeDataFrame("CD", [0, 1])

print(dataFrame3); print(dataFrame4); print(pandas.concat([dataFrame3, dataFrame4], axis = 1))

    A   B
0  A0  B0
1  A1  B1
    C   D
0  C0  D0
1  C1  D1
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


In [6]:
"""Duplicate indices"""
"""Pandas bảo toàn indices nếu trùng lặp"""
x = makeDataFrame("AB", [0, 1])
y = makeDataFrame("AB", [2, 3])
y.index = x.index

print(x); print(y); print(pandas.concat([x, y]))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


In [7]:
"""Bảo toàn indices có vẻ không phải default hay cho mọi trường hợp"""
"""Ném ngoại lệ nếu trùng lặp indices """
pandas.concat([x, y], verify_integrity = True)

ValueError: Indexes have overlapping values: Int64Index([0, 1], dtype='int64')

In [8]:
"""Bỏ qua index nếu trùng lặp ?"""
pandas.concat([x, y], ignore_index = True)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [9]:
"""Thêm MultiIndex keys nếu trùng lặp - xác định nguồn"""
pandas.concat([x, y], keys = ["x", "y"])

Unnamed: 0,Unnamed: 1,A,B
x,0,A0,B0
x,1,A1,B1
y,0,A2,B2
y,1,A3,B3


In [10]:
"""Concatenation với phép joins"""
"""Nãy giờ chỉ là các dataframe shared columns"""
"""Với data từ nhiều nguồn với tập columns names khác nhau"""

dataFrame5 = makeDataFrame("ABC", [1, 2])
dataFrame6 = makeDataFrame("BCD", [3, 4])

pandas.concat([dataFrame5, dataFrame6])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  


Unnamed: 0,A,B,C,D
1,A1,B1,C1,
2,A2,B2,C2,
3,,B3,C3,D3
4,,B4,C4,D4


In [11]:
"""join, join_axes"""

"""Join inner chỉ lấy các cột giao nhau"""
pandas.concat([dataFrame5, dataFrame6], join = "inner")



Unnamed: 0,B,C
1,B1,C1
2,B2,C2
3,B3,C3
4,B4,C4


In [12]:
"""join_axes xác định các columns dùng để join"""
pandas.concat([dataFrame5, dataFrame6], join_axes = [dataFrame5.columns])

  


Unnamed: 0,A,B,C
1,A1,B1,C1
2,A2,B2,C2
3,,B3,C3
4,,B4,C4


In [13]:
"""append() method """
"""Phiên bản rút gọn cho pandas.concat với hai data frame đầu vào"""
"""Trả về một new object nhé, chứ không phải là thay đổi in-replace DataFrame"""
dataFrame1.append(dataFrame2)

Unnamed: 0,A,B
1,A1,B1
2,A2,B2
3,A3,B3
4,A4,B4
