In [1]:
import numpy as np
import pandas as pd

In [2]:
def make_df(cols, ind):
    '''Быстро создаем объект DataFrame'''
    data = {c: [str(c)+str(i) for i in ind] for c in cols}
    return pd.DataFrame(data, ind)

In [3]:
make_df('ABC', range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


**Конкатенация в NumPy (np.concatenate)**

In [17]:
# Одномерная конкатенация(Объединение массивов)
x = [1, 2, 3]
y = [4, 5, 6]
z = [7, 8, 9]
np.concatenate([x, y, z])

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [18]:
# Двумерная конкатенация по оси 0(строке)
x = [[1, 2],
     [3, 4]]
y = [[5, 6],
     [7, 8]]
np.concatenate([x, y], axis=0)

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

In [19]:
# Двумерная конкатенация по оси 1(колонка)
np.concatenate([x, y], axis=1)

array([[1, 2, 5, 6],
       [3, 4, 7, 8]])

**Конкатенация в Pandas (pd.concat)**

In [30]:
ser1 = pd.Series(['A', 'B', 'C'], index=[1, 2, 3])
ser2 = pd.Series(['D', 'E', 'F'], index=[4, 5, 6])

In [31]:
# Конкатенация двух Series
pd.concat([ser1, ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

In [55]:
df1 = make_df('ABC', [1, 2, 3])
df2 = make_df('ABC', [4, 5, 6])

In [56]:
print(df1,'\n'); print(df2,'\n'); print(pd.concat([df1, df2]))

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
3  A3  B3  C3 

    A   B   C
4  A4  B4  C4
5  A5  B5  C5
6  A6  B6  C6 

    A   B   C
1  A1  B1  C1
2  A2  B2  C2
3  A3  B3  C3
4  A4  B4  C4
5  A5  B5  C5
6  A6  B6  C6


*По умолчанию конкатенация происходит по строчно по оси 0(axis=0), функция pd.concat позволяет указывать ось*

In [66]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
print(df3); print(df4); print(pd.concat([df3, df4], axis='columns')) #columns=1

    A   B
0  A0  B0
1  A1  B1
    C   D
0  C0  D0
1  C1  D1
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1


*Дублирование индексов*

In [72]:
x = make_df('AB', [0, 1])
y = make_df('AB', [2, 3])
y.index = x.index

In [75]:
print(x); print(y); print(pd.concat([x, y]))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
    A   B
0  A0  B0
1  A1  B1
0  A2  B2
1  A3  B3


**verify_integrity** - Флаг дублирования индексов. Если индексы будут повторяться(*в примере повторяются 0 и 1*) то будет возбуждено исключение

In [79]:
try:
    pd.concat([x, y], verify_integrity=True)
except ValueError as e:
    print(e)

Indexes have overlapping values: Index([0, 1], dtype='int64')


**ignore_index** - Флаг дублирования индексов. Если индексы дублируется флаг в режиме True создаст новый объект *Series* с уникальными целочисленными индексами. \
0,1,...n

In [87]:
pd.concat([x, y], ignore_index=True)

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [88]:
x1 = make_df('12', ['a', 'b'])
y1 = make_df('12', ['a', 'b'])

In [91]:
print(x1); print(y1); pd.concat([x1, y1], ignore_index=True)

    1   2
a  1a  2a
b  1b  2b
    1   2
a  1a  2a
b  1b  2b


Unnamed: 0,1,2
0,1a,2a
1,1b,2b
2,1a,2a
3,1b,2b


**Добавление ключей мультииндекса**\
**keys** - параметр для задания меток для источников данных. Результатом будет мультииндексированный объект DataFrame

In [95]:
print(x); print(y); print(pd.concat([x, y], keys=['x','y']))

    A   B
0  A0  B0
1  A1  B1
    A   B
0  A2  B2
1  A3  B3
      A   B
x 0  A0  B0
  1  A1  B1
y 0  A2  B2
  1  A3  B3
