In [1]:
# импортируем библиотеки numpy и pandas
import numpy as np
import pandas as pd

# импортируем библиотеку datatime для работы с датами
import datetime
from datetime import datetime, date

# задаем некоторые опции библиотеки pandas, которые настраивают вывод
pd.set_option('display.notebook_repr_html', False)     # задаем вывод в виде текста, а не HTML
pd.set_option('display.max_columns', 8)                # устанавливаем отображение максимального количества стобцов
pd.set_option('display.max_rows', 10)                  # устанавливаем отображение максимального количества строк
pd.set_option('display.width', 80)                     # устанавливаеv максимальную ширину отображения в символах

# импортируем библиотеку matplotlib для построения графиков
import matplotlib.pyplot as plt 
%matplotlib inline

__Конкатенация данных, расположенных в нескольких объектах__

In [2]:
# Конкатенацию можно выполнить с помощью функции pd.concat()
# создаем два объекта Series
s1 = pd.Series(np.arange(0,3))
s2 = pd.Series(np.arange(5,8))
s1

0    0
1    1
2    2
dtype: int32

In [3]:
s2

0    5
1    6
2    7
dtype: int32

In [4]:
pd.concat([s1, s2])

0    0
1    1
2    2
0    5
1    6
2    7
dtype: int32

In [5]:
# создаем два объекта DataFrame для последующей конкатенации
df1 = pd.DataFrame(np.arange(9).reshape (3, 3), columns = ['a', 'b', 'c'])
df2 = pd.DataFrame(np.arange(9, 18).reshape (3, 3), columns = ['a', 'b', 'c'])
df1

   a  b  c
0  0  1  2
1  3  4  5
2  6  7  8

In [6]:
df2

    a   b   c
0   9  10  11
1  12  13  14
2  15  16  17

In [7]:
pd.concat([df1, df2])

    a   b   c
0   0   1   2
1   3   4   5
2   6   7   8
0   9  10  11
1  12  13  14
2  15  16  17

In [8]:
# демонстрируем конкатенацию двух DataFrame с разными столбцами
df1 = pd.DataFrame(np.arange(9).reshape (3, 3), columns = ['a', 'b', 'c'])
df2 = pd.DataFrame(np.arange(9, 18).reshape (3, 3), columns = ['a', 'c', 'd'])
df1

   a  b  c
0  0  1  2
1  3  4  5
2  6  7  8

In [9]:
df2

    a   c   d
0   9  10  11
1  12  13  14
2  15  16  17

In [10]:
pd.concat([df1, df2])

    a    b   c     d
0   0  1.0   2   NaN
1   3  4.0   5   NaN
2   6  7.0   8   NaN
0   9  NaN  10  11.0
1  12  NaN  13  14.0
2  15  NaN  16  17.0

In [14]:
# выполняем конкатенацию двух объектов, но при этом создаем индекс с помощью заданных ключей
c = pd.concat([df1, df2], keys = ['df1', 'df2'], sort = True)
c

        a    b   c     d
df1 0   0  1.0   2   NaN
    1   3  4.0   5   NaN
    2   6  7.0   8   NaN
df2 0   9  NaN  10  11.0
    1  12  NaN  13  14.0
    2  15  NaN  16  17.0

In [15]:
# ключи можно использовать что бы отобрать поднабор данных
c.loc['df2']

    a   b   c     d
0   9 NaN  10  11.0
1  12 NaN  13  14.0
2  15 NaN  16  17.0

__Переключение осей выравнивания__

In [18]:
# Функция pd.concat() позволяет задать ось к которой нужно применить выравнивание
# конкатенируем датафреймы df1 и df2 по оси столбцов выравниваем по меткам строк, получаем дублирующиеся столбцы
pd.concat([df1, df2], axis=1)

   a  b  c   a   c   d
0  0  1  2   9  10  11
1  3  4  5  12  13  14
2  6  7  8  15  16  17

In [20]:
# создаем новый DataFrame df3 чтобы конкатенировать его с датафреймом df1
# df3 имеет общую с df1 метку 2 и и общий столбец а
df3 = pd.DataFrame(np.arange(20, 26).reshape(3, 2),
                   columns = ['a', 'd'],
                   index = [2, 3, 4])
df3

    a   d
2  20  21
3  22  23
4  24  25

In [21]:
# конкатенируем их по оси столбцов. Выполняется выравнивание по меткам строк, осуществляется заполнение значений столбцо df1, 
# а затем столбцов # df3, получаем дублирующиеся столбцы
pd.concat([df1, df3], axis = 1)

     a    b    c     a     d
0  0.0  1.0  2.0   NaN   NaN
1  3.0  4.0  5.0   NaN   NaN
2  6.0  7.0  8.0  20.0  21.0
3  NaN  NaN  NaN  22.0  23.0
4  NaN  NaN  NaN  24.0  25.0

__Определение типа соединения__

In [23]:
# выполняем внутреннее соединение вместо внешнего
pd.concat([df1, df3], axis = 1, join = 'inner')

   a  b  c   a   d
2  6  7  8  20  21

In [24]:
# добавляем ключи к столбцам
df = pd.concat([df1, df2], axis = 1, keys = ['df1', 'df2'])
df

  df1       df2        
    a  b  c   a   c   d
0   0  1  2   9  10  11
1   3  4  5  12  13  14
2   6  7  8  15  16  17

In [25]:
# извлекаем данные из DataFrame с помощью ключа df2
df.loc[:, 'df2']

    a   c   d
0   9  10  11
1  12  13  14
2  15  16  17