# <font color=red>Лекция 6.5</font> <font color=blue>Объединение наборов данных</font>

Иногда наборы данных поступают из разных источников. При анализе данных иногда необходимо объединить эти наборы данных. В этой лекции рассмотрим, как комбинировать и объединять наборы данных.

In [1]:
import pandas as pd
import numpy as np

### Присоединение к DataFrame

Метод `merge()` объединяет строки с помощью одного или нескольких ключей. Например, возьмем два набора данных в структуре DataFrame.

In [4]:
d1 = pd.DataFrame({'key':['a','b','c','c','d','e'],
                   'num1': range(6)})
d2 = pd.DataFrame({'key':['b','c','e','f'],
                   'num2': range(4)})

Выведем эти наборы данных:

In [5]:
print(d1)
print(d2)

  key  num1
0   a     0
1   b     1
2   c     2
3   c     3
4   d     4
5   e     5
  key  num2
0   b     0
1   c     1
2   e     2
3   f     3


Объединим эти два набора данных с помощью функции слияния:

In [6]:
pd.merge(d1,d2)

Unnamed: 0,key,num1,num2
0,b,1,0
1,c,2,1
2,c,3,1
3,e,5,2


Это простейший способ слияния наборов данных. Рассмотрим более сложные варианты.

В библиотеке Pandas для объединения также предусмотрен join, но помимо него, есть еще такая табличная функция объединения, как concatenate.

### Join
Рассмотрим как работает объединение с помощью Join на примере:

In [7]:
df1 = pd.DataFrame({'A': ['5', '87', '42', '43'],
                     'B': ['B0', 'B1', 'B2', 'B3'],
                     'C': ['C0', 'C1', 'C2', 'C3'],
                     'D': ['D0', 'D1', 'D2', 'D3']})

df2 = pd.DataFrame({'A1': ['43', '3', '80', '5'],
                     'B1': ['B4', 'B5', 'B6', 'B7'],
                     'C1': ['C4', 'C5', 'C6', 'C7'],
                     'D1': ['D4', 'D5', 'D6', 'D7']})
df1.join(df2)

Unnamed: 0,A,B,C,D,A1,B1,C1,D1
0,5,B0,C0,D0,43,B4,C4,D4
1,87,B1,C1,D1,3,B5,C5,D5
2,42,B2,C2,D2,80,B6,C6,D6
3,43,B3,C3,D3,5,B7,C7,D7


В отличии от join и merge, которые по умолчанию работают со столбцами, concat позволяет выбрать, хотим ли мы выполнять объединение по столбцам или по строкам. Для этого в аргументе функции необходимо прописать axis=0 или axis=1, в первом случае вторая таблица будет присоединена к первой снизу, во втором – справа.

In [11]:
df2 = pd.DataFrame({'A1': ['43', '3', '80', '5'],
                     'B1': ['B0', 'B1', 'B5', 'B3'],
                     'C1': ['C4', 'C5', 'C6', 'C7'],
                     'D1': ['D4', 'D5', 'D6', 'D7']})
df1 = pd.DataFrame({'A': ['5', '87', '42', '43'],
                     'B': ['B0', 'B1', 'B2', 'B3'],
                     'C': ['C0', 'C1', 'C2', 'C3'],
                     'D': ['D0', 'D1', 'D2', 'D3']})

In [12]:
pd.concat([df1,df2], sort=False, axis=0)

Unnamed: 0,A,B,C,D,A1,B1,C1,D1
0,5.0,B0,C0,D0,,,,
1,87.0,B1,C1,D1,,,,
2,42.0,B2,C2,D2,,,,
3,43.0,B3,C3,D3,,,,
0,,,,,43.0,B0,C4,D4
1,,,,,3.0,B1,C5,D5
2,,,,,80.0,B5,C6,D6
3,,,,,5.0,B3,C7,D7


In [14]:
pd.concat([df1,df2], sort=False, axis=1)

Unnamed: 0,A,B,C,D,A1,B1,C1,D1
0,5,B0,C0,D0,43,B0,C4,D4
1,87,B1,C1,D1,3,B1,C5,D5
2,42,B2,C2,D2,80,B5,C6,D6
3,43,B3,C3,D3,5,B3,C7,D7


### Append
Напоследок будет уместно упомянуть такую функцию как append().  Она несколько выбивается из перечня ранее упомянутых функций, но тем не менее ее также можно считать инструментом объединения таблиц. `Append()` используется для добавления строк одного датафрейма в конец другого, возвращая новый датафрейм. Столбцы, не входящие в исходный датафрейм, добавляются как новые столбцы, а новые ячейки заполняются значениями NaN.

Рассмотрим на примере:

In [15]:
df2 = pd.DataFrame({'A1': ['43', '3', '80', '5'],
                     'B1': ['B0', 'B1', 'B5', 'B3'],
                     'C1': ['C4', 'C5', 'C6', 'C7'],
                     'D1': ['D4', 'D5', 'D6', 'D7']})
df1 = pd.DataFrame({'A': ['5', '87', '42', '43'],
                     'B': ['B0', 'B1', 'B2', 'B3'],
                     'C': ['C0', 'C1', 'C2', 'C3'],
                     'D': ['D0', 'D1', 'D2', 'D3']})
df1.append(df2, sort=False)

Unnamed: 0,A,B,C,D,A1,B1,C1,D1
0,5.0,B0,C0,D0,,,,
1,87.0,B1,C1,D1,,,,
2,42.0,B2,C2,D2,,,,
3,43.0,B3,C3,D3,,,,
0,,,,,43.0,B0,C4,D4
1,,,,,3.0,B1,C5,D5
2,,,,,80.0,B5,C6,D6
3,,,,,5.0,B3,C7,D7
