# Объединение нескольких наборов данных
Pandas включает в себя несколько способов для объединения различных наборов данных. Данные могут быть объединены как посредством логики теории множеств так и реляционной алгебры, которая используется в реляционных базах данных.

## [Конкатенация](https://pandas.pydata.org/pandas-docs/stable/merging.html#concatenating-objects)
С помощью метода `pd.concat` можно сконкатенировать несколько наборов данных в один единый набор. В результате конкатенации данные складываются друг над другом или бок о бок. При этом данные выравниваются либо по колонкам либо по индексам.

Для начала загрузим вспомоготальный модуль, который поможет наглядно отобразить наборы данных и результат их объединения

In [1]:
import numpy as np
import pandas as pd

In [2]:
%run code/util.py

Теперь создадим три набора данных, которые будем затем объединять в один набор

In [3]:
countries = ['Afghanistan', 'Kazakhstan', 'Kyrgyzstan', 'Tajikistan', 'Turkmenistan', 'Uzbekistan']
area = [652864, 2724900, 199951, 143100, 491210, 448978]
population = [34656032, 17987736, 6019480, 8734951, 5662544, 32979000]
gdp = [21, 156.189, 7.061, 27.802, 42.355, 68.324]
gini = [29, 26.4, 27.4, 30.8, 40.8, 36.7]

df1 = pd.DataFrame(data={'country': countries[:2], 'area': area[:2], 'population': population[:2], 
                         'gdp': gdp[:2], 'gini': gini[:2]}, index=[1, 2])
df2 = pd.DataFrame(data={'country': countries[2:4], 'area': area[2:4], 'population': population[2:4], 
                         'gdp': gdp[2:4], 'gini': gini[2:4]}, index=[3, 4])
df3 = pd.DataFrame(data={'country': countries[4:], 'area': area[4:], 'population': population[4:], 
                         'gdp': gdp[4:], 'gini': gini[4:]}, index=[5, 6])

frames = [df1, df2, df3]
result = pd.concat(frames)
display_stacked(frames, result)

Unnamed: 0,area,country,gdp,gini,population
1,652864,Afghanistan,21.0,29.0,34656032
2,2724900,Kazakhstan,156.189,26.4,17987736

Unnamed: 0,area,country,gdp,gini,population
3,199951,Kyrgyzstan,7.061,27.4,6019480
4,143100,Tajikistan,27.802,30.8,8734951

Unnamed: 0,area,country,gdp,gini,population
5,491210,Turkmenistan,42.355,40.8,5662544
6,448978,Uzbekistan,68.324,36.7,32979000

Unnamed: 0,area,country,gdp,gini,population
1,652864,Afghanistan,21.0,29.0,34656032
2,2724900,Kazakhstan,156.189,26.4,17987736
3,199951,Kyrgyzstan,7.061,27.4,6019480
4,143100,Tajikistan,27.802,30.8,8734951
5,491210,Turkmenistan,42.355,40.8,5662544
6,448978,Uzbekistan,68.324,36.7,32979000


Если в метод `pd.concat` передать параметр `keys` со списком значений для каждого набора, то в результирующий набор данных получить иерархический индекс со значениями `keys` в качестве самого верхнего уровня

In [4]:
result = pd.concat(frames, keys=['first', 'second', 'third'])
display_stacked(frames, result)

Unnamed: 0,area,country,gdp,gini,population
1,652864,Afghanistan,21.0,29.0,34656032
2,2724900,Kazakhstan,156.189,26.4,17987736

Unnamed: 0,area,country,gdp,gini,population
3,199951,Kyrgyzstan,7.061,27.4,6019480
4,143100,Tajikistan,27.802,30.8,8734951

Unnamed: 0,area,country,gdp,gini,population
5,491210,Turkmenistan,42.355,40.8,5662544
6,448978,Uzbekistan,68.324,36.7,32979000

Unnamed: 0,Unnamed: 1,area,country,gdp,gini,population
first,1,652864,Afghanistan,21.0,29.0,34656032
first,2,2724900,Kazakhstan,156.189,26.4,17987736
second,3,199951,Kyrgyzstan,7.061,27.4,6019480
second,4,143100,Tajikistan,27.802,30.8,8734951
third,5,491210,Turkmenistan,42.355,40.8,5662544
third,6,448978,Uzbekistan,68.324,36.7,32979000


Можно выбрать нужный набор по этим ключам

In [5]:
result.loc['second']

Unnamed: 0,area,country,gdp,gini,population
3,199951,Kyrgyzstan,7.061,27.4,6019480
4,143100,Tajikistan,27.802,30.8,8734951


Для горизонтальной конкатенации, когда данные объединяются бок о бок, нужно передать параметр `axis` со значением 1. Если при вертикальной конкатенации данные выравнивались по колонкам, то при горизонтальной конкатенации они выравниваются по индексам. Поэтому в нашем случае, чтобы в результирующем наборе были две строки, необходимо установить одинаковые индексы для каждого набора

In [6]:
df1.index = [1, 2]
df2.index = [1, 2]
df3.index = [1, 2]
result = pd.concat(frames, axis=1)
display_horizontal(frames, result)

Unnamed: 0,area,country,gdp,gini,population
1,652864,Afghanistan,21.0,29.0,34656032
2,2724900,Kazakhstan,156.189,26.4,17987736

Unnamed: 0,area,country,gdp,gini,population
1,199951,Kyrgyzstan,7.061,27.4,6019480
2,143100,Tajikistan,27.802,30.8,8734951

Unnamed: 0,area,country,gdp,gini,population
1,491210,Turkmenistan,42.355,40.8,5662544
2,448978,Uzbekistan,68.324,36.7,32979000

Unnamed: 0,area,country,gdp,gini,population,area.1,country.1,gdp.1,gini.1,population.1,area.2,country.2,gdp.2,gini.2,population.2
1,652864,Afghanistan,21.0,29.0,34656032,199951,Kyrgyzstan,7.061,27.4,6019480,491210,Turkmenistan,42.355,40.8,5662544
2,2724900,Kazakhstan,156.189,26.4,17987736,143100,Tajikistan,27.802,30.8,8734951,448978,Uzbekistan,68.324,36.7,32979000


Все значения оси (колонки или индексы), по которой идет конкатенация, будут оставлены в результирующем наборе данных, даже если эти значения дублируются. Например, в предыдущем примере название каждой колонки встречается по три раза. При этом для другой оси, по которой не идет конкатенация, можно указать как поступить, если не все значения этой оси совпадают во всех наборах. Например, если в предыдущем примере у каждого набора были бы разные значения индексов, то их не получилось бы выровнить. С помощью параметра `join` можно указать как поступить в таком случае. По умолчанию параметр имеет значение `outer`, что соответствует сохранению всех значений

In [7]:
df1.index = [1, 2]
df2.index = [2, 3]
df3.index = [3, 4]
result = pd.concat(frames, axis=1, join='outer')
display_horizontal(frames, result)

Unnamed: 0,area,country,gdp,gini,population
1,652864,Afghanistan,21.0,29.0,34656032
2,2724900,Kazakhstan,156.189,26.4,17987736

Unnamed: 0,area,country,gdp,gini,population
2,199951,Kyrgyzstan,7.061,27.4,6019480
3,143100,Tajikistan,27.802,30.8,8734951

Unnamed: 0,area,country,gdp,gini,population
3,491210,Turkmenistan,42.355,40.8,5662544
4,448978,Uzbekistan,68.324,36.7,32979000

Unnamed: 0,area,country,gdp,gini,population,area.1,country.1,gdp.1,gini.1,population.1,area.2,country.2,gdp.2,gini.2,population.2
1,652864.0,Afghanistan,21.0,29.0,34656032.0,,,,,,,,,,
2,2724900.0,Kazakhstan,156.189,26.4,17987736.0,199951.0,Kyrgyzstan,7.061,27.4,6019480.0,,,,,
3,,,,,,143100.0,Tajikistan,27.802,30.8,8734951.0,491210.0,Turkmenistan,42.355,40.8,5662544.0
4,,,,,,,,,,,448978.0,Uzbekistan,68.324,36.7,32979000.0


В итоге данные сложились как лесенькой и с пустыми значениями в строках, в которых не бло значений во всех наборах данных. Если же передать в параметр `join` значение `inner`, то в итоге останутся лишь те записи, значения индексов которых есть во всех наборах данных

In [8]:
df1.index = [1, 2]
df2.index = [1, 3]
df3.index = [1, 4]
result = pd.concat(frames, axis=1, join='inner')
display_horizontal(frames, result)

Unnamed: 0,area,country,gdp,gini,population
1,652864,Afghanistan,21.0,29.0,34656032
2,2724900,Kazakhstan,156.189,26.4,17987736

Unnamed: 0,area,country,gdp,gini,population
1,199951,Kyrgyzstan,7.061,27.4,6019480
3,143100,Tajikistan,27.802,30.8,8734951

Unnamed: 0,area,country,gdp,gini,population
1,491210,Turkmenistan,42.355,40.8,5662544
4,448978,Uzbekistan,68.324,36.7,32979000

Unnamed: 0,area,country,gdp,gini,population,area.1,country.1,gdp.1,gini.1,population.1,area.2,country.2,gdp.2,gini.2,population.2
1,652864,Afghanistan,21.0,29.0,34656032,199951,Kyrgyzstan,7.061,27.4,6019480,491210,Turkmenistan,42.355,40.8,5662544


И наконец можно передать отдельный индекс в параметр `join_axes`, который будет использован при конкатенации. Все значения, индексы которых есть в переданном в `join_axes` индексе, будут оставлены в результирующем наборе данных. В качестве такого индекса можно использовать индексы нескольких объединяемых наборов данных. В результате все значения выбранных наборов будут оставлены, а из остальных наборов останутся лишь те значения, индексы которых есть в выбранном индексе. В следующем примере в `join_axes` передается объединение индексов первых двух наборов данных `df1.index | df2.index`. В результате все значения этих двух наборов остаются, а запись с индексом 4 в третьем наборе исключается из результата

In [9]:
df1.index = [1, 2]
df2.index = [1, 3]
df3.index = [2, 4]
result = pd.concat(frames, axis=1, join_axes=[df1.index | df2.index])
display_horizontal(frames, result)

Unnamed: 0,area,country,gdp,gini,population
1,652864,Afghanistan,21.0,29.0,34656032
2,2724900,Kazakhstan,156.189,26.4,17987736

Unnamed: 0,area,country,gdp,gini,population
1,199951,Kyrgyzstan,7.061,27.4,6019480
3,143100,Tajikistan,27.802,30.8,8734951

Unnamed: 0,area,country,gdp,gini,population
2,491210,Turkmenistan,42.355,40.8,5662544
4,448978,Uzbekistan,68.324,36.7,32979000

Unnamed: 0,area,country,gdp,gini,population,area.1,country.1,gdp.1,gini.1,population.1,area.2,country.2,gdp.2,gini.2,population.2
1,652864.0,Afghanistan,21.0,29.0,34656032.0,199951.0,Kyrgyzstan,7.061,27.4,6019480.0,,,,,
2,2724900.0,Kazakhstan,156.189,26.4,17987736.0,,,,,,491210.0,Turkmenistan,42.355,40.8,5662544.0
3,,,,,,143100.0,Tajikistan,27.802,30.8,8734951.0,,,,,


## [Слияние в стиле реляционных СУБД](https://pandas.pydata.org/pandas-docs/stable/merging.html#database-style-dataframe-joining-merging)
Pandas включает в себя возможность для слияния (merge) данных в стиле SQL (соответствует оператору `join`). Для этого используется метод `pd.merge`. Стоит отметить, что слияние в pandas реализовано очень эффективно и в некоторых случаях может выполняться на порядок быстрее, чем в аналогичных библиотеках (например, в R).

SQL включает в себя несколько типов объединения данных
1. Один к одному - одна запись в таблице соответствует одной записи в другой таблице (one-to-one)
2. Один ко многим - одна запись в таблице соответствует многим записям в другой таблице (one-to-many)
3. Многое ко многим - множество записей в таблице соответствуют множеству записей в другой таблице (many-to-many)

Если название колонок, по которым нужно объеденить два набора данных, совпадают, то можно их объеденить, указав ключ в параметре `on`. В следующем примере строки в двух наборах данных объединяются по ключу `country` и они совпадают один к одному

In [27]:
df_left = pd.DataFrame(data={'country': countries, 'area': area})
df_right = pd.DataFrame(data={'country': countries, 'gdp': gdp, 'gini': gini})

result = pd.merge(df_left, df_right, on='country')
display_horizontal([df_left, df_right], result)

Unnamed: 0,area,country
0,652864,Afghanistan
1,2724900,Kazakhstan
2,199951,Kyrgyzstan
3,143100,Tajikistan
4,491210,Turkmenistan
5,448978,Uzbekistan

Unnamed: 0,country,gdp,gini
0,Afghanistan,21.0,29.0
1,Kazakhstan,156.189,26.4
2,Kyrgyzstan,7.061,27.4
3,Tajikistan,27.802,30.8
4,Turkmenistan,42.355,40.8
5,Uzbekistan,68.324,36.7

Unnamed: 0,area,country,gdp,gini
0,652864,Afghanistan,21.0,29.0
1,2724900,Kazakhstan,156.189,26.4
2,199951,Kyrgyzstan,7.061,27.4
3,143100,Tajikistan,27.802,30.8
4,491210,Turkmenistan,42.355,40.8
5,448978,Uzbekistan,68.324,36.7


Точно так же можно объединить наборы данных, строки которых соотносятся как один ко многим. В следующем примере используется данные, которые содержат численность населения и внешний долг страны за 2015 и 2016 годы соответственно (согласно базе Всемирного Банка)

In [28]:
population_2015_2016 = [17544126, 31298900, 
                        17797032, 31848200]
external_debt_2015_2016 = [153381212000, 14854025000, 
                           163757713000, 16282526000]
year = [2015] * 2 + [2016] * 2
key = ['Kazakhstan', 'Uzbekistan'] * 2

df_debt = pd.DataFrame(data={'country': key, 'year': year, 
                             'population': population_2015_2016, 'external_debt': external_debt_2015_2016})
df_debt

Unnamed: 0,country,external_debt,population,year
0,Kazakhstan,153381212000,17544126,2015
1,Uzbekistan,14854025000,31298900,2015
2,Kazakhstan,163757713000,17797032,2016
3,Uzbekistan,16282526000,31848200,2016


При слиянии данные из левого набора продублируются, так как каждой строке соответствуют две строки из правого набора. Страны, данные по которым отсутствуют в правом наборе будут исключены из набора

In [29]:
result = pd.merge(df_left, df_debt, on='country')
display_horizontal([df_left, df_debt], result)

Unnamed: 0,area,country
0,652864,Afghanistan
1,2724900,Kazakhstan
2,199951,Kyrgyzstan
3,143100,Tajikistan
4,491210,Turkmenistan
5,448978,Uzbekistan

Unnamed: 0,country,external_debt,population,year
0,Kazakhstan,153381212000,17544126,2015
1,Uzbekistan,14854025000,31298900,2015
2,Kazakhstan,163757713000,17797032,2016
3,Uzbekistan,16282526000,31848200,2016

Unnamed: 0,area,country,external_debt,population,year
0,2724900,Kazakhstan,153381212000,17544126,2015
1,2724900,Kazakhstan,163757713000,17797032,2016
2,448978,Uzbekistan,14854025000,31298900,2015
3,448978,Uzbekistan,16282526000,31848200,2016


Мы можем оставить все данные из левого набора указав параметр `how=left` (по умолчанию `how=inner`). При этом численность населения и долг в тех строках, для которых отсутствуют соответствующие строки в правом наборе, будут иметь пустые значения

In [30]:
result = pd.merge(df_left, df_debt, on='country', how='left')
display_horizontal([df_left, df_debt], result)

Unnamed: 0,area,country
0,652864,Afghanistan
1,2724900,Kazakhstan
2,199951,Kyrgyzstan
3,143100,Tajikistan
4,491210,Turkmenistan
5,448978,Uzbekistan

Unnamed: 0,country,external_debt,population,year
0,Kazakhstan,153381212000,17544126,2015
1,Uzbekistan,14854025000,31298900,2015
2,Kazakhstan,163757713000,17797032,2016
3,Uzbekistan,16282526000,31848200,2016

Unnamed: 0,area,country,external_debt,population,year
0,652864,Afghanistan,,,
1,2724900,Kazakhstan,153381200000.0,17544126.0,2015.0
2,2724900,Kazakhstan,163757700000.0,17797032.0,2016.0
3,199951,Kyrgyzstan,,,
4,143100,Tajikistan,,,
5,491210,Turkmenistan,,,
6,448978,Uzbekistan,14854020000.0,31298900.0,2015.0
7,448978,Uzbekistan,16282530000.0,31848200.0,2016.0
