In [1]:
import pandas as pd
import numpy as np
import seaborn as sns

# Соединение DataFrame

Для тех, кто имеет опыт работы с СУБД не будет новостью, что часто данные разнесены по разным таблицам. 
Pandas имеет эффективную реализацию т.н. реляционной алгебры, которая используется в реляционных СУБД. 

Рассмотрим на примере военкомата. Допустим, есть две таблицы. В одной данные о здоровье призывникова, а в другом их академические успехи:

In [2]:
height = pd.Series(np.random.normal(180, 10, 5).astype(int), index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])
weight = pd.Series(np.random.normal(70, 10, 5).astype(int), index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])
age = pd.Series(np.random.randint(18, 30, 5), index=['Иванов', 'Петров', 'Сидоров', 'Александров', 'Сергеев'])
health = pd.DataFrame({"Рост": height, "Вес": weight, "Возраст": age})

health['ИМТ'] = health['Вес'] / (health['Рост'] / 100) ** 2

health

Unnamed: 0,Рост,Вес,Возраст,ИМТ
Иванов,163,72,21,27.099251
Петров,186,61,22,17.632096
Сидоров,189,54,24,15.117158
Александров,178,85,19,26.827421
Сергеев,178,74,24,23.355637


In [3]:
university = pd.Series(np.random.choice(['ТГУ', 'ТПУ', 'Шарага'], 5, replace=True), index=['Александров', 'Сергеев', 'Иванов', 'Петров', 'Сидоров'])  # Намерено перепутаем индексы
close_session = pd.Series(np.random.randint(0, 2, 5).astype(bool), index=['Александров', 'Сергеев', 'Иванов', 'Петров', 'Сидоров'])
education = pd.DataFrame({"УЗ": university, "Закрылся": close_session})

education

Unnamed: 0,УЗ,Закрылся
Александров,ТГУ,False
Сергеев,ТГУ,False
Иванов,Шарага,True
Петров,ТГУ,False
Сидоров,ТГУ,False


Чтобы объединить таблицы воспользуемся функцией `pd.merge()`. 
В качестве параметров она принимает
* `left` - `DataFrame`, который будет левым при соединении, 
* `right` - аналогично 
* `left_on` - колонка, которая будет ключом соединения в левом `DataFrame`
* `right_on` - аналогично для правого
* `left_index` - использовать для соединения не колонку, но индекс для левого `DataFrame`
* `right_index` - аналогично для правого
* `how` - тип соединения [в терминах SQL](https://ru.wikipedia.org/wiki/Join_(SQL)). По умолчанию 'inner'

Обязательных параметров - первые два. По умолчанию произойдёт соединение по единственной колонке, которая есть в обоих `DataFrame`. Если таких колонок нет или больше одной возникнет ошибка.

В нашем случае будет делать соединение по индексам:

In [4]:
recruits = pd.merge(health, education, left_index=True, right_index=True)
recruits

Unnamed: 0,Рост,Вес,Возраст,ИМТ,УЗ,Закрылся
Иванов,163,72,21,27.099251,Шарага,True
Петров,186,61,22,17.632096,ТГУ,False
Сидоров,189,54,24,15.117158,ТГУ,False
Александров,178,85,19,26.827421,ТГУ,False
Сергеев,178,74,24,23.355637,ТГУ,False
