In [1]:
import numpy as np
import pandas as pd

**Соединение: "Один-к-одному"**

In [2]:
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'], 
                    'group': ['Accounting', 'Engineering', 'Engineering','HR']})

df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})

print(df1); print(df2)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014


**pd.merge** - Объединяет фреймы сопаставляя значения из соответствующих столбцов. \
Функция распознает, что в обоих объектах DataFrame имеется одинаковыйстолбец, и автоматически выполняет соединение, используя этот столбец в качестве 
ключа. Результатом слияния становится новый объект DataFrame, объединяющий информацию из двух входных объектов. 

In [3]:
df3 = pd.merge(df1, df2)

In [4]:
df3

Unnamed: 0,employee,group,hire_date
0,Bob,Accounting,2008
1,Jake,Engineering,2012
2,Lisa,Engineering,2004
3,Sue,HR,2014


**Соединение: "Многие-к-одному"**

**«Многие-к-одному»** — соединения, при которых один из двух ключевых столбцов 
содержит дублирующиеся значения. В случае соединения «многие-к-одному» 
в итоговом объекте DataFrame эти дублирующиеся записи будут сохранены.

In [5]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})

In [6]:
print(df3); print(df4); print(pd.merge(df3, df4))

  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014
         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve
  employee        group  hire_date supervisor
0      Bob   Accounting       2008      Carly
1     Jake  Engineering       2012      Guido
2     Lisa  Engineering       2004      Guido
3      Sue           HR       2014      Steve


*В итоговом объекте DataFrame имеется дополнительный столбец с информацией 
о руководителе (supervisor) с повторением информации в одном или нескольких 
местах в соответствии с вводимыми данными.*

**Соединение: "Многие-к-одному"**

Если столбец ключа как в левом, так и в правом массивах содержит повторяющиеся значения, результат окажется слиянием типа «многие-ко-многим».

In [7]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting','Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding','linux','spreadsheets', 'organization']})

In [8]:
print(df1); print(df5); pd.merge(df1, df5)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
         group        skills
0   Accounting          math
1   Accounting  spreadsheets
2  Engineering        coding
3  Engineering         linux
4           HR  spreadsheets
5           HR  organization


Unnamed: 0,employee,group,skills
0,Bob,Accounting,math
1,Bob,Accounting,spreadsheets
2,Jake,Engineering,coding
3,Jake,Engineering,linux
4,Lisa,Engineering,coding
5,Lisa,Engineering,linux
6,Sue,HR,spreadsheets
7,Sue,HR,organization


**Задание ключа слияния**

**аттрибут on** - задает ключ слияния, только в том случаи если в обоих фреймах есть столбец с таким названием

In [9]:
print(df1); print(df2); print(pd.merge(df1, df2, on='employee'))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014
  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


**Ключевые слова left_on, right_on** - Для слияния двух объектов с различными именами столбцов. Вручную указываем имена столбцов по которым будет происходить слияние, сопоставление таблиц. В результате получится операции получится один излишний столбец, который можно удалить методом **drop()**

In [10]:
df3 = pd.DataFrame({'name': ['Sue', 'Bob', 'Lisa', 'Jake'], 'salary': [70000, 80000, 120000, 90000]})

In [11]:
print(df1); print(df3); print(pd.merge(df1, df3, left_on='employee', right_on='name').drop('name', axis=1))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR
   name  salary
0   Sue   70000
1   Bob   80000
2  Lisa  120000
3  Jake   90000
  employee        group  salary
0      Bob   Accounting   80000
1     Jake  Engineering   90000
2     Lisa  Engineering  120000
3      Sue           HR   70000


In [12]:
# Установил в качестве индексов столбец 'Employee'
df1a = df1.set_index('employee')
df2a = df2.set_index('employee')

In [13]:
print(df1a); print(df2a)

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
          hire_date
employee           
Lisa           2004
Bob            2008
Jake           2012
Sue            2014


**left_index / right_index** - Флаги для слияния по индексу

In [14]:
pd.merge(df1a, df2a, left_index=True, right_index=True)

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


Слияние по индексам реализовано в методе **join**

In [15]:
df1a.join(df2a)

Unnamed: 0_level_0,group,hire_date
employee,Unnamed: 1_level_1,Unnamed: 2_level_1
Bob,Accounting,2008
Jake,Engineering,2012
Lisa,Engineering,2004
Sue,HR,2014


In [16]:
print(df1a); print(df3); print(pd.merge(df1a, df3, left_index=True, right_on='name'))

                group
employee             
Bob        Accounting
Jake      Engineering
Lisa      Engineering
Sue                HR
   name  salary
0   Sue   70000
1   Bob   80000
2  Lisa  120000
3  Jake   90000
         group  name  salary
1   Accounting   Bob   80000
3  Engineering  Jake   90000
2  Engineering  Lisa  120000
0           HR   Sue   70000


**Реляционные соединения подобные SQL**

In [17]:
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                     'food': ['fish', 'beans', 'bread']},
                    columns=['name', 'food'])

df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                    'drink': ['wine', 'beer']},
                   columns=['name', 'drink'])

In [18]:
df6

Unnamed: 0,name,food
0,Peter,fish
1,Paul,beans
2,Mary,bread


In [19]:
df7

Unnamed: 0,name,drink
0,Mary,wine
1,Joseph,beer


**inner**-соединение: Внутреннее соединение, только для общих значений. Используется по умолчанию.

In [20]:
# Только строка с Mary имеется в обоих таблицах
pd.merge(df6, df7, how='inner')

Unnamed: 0,name,food,drink
0,Mary,bread,wine


**outer**-соединение: Внешнее соединение, объединение всех значений, если значение отсутствует будет проставлен NaN

In [21]:
# Внешнее соединение. Для отсутствующих значений будет проставлен NaN
pd.merge(df6, df7, how='outer')

Unnamed: 0,name,food,drink
0,Joseph,,beer
1,Mary,bread,wine
2,Paul,beans,
3,Peter,fish,


**left**-соединение: Левое соединение, все значения из левой таблицы сопоставляются с соответствующими из правой. Если значение отсутствует то ставится NaN. Строки из правой таблицы, которые отсутствуют в левой игнорируются

In [22]:
# Левое соединение. Для отсутствующих значений будет проставлен NaN
pd.merge(df6, df7, how='left')

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


**right**-соединение: Правое соединение, все значения из правой таблицы сопоставляются с соответствующими из левой. Если значение отсутствует то ставится NaN. Строки из левой таблицы, которые отсутствуют в правой игнорируются

In [23]:
# Правое соединение. Для отсутствующих значений будет проставлен NaN
pd.merge(df6, df7, how='right')

Unnamed: 0,name,food,drink
0,Mary,bread,wine
1,Joseph,,beer


**Ключевое слово suffixes: Пересекающиеся названия столбцов**

In [24]:
df8 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [1, 2, 3, 4]})
df9 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'rank': [3, 1, 4, 2]})

In [25]:
df8

Unnamed: 0,name,rank
0,Bob,1
1,Jake,2
2,Lisa,3
3,Sue,4


In [26]:
df9

Unnamed: 0,name,rank
0,Bob,3
1,Jake,1
2,Lisa,4
3,Sue,2


In [27]:
# В обоих таблицах есть столбец rank с разными значениями, эти значения конфликтуют, Pandas при слиянии создаст два столбца
# rank_x и rank_y чтобы не потерять данные в результирующей таблице. _x и _y это суффиксы-разделители,их можно переназначить соответствующим аттрибутом
pd.merge(df8, df9, on='name')

Unnamed: 0,name,rank_x,rank_y
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2


In [28]:
pd.merge(df8, df9, on='name', suffixes=['_first', '_second'])

Unnamed: 0,name,rank_first,rank_second
0,Bob,1,3
1,Jake,2,1
2,Lisa,3,4
3,Sue,4,2
