In [None]:
import pandas as pd

# Merging DataFrames in Pandas
# merge() vs join() vs concat()
# merge() - похож на SQL-JOIN. Объединяет DataFrame по значениям в колонках (ключам).
# join()  - похож на SQL-JOIN. Объединяет DataFrame по индексам.
# concat() - похож на SQL-UNION. Просто "склеивает" DataFrame друг с другом.

In [4]:
df1 = pd.read_csv(r'LOTR.csv')
df2 = pd.read_csv(r'LOTR 2.csv')

In [14]:
df1

Unnamed: 0,FellowshipID,FirstName,Skills
0,1001,Frodo,Hiding
1,1002,Samwise,Gardening
2,1003,Gandalf,Spells
3,1004,Pippin,Fireworks


In [None]:
df2

Unnamed: 0,FellowshipID,FirstName,Age
0,1001,Frodo,50
1,1002,Samwise,39
2,1006,Legolas,2931
3,1007,Elrond,6520
4,1008,Barromir,51


In [None]:
# Это Inner Join (поведение по умолчанию). Он объединяет только те строки,
# в которых совпадают значения во всех колонках с одинаковыми именами.
df1.merge(df2)


Unnamed: 0,FellowshipID,FirstName,Skills,Age
0,1001,Frodo,Hiding,50
1,1002,Samwise,Gardening,39


In [19]:
# В этом случае мы явно указываем что это inner join а прежде мы указывали не явно, результат будет таким же
df1.merge(df2, how='inner')


Unnamed: 0,FellowshipID,FirstName,Skills,Age
0,1001,Frodo,Hiding,50
1,1002,Samwise,Gardening,39


In [22]:
# Вот тут уже интересно так как мы указли ключ по которому должны соединяться в записях добавились дубликаты некоторых столбцов
# Так как оно не будет проверять остальные столбцы и просто про дублирует и добавить новую коллонку в резултате
df1.merge(df2, how='inner', on='FellowshipID')


Unnamed: 0,FellowshipID,FirstName_x,Skills,FirstName_y,Age
0,1001,Frodo,Hiding,Frodo,50
1,1002,Samwise,Gardening,Samwise,39


In [24]:
# Все происходит так же как и в начале без аргументов но тут все явно указали и сравнивается по двум столбцам
df1.merge(df2, how='inner', on=['FellowshipID', 'FirstName'])


Unnamed: 0,FellowshipID,FirstName,Skills,Age
0,1001,Frodo,Hiding,50
1,1002,Samwise,Gardening,39


In [26]:
# Outer join это противоположность Inner join так оно выводит не только совподающие но и не совпадающие не дублируя совпадающие
# Если какие то значения в записях отсутсвуеют в отдной тоаблице то оно автоматом становится None
df1.merge(df2, how='outer')


Unnamed: 0,FellowshipID,FirstName,Skills,Age
0,1001,Frodo,Hiding,50.0
1,1002,Samwise,Gardening,39.0
2,1003,Gandalf,Spells,
3,1004,Pippin,Fireworks,
4,1006,Legolas,,2931.0
5,1007,Elrond,,6520.0
6,1008,Barromir,,51.0


In [28]:
# Тут у нас Left join и в результате мы получаем все записи левого(df1) и данные только совпадающих с правой. В df1 есть колонна Skills но нету Age
# Так что оно стягивает данные для этого столбца с правого(df2) для совпадающих
df1.merge(df2, how='left')


Unnamed: 0,FellowshipID,FirstName,Skills,Age
0,1001,Frodo,Hiding,50.0
1,1002,Samwise,Gardening,39.0
2,1003,Gandalf,Spells,
3,1004,Pippin,Fireworks,


In [30]:
# Тоже самое что и Left join но обратное
df1.merge(df2, how='cross')


Unnamed: 0,FellowshipID_x,FirstName_x,Skills,FellowshipID_y,FirstName_y,Age
0,1001,Frodo,Hiding,1001,Frodo,50
1,1001,Frodo,Hiding,1002,Samwise,39
2,1001,Frodo,Hiding,1006,Legolas,2931
3,1001,Frodo,Hiding,1007,Elrond,6520
4,1001,Frodo,Hiding,1008,Barromir,51
5,1002,Samwise,Gardening,1001,Frodo,50
6,1002,Samwise,Gardening,1002,Samwise,39
7,1002,Samwise,Gardening,1006,Legolas,2931
8,1002,Samwise,Gardening,1007,Elrond,6520
9,1002,Samwise,Gardening,1008,Barromir,51


In [None]:
# Как тут и видно чтобы работать с .join нужно кастомно настраивать аргументы так как по дефолту ничего тут нету
# Так что .join хорош тогда когда только в таблицах настроены индексы и отображения другое
df1.join(df2, how='outer', on='FellowshipID', lsuffix='_left', rsuffix='_right')

Unnamed: 0,FellowshipID,FellowshipID_left,FirstName_left,Skills,FellowshipID_right,FirstName_right,Age
,0,,,,1001.0,Frodo,50.0
,1,,,,1002.0,Samwise,39.0
,2,,,,1006.0,Legolas,2931.0
,3,,,,1007.0,Elrond,6520.0
,4,,,,1008.0,Barromir,51.0
0.0,1001,1001.0,Frodo,Hiding,,,
1.0,1002,1002.0,Samwise,Gardening,,,
2.0,1003,1003.0,Gandalf,Spells,,,
3.0,1004,1004.0,Pippin,Fireworks,,,


In [None]:
# Вот мы натроили индексы и резултьтат стал более дружулюбнее  только FellowshipID стал как index и отображается по другому
df3 = df1.set_index('FellowshipID').join(df2.set_index('FellowshipID'), on='FellowshipID', lsuffix='_left', rsuffix='_right')
df3

Unnamed: 0_level_0,FirstName_left,Skills,FirstName_right,Age
FellowshipID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1001,Frodo,Hiding,Frodo,50.0
1002,Samwise,Gardening,Samwise,39.0
1003,Gandalf,Spells,,
1004,Pippin,Fireworks,,


In [None]:
# Конкетенация - это просто поставить две таблицы друг после друга и можно также добавлять способы join в аргументах по дефолту стоит outer
# также  axis чобы стояли друг возле друга
# Конкатенация — это простое "склеивание" таблиц. По умолчанию, он
# помещает df2 под df1 (ось 0).
# concat() не ищет совпадений, а просто ставит таблицы друг за другом.
# Это полезно, когда таблицы имеют одинаковую структуру (одинаковые колонки).ё
pd.concat([df1, df2])

Unnamed: 0,FellowshipID,FirstName,Skills,Age
0,1001,Frodo,Hiding,
1,1002,Samwise,Gardening,
2,1003,Gandalf,Spells,
3,1004,Pippin,Fireworks,
0,1001,Frodo,,50.0
1,1002,Samwise,,39.0
2,1006,Legolas,,2931.0
3,1007,Elrond,,6520.0
4,1008,Barromir,,51.0
