Объединение Датафреймов

Самый простой способ - конкатенация. Для этого датафреймы должны быть в одинаковом формате

Конкатенация - 'склеивание' датафреймов по строкам(колонки должны соответствовать друг-другу) или по колонкам(строки должны соответствовать друг-другу)

Pandas автоматически проставляет значения NaN там, где это необходимо

Конкатенация на практике

In [28]:
import pandas as pd
import numpy as np

In [29]:
data_one = {'A' : ['A0', 'A1', 'A2', 'A3'], 'B' : ['B0', 'B1', 'B2', 'B3']}
data_two = {'C' : ['C0', 'C1', 'C2', 'C3'], 'D' : ['D0', 'D1', 'D2', 'D3']}

In [30]:
one = pd.DataFrame(data_one)
two = pd.DataFrame(data_two)

In [31]:
one

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [32]:
two

Unnamed: 0,C,D
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


Объединение датафреймов по колонкам

In [33]:
pd.concat([one,two], axis = 1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


Если поменять колонки места в функции, то при выводе они будут в том же порядке, в котором мы указали их в функции

Объединение датафреймов по строкам

Для того, чтобы объеденить датафремы с разынми колонками по колонкам, нужно переименовать колонки у второго датафрейма в названия колонок первого датафрейма (только если значения колонок соответсвуют друг-другу)

In [34]:
two.columns = one.columns
#переименовали названия колонок второго датафрейма в названия колонок первого датафрейма

In [35]:
two

Unnamed: 0,A,B
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


In [36]:
pd.concat([one, two], axis = 0)
#объеденили датафреймы по колонкам

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


Теперь у нас осталась проблема с индексацией. Для ее решения создаем объединенный датафрейм и задаем в нем новые индексы

In [37]:
my_df = pd.concat([one, two], axis = 0)
my_df
#создали объединенный датафрейм

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


In [38]:
my_df.index = range(len(my_df))
my_df
#задали новые индексы для объединенного датафрейма

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,C0,D0
5,C1,D1
6,C2,D2
7,C3,D3


Объединение датафреймов с помощью 'inner' merge

Зачастую датафреймы имеют разный формат, и поэтому их нельзя объединять с помощью конкатенации

В этом случае применяют слияние - merge
Это действие аналогично операции join для соединения таблиц в SQL

Пишется так: pd.merge() и принимает на вход параметр how
>
Есть 3 способа объединения:
>
1) inner
>
2) outer
>
3) left или right
>

Способ inner

Минус в том, что делать с информацией, которая есть только в одном из датафреймов


Пример:
>
У нас есть 2 таблицы
>
Мы должны решить, по какой колонке объединять эти две таблицы(параметр on)
>
Эта колонка должна быть Primary_key
>
Эта колонка должна присутствовать в обеих таблицах и в этих колонках должны быть одинаковые по смыслу данные(может называться по-разному)


В случане how='inner' мы берем строки, которые соответствуют друг-друг в обеих таблицах

Полная команда выглядит так:
>
pd.merge(registrations, logins, how='inner', on='name')

Шаги:
>
1) выбираем колонку соединения
>
2) выбираем только те значения, которые присутствуют в обеих таблицах
>
3) объединяем остальные колонки из обеих таблиц
>
Порядок колонок может отличаться в разных версиях Pandas

Реальный пример

In [39]:
registrations = pd.DataFrame({'reg_id':[1,2,3,4],'name':['Andrew','Bobo','Claire','David']})
logins = pd.DataFrame({'log_id':[1,2,3,4],'name':['Xavier','Andrew','Yolanda','Bobo']})

In [40]:
registrations

Unnamed: 0,reg_id,name
0,1,Andrew
1,2,Bobo
2,3,Claire
3,4,David


In [41]:
logins

Unnamed: 0,log_id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bobo


In [42]:
pd.merge(registrations,logins, how='inner', on='name')
#объеденили 2 таблицы и вывели строки, значения 'name' которых присутсвуют в обеих таблицах
#порядок таблиц неважен

Unnamed: 0,reg_id,name,log_id
0,1,Andrew,2
1,2,Bobo,4


left и right merge

Тут уже важен порядок. Сначала левый датафрейм, потом правый

Если how='left', on='name', то берем все значения 'name' из левой таблицы и неважно, есть ли они в правой таблице.
Где соответствие не нашлось, в результате будет NaN

Если how='right', on='name', то берем все значения 'name' из правой таблицы и неважно, есть ли они в левой таблице. Где соответствие не нашлось, в результате будет NaN

In [43]:
pd.merge(left=registrations,right=logins,how='left',on='name')
#соединили датафреймы по левому датафрейму

Unnamed: 0,reg_id,name,log_id
0,1,Andrew,2.0
1,2,Bobo,4.0
2,3,Claire,
3,4,David,


In [44]:
pd.merge(left=registrations,right=logins,how='right',on='name')
#соединили датафреймы по правому датафрейму

Unnamed: 0,reg_id,name,log_id
0,,Xavier,1
1,1.0,Andrew,2
2,,Yolanda,3
3,2.0,Bobo,4


Теоретически pandas может сам догадаться по какой колонке выполнять соединение датафреймов, если в этих датафреймах есть только одна колонка с одинаковым названием, но лучше колонку-соединение указывать самому

Outer merge

Позволяет нам включить в результат все строки, которые существуют хотябы в одном из датафреймов

In [45]:
pd.merge(registrations, logins, how='outer',on='name')
#вывели все строки из двух датафреймов, если значения нет в колонке, то будет значение NaN
#порядок таблиц неважен

Unnamed: 0,reg_id,name,log_id
0,1.0,Andrew,2.0
1,2.0,Bobo,4.0
2,3.0,Claire,
3,4.0,David,
4,,Xavier,1.0
5,,Yolanda,3.0


Объединение датафреймов по индексу

In [46]:
registrations = registrations.set_index('name')
#сделали индексами значения колонки name
#индексы по втором датафрейме не меняем

In [47]:
registrations

Unnamed: 0_level_0,reg_id
name,Unnamed: 1_level_1
Andrew,1
Bobo,2
Claire,3
David,4


In [48]:
pd.merge(registrations, logins, left_index=True, right_on='name',how='inner')
#объеденили левый датафрейм по индексу, а правый по колонке 'name'
#выведет только те строки, которые есть в обоих датафреймах
#left_index=True or False, right_index=True or False - объединение по индексам
#left_on, right_on - объединение по колонкам

Unnamed: 0,reg_id,log_id,name
1,1,2,Andrew
3,2,4,Bobo


Объединение датафреймов по колонкам с разными названиями

In [49]:
registrations = registrations.reset_index()
#сбросили индексы

In [50]:
registrations.columns=['reg_name','reg_id']
#поменяли названия колонок

In [52]:
result = pd.merge(registrations, logins, how='inner', left_on='reg_name', right_on='name')
result
#объеденили датафреймы по колонкам с разными названиями, главное чтобы были одинковые по смыслу данные

Unnamed: 0,reg_name,reg_id,log_id,name
0,Andrew,1,2,Andrew
1,Bobo,2,4,Bobo


In [53]:
#теперь можно убрать одну из колонок с именами
result.drop('reg_name', axis=1)

Unnamed: 0,reg_id,log_id,name
0,1,2,Andrew
1,2,4,Bobo


Работа с дубликатами

In [56]:
registrations.columns = ['name', 'id']
#поменяли названия колонок

In [57]:
logins.columns = ['id', 'name']
#поменяли названия колонок

In [61]:
pd.merge(registrations, logins, how='inner', on='name', suffixes=('_reg', '_log'))
#объеденили датафреймы и пандас поменял названия колонок, чтобы было легче различать их
#можно задать свои свои суффиксы: suffixes=('_reg', '_log')

Unnamed: 0,name,id_reg,id_log
0,Andrew,1,2
1,Bobo,2,4
