In [1]:
import pandas as pd

In [2]:
# иницилизация словарей
data_one = {'A': ['A0', 'A1', 'A2', 'A3'],'B': ['B0', 'B1', 'B2', 'B3']}
data_two = {'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}

In [3]:
# инициализация фреймов
one = pd.DataFrame(data_one)
two = pd.DataFrame(data_two)
one

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3


In [None]:
# Конкатенация по строкам
axis0 = pd.concat([one,two],axis=0)
axis0

In [None]:
# Конкатенация по столбцам, более понятная и читаемое склеивание
axis1 = pd.concat([one,two],axis=1)
axis1

In [4]:
# Переименовываем колонки
two.columns = one.columns

In [5]:
# более привычное склеивание по строкам
axis0 = pd.concat([one,two],axis=0)
axis0

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
0,C0,D0
1,C1,D1
2,C2,D2
3,C3,D3


In [7]:
# Переименовываем индексы
axis0.index = range(len(axis0))

In [8]:
# переименнование колонок в порядке возрастания
axis0

Unnamed: 0,A,B
0,A0,B0
1,A1,B1
2,A2,B2
3,A3,B3
4,C0,D0
5,C1,D1
6,C2,D2
7,C3,D3


In [9]:
# Inner join or merge - Внутреннее соединение
# Полная аналогия с SQL
registrations = pd.DataFrame({'reg_id':[1,2,3,4],'name':['Andrew','Bobo','Claire','David']})
logins = pd.DataFrame({'log_id':[1,2,3,4],'name':['Xavier','Andrew','Yolanda','Bobo']})

In [10]:
logins


Unnamed: 0,log_id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bobo


In [11]:
registrations


Unnamed: 0,reg_id,name
0,1,Andrew
1,2,Bobo
2,3,Claire
3,4,David


In [12]:
# Внутреннее соединение по имени: в обоих фреймах есть имя Андрей и Бобо
pd.merge(registrations,logins,how='inner',on='name')
# здесь нет разницы, где registrations и logins
# кроме того, колонки с разными названиями , но одинаковой размерности можно объединять
# для этого существуют параметры left_on и right_on

Unnamed: 0,reg_id,name,log_id
0,1,Andrew,2
1,2,Bobo,4


In [13]:
# Left and right join. Лево- и правостороннее слияние.
# Левостороннее: левая основная таблица. Если нет фактора, по которому можно соединенить две таблицы, то для столбцов правой таблицы пишется NaN
# Правостороннее соединение абсолютно аналогично

In [14]:
pd.merge(left=registrations, right = logins, how='left', on='name')

Unnamed: 0,reg_id,name,log_id
0,1,Andrew,2.0
1,2,Bobo,4.0
2,3,Claire,
3,4,David,


In [15]:
pd.merge(left=registrations, right = logins, how='right', on='name')

Unnamed: 0,reg_id,name,log_id
0,,Xavier,1
1,1.0,Andrew,2
2,,Yolanda,3
3,2.0,Bobo,4


In [16]:
# Outer merge или внешнее слияние.
# Мы берём все строки из двух таблиц
# если нет совпадений по on , то пишется NaN, но мы сохраненяем все данные двух таблиц.

In [17]:
pd.merge(left=registrations, right = logins, how= 'outer', on='name')

Unnamed: 0,reg_id,name,log_id
0,1.0,Andrew,2.0
1,2.0,Bobo,4.0
2,3.0,Claire,
3,4.0,David,
4,,Xavier,1.0
5,,Yolanda,3.0


In [18]:
# Кроме того, в pandas существует объединение колонок по индексу

In [19]:
registrations = registrations.set_index('name')

In [20]:
registrations

Unnamed: 0_level_0,reg_id
name,Unnamed: 1_level_1
Andrew,1
Bobo,2
Claire,3
David,4


In [21]:
logins

Unnamed: 0,log_id,name
0,1,Xavier
1,2,Andrew
2,3,Yolanda
3,4,Bobo


In [22]:
# хочется объединить индекс и столбец двух фреймов
# left_index и rigth_index - параметры слияния по индексам
pd.merge(registrations, logins, left_index=True, right_on='name') # если явно не указывать, как соединять, будет внутреннее соединение.

Unnamed: 0,reg_id,log_id,name
1,1,2,Andrew
3,2,4,Bobo


In [23]:
# если возникают стоблцы (строки) с одинаковым смыслом и в рамках задачи это нас не интересует, то
# drop с указанием необходимой оси

In [24]:
registrations = pd.DataFrame({'reg_id':[1,2,3,4],'name':['Andrew','Bobo','Claire','David']})
logins = pd.DataFrame({'log_id':[1,2,3,4],'name':['Xavier','Andrew','Yolanda','Bobo']})

In [25]:
# переименование колонок
registrations.columns = ['id','name']
logins.columns = ['id','name']

In [26]:
pd.merge(registrations,logins,on='name') # так id несколько, появились суфиксы. x -левая , y - правая

Unnamed: 0,id_x,name,id_y
0,1,Andrew,2
1,2,Bobo,4


In [27]:
# суффиксы можно видоизменять
pd.merge(registrations,logins,on='name',suffixes=('_reg','_log'))

Unnamed: 0,id_reg,name,id_log
0,1,Andrew,2
1,2,Bobo,4
