### Merge, Join, Concatenate

In [1]:
import pandas as pd

In [2]:
# таблица с преподавателем и индикатором предмета, который они прпедают

raw_data = {
    'subject_id': ['1', '2', '3', '4', '5'],
    'first_name': ['Alex', 'Amy', 'Allen', 'Alice', 'Ayoung'],
    'last_name': ['Anderson', 'Ackerman', 'Ali', 'Aoni', 'Atiches']}

df_a = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_a.index = [0,1,2,3,4]
df_a

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches


In [3]:
# таблица с преподавателем и индикатором предмета, который они прпедают


raw_data = {
    'subject_id': ['4', '5', '6', '7', '8'],
    'first_name': ['Billie', 'Brian', 'Bran', 'Bryce', 'Betty'],
    'last_name': ['Binder', 'Black', 'Balwner', 'Brice', 'Btisan']}

df_b = pd.DataFrame(raw_data, columns = ['subject_id', 'first_name', 'last_name'])
df_b.index = [2,3,4,5,6]
df_b

Unnamed: 0,subject_id,first_name,last_name
2,4,Billie,Binder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


In [5]:
# индикатор теста, который нужно пройти для каждого предмета

raw_data = {
    'subject_id': ['1', '2', '3', '4', '5', '7', '8', '9', '10', '11'],
    'test_id': [51, 15, 15, 61, 16, 14, 15, 1 ,61, 16]}

df_n = pd.DataFrame(raw_data, columns = ['subject_id', 'test_id'])
df_n

Unnamed: 0,subject_id,test_id
0,1,51
1,2,15
2,3,15
3,4,61
4,5,16
5,7,14
6,8,15
7,9,1
8,10,61
9,11,16


#### Concat как правило используется для объединения таблиц по вертикальной или горизонтальной оси.

In [6]:
# объеденим таблицу по строчно

df_new = pd.concat([df_a, df_b], axis=0)
df_new

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
2,4,Billie,Binder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


In [10]:
# объеденим таблицу по колонкам

df_new = pd.concat([df_a, df_b], axis=1)
df_new

Unnamed: 0,subject_id,first_name,last_name,subject_id.1,first_name.1,last_name.1
0,1.0,Alex,Anderson,,,
1,2.0,Amy,Ackerman,,,
2,3.0,Allen,Ali,4.0,Billie,Binder
3,4.0,Alice,Aoni,5.0,Brian,Black
4,5.0,Ayoung,Atiches,6.0,Bran,Balwner
5,,,,7.0,Bryce,Brice
6,,,,8.0,Betty,Btisan


In [12]:
# Concat с помощью атрибута inner
# объединяются только строки, в которых присутствует одинаковый индекс (и там и там)

df_new_ = pd.concat([df_a, df_b], axis=1, join='inner')
df_new_

Unnamed: 0,subject_id,first_name,last_name,subject_id.1,first_name.1,last_name.1
2,3,Allen,Ali,4,Billie,Binder
3,4,Alice,Aoni,5,Brian,Black
4,5,Ayoung,Atiches,6,Bran,Balwner


#### Append - частный случай метода Concat с параметрами (axis=0, join='outer')

In [16]:
df_new = df_a.append(df_b)
df_new

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
2,4,Billie,Binder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


#### Метод Join основан на объединении таблиц через индексы (способ объединения указывается с помощью параметров how = ['left', 'right', 'inner', 'outer']

In [14]:
# df_a.join(df_b, how = 'left')

df_a.join(df_b, rsuffix='_right_table', how = 'left')

Unnamed: 0,subject_id,first_name,last_name,subject_id_right_table,first_name_right_table,last_name_right_table
0,1,Alex,Anderson,,,
1,2,Amy,Ackerman,,,
2,3,Allen,Ali,4.0,Billie,Binder
3,4,Alice,Aoni,5.0,Brian,Black
4,5,Ayoung,Atiches,6.0,Bran,Balwner


#### Merge используется для объединения таблиц по любым колонкам с помощью методов left_on и right_on.

In [17]:
df_new

Unnamed: 0,subject_id,first_name,last_name
0,1,Alex,Anderson
1,2,Amy,Ackerman
2,3,Allen,Ali
3,4,Alice,Aoni
4,5,Ayoung,Atiches
2,4,Billie,Binder
3,5,Brian,Black
4,6,Bran,Balwner
5,7,Bryce,Brice
6,8,Betty,Btisan


In [18]:
# колонки не дублируются в новой таблице

pd.merge(df_new, df_n, on='subject_id')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,4,Billie,Binder,61
5,5,Ayoung,Atiches,16
6,5,Brian,Black,16
7,7,Bryce,Brice,14
8,8,Betty,Btisan,15


In [19]:
pd.merge(df_new, df_n, left_on='subject_id', right_on='subject_id')

Unnamed: 0,subject_id,first_name,last_name,test_id
0,1,Alex,Anderson,51
1,2,Amy,Ackerman,15
2,3,Allen,Ali,15
3,4,Alice,Aoni,61
4,4,Billie,Binder,61
5,5,Ayoung,Atiches,16
6,5,Brian,Black,16
7,7,Bryce,Brice,14
8,8,Betty,Btisan,15


In [25]:
pd.merge(df_a, df_b, on='subject_id', how='left')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,1,Alex,Anderson,,
1,2,Amy,Ackerman,,
2,3,Allen,Ali,,
3,4,Alice,Aoni,Billie,Binder
4,5,Ayoung,Atiches,Brian,Black


In [26]:
pd.merge(df_a, df_b, on='subject_id', how='right')

Unnamed: 0,subject_id,first_name_x,last_name_x,first_name_y,last_name_y
0,4,Alice,Aoni,Billie,Binder
1,5,Ayoung,Atiches,Brian,Black
2,6,,,Bran,Balwner
3,7,,,Bryce,Brice
4,8,,,Betty,Btisan


In [27]:
pd.merge(df_a, df_b, right_index=True, left_index=True)

Unnamed: 0,subject_id_x,first_name_x,last_name_x,subject_id_y,first_name_y,last_name_y
2,3,Allen,Ali,4,Billie,Binder
3,4,Alice,Aoni,5,Brian,Black
4,5,Ayoung,Atiches,6,Bran,Balwner


### Пример работы с данными с помощью Pandas

Будем работать с историей заказаов одной платформы по доставке еды

1) Загрузим исходные данные

In [28]:
import pandas as pd
import numpy as np

In [30]:
df = pd.read_csv('orders.csv')

2) Посмотрим на первые 5 строк файла.

In [32]:
# df.head() - первые
df.tail()  # - последние

Unnamed: 0,date,vendor_id,chain_id,city_id,spec,successful_orders,fail_orders
96113,2019-08-18,44315,31154,24,Суши,2.0,0.0
96114,2019-06-15,17528,11182,25,Пицца,11.0,1.0
96115,2019-08-19,45351,31679,23,Вьетнамская,1.0,0.0
96116,2019-09-26,64209,42525,25,Суши,7.0,0.0
96117,2019-09-06,34676,25567,26,Итальянская,1.0,0.0


По умолчанию выводится 20 столбцов и 60 строк. Можно изменить, воспользовавшись следующей командой


In [33]:
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

In [34]:
# задаём точность для значений с плавающей точкой

pd.set_option('display.precision', 3)

3) Посмотрим на размер данных, названия признаков и их типы

In [36]:
df.shape

(96118, 7)

In [37]:
df.shape[0]

96118

In [38]:
df.columns

Index(['date', 'vendor_id', 'chain_id', 'city_id', 'spec', 'successful_orders',
       'fail_orders'],
      dtype='object')

4) Посмотрим общую информацию по датафрейму

Для просмотра числовых статистик можно воспользоваться методом describe

In [39]:
df.describe()

Unnamed: 0,vendor_id,chain_id,city_id,successful_orders,fail_orders
count,96118.0,96118.0,96118.0,96118.0,96118.0
mean,47425.346,31031.897,24.357,8.877,0.417
std,15447.4,10669.95,1.168,15.37,1.425
min,3756.0,804.0,23.0,0.0,0.0
25%,40265.0,27909.0,23.0,1.0,0.0
50%,49754.0,32662.0,24.0,4.0,0.0
75%,58052.0,38376.0,25.0,9.0,0.0
max,76557.0,47907.0,26.0,240.0,86.0


In [41]:
# информация о нечисловых колонках

df.describe(include=['object'])

Unnamed: 0,date,spec
count,96118,95733
unique,121,35
top,2019-09-27,Суши
freq,910,23077


По нечловым признакам также можно изучить распределения:

In [44]:
df.spec.value_counts(dropna=False)[:10]

Суши          23077
Пицца         13825
Бургеры       13555
Русская        6260
Шашлыки        5658
Шаурма         5230
Мясо           3876
Фастфуд        3813
Сэндвичи       3375
Грузинская     3043
Name: spec, dtype: int64

Информация о колонках датафрейма

In [45]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96118 entries, 0 to 96117
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   date               96118 non-null  object 
 1   vendor_id          96118 non-null  int64  
 2   chain_id           96118 non-null  int64  
 3   city_id            96118 non-null  int64  
 4   spec               95733 non-null  object 
 5   successful_orders  96118 non-null  float64
 6   fail_orders        96118 non-null  float64
dtypes: float64(2), int64(3), object(2)
memory usage: 5.1+ MB


В случае работы с большими датасетами занимается память - критичный фактор

In [46]:
for dtype in ['float', 'int', 'object']:
    selected_dtype = df.select_dtypes(include=[dtype])
    mean_usage_b = selected_dtype.memory_usage(deep=True).mean()
    mean_usage_mb = mean_usage_b / 1024 ** 2
    print('Average memory usage for {} columns: {:03.2f} MB'.format(dtype,mean_usage_mb))

Average memory usage for float columns: 0.49 MB
Average memory usage for int columns: 0.00 MB
Average memory usage for object columns: 4.92 MB


Мы можем закодировать колонки типа object в числовые эквиваленты, например с помощью pd.factorize.
Так как тип object занимает больше всего места

5) Изменим тип колонок в том случае, если это необходимо

In [48]:
df['chain_id'] = df['chain_id'].astype('float32')

In [50]:
# немного удалось уменьшить память

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96118 entries, 0 to 96117
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   date               96118 non-null  object 
 1   vendor_id          96118 non-null  int64  
 2   chain_id           96118 non-null  float32
 3   city_id            96118 non-null  int64  
 4   spec               95733 non-null  object 
 5   successful_orders  96118 non-null  float64
 6   fail_orders        96118 non-null  float64
dtypes: float32(1), float64(2), int64(2), object(2)
memory usage: 4.8+ MB
None


### Тип данных КАТЕГОРИЯ

Отдельный тип данных в Pandas, которому стоит уделить внимание, так как он позволяет более эффективно работать с категориальными признаками

In [52]:
# Выберем кандидата с самыми чёткими категориальными признаками - это vendor_id

[(col, df[col].nunique()) for col in df.columns]

[('date', 121),
 ('vendor_id', 1537),
 ('chain_id', 1063),
 ('city_id', 4),
 ('spec', 35),
 ('successful_orders', 193),
 ('fail_orders', 42)]

In [53]:
unique_counts = pd.DataFrame.from_records([(col, df[col].nunique()) for col in df.columns],
                                         columns = ['Column_name', 'Num_unique']).sort_values(by=['Num_unique'])
unique_counts

Unnamed: 0,Column_name,Num_unique
3,city_id,4
4,spec,35
6,fail_orders,42
0,date,121
5,successful_orders,193
2,chain_id,1063
1,vendor_id,1537


Вендор (ресторан) - отличный кандидат для кат. признака

In [54]:
# новый датафрейм - копия

df_with_cat = df.copy()

In [55]:
df_with_cat['vendor_id'] = df_with_cat['vendor_id'].astype('category')

Для чего нужны категориальные признаки в Pandas:
 - позволяют боллее эффективно обрабатывать категориальные признаки
 - многие питоновские библиотеки имеют встроенные методы по работе с категориальными признаками
 - таки признаки занимают меньше места и также положительно сказываются на производительности

In [56]:
print(df_with_cat.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 96118 entries, 0 to 96117
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype   
---  ------             --------------  -----   
 0   date               96118 non-null  object  
 1   vendor_id          96118 non-null  category
 2   chain_id           96118 non-null  float32 
 3   city_id            96118 non-null  int64   
 4   spec               95733 non-null  object  
 5   successful_orders  96118 non-null  float64 
 6   fail_orders        96118 non-null  float64 
dtypes: category(1), float32(1), float64(2), int64(1), object(2)
memory usage: 4.3+ MB
None


6) применить к данным требуемые операции

In [58]:
# Сортировка

df.sort_values(by=['vendor_id', 'successful_orders'],
             ascending=[True, False]).head(2)

Unnamed: 0,date,vendor_id,chain_id,city_id,spec,successful_orders,fail_orders
10065,2019-06-22,3756,2070.0,25,Мясо,37.0,0.0
54216,2019-08-02,3756,2070.0,25,Мясо,35.0,1.0


In [59]:
# Извлечь данные

df.iloc[:,0:4]

Unnamed: 0,date,vendor_id,chain_id,city_id
0,2019-07-02,40065,7501.0,23
1,2019-08-27,48058,33226.0,23
2,2019-09-25,35430,26220.0,25
3,2019-09-21,56553,38601.0,23
4,2019-09-21,43919,30984.0,25
...,...,...,...,...
96113,2019-08-18,44315,31154.0,24
96114,2019-06-15,17528,11182.0,25
96115,2019-08-19,45351,31679.0,23
96116,2019-09-26,64209,42525.0,25


### Группировка данных

In [60]:
# df.groupby(by = grouping_columns)[columns_to_show],function()

df.groupby(by = 'vendor_id')['successful_orders'].max()

vendor_id
3756     37.0
3771     14.0
3813     20.0
3857     68.0
3858      9.0
         ... 
76473     1.0
76474     1.0
76489     1.0
76496     3.0
76557     2.0
Name: successful_orders, Length: 1537, dtype: float64

In [61]:
df.groupby(by = 'vendor_id')['successful_orders'].agg([np.mean, np.std, np.min, np.max])

Unnamed: 0_level_0,mean,std,amin,amax
vendor_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
3756,19.793,5.710,2.0,37.0
3771,6.612,2.788,1.0,14.0
3813,6.917,3.664,1.0,20.0
3857,39.450,13.499,0.0,68.0
3858,4.466,2.353,0.0,9.0
...,...,...,...,...
76473,1.000,0.000,1.0,1.0
76474,1.000,,1.0,1.0
76489,1.000,,1.0,1.0
76496,2.333,0.577,2.0,3.0


In [None]:
# Получаем из Серии - Датафрейм


In [62]:
df.groupby(by = 'vendor_id')['successful_orders'].mean().reset_index()

Unnamed: 0,vendor_id,successful_orders
0,3756,19.793
1,3771,6.612
2,3813,6.917
3,3857,39.450
4,3858,4.466
...,...,...
1532,76473,1.000
1533,76474,1.000
1534,76489,1.000
1535,76496,2.333
