### Работа с данными с помощью Pandas

Будем работать с историей заказов одной платформ по доставки еды.

1).Загрузим исходные данные.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('files/orders_history.csv', sep = ',')

2).Посмотрим на первые 5 строк файла.

In [3]:
# df.head(2)
df.tail()

Unnamed: 0,order_date,rider_assigned,food_picked_up,food_delivered,successful_order,failed_order,rider_id,vendor_id,price
47939,2021-07-30 06:55:05,2021-07-30 06:55:38,2021-07-30 07:12:39,2021-07-30 07:21:34,1,0,105cf28f9cdcc006302b83605e9a4d32,915dff0f301281f975d4aac54026a576,1163.0
47940,2021-07-30 17:01:13,2021-07-30 17:01:23,2021-07-30 17:24:30,2021-07-30 17:27:21,1,0,05d30c6ccb433a5f39b879fcd579f873,40552e31feef1704dcca105f9fb6fef2,492.0
47941,2021-07-30 16:57:59,2021-07-30 16:59:21,2021-07-30 17:09:21,2021-07-30 17:25:56,1,0,1bf043ad9d32e841e479f739644a224e,460a0d84d9c1d460baf974def0d23117,1595.0
47942,2021-07-30 11:33:57,2021-07-30 11:34:08,2021-07-30 11:44:22,2021-07-30 11:47:40,1,0,05d30c6ccb433a5f39b879fcd579f873,fc08409966f5f5a27ad9b9846c6fe7e4,558.0
47943,2021-07-30 17:05:13,2021-07-30 17:05:20,,,0,1,4976acea6c2e2811328dc336c9e96fe3,297d3df24261709ff7cb6f04135e9caf,1447.0


По умолчанию выводится 20 столбцов и 60 строк.
Можно изменить, воспользовавшись следующей командой:

In [4]:
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

In [5]:
# Еще очень полезная опция
pd.set_option('display.precision',3)

3).Посмотрим на размер данных, названия признаков и их типы.

In [6]:
#47944 наблюдений и 9 колонок
df.shape

(47944, 9)

In [7]:
df.shape[0]

47944

In [8]:
df.columns

Index(['order_date', 'rider_assigned', 'food_picked_up', 'food_delivered',
       'successful_order', 'failed_order', 'rider_id', 'vendor_id', 'price'],
      dtype='object')

4).Посмотрим общую информацию по датафрейму.

Для просмотра числовых статистик можно воспользоваться методом *describe*: 

In [9]:
df.describe()

Unnamed: 0,successful_order,failed_order,price
count,47944.0,47944.0,47944.0
mean,0.964,0.016,957.196
std,0.187,0.125,427.112
min,0.0,0.0,223.0
25%,1.0,0.0,586.0
50%,1.0,0.0,956.0
75%,1.0,0.0,1327.0
max,1.0,1.0,1700.0


In [10]:
df.describe(include=['object'])

Unnamed: 0,order_date,rider_assigned,food_picked_up,food_delivered,rider_id,vendor_id
count,47944,47883,46364,46260,47883,47944
unique,47082,45276,45525,45421,447,406
top,2021-07-19 09:07:03,2021-07-16 12:42:08,2021-07-13 10:27:16,2021-07-14 15:22:34,b7f93e38b59f20af3456fb85d827c0d3,9d3c4307b57777be1d4923d89fe1856d
freq,3,8,3,3,594,1945


Также по нечисловым признакам можно изучить распределение:

In [11]:
df.vendor_id.value_counts(dropna=False)[:10]

9d3c4307b57777be1d4923d89fe1856d    1945
664f822c55bccff52b742f26000dde4b    1232
f14a6286c9a5d2813c91f6c7d4864a39    1207
554aa4cfb03c2cee2301f11518d27ed4    1180
eb8fb38c9c319130400ea46fe70e4b87     935
08fcff35984652544c1fced8d7890442     931
834c264af3fdc2dba2fa77fa48b8788c     853
3220d5811c5b78640facd3c2d37b9223     853
4880f8a21aa5d0087f7aba4340b9d46a     771
aaa3d0d3301d2467ea1597b831de7ee6     751
Name: vendor_id, dtype: int64

Информация о колонках датафрейма:

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47944 entries, 0 to 47943
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   order_date        47944 non-null  object 
 1   rider_assigned    47883 non-null  object 
 2   food_picked_up    46364 non-null  object 
 3   food_delivered    46260 non-null  object 
 4   successful_order  47944 non-null  int64  
 5   failed_order      47944 non-null  int64  
 6   rider_id          47883 non-null  object 
 7   vendor_id         47944 non-null  object 
 8   price             47944 non-null  float64
dtypes: float64(1), int64(2), object(6)
memory usage: 3.3+ MB


В случае работы с большими датасетами занимаемая память - критичной фактор:

In [13]:
for dtype in ['float','int','object']:
    selected_dtype = df.select_dtypes(include=[dtype])
    mean_usage_b = selected_dtype.memory_usage(deep=True).mean()
    mean_usage_mb = mean_usage_b / 1024 ** 2
    print("Average memory usage for {} columns: {:03.2f} MB".format(dtype,mean_usage_mb))

Average memory usage for float columns: 0.18 MB
Average memory usage for int columns: 0.24 MB
Average memory usage for object columns: 3.13 MB


Не забываем, что мы можем закодировать колонки типа object в числовые эквиваленты, например с помощью pd.factorize.

5).Изменим тип колонок в том случае, если это необходимо.

In [14]:
df['price'] = df['price'].astype('float32')

In [15]:
#Обратить внимание, как изменился размер занимаемой памяти
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47944 entries, 0 to 47943
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   order_date        47944 non-null  object 
 1   rider_assigned    47883 non-null  object 
 2   food_picked_up    46364 non-null  object 
 3   food_delivered    46260 non-null  object 
 4   successful_order  47944 non-null  int64  
 5   failed_order      47944 non-null  int64  
 6   rider_id          47883 non-null  object 
 7   vendor_id         47944 non-null  object 
 8   price             47944 non-null  float32
dtypes: float32(1), int64(2), object(6)
memory usage: 3.1+ MB
None


**Тип данных КАТЕГОРИЯ**

Отдельный тип данных в Pandas, которому стоит уделить внимание, так как он позволяет более эффективно работать с категориальными признаками.

Что такое категориальные признаки?

In [16]:
[(col, df[col].nunique()) for col in df.columns]

[('order_date', 47082),
 ('rider_assigned', 45276),
 ('food_picked_up', 45525),
 ('food_delivered', 45421),
 ('successful_order', 2),
 ('failed_order', 2),
 ('rider_id', 447),
 ('vendor_id', 406),
 ('price', 1478)]

In [17]:
unique_counts = pd.DataFrame.from_records([(col, df[col].nunique()) for col in df.columns],
                          columns=['Column_Name', 'Num_Unique']).sort_values(by=['Num_Unique'])
unique_counts

Unnamed: 0,Column_Name,Num_Unique
4,successful_order,2
5,failed_order,2
7,vendor_id,406
6,rider_id,447
8,price,1478
1,rider_assigned,45276
3,food_delivered,45421
2,food_picked_up,45525
0,order_date,47082


Вендор (ресторан) - отличный кандидат для категориального признака. 

In [18]:
df_with_cat = df.copy()

In [19]:
df_with_cat['vendor_id'] = df_with_cat['vendor_id'].astype('category')

Зачем нужны категориальные признаки в Pandas:

    - позволяют более эффективно обрабатывать категориальные признаки;
    - многие питоновские библиотеки имеют встроенные методы по работе с категориальными признаками;
    - такие признаки занимают меньше места и также положительно сказываются на производительности.

In [20]:
print(df_with_cat.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 47944 entries, 0 to 47943
Data columns (total 9 columns):
 #   Column            Non-Null Count  Dtype   
---  ------            --------------  -----   
 0   order_date        47944 non-null  object  
 1   rider_assigned    47883 non-null  object  
 2   food_picked_up    46364 non-null  object  
 3   food_delivered    46260 non-null  object  
 4   successful_order  47944 non-null  int64   
 5   failed_order      47944 non-null  int64   
 6   rider_id          47883 non-null  object  
 7   vendor_id         47944 non-null  category
 8   price             47944 non-null  float32 
dtypes: category(1), float32(1), int64(2), object(5)
memory usage: 2.9+ MB
None


In [21]:
%%timeit
df.groupby('vendor_id')['price'].mean().to_frame()

2.48 ms ± 260 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [22]:
%%timeit
df_with_cat.groupby('vendor_id')['price'].mean().to_frame()

267 µs ± 54.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Заметный прирост производительности!

Используйте данный тип с осторожностью, всегда выполняется необходимую предобработку данных.

6).Применить к данным требуемые операции.

In [23]:
#Сортировка
df.sort_values(by=['vendor_id', 'price'],
                   ascending=[True, False]).head(2)

Unnamed: 0,order_date,rider_assigned,food_picked_up,food_delivered,successful_order,failed_order,rider_id,vendor_id,price
11454,2021-07-08 15:30:40,2021-07-08 15:31:34,2021-07-08 15:42:18,2021-07-08 15:52:01,1,0,8a9ad87687aedb90c09dad90499a3fb8,014a1b8ef4b3e615893258d810b88a96,1007.0
27278,2021-07-18 13:46:31,2021-07-18 13:46:59,2021-07-18 13:58:20,2021-07-18 14:04:21,1,0,3892d37cbb9196714a3c6cc9ca8d936a,014a1b8ef4b3e615893258d810b88a96,803.0


In [24]:
#Извлечение данных
df.iloc[:,0:4]

Unnamed: 0,order_date,rider_assigned,food_picked_up,food_delivered
0,2021-07-01 08:56:13,2021-07-01 09:04:09,2021-07-01 09:17:01,2021-07-01 09:29:58
1,2021-07-01 10:16:07,2021-07-01 10:16:36,2021-07-01 10:49:33,2021-07-01 11:04:07
2,2021-07-01 13:31:18,2021-07-01 13:31:37,2021-07-01 13:50:12,2021-07-01 14:08:42
3,2021-07-01 10:40:13,2021-07-01 10:40:42,2021-07-01 10:57:57,2021-07-01 11:16:26
4,2021-07-01 15:57:40,2021-07-01 16:02:01,2021-07-01 16:18:34,2021-07-01 16:24:45
...,...,...,...,...
47939,2021-07-30 06:55:05,2021-07-30 06:55:38,2021-07-30 07:12:39,2021-07-30 07:21:34
47940,2021-07-30 17:01:13,2021-07-30 17:01:23,2021-07-30 17:24:30,2021-07-30 17:27:21
47941,2021-07-30 16:57:59,2021-07-30 16:59:21,2021-07-30 17:09:21,2021-07-30 17:25:56
47942,2021-07-30 11:33:57,2021-07-30 11:34:08,2021-07-30 11:44:22,2021-07-30 11:47:40


In [25]:
df[df['vendor_id'] == '014a1b8ef4b3e615893258d810b88a96']['price'].mean()

643.75

In [26]:
df[df['vendor_id'] == '014a1b8ef4b3e615893258d810b88a96']['price'].min()

367.0

### Группировка данных

In [27]:
#Группировка данных
#df.groupby(by=grouping_columns)[columns_to_show].function()

df.groupby(by = 'vendor_id')['price'].max()

vendor_id
014a1b8ef4b3e615893258d810b88a96    1007.0
014ca478889f2f66363eb8cbdf832516    1371.0
0172ff8832b405b53761303d86df2a86    1689.0
01b0bef321650ae048605b203c8efa1f    1686.0
020ed7abb2b318c3d7aa98f50e7185fb     603.0
                                     ...  
fc08409966f5f5a27ad9b9846c6fe7e4    1690.0
fd0da4aea5306c25014761df6c475db9    1699.0
fd4dc3cc70d25a8ed11303eae34ca89f    1479.0
fde4b2502012e38506485ecfad48aa02    1697.0
ff6609fc0bf8b3824811a4ae7d431fd6    1684.0
Name: price, Length: 406, dtype: float32

In [28]:
df.groupby(by = 'vendor_id')['price'].agg([np.mean, np.std, np.min, np.max])

Unnamed: 0_level_0,mean,std,amin,amax
vendor_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
014a1b8ef4b3e615893258d810b88a96,643.750,313.206,367.0,1007.0
014ca478889f2f66363eb8cbdf832516,865.778,344.374,521.0,1371.0
0172ff8832b405b53761303d86df2a86,880.500,440.033,276.0,1689.0
01b0bef321650ae048605b203c8efa1f,902.191,428.784,238.0,1686.0
020ed7abb2b318c3d7aa98f50e7185fb,603.000,,603.0,603.0
...,...,...,...,...
fc08409966f5f5a27ad9b9846c6fe7e4,970.137,414.358,227.0,1690.0
fd0da4aea5306c25014761df6c475db9,953.233,438.216,225.0,1699.0
fd4dc3cc70d25a8ed11303eae34ca89f,802.333,506.463,258.0,1479.0
fde4b2502012e38506485ecfad48aa02,1001.422,422.657,231.0,1697.0


In [29]:
#Получить из Серии - Датафрейм
df.groupby(by = 'vendor_id')['price'].mean().reset_index()

Unnamed: 0,vendor_id,price
0,014a1b8ef4b3e615893258d810b88a96,643.750
1,014ca478889f2f66363eb8cbdf832516,865.778
2,0172ff8832b405b53761303d86df2a86,880.500
3,01b0bef321650ae048605b203c8efa1f,902.191
4,020ed7abb2b318c3d7aa98f50e7185fb,603.000
...,...,...
401,fc08409966f5f5a27ad9b9846c6fe7e4,970.137
402,fd0da4aea5306c25014761df6c475db9,953.233
403,fd4dc3cc70d25a8ed11303eae34ca89f,802.333
404,fde4b2502012e38506485ecfad48aa02,1001.422
