## Работа с данными с помощью Pandas

Будем работать с историей заказов одной платформ по доставке еды.

1) Загрузим исходные данные.

In [1]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('files/orders_history.csv', sep=',')

2) Посмотрим на первые 5 строк файла.

In [None]:
# df.head(2)
df.tail()

![image.png](attachment:8b696231-5add-4b82-8bd6-777a429d5010.png)

По умолчанию выводится 20 столбцов и 60 строк. Можно изменить, воспользовавшись следующей командой:

In [3]:
pd.set_option('display.max_columns', 100)
pd.set_option('display.max_rows', 100)

In [4]:
# Ещё очень полезная опция
pd.set_option('display.precision', 3)

3) Посмотрим на размер данных, названия признаков и их типы.

In [None]:
# 47944 наблюдений и 9 колонок
df.shape

![image.png](attachment:2c5aaff0-d75d-47bd-a905-778bf4986ddf.png)

In [None]:
df.shape[0]

![image.png](attachment:efba0e0b-6076-4578-9472-67ebb446201c.png)

In [None]:
df.columns

![image.png](attachment:7f785c61-9540-40e7-b39f-1cfc21203448.png)

4) Посмотрим общую информацию по датафрейму.

Для просмотра числовых статистик можно воспользоваться методом *describe*:

In [None]:
df.describe()

![image.png](attachment:55474092-e0f4-44d8-b11b-590b6f410773.png)

In [None]:
df.describe(include=['object'])

![image.png](attachment:b05c01b4-b571-48a3-b359-4277620d59a1.png)

Также по нечисловым признакам можно изучить распределение:

In [None]:
df.vendor_id.value_counts(dropna=False)[:10]

![image.png](attachment:b66785d6-6ccc-40c5-8e1b-cc2d3ea34d23.png)

Информация о колонках датафрейма:

In [None]:
df.info()

![image.png](attachment:027dd1e0-4119-4dea-afc6-29fb32a485d4.png)

В случае работы с большими датасетами занимается память - критичный фактор:

In [None]:
for dtype in ['float', 'int', 'object']:
    selected_dtype = df.select_dtypes(include=[dtype])
    mean_usage_b = selected_dtype.memory_usage(deep=True).mean()
    mean_usage_mb = mean_usage_b / 1024 ** 2
    print('Average memory usage for {} columns: {:03.2f} MB'.format(dtype, mean_usage_mb))

![image.png](attachment:28424712-fd5f-49c1-b1a9-b1145b821786.png)

Не забываем, что мы можем закодировать колонки типа object в числовые эквиваленты, например, с помощью pd.factorize.

5) Изменим тип колонок в том случае, если это необходимо.

In [None]:
df['price'] = df['price'].astyoe('float32')

In [None]:
# Обратить внимание, как изменился размер занимаемой памяти
print(df.info())

![image.png](attachment:219fc231-eb00-41a6-b27a-277a22bb0e90.png)

### Тип данных КАТЕГОРИЯ

Отдельный тип данных в Pandas, которому стоит уделить внимание, так как он позволяет более эффективно с категориальными признаками.

Что такое категориальные признаки?

In [None]:
[(col, df[col].nunique()) for col in df.columns]

![image.png](attachment:09f93f28-7ab7-4075-8d2f-077781ff277e.png)

In [None]:
unique_counts = pd.DataFrame.from_records([(col, df[col].nunique()) for col in df.columns],
                    columns=['Column_Name', 'Num_Unique']).sort_values(by=['Num_Unique'])
unique_counts

![image.png](attachment:6a97d0c0-d161-4a39-94d4-65cb1cb8c474.png)

Вендор (ресторан) - отличный кандидат для категориального признака.

In [None]:
df_with_cat = df.copy()

In [None]:
df_with_cat['vendor_id'] = df_with_cat['vendor_id'].astype('category')

Зачем нужны категориальные признаки в Pandas:
- позволяют более эффективно обрабатывать категориальные признаки;
- многие питоновские библиотеки имеют встроенные методы по работе с категориальными признаками;
- такие признаки занимают меньше места и также положительно сказываются на производительности.

In [None]:
print(df_with_cat.info())

![image.png](attachment:daaaea6a-7d1a-41fd-a8b2-84e792e8a312.png)

In [None]:
%%timeit
df.groupby('vendor_id')['price'].mean().to_frame()

![image.png](attachment:264bf810-9cc8-40f7-8b06-6f14f44acbb5.png)

In [None]:
%%timeit
df_with_cat.groupby('vendor_id')['price'].mean().to_frame()

![image.png](attachment:594f3ac7-c2c5-41e2-af3b-2768fb308c61.png)

Заметный прирост производительности!

Используйте данный тип с осторожностью, всегда выполняйте необходимую предобработку данных.

6) Применить к данным требуемые операции.

In [None]:
# Сортировка
df.sort_values(by=['vendor_id', 'price'],
               ascending=[True, False]).head(2)

![image.png](attachment:4dec0759-3df3-4b23-ae63-4aad223df1e1.png)

In [None]:
# Извлечение данных
df.iloc[:, 0:4]

![image.png](attachment:0601f951-bad8-4412-9e8f-ecb825a05be5.png)

In [None]:
df[df['vendor_id'] == '014a1b8ef4b3e615893258d810b88a96']['price'].mean()

![image.png](attachment:59f6154f-f16c-4e64-9697-c8a23ee64856.png)

In [None]:
df[df['vendor_id'] == '014a1b8ef4b3e615893258d810b88a96']['price'].min()

![image.png](attachment:694018ef-6338-4ea0-9f01-d27237b1662f.png)

### Группировка данных

In [None]:
# Группировка данных
#df.groupby(by=grouping_columns)[columns_to_show].function()

df.groupby(by='vendor_id')['price'].max()

![image.png](attachment:25ccf12b-fbf2-4571-9be5-864c2745bc08.png)

In [None]:
df.groupby(by='vendor_id')['price'].agg([np.mean, np.std, np.min, np.max])

![image.png](attachment:6d27644d-3204-490d-b10e-2885d0bd25b5.png)

In [None]:
# Получить из Серии - Датафрейм
df.groupby(by='vendor_id')['price'].mean().reset_index()

![image.png](attachment:04626a6f-88f8-4422-a4c7-8cbe1cae5c93.png)