<a href="https://colab.research.google.com/github/noviytrendASU/123123/blob/main/%D0%91%D0%BB%D0%BE%D0%BA%D0%BD%D0%BE%D1%82_7_Kashirov.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Сводная таблица pivot_table

Сводная таблица - это мощный инструмент для обобщения и представления данных.

В Pandas для подготовки сводных таблиц вызывают метод **pivot_table()**.

Аргументы метода:

• index — ключи для группировки по индексу (строке)

• columns — ключи для группировки столбцов

• values — значения, по которым мы хотим увидеть сводную таблицу (столбцы для агрегирования)

• aggfunc — функция, применяемая к значениям (т.е. что делать с повторяющимися значениями)

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/pivot_table_pandas.png" >



Построим сводную таблицу для задачи по SEO-оптимизации.
Для начала загрузите дата-сет data.final, полученный в результате выполнения предыдущей задачи (объединения таблиц), сохраните ешл в переменной df.

In [1]:
import pandas as pd

# Загрузка данных
file_path = '/content/data_final.csv'
df = pd.read_csv(file_path)


## Поворот данных

Создавать сводную таблицу **(pivot_table)** лучше всего последовательно. Добавляйте элементы по одному и проверяйте каждый шаг, чтобы убедиться, что вы получаете ожидаемые результаты. Самая простая сводная таблица должна иметь **DataFrame** и индекс **(index)**.

В этом примере давайте использовать **category_name** в качестве индекса:

**pd.pivot_table(df, index=["category_name"])**

In [2]:
pd.pivot_table(df, index=["category_name"], aggfunc="size")

Unnamed: 0_level_0,0
category_name,Unnamed: 1_level_1
Авто,96
Бытовая техника,158
"Дача, сад и огород",56
Детские товары,258
Досуг и развлечения,56
Компьютерная техника,124
Оборудование,26
"Одежда, обувь и аксессуары",160
Продукты,44
Спорт и отдых,108


У вас может быть несколько индексов. Фактически, большинство аргументов **pivot_table** могут принимать несколько значений в качестве элементов списка. Добавьте в список индексов переменную **subcategory_name**.

In [3]:
# Создание сводной таблицы с использованием category_name и subcategory_name в качестве индексов
pivot_table_multiple_indices = pd.pivot_table(df, index=["category_name", "subcategory_name"], aggfunc="size")

# Отображение сводной таблицы
pivot_table_multiple_indices.head()



Unnamed: 0_level_0,Unnamed: 1_level_0,0
category_name,subcategory_name,Unnamed: 2_level_1
Авто,Автоакустика,2
Авто,Автомагнитолы,2
Авто,Автомобильные инверторы,2
Авто,Автомобильные компрессоры,2
Авто,Автомобильные телевизоры,2


Вы могли заметить, что сводная таблица достаточно умна, чтобы начать агрегирование данных и их обобщение, группируя категории товаров (**category_name**) с их подкатегориями (**subcategory_name**). Теперь мы начинаем понимать, что может сделать для нас сводная таблица.

Поскольку в данном случае столбец с количественной переменной только один (**visits**), он автоматически определился в качестве значения параметра **values**. Однако, можно явно определить столбцы, которые нам нужны, с помощью этого параметра **values**:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"])**

In [4]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"])


Unnamed: 0_level_0,Unnamed: 1_level_0,visits
category_name,subcategory_name,Unnamed: 2_level_1
Авто,Автоакустика,10674.0
Авто,Автомагнитолы,13236.5
Авто,Автомобильные инверторы,147.5
Авто,Автомобильные компрессоры,598.5
Авто,Автомобильные телевизоры,1610.5
...,...,...
Электроника,Чехлы,8170.0
Электроника,Чехлы-аккумуляторы,275.0
Электроника,Штативы и моноподы,1846.0
Электроника,Экшн-камеры,8566.5


Столбец цен (**visits**) по умолчанию усредняет данные, но мы можем произвести подсчет количества или суммы. Добавить их можно с помощью параметра **aggfunc**:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], aggfunc='sum')**

In [5]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], aggfunc='sum')


Unnamed: 0_level_0,Unnamed: 1_level_0,visits
category_name,subcategory_name,Unnamed: 2_level_1
Авто,Автоакустика,21348
Авто,Автомагнитолы,26473
Авто,Автомобильные инверторы,295
Авто,Автомобильные компрессоры,1197
Авто,Автомобильные телевизоры,3221
...,...,...
Электроника,Чехлы,16340
Электроника,Чехлы-аккумуляторы,550
Электроника,Штативы и моноподы,3692
Электроника,Экшн-камеры,17133


**Aggfunc** может принимать список функций.

Давайте попробуем узнать среднее значение и количество:



In [6]:
# Создание сводной таблицы с использованием category_name и subcategory_name в качестве индексов,
# и применением нескольких агрегационных функций: 'mean' и 'size' для столбца 'visits'
pivot_table_visits = pd.pivot_table(df,
                                   index=["category_name", "subcategory_name"],
                                   values=["visits"],
                                   aggfunc=["mean", "size"])

# Отображение сводной таблицы
pivot_table_visits.head()



Unnamed: 0_level_0,Unnamed: 1_level_0,mean,size
Unnamed: 0_level_1,Unnamed: 1_level_1,visits,0
category_name,subcategory_name,Unnamed: 2_level_2,Unnamed: 3_level_2
Авто,Автоакустика,10674.0,2
Авто,Автомагнитолы,13236.5,2
Авто,Автомобильные инверторы,147.5,2
Авто,Автомобильные компрессоры,598.5,2
Авто,Автомобильные телевизоры,1610.5,2


Если мы хотим увидеть визиты с разбивкой по источникам трафика (**source**), переменная **columns** позволяет нам определить один или несколько столбцов.

Одна из сложностей **pivot_table** - это использование столбцов (**columns**) и значений (**values**).

Помните, что столбцы необязательны - они предоставляют дополнительный способ сегментировать актуальные значения, которые вам нужны.

Функции агрегирования применяются к перечисленным значениям (**values**):

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], columns=["source"], aggfunc='sum'])**


In [7]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], columns=["source"], aggfunc='sum')


Unnamed: 0_level_0,Unnamed: 1_level_0,visits,visits
Unnamed: 0_level_1,source,direct,organic
category_name,subcategory_name,Unnamed: 2_level_2,Unnamed: 3_level_2
Авто,Автоакустика,5915,15433
Авто,Автомагнитолы,7783,18690
Авто,Автомобильные инверторы,145,150
Авто,Автомобильные компрессоры,407,790
Авто,Автомобильные телевизоры,975,2246
...,...,...,...
Электроника,Чехлы,4582,11758
Электроника,Чехлы-аккумуляторы,219,331
Электроника,Штативы и моноподы,1152,2540
Электроника,Экшн-камеры,4757,12376


Теперь вы видите название категории и её подкатегории со значениями объёма трафика по каждой.

Как видно, основная категория включает в себя подкатегорию и это представлено в структуре датафрейма: категория отображена иерархически главной над подкатегорией. Такие датафреймы содержат в себе мультииндекс. Часто при работе с такими датафреймами мультииндекс убирают, чтобы категория была отображена на каждой строчке датафрейма:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"],
               columns=["source"], aggfunc='sum').reset_index()**


In [8]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], columns=["source"], aggfunc='sum').reset_index()


Unnamed: 0_level_0,category_name,subcategory_name,visits,visits
source,Unnamed: 1_level_1,Unnamed: 2_level_1,direct,organic
0,Авто,Автоакустика,5915,15433
1,Авто,Автомагнитолы,7783,18690
2,Авто,Автомобильные инверторы,145,150
3,Авто,Автомобильные компрессоры,407,790
4,Авто,Автомобильные телевизоры,975,2246
...,...,...,...,...
929,Электроника,Чехлы,4582,11758
930,Электроника,Чехлы-аккумуляторы,219,331
931,Электроника,Штативы и моноподы,1152,2540
932,Электроника,Экшн-камеры,4757,12376


В таблице выше суммы визитов **visits** по каждому из источников **source (direct и organic)** представлены в отдельных столбцах. Такой вид таблицы называется «широкий». Он удобен, когда нужно сравнить значения столбцов. Хорошо заметно, например, что в подкатегории «Автомобильные инверторы» количество визитов из источников **direct** и **organic** практически одинаково, а в подкатегории «Автомагнитолы» из источника **organic** пришло почти в два раза больше посетителей, чем из **direct**.

## Расширенная фильтрация сводной таблицы

После того, как вы сгенерировали свои данные, они находятся в **DataFrame**, поэтому можно фильтровать их, используя обычные методы **DataFrame**.

Если вы хотите посмотреть только на одну категорию, например, "Товары для дома":

**data_pivot = pd.pivot_table(df, index=['category_name', 'subcategory_name'], values='visits', columns='source',
                            aggfunc='sum').reset_index()**
**print((data_pivot[data_pivot['category_name']=='Товары для дома']).head(10))**

In [9]:
data_pivot = pd.pivot_table(df, index=['category_name', 'subcategory_name'], values='visits', columns='source', aggfunc='sum').reset_index()
print((data_pivot[data_pivot['category_name']=='Товары для дома']).head(10))



source    category_name          subcategory_name  direct  organic
646     Товары для дома                Аксессуары     219      329
647     Товары для дома    Аксессуары для готовки     216      326
648     Товары для дома        Банки для хранения     113       58
649     Товары для дома         Блюда и салатники     300      550
650     Товары для дома          Бокалы и стаканы     750     1595
651     Товары для дома                       Бра     265      452
652     Товары для дома                      Вазы     142      142
653     Товары для дома         Вешалки напольные     304      562
654     Товары для дома  Встраиваемые светильники     306      563
655     Товары для дома       Выпечка и запекание     698     1460


Или, например, мы можем узнать на какие товары запросы с органического трафика в разы больше, чем с прямого. Для этого создадим в таблице **data_pivot** новый столбец **'ratio'** и сохраните в нём значение отношения органического трафика **'organic'** к прямому **'direct'**.

Отсортируем таблицу по столбцу 'ratio' в порядке убывания. Выведите первые 10 строк.

**data_pivot['ratio'] = data_pivot['organic'] / data_pivot['direct']**

**data_my = data_pivot.sort_values(by = 'ratio', ascending=False)**

**print(data_my.head(10))**

In [10]:
data_pivot['ratio'] = data_pivot['organic'] / data_pivot['direct']

data_my = data_pivot.sort_values(by = 'ratio', ascending=False)

print(data_my.head(10))

source           category_name                    subcategory_name  direct  \
45                        Авто                                Шины   39638   
105            Бытовая техника                   Стиральные машины   22064   
468              Спорт и отдых                          Велосипеды   16009   
205             Детские товары                             Коляски   18079   
609     Строительство и ремонт                  Сварочные аппараты    6175   
678            Товары для дома                 Компьютерные кресла    6208   
330       Компьютерная техника                          Клавиатуры    6224   
921                Электроника  Универсальные внешние аккумуляторы    6146   
866                Электроника                           TV-тюнеры    6275   
117            Бытовая техника                        Холодильники   20920   

source  organic     ratio  
45       153859  3.881604  
105       64570  2.926487  
468       46087  2.878818  
205       52005  2.876542  
6

# Задачи для самостоятельного выполнения

Для начала давайте представим, что мы являемся аналитиками в фирме по продаже компьютеров, программного обеспечения к ним, а также оказываем услуги по техническому сопровождению. Нам поставлена задача проанализировать участие компании в различных аукционах.

1. Прочитайте и сохраните файл "baza.xlsx" с данными аукционов в переменную data_pd.

In [11]:
# Импортируем библиотеку pandas для работы с данными
import pandas as pd

# Прочитаем файл "baza.xlsx" и сохраним его в переменную data_pd
file_path = '/content/baza.xlsx'
data_pd = pd.read_excel(file_path)


2. Cоздайте сводную таблицу сводную таблицу по столбцу Контрагент:

In [12]:
# Сводная таблица по столбцу 'Контрагент' с подсчетом количества записей
pivot_1 = pd.pivot_table(data_pd, index=["Контрагент"], aggfunc="size")

# Отображение сводной таблицы
pivot_1.head()


Unnamed: 0_level_0,0
Контрагент,Unnamed: 1_level_1
Альма,2
Ильин и Ко,4
Кружка и ложка,4
Микрошкин,4
Шахты плюс,3


3. Создайте сводную таблицу по нескольким индексируемым столбцам  'Контакт', 'Менеджер':


In [13]:
# Сводная таблица по столбцам 'Контакт' и 'Менеджер'
pivot_2 = pd.pivot_table(data_pd, index=["Контакт", "Менеджер"], aggfunc="size")

# Отображение сводной таблицы
pivot_2.head()


Unnamed: 0_level_0,Unnamed: 1_level_0,0
Контакт,Менеджер,Unnamed: 2_level_1
Виктор Юдин,Павел Попов,4
Данил Сидоров,Илья Сергеев,3
Женя Сидин,Илья Сергеев,2
Сергей Ильин,Илья Сергеев,4
Сергей Минин,Павел Попов,4


4. По умолчанию сводная таблица выводится по всем числовым полям, однако это не всегда удобно, а иногда и лишено смысла, поэтому можно выводить сводные данные только по отдельным столбцам. Выведите только столбец "Стоимость", для этого добавьте параметр values=['Цена']:

In [14]:
# Сводная таблица только для столбца 'Цена'
pivot_3 = pd.pivot_table(data_pd, index=["Контрагент"], values=["Цена"])

# Отображение сводной таблицы
pivot_3.head()


Unnamed: 0_level_0,Цена
Контрагент,Unnamed: 1_level_1
Альма,24500.0
Ильин и Ко,35775.0
Кружка и ложка,27000.0
Микрошкин,23275.0
Шахты плюс,14900.0


5. Столбец с ценой по умолчанию выводит среднее значение, однако нам скорее интересна сумма продаж. Добавляем параметр aggfunc='sum':

In [15]:
# Сводная таблица с суммой по столбцу 'Цена'
pivot_4 = pd.pivot_table(data_pd, index=["Контрагент"], values=["Цена"], aggfunc='sum')

# Отображение сводной таблицы
pivot_4.head()


Unnamed: 0_level_0,Цена
Контрагент,Unnamed: 1_level_1
Альма,49000
Ильин и Ко,143100
Кружка и ложка,108000
Микрошкин,93100
Шахты плюс,44700


6. С помощью параметра columns выведите в столбцы наименование продуктов:

In [16]:
# Сводная таблица с наименованием продуктов в столбцах
pivot_5 = pd.pivot_table(data_pd, index=["Контрагент"], values=["Цена"], aggfunc='sum', columns=["Продукт"])

# Отображение сводной таблицы
pivot_5.head()


Unnamed: 0_level_0,Цена,Цена,Цена,Цена
Продукт,Компьютер,Монитор,Софт,Тех. сопровождение
Контрагент,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Альма,42000.0,,,7000.0
Ильин и Ко,84300.0,,37600.0,21200.0
Кружка и ложка,83900.0,9300.0,,14800.0
Микрошкин,43900.0,,46900.0,2300.0
Шахты плюс,38000.0,,6700.0,


7. Наверное вы обратили внимание, что в ячейках, где нет данных пусто, хотя нам привычнее, что бы в таких полях указывалось бы значение 0. Добавьте параметр fill_value=0:

In [17]:
# Сводная таблица с заполнением пустых ячеек нулями
pivot_6 = pd.pivot_table(data_pd, index=["Контрагент"], values=["Цена"], aggfunc='sum', columns=["Продукт"], fill_value=0)

# Отображение сводной таблицы
pivot_6.head()


Unnamed: 0_level_0,Цена,Цена,Цена,Цена
Продукт,Компьютер,Монитор,Софт,Тех. сопровождение
Контрагент,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Альма,42000,0,0,7000
Ильин и Ко,84300,0,37600,21200
Кружка и ложка,83900,9300,0,14800
Микрошкин,43900,0,46900,2300
Шахты плюс,38000,0,6700,0


8. Вероятно полезно было бы рассматривать эффективность деятельности наших менеджеров не только по стоимости продаж, но и по их количеству. Добавьте в параметр values переменную  "Количество"

In [18]:
# Сводная таблица с 'Цена' и 'Количество' в качестве значений
pivot_7 = pd.pivot_table(data_pd, index=["Контрагент"], values=["Цена", "Количество"], aggfunc={'Цена': 'sum', 'Количество': 'sum'}, columns=["Продукт"], fill_value=0)

# Отображение сводной таблицы
pivot_7.head()


Unnamed: 0_level_0,Количество,Количество,Количество,Количество,Цена,Цена,Цена,Цена
Продукт,Компьютер,Монитор,Софт,Тех. сопровождение,Компьютер,Монитор,Софт,Тех. сопровождение
Контрагент,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Альма,4,0,0,2,42000,0,0,7000
Ильин и Ко,9,0,2,2,84300,0,37600,21200
Кружка и ложка,6,4,0,1,83900,9300,0,14800
Микрошкин,8,0,4,2,43900,0,46900,2300
Шахты плюс,4,0,1,0,38000,0,6700,0


9. Выведите продажи только менеджера "Илья Сергеев":

In [19]:
# Сводная таблица для менеджера "Илья Сергеев"
pivot_8 = pd.pivot_table(data_pd[data_pd["Менеджер"] == "Илья Сергеев"],
                         index=["Контрагент"],
                         values=["Цена", "Количество"],
                         aggfunc={'Цена': 'sum', 'Количество': 'sum'},
                         columns=["Продукт"], fill_value=0)

# Отображение сводной таблицы
pivot_8.head()


Unnamed: 0_level_0,Количество,Количество,Количество,Цена,Цена,Цена
Продукт,Компьютер,Софт,Тех. сопровождение,Компьютер,Софт,Тех. сопровождение
Контрагент,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Альма,4,0,2,42000,0,7000
Ильин и Ко,9,2,2,84300,37600,21200
Шахты плюс,4,1,0,38000,6700,0
