# Сводная таблица pivot_table

Сводная таблица - это мощный инструмент для обобщения и представления данных.

В Pandas для подготовки сводных таблиц вызывают метод **pivot_table()**.

Аргументы метода:

• index — ключи для группировки по индексу (строке)

• columns — ключи для группировки столбцов

• values — значения, по которым мы хотим увидеть сводную таблицу (столбцы для агрегирования)

• aggfunc — функция, применяемая к значениям (т.е. что делать с повторяющимися значениями)

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/pivot_table_pandas.png" >



Построим сводную таблицу для задачи по SEO-оптимизации.
Для начала загрузите дата-сет data.final, полученный в результате выполнения предыдущей задачи (объединения таблиц), сохраните ешл в переменной df.

In [10]:
import pandas as pd

df = pd.read_csv('data_final.csv')
df.head()


Unnamed: 0,subcategory_id,source,visits,subcategory_name,category_id,category_name
0,cf2e61c7af,direct,501165,Мобильные телефоны,09f279a643,Электроника
1,0cd903d1cc,direct,126342,Ноутбуки,3509869a61,Компьютерная техника
2,ef35bc88a7,direct,95626,Телевизоры,09f279a643,Электроника
3,6ff9f4014c,direct,75680,Планшеты,3509869a61,Компьютерная техника
4,72bc238e4d,direct,64435,Наушники и Bluetooth-гарнитуры,09f279a643,Электроника


## Поворот данных

Создавать сводную таблицу **(pivot_table)** лучше всего последовательно. Добавляйте элементы по одному и проверяйте каждый шаг, чтобы убедиться, что вы получаете ожидаемые результаты. Самая простая сводная таблица должна иметь **DataFrame** и индекс **(index)**. 

В этом примере давайте использовать **category_name** в качестве индекса:

**pd.pivot_table(df, index=["category_name"])**

In [3]:
pd.pivot_table(df, index=["category_name"])


  pd.pivot_table(df, index=["category_name"])


Unnamed: 0_level_0,visits
category_name,Unnamed: 1_level_1
Авто,4328.489583
Бытовая техника,7012.164557
"Дача, сад и огород",1511.142857
Детские товары,1657.736434
Досуг и развлечения,959.428571
Компьютерная техника,12523.693548
Оборудование,475.884615
"Одежда, обувь и аксессуары",1486.0375
Продукты,595.454545
Спорт и отдых,2187.768519


У вас может быть несколько индексов. Фактически, большинство аргументов **pivot_table** могут принимать несколько значений в качестве элементов списка. Добавьте в список индексов переменную **subcategory_name**.

In [6]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'])


  pd.pivot_table(df, index=['category_name', 'subcategory_name'])


Unnamed: 0_level_0,Unnamed: 1_level_0,visits
category_name,subcategory_name,Unnamed: 2_level_1
Авто,Автоакустика,10674.0
Авто,Автомагнитолы,13236.5
Авто,Автомобильные инверторы,147.5
Авто,Автомобильные компрессоры,598.5
Авто,Автомобильные телевизоры,1610.5
...,...,...
Электроника,Чехлы,8170.0
Электроника,Чехлы-аккумуляторы,275.0
Электроника,Штативы и моноподы,1846.0
Электроника,Экшн-камеры,8566.5


Вы могли заметить, что сводная таблица достаточно умна, чтобы начать агрегирование данных и их обобщение, группируя категории товаров (**category_name**) с их подкатегориями (**subcategory_name**). Теперь мы начинаем понимать, что может сделать для нас сводная таблица.

Поскольку в данном случае столбец с количественной переменной только один (**visits**), он автоматически определился в качестве значения параметра **values**. Однако, можно явно определить столбцы, которые нам нужны, с помощью этого параметра **values**:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"])**

In [7]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"])


Unnamed: 0_level_0,Unnamed: 1_level_0,visits
category_name,subcategory_name,Unnamed: 2_level_1
Авто,Автоакустика,10674.0
Авто,Автомагнитолы,13236.5
Авто,Автомобильные инверторы,147.5
Авто,Автомобильные компрессоры,598.5
Авто,Автомобильные телевизоры,1610.5
...,...,...
Электроника,Чехлы,8170.0
Электроника,Чехлы-аккумуляторы,275.0
Электроника,Штативы и моноподы,1846.0
Электроника,Экшн-камеры,8566.5


Столбец цен (**visits**) по умолчанию усредняет данные, но мы можем произвести подсчет количества или суммы. Добавить их можно с помощью параметра **aggfunc**:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], aggfunc='sum')**

In [8]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], aggfunc='sum')

Unnamed: 0_level_0,Unnamed: 1_level_0,visits
category_name,subcategory_name,Unnamed: 2_level_1
Авто,Автоакустика,21348
Авто,Автомагнитолы,26473
Авто,Автомобильные инверторы,295
Авто,Автомобильные компрессоры,1197
Авто,Автомобильные телевизоры,3221
...,...,...
Электроника,Чехлы,16340
Электроника,Чехлы-аккумуляторы,550
Электроника,Штативы и моноподы,3692
Электроника,Экшн-камеры,17133


**Aggfunc** может принимать список функций.

Давайте попробуем узнать среднее значение и количество:



In [11]:
pivot_table = pd.pivot_table(df, index=['category_name', 'subcategory_name'], 
                             values='visits', 
                             aggfunc=['mean', 'count'])


Если мы хотим увидеть визиты с разбивкой по источникам трафика (**source**), переменная **columns** позволяет нам определить один или несколько столбцов.

Одна из сложностей **pivot_table** - это использование столбцов (**columns**) и значений (**values**).

Помните, что столбцы необязательны - они предоставляют дополнительный способ сегментировать актуальные значения, которые вам нужны.

Функции агрегирования применяются к перечисленным значениям (**values**):

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], columns=["source"], aggfunc='sum'])**


In [12]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], columns=["source"], aggfunc='sum')


Unnamed: 0_level_0,Unnamed: 1_level_0,visits,visits
Unnamed: 0_level_1,source,direct,organic
category_name,subcategory_name,Unnamed: 2_level_2,Unnamed: 3_level_2
Авто,Автоакустика,5915,15433
Авто,Автомагнитолы,7783,18690
Авто,Автомобильные инверторы,145,150
Авто,Автомобильные компрессоры,407,790
Авто,Автомобильные телевизоры,975,2246
...,...,...,...
Электроника,Чехлы,4582,11758
Электроника,Чехлы-аккумуляторы,219,331
Электроника,Штативы и моноподы,1152,2540
Электроника,Экшн-камеры,4757,12376


Теперь вы видите название категории и её подкатегории со значениями объёма трафика по каждой.

Как видно, основная категория включает в себя подкатегорию и это представлено в структуре датафрейма: категория отображена иерархически главной над подкатегорией. Такие датафреймы содержат в себе мультииндекс. Часто при работе с такими датафреймами мультииндекс убирают, чтобы категория была отображена на каждой строчке датафрейма:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], 
               columns=["source"], aggfunc='sum').reset_index()**


In [13]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], 
               columns=["source"], aggfunc='sum').reset_index()


Unnamed: 0_level_0,category_name,subcategory_name,visits,visits
source,Unnamed: 1_level_1,Unnamed: 2_level_1,direct,organic
0,Авто,Автоакустика,5915,15433
1,Авто,Автомагнитолы,7783,18690
2,Авто,Автомобильные инверторы,145,150
3,Авто,Автомобильные компрессоры,407,790
4,Авто,Автомобильные телевизоры,975,2246
...,...,...,...,...
929,Электроника,Чехлы,4582,11758
930,Электроника,Чехлы-аккумуляторы,219,331
931,Электроника,Штативы и моноподы,1152,2540
932,Электроника,Экшн-камеры,4757,12376


В таблице выше суммы визитов **visits** по каждому из источников **source (direct и organic)** представлены в отдельных столбцах. Такой вид таблицы называется «широкий». Он удобен, когда нужно сравнить значения столбцов. Хорошо заметно, например, что в подкатегории «Автомобильные инверторы» количество визитов из источников **direct** и **organic** практически одинаково, а в подкатегории «Автомагнитолы» из источника **organic** пришло почти в два раза больше посетителей, чем из **direct**.

## Расширенная фильтрация сводной таблицы

После того, как вы сгенерировали свои данные, они находятся в **DataFrame**, поэтому можно фильтровать их, используя обычные методы **DataFrame**.

Если вы хотите посмотреть только на одну категорию, например, "Товары для дома":

**data_pivot = pd.pivot_table(df, index=['category_name', 'subcategory_name'], values='visits', columns='source',
                            aggfunc='sum').reset_index()**
**print((data_pivot[data_pivot['category_name']=='Товары для дома']).head(10))**

In [14]:
data_pivot = pd.pivot_table(df, index=['category_name', 'subcategory_name'], values='visits', columns='source',
                            aggfunc='sum').reset_index()
print((data_pivot[data_pivot['category_name']=='Товары для дома']).head(10))



source    category_name          subcategory_name  direct  organic
646     Товары для дома                Аксессуары     219      329
647     Товары для дома    Аксессуары для готовки     216      326
648     Товары для дома        Банки для хранения     113       58
649     Товары для дома         Блюда и салатники     300      550
650     Товары для дома          Бокалы и стаканы     750     1595
651     Товары для дома                       Бра     265      452
652     Товары для дома                      Вазы     142      142
653     Товары для дома         Вешалки напольные     304      562
654     Товары для дома  Встраиваемые светильники     306      563
655     Товары для дома       Выпечка и запекание     698     1460


Или, например, мы можем узнать на какие товары запросы с органического трафика в разы больше, чем с прямого. Для этого создадим в таблице **data_pivot** новый столбец **'ratio'** и сохраните в нём значение отношения органического трафика **'organic'** к прямому **'direct'**. 

Отсортируем таблицу по столбцу 'ratio' в порядке убывания. Выведите первые 10 строк. 

**data_pivot['ratio'] = data_pivot['organic'] / data_pivot['direct']**

**data_my = data_pivot.sort_values(by = 'ratio', ascending=False)**

**print(data_my.head(10))**

In [15]:
data_pivot['ratio'] = data_pivot['organic'] / data_pivot['direct']
data_my = data_pivot.sort_values(by = 'ratio', ascending=False)
print(data_my.head(10))

source           category_name                    subcategory_name  direct  \
45                        Авто                                Шины   39638   
105            Бытовая техника                   Стиральные машины   22064   
468              Спорт и отдых                          Велосипеды   16009   
205             Детские товары                             Коляски   18079   
609     Строительство и ремонт                  Сварочные аппараты    6175   
678            Товары для дома                 Компьютерные кресла    6208   
330       Компьютерная техника                          Клавиатуры    6224   
921                Электроника  Универсальные внешние аккумуляторы    6146   
866                Электроника                           TV-тюнеры    6275   
117            Бытовая техника                        Холодильники   20920   

source  organic     ratio  
45       153859  3.881604  
105       64570  2.926487  
468       46087  2.878818  
205       52005  2.876542  
6

# Задачи для самостоятельного выполнения

Для начала давайте представим, что мы являемся аналитиками в фирме по продаже компьютеров, программного обеспечения к ним, а также оказываем услуги по техническому сопровождению. Нам поставлена задача проанализировать участие компании в различных аукционах. 

1. Прочитайте и сохраните файл "baza.xlsx" с данными аукционов в переменную data_pd.

In [16]:
import pandas as pd

data_pd = pd.read_excel('baza.xlsx')

2. Cоздайте сводную таблицу сводную таблицу по столбцу Контрагент:

In [25]:
pivot_table = pd.pivot_table(data_pd, index='Контрагент', aggfunc='count')
pivot_table.head(5)

Unnamed: 0_level_0,Аукцион,Количество,Контакт,Менеджер,Продукт,Статус,Цена
Контрагент,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Альма,2,2,2,2,2,2,2
Ильин и Ко,4,4,4,4,4,4,4
Кружка и ложка,4,4,4,4,4,4,4
Микрошкин,4,4,4,4,4,4,4
Шахты плюс,3,3,3,3,3,3,3


3. Создайте сводную таблицу по нескольким индексируемым столбцам  'Контакт', 'Менеджер':


In [26]:
pivot_table = pd.pivot_table(data_pd, index=['Контрагент', 'Менеджер'], aggfunc='count')
pivot_table.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,Аукцион,Количество,Контакт,Продукт,Статус,Цена
Контрагент,Менеджер,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Альма,Илья Сергеев,2,2,2,2,2,2
Ильин и Ко,Илья Сергеев,4,4,4,4,4,4
Кружка и ложка,Павел Попов,4,4,4,4,4,4
Микрошкин,Павел Попов,4,4,4,4,4,4
Шахты плюс,Илья Сергеев,3,3,3,3,3,3


4. По умолчанию сводная таблица выводится по всем числовым полям, однако это не всегда удобно, а иногда и лишено смысла, поэтому можно выводить сводные данные только по отдельным столбцам. Выведите только столбец "Стоимость", для этого добавьте параметр values=['Цена']:

In [27]:
pivot_table = pd.pivot_table(data_pd, index=['Контрагент', 'Менеджер'], values='Цена')
pivot_table.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,Цена
Контрагент,Менеджер,Unnamed: 2_level_1
Альма,Илья Сергеев,24500
Ильин и Ко,Илья Сергеев,35775
Кружка и ложка,Павел Попов,27000
Микрошкин,Павел Попов,23275
Шахты плюс,Илья Сергеев,14900


5. Столбец с ценой по умолчанию выводит среднее значение, однако нам скорее интересна сумма продаж. Добавляем параметр aggfunc='sum':

In [28]:
pivot_table = pd.pivot_table(data_pd, index=['Контрагент', 'Менеджер'], values='Цена', aggfunc='sum')
pivot_table.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,Цена
Контрагент,Менеджер,Unnamed: 2_level_1
Альма,Илья Сергеев,49000
Ильин и Ко,Илья Сергеев,143100
Кружка и ложка,Павел Попов,108000
Микрошкин,Павел Попов,93100
Шахты плюс,Илья Сергеев,44700


6. С помощью параметра columns выведите в столбцы наименование продуктов:

In [29]:
pivot_table = pd.pivot_table(data_pd, index=['Контрагент', 'Менеджер'], columns='Продукт', values='Цена', aggfunc='sum')
pivot_table.head(5)

Unnamed: 0_level_0,Продукт,Компьютер,Монитор,Софт,Тех. сопровождение
Контрагент,Менеджер,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Альма,Илья Сергеев,42000.0,,,7000.0
Ильин и Ко,Илья Сергеев,84300.0,,37600.0,21200.0
Кружка и ложка,Павел Попов,83900.0,9300.0,,14800.0
Микрошкин,Павел Попов,43900.0,,46900.0,2300.0
Шахты плюс,Илья Сергеев,38000.0,,6700.0,


7. Наверное вы обратили внимание, что в ячейках, где нет данных пусто, хотя нам привычнее, что бы в таких полях указывалось бы значение 0. Добавьте параметр fill_value=0:

In [31]:
pivot_table = pd.pivot_table(data_pd, index=['Контрагент', 'Менеджер'], columns='Продукт', values='Цена', aggfunc='sum', fill_value=0)
pivot_table.head(5)

Unnamed: 0_level_0,Продукт,Компьютер,Монитор,Софт,Тех. сопровождение
Контрагент,Менеджер,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Альма,Илья Сергеев,42000,0,0,7000
Ильин и Ко,Илья Сергеев,84300,0,37600,21200
Кружка и ложка,Павел Попов,83900,9300,0,14800
Микрошкин,Павел Попов,43900,0,46900,2300
Шахты плюс,Илья Сергеев,38000,0,6700,0


8. Вероятно полезно было бы рассматривать эффективность деятельности наших менеджеров не только по стоимости продаж, но и по их количеству. Добавьте в параметр values переменную  "Количество"

In [32]:
pivot_table = pd.pivot_table(data_pd, index=['Контрагент', 'Менеджер'], columns='Продукт', values=['Цена', 'Количество'], aggfunc='sum', fill_value=0)
pivot_table.head(5)

Unnamed: 0_level_0,Unnamed: 1_level_0,Количество,Количество,Количество,Количество,Цена,Цена,Цена,Цена
Unnamed: 0_level_1,Продукт,Компьютер,Монитор,Софт,Тех. сопровождение,Компьютер,Монитор,Софт,Тех. сопровождение
Контрагент,Менеджер,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Альма,Илья Сергеев,4,0,0,2,42000,0,0,7000
Ильин и Ко,Илья Сергеев,9,0,2,2,84300,0,37600,21200
Кружка и ложка,Павел Попов,6,4,0,1,83900,9300,0,14800
Микрошкин,Павел Попов,8,0,4,2,43900,0,46900,2300
Шахты плюс,Илья Сергеев,4,0,1,0,38000,0,6700,0


9. Выведите продажи только менеджера "Илья Сергеев":

In [39]:
pivot_table = pd.pivot_table(data_pd, index=['Контрагент', 'Менеджер'], columns='Продукт', values=['Цена', 'Количество'], aggfunc='sum', fill_value=0)
ilya = pivot_table.loc[pivot_table.index.get_level_values(1) == 'Илья Сергеев']
print(ilya)

                        Количество                                      Цена  \
Продукт                  Компьютер Монитор Софт Тех. сопровождение Компьютер   
Контрагент Менеджер                                                            
Альма      Илья Сергеев          4       0    0                  2     42000   
Ильин и Ко Илья Сергеев          9       0    2                  2     84300   
Шахты плюс Илья Сергеев          4       0    1                  0     38000   

                                                           
Продукт                 Монитор   Софт Тех. сопровождение  
Контрагент Менеджер                                        
Альма      Илья Сергеев       0      0               7000  
Ильин и Ко Илья Сергеев       0  37600              21200  
Шахты плюс Илья Сергеев       0   6700                  0  
