# Сводная таблица pivot_table

Сводная таблица - это мощный инструмент для обобщения и представления данных.

В Pandas для подготовки сводных таблиц вызывают метод **pivot_table()**.

Аргументы метода:

• index — ключи для группировки по индексу (строке)

• columns — ключи для группировки столбцов

• values — значения, по которым мы хотим увидеть сводную таблицу (столбцы для агрегирования)

• aggfunc — функция, применяемая к значениям (т.е. что делать с повторяющимися значениями)

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/pivot_table_pandas.png" >



Построим сводную таблицу для задачи по SEO-оптимизации.
Для начала загрузите дата-сет data.final, полученный в результате выполнения предыдущей задачи (объединения таблиц), сохраните ешл в переменной df.

In [8]:
import pandas as pd
df = pd.read_csv('data_final.csv')
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1928 entries, 0 to 1927
Data columns (total 6 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   subcategory_id    1928 non-null   object
 1   source            1928 non-null   object
 2   visits            1928 non-null   int64 
 3   subcategory_name  1928 non-null   object
 4   category_id       1928 non-null   object
 5   category_name     1928 non-null   object
dtypes: int64(1), object(5)
memory usage: 90.5+ KB
None


## Поворот данных

Создавать сводную таблицу **(pivot_table)** лучше всего последовательно. Добавляйте элементы по одному и проверяйте каждый шаг, чтобы убедиться, что вы получаете ожидаемые результаты. Самая простая сводная таблица должна иметь **DataFrame** и индекс **(index)**.

В этом примере давайте использовать **category_name** в качестве индекса:

**pd.pivot_table(df, index=["category_name"])**

In [13]:
pd.pivot_table(df, index=["category_name"])

TypeError: agg function failed [how->mean,dtype->object]

У вас может быть несколько индексов. Фактически, большинство аргументов **pivot_table** могут принимать несколько значений в качестве элементов списка. Добавьте в список индексов переменную **subcategory_name**.

In [14]:
pd.pivot_table(df, index=["category_name","subcategory_name"])

TypeError: agg function failed [how->mean,dtype->object]

Вы могли заметить, что сводная таблица достаточно умна, чтобы начать агрегирование данных и их обобщение, группируя категории товаров (**category_name**) с их подкатегориями (**subcategory_name**). Теперь мы начинаем понимать, что может сделать для нас сводная таблица.

Поскольку в данном случае столбец с количественной переменной только один (**visits**), он автоматически определился в качестве значения параметра **values**. Однако, можно явно определить столбцы, которые нам нужны, с помощью этого параметра **values**:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"])**

In [15]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"])

Unnamed: 0_level_0,Unnamed: 1_level_0,visits
category_name,subcategory_name,Unnamed: 2_level_1
Авто,Автоакустика,10674.0
Авто,Автомагнитолы,13236.5
Авто,Автомобильные инверторы,147.5
Авто,Автомобильные компрессоры,598.5
Авто,Автомобильные телевизоры,1610.5
...,...,...
Электроника,Чехлы,8170.0
Электроника,Чехлы-аккумуляторы,275.0
Электроника,Штативы и моноподы,1846.0
Электроника,Экшн-камеры,8566.5


Столбец цен (**visits**) по умолчанию усредняет данные, но мы можем произвести подсчет количества или суммы. Добавить их можно с помощью параметра **aggfunc**:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], aggfunc='sum')**

In [16]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], aggfunc='sum')

Unnamed: 0_level_0,Unnamed: 1_level_0,visits
category_name,subcategory_name,Unnamed: 2_level_1
Авто,Автоакустика,21348
Авто,Автомагнитолы,26473
Авто,Автомобильные инверторы,295
Авто,Автомобильные компрессоры,1197
Авто,Автомобильные телевизоры,3221
...,...,...
Электроника,Чехлы,16340
Электроника,Чехлы-аккумуляторы,550
Электроника,Штативы и моноподы,3692
Электроника,Экшн-камеры,17133


**Aggfunc** может принимать список функций.

Давайте попробуем узнать среднее значение и количество:



In [17]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], aggfunc=['sum','mean'])

Unnamed: 0_level_0,Unnamed: 1_level_0,sum,mean
Unnamed: 0_level_1,Unnamed: 1_level_1,visits,visits
category_name,subcategory_name,Unnamed: 2_level_2,Unnamed: 3_level_2
Авто,Автоакустика,21348,10674.0
Авто,Автомагнитолы,26473,13236.5
Авто,Автомобильные инверторы,295,147.5
Авто,Автомобильные компрессоры,1197,598.5
Авто,Автомобильные телевизоры,3221,1610.5
...,...,...,...
Электроника,Чехлы,16340,8170.0
Электроника,Чехлы-аккумуляторы,550,275.0
Электроника,Штативы и моноподы,3692,1846.0
Электроника,Экшн-камеры,17133,8566.5


Если мы хотим увидеть визиты с разбивкой по источникам трафика (**source**), переменная **columns** позволяет нам определить один или несколько столбцов.

Одна из сложностей **pivot_table** - это использование столбцов (**columns**) и значений (**values**).

Помните, что столбцы необязательны - они предоставляют дополнительный способ сегментировать актуальные значения, которые вам нужны.

Функции агрегирования применяются к перечисленным значениям (**values**):

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], columns=["source"], aggfunc='sum'])**


In [19]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], columns=["source"], aggfunc='sum')

Unnamed: 0_level_0,Unnamed: 1_level_0,visits,visits
Unnamed: 0_level_1,source,direct,organic
category_name,subcategory_name,Unnamed: 2_level_2,Unnamed: 3_level_2
Авто,Автоакустика,5915,15433
Авто,Автомагнитолы,7783,18690
Авто,Автомобильные инверторы,145,150
Авто,Автомобильные компрессоры,407,790
Авто,Автомобильные телевизоры,975,2246
...,...,...,...
Электроника,Чехлы,4582,11758
Электроника,Чехлы-аккумуляторы,219,331
Электроника,Штативы и моноподы,1152,2540
Электроника,Экшн-камеры,4757,12376


Теперь вы видите название категории и её подкатегории со значениями объёма трафика по каждой.

Как видно, основная категория включает в себя подкатегорию и это представлено в структуре датафрейма: категория отображена иерархически главной над подкатегорией. Такие датафреймы содержат в себе мультииндекс. Часто при работе с такими датафреймами мультииндекс убирают, чтобы категория была отображена на каждой строчке датафрейма:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"],
               columns=["source"], aggfunc='sum').reset_index()**


In [20]:
pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"],
               columns=["source"], aggfunc='sum').reset_index()

Unnamed: 0_level_0,category_name,subcategory_name,visits,visits
source,Unnamed: 1_level_1,Unnamed: 2_level_1,direct,organic
0,Авто,Автоакустика,5915,15433
1,Авто,Автомагнитолы,7783,18690
2,Авто,Автомобильные инверторы,145,150
3,Авто,Автомобильные компрессоры,407,790
4,Авто,Автомобильные телевизоры,975,2246
...,...,...,...,...
929,Электроника,Чехлы,4582,11758
930,Электроника,Чехлы-аккумуляторы,219,331
931,Электроника,Штативы и моноподы,1152,2540
932,Электроника,Экшн-камеры,4757,12376


В таблице выше суммы визитов **visits** по каждому из источников **source (direct и organic)** представлены в отдельных столбцах. Такой вид таблицы называется «широкий». Он удобен, когда нужно сравнить значения столбцов. Хорошо заметно, например, что в подкатегории «Автомобильные инверторы» количество визитов из источников **direct** и **organic** практически одинаково, а в подкатегории «Автомагнитолы» из источника **organic** пришло почти в два раза больше посетителей, чем из **direct**.

## Расширенная фильтрация сводной таблицы

После того, как вы сгенерировали свои данные, они находятся в **DataFrame**, поэтому можно фильтровать их, используя обычные методы **DataFrame**.

Если вы хотите посмотреть только на одну категорию, например, "Товары для дома":

**data_pivot = pd.pivot_table(df, index=['category_name', 'subcategory_name'], values='visits', columns='source',
                            aggfunc='sum').reset_index()**
**print((data_pivot[data_pivot['category_name']=='Товары для дома']).head(10))**

In [21]:
data_pivot = pd.pivot_table(df, index=['category_name', 'subcategory_name'], values='visits', columns='source',
                            aggfunc='sum').reset_index()
print((data_pivot[data_pivot['category_name']=='Товары для дома']).head(10))

source    category_name          subcategory_name  direct  organic
646     Товары для дома                Аксессуары     219      329
647     Товары для дома    Аксессуары для готовки     216      326
648     Товары для дома        Банки для хранения     113       58
649     Товары для дома         Блюда и салатники     300      550
650     Товары для дома          Бокалы и стаканы     750     1595
651     Товары для дома                       Бра     265      452
652     Товары для дома                      Вазы     142      142
653     Товары для дома         Вешалки напольные     304      562
654     Товары для дома  Встраиваемые светильники     306      563
655     Товары для дома       Выпечка и запекание     698     1460


Или, например, мы можем узнать на какие товары запросы с органического трафика в разы больше, чем с прямого. Для этого создадим в таблице **data_pivot** новый столбец **'ratio'** и сохраните в нём значение отношения органического трафика **'organic'** к прямому **'direct'**.

Отсортируем таблицу по столбцу 'ratio' в порядке убывания. Выведите первые 10 строк.

**data_pivot['ratio'] = data_pivot['organic'] / data_pivot['direct']**

**data_my = data_pivot.sort_values(by = 'ratio', ascending=False)**

**print(data_my.head(10))**

In [22]:
data_pivot['ratio'] = data_pivot['organic'] / data_pivot['direct']
data_my = data_pivot.sort_values(by = 'ratio', ascending=False)
print(data_my.head(10))

source           category_name                    subcategory_name  direct  \
45                        Авто                                Шины   39638   
105            Бытовая техника                   Стиральные машины   22064   
468              Спорт и отдых                          Велосипеды   16009   
205             Детские товары                             Коляски   18079   
609     Строительство и ремонт                  Сварочные аппараты    6175   
678            Товары для дома                 Компьютерные кресла    6208   
330       Компьютерная техника                          Клавиатуры    6224   
921                Электроника  Универсальные внешние аккумуляторы    6146   
866                Электроника                           TV-тюнеры    6275   
117            Бытовая техника                        Холодильники   20920   

source  organic     ratio  
45       153859  3.881604  
105       64570  2.926487  
468       46087  2.878818  
205       52005  2.876542  
6

# Задачи для самостоятельного выполнения

Для начала давайте представим, что мы являемся аналитиками в фирме по продаже компьютеров, программного обеспечения к ним, а также оказываем услуги по техническому сопровождению. Нам поставлена задача проанализировать участие компании в различных аукционах.

1. Прочитайте и сохраните файл "baza.xlsx" с данными аукционов в переменную data_pd.

In [24]:
data_pd = pd.read_excel("baza.xlsx")

2. Cоздайте сводную таблицу сводную таблицу по столбцу Контрагент:

In [32]:
pivot_table = pd.pivot_table(
    data_pd,
    index='Контрагент',
    aggfunc='sum',
)

print(pivot_table)

                Аукцион  Количество  \
Контрагент                            
Альма           1002536           6   
Ильин и Ко      2652638          13   
Кружка и ложка  1198255          11   
Микрошкин        922767          14   
Шахты плюс      2265094           5   

                                                         Контакт  \
Контрагент                                                         
Альма                                       Женя СидинЖеня Сидин   
Ильин и Ко      Сергей ИльинСергей ИльинСергей ИльинСергей Ильин   
Кружка и ложка      Виктор ЮдинВиктор ЮдинВиктор ЮдинВиктор Юдин   
Микрошкин       Сергей МининСергей МининСергей МининСергей Минин   
Шахты плюс               Данил СидоровДанил СидоровДанил Сидоров   

                                                        Менеджер  \
Контрагент                                                         
Альма                                   Илья СергеевИлья Сергеев   
Ильин и Ко      Илья СергеевИлья СергеевИлья 

3. Создайте сводную таблицу по нескольким индексируемым столбцам  'Контакт', 'Менеджер':


In [40]:
pivot_table = pd.pivot_table(
    data_pd,
    index=['Контакт',"Менеджер"],
    aggfunc='sum',
)

print(pivot_table)

                            Аукцион  Количество  \
Контакт       Менеджер                            
Виктор Юдин   Павел Попов   1198255          11   
Данил Сидоров Илья Сергеев  2265094           5   
Женя Сидин    Илья Сергеев  1002536           6   
Сергей Ильин  Илья Сергеев  2652638          13   
Сергей Минин  Павел Попов    922767          14   

                                                                   Контрагент  \
Контакт       Менеджер                                                          
Виктор Юдин   Павел Попов   Кружка и ложкаКружка и ложкаКружка и ложкаКруж...   
Данил Сидоров Илья Сергеев                     Шахты плюсШахты плюсШахты плюс   
Женя Сидин    Илья Сергеев                                         АльмаАльма   
Сергей Ильин  Илья Сергеев           Ильин и КоИльин и КоИльин и КоИльин и Ко   
Сергей Минин  Павел Попов                МикрошкинМикрошкинМикрошкинМикрошкин   

                                                                Продукт  \

4. По умолчанию сводная таблица выводится по всем числовым полям, однако это не всегда удобно, а иногда и лишено смысла, поэтому можно выводить сводные данные только по отдельным столбцам. Выведите только столбец "Стоимость", для этого добавьте параметр values=['Цена']:

In [38]:
pivot_table = pd.pivot_table(
    data_pd,
    index='Контрагент',
    values=['Цена'],
    aggfunc='mean',
)

print(pivot_table)

                   Цена
Контрагент             
Альма           24500.0
Ильин и Ко      35775.0
Кружка и ложка  27000.0
Микрошкин       23275.0
Шахты плюс      14900.0


5. Столбец с ценой по умолчанию выводит среднее значение, однако нам скорее интересна сумма продаж. Добавляем параметр aggfunc='sum':

In [46]:
pivot_table = pd.pivot_table(
    data_pd,
    index='Контрагент',
    values=['Цена'],
    aggfunc='sum',
)

print(pivot_table)

                  Цена
Контрагент            
Альма            49000
Ильин и Ко      143100
Кружка и ложка  108000
Микрошкин        93100
Шахты плюс       44700


6. С помощью параметра columns выведите в столбцы наименование продуктов:

In [44]:
pivot_table = pd.pivot_table(
    data_pd,
    index='Контрагент',
    columns='Продукт',
    values=['Цена'],
    aggfunc='sum',
)

print(pivot_table)

                    Цена                                    
Продукт        Компьютер Монитор     Софт Тех. сопровождение
Контрагент                                                  
Альма            42000.0     NaN      NaN             7000.0
Ильин и Ко       84300.0     NaN  37600.0            21200.0
Кружка и ложка   83900.0  9300.0      NaN            14800.0
Микрошкин        43900.0     NaN  46900.0             2300.0
Шахты плюс       38000.0     NaN   6700.0                NaN


7. Наверное вы обратили внимание, что в ячейках, где нет данных пусто, хотя нам привычнее, что бы в таких полях указывалось бы значение 0. Добавьте параметр fill_value=0:

In [45]:
pivot_table = pd.pivot_table(
    data_pd,
    index='Контрагент',
    columns='Продукт',
    values=['Цена'],
    aggfunc='sum',
    fill_value=0
)

print(pivot_table)

                    Цена                                  
Продукт        Компьютер Монитор   Софт Тех. сопровождение
Контрагент                                                
Альма              42000       0      0               7000
Ильин и Ко         84300       0  37600              21200
Кружка и ложка     83900    9300      0              14800
Микрошкин          43900       0  46900               2300
Шахты плюс         38000       0   6700                  0


8. Вероятно полезно было бы рассматривать эффективность деятельности наших менеджеров не только по стоимости продаж, но и по их количеству. Добавьте в параметр values переменную  "Количество"

In [47]:
pivot_table = pd.pivot_table(
    data_pd,
    index='Контрагент',
    columns='Продукт',
    values=['Цена','Количество'],
    aggfunc='sum',
    fill_value=0
)

print(pivot_table)

               Количество                                      Цена          \
Продукт         Компьютер Монитор Софт Тех. сопровождение Компьютер Монитор   
Контрагент                                                                    
Альма                   4       0    0                  2     42000       0   
Ильин и Ко              9       0    2                  2     84300       0   
Кружка и ложка          6       4    0                  1     83900    9300   
Микрошкин               8       0    4                  2     43900       0   
Шахты плюс              4       0    1                  0     38000       0   

                                          
Продукт          Софт Тех. сопровождение  
Контрагент                                
Альма               0               7000  
Ильин и Ко      37600              21200  
Кружка и ложка      0              14800  
Микрошкин       46900               2300  
Шахты плюс       6700                  0  


9. Выведите продажи только менеджера "Илья Сергеев":

In [52]:
filtered_data = data_pd[data_pd['Менеджер'] == 'Илья Сергеев']

pivot_table = pd.pivot_table(
    filtered_data,
    index='Контрагент',
    columns='Продукт',
    values=['Цена','Количество'],
    aggfunc='sum',
    fill_value=0
)

print(pivot_table)

           Количество                              Цена         \
Продукт     Компьютер Софт Тех. сопровождение Компьютер   Софт   
Контрагент                                                       
Альма               4    0                  2     42000      0   
Ильин и Ко          9    2                  2     84300  37600   
Шахты плюс          4    1                  0     38000   6700   

                               
Продукт    Тех. сопровождение  
Контрагент                     
Альма                    7000  
Ильин и Ко              21200  
Шахты плюс                  0  
