# Сводная таблица pivot_table

Сводная таблица - это мощный инструмент для обобщения и представления данных.

В Pandas для подготовки сводных таблиц вызывают метод **pivot_table()**.

Аргументы метода:

• index — ключи для группировки по индексу (строке)

• columns — ключи для группировки столбцов

• values — значения, по которым мы хотим увидеть сводную таблицу (столбцы для агрегирования)

• aggfunc — функция, применяемая к значениям (т.е. что делать с повторяющимися значениями)

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/pivot_table_pandas.png" >



Построим сводную таблицу для задачи по SEO-оптимизации.
Для начала загрузите дата-сет data.final, полученный в результате выполнения предыдущей задачи (объединения таблиц), сохраните ешл в переменной df.

In [None]:
import pandas as pd
df = pd.read_csv('data_final.csv')
df.info()


## Поворот данных

Создавать сводную таблицу **(pivot_table)** лучше всего последовательно. Добавляйте элементы по одному и проверяйте каждый шаг, чтобы убедиться, что вы получаете ожидаемые результаты. Самая простая сводная таблица должна иметь **DataFrame** и индекс **(index)**. 

В этом примере давайте использовать **category_name** в качестве индекса:

**pd.pivot_table(df, index=["category_name"])**

In [None]:
data_pivot = df.pivot_table(index=["category_name"])
data_pivot


У вас может быть несколько индексов. Фактически, большинство аргументов **pivot_table** могут принимать несколько значений в качестве элементов списка. Добавьте в список индексов переменную **subcategory_name**.

In [None]:
data_pivot = df.pivot_table(index=['category_name', 'subcategory_name'])
data_pivot


Вы могли заметить, что сводная таблица достаточно умна, чтобы начать агрегирование данных и их обобщение, группируя категории товаров (**category_name**) с их подкатегориями (**subcategory_name**). Теперь мы начинаем понимать, что может сделать для нас сводная таблица.

Поскольку в данном случае столбец с количественной переменной только один (**visits**), он автоматически определился в качестве значения параметра **values**. Однако, можно явно определить столбцы, которые нам нужны, с помощью этого параметра **values**:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"])**

In [None]:
data_pivot = df.pivot_table(index=['category_name', 'subcategory_name'],
                                    values='visits')
data_pivot


Столбец цен (**visits**) по умолчанию усредняет данные, но мы можем произвести подсчет количества или суммы. Добавить их можно с помощью параметра **aggfunc**:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], aggfunc='sum')**

In [None]:
data_pivot = df.pivot_table(index=['category_name', 'subcategory_name'],
                                    values='visits', aggfunc='sum')
data_pivot


**Aggfunc** может принимать список функций.

Давайте попробуем узнать среднее значение и количество:



In [None]:
data_pivot = df.pivot_table(index=['category_name', 'subcategory_name'],
                                    values='visits', aggfunc=['mean', 'count'])
data_pivot


Если мы хотим увидеть визиты с разбивкой по источникам трафика (**source**), переменная **columns** позволяет нам определить один или несколько столбцов.

Одна из сложностей **pivot_table** - это использование столбцов (**columns**) и значений (**values**).

Помните, что столбцы необязательны - они предоставляют дополнительный способ сегментировать актуальные значения, которые вам нужны.

Функции агрегирования применяются к перечисленным значениям (**values**):

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], columns=["source"], aggfunc='sum'])**


In [None]:
data_pivot = df.pivot_table(index=['category_name', 'subcategory_name'], values=["visits"], columns=["source"], aggfunc='sum')
data_pivot


Теперь вы видите название категории и её подкатегории со значениями объёма трафика по каждой.

Как видно, основная категория включает в себя подкатегорию и это представлено в структуре датафрейма: категория отображена иерархически главной над подкатегорией. Такие датафреймы содержат в себе мультииндекс. Часто при работе с такими датафреймами мультииндекс убирают, чтобы категория была отображена на каждой строчке датафрейма:

**pd.pivot_table(df, index=['category_name', 'subcategory_name'], values=["visits"], 
               columns=["source"], aggfunc='sum').reset_index()**


In [None]:
data_pivot = df.pivot_table(index=['category_name', 'subcategory_name'], values=["visits"], 
               columns=["source"], aggfunc='sum').reset_index()
data_pivot


В таблице выше суммы визитов **visits** по каждому из источников **source (direct и organic)** представлены в отдельных столбцах. Такой вид таблицы называется «широкий». Он удобен, когда нужно сравнить значения столбцов. Хорошо заметно, например, что в подкатегории «Автомобильные инверторы» количество визитов из источников **direct** и **organic** практически одинаково, а в подкатегории «Автомагнитолы» из источника **organic** пришло почти в два раза больше посетителей, чем из **direct**.

## Расширенная фильтрация сводной таблицы

После того, как вы сгенерировали свои данные, они находятся в **DataFrame**, поэтому можно фильтровать их, используя обычные методы **DataFrame**.

Если вы хотите посмотреть только на одну категорию, например, "Товары для дома":

**data_pivot = pd.pivot_table(df, index=['category_name', 'subcategory_name'], values='visits', columns='source',
                            aggfunc='sum').reset_index()**
**print((data_pivot[data_pivot['category_name']=='Товары для дома']).head(10))**

In [None]:
data_pivot = pd.pivot_table(df, index=['category_name', 'subcategory_name'], values='visits', columns='source',
                            aggfunc='sum').reset_index()
print((data_pivot[data_pivot['category_name']=='Товары для дома']).head(10))



Или, например, мы можем узнать на какие товары запросы с органического трафика в разы больше, чем с прямого. Для этого создадим в таблице **data_pivot** новый столбец **'ratio'** и сохраните в нём значение отношения органического трафика **'organic'** к прямому **'direct'**. 

Отсортируем таблицу по столбцу 'ratio' в порядке убывания. Выведите первые 10 строк. 

**data_pivot['ratio'] = data_pivot['organic'] / data_pivot['direct']**

**data_my = data_pivot.sort_values(by = 'ratio', ascending=False)**

**print(data_my.head(10))**

In [None]:
data_pivot['ratio'] = data_pivot['organic'] / data_pivot['direct']
data_my = data_pivot.sort_values(by = 'ratio', ascending=False)
print(data_my.head(10))

# Задачи для самостоятельного выполнения

Для начала давайте представим, что мы являемся аналитиками в фирме по продаже компьютеров, программного обеспечения к ним, а также оказываем услуги по техническому сопровождению. Нам поставлена задача проанализировать участие компании в различных аукционах. 

1. Прочитайте и сохраните файл "baza.xlsx" с данными аукционов в переменную data_pd.

In [None]:
data_pd = pd.read_excel('baza.xlsx')
data_pd.info()
data_pd.columns

2. Cоздайте сводную таблицу сводную таблицу по столбцу Контрагент:

In [None]:
data_pivot1 = data_pd.pivot_table(index=['Контрагент'], values=['Цена', 'Количество'])
data_pivot1

3. Создайте сводную таблицу по нескольким индексируемым столбцам  'Контакт', 'Менеджер':


In [None]:
data_pivot = data_pd.pivot_table(index=['Контакт', 'Менеджер'], values=['Цена', 'Количество'])
data_pivot

4. По умолчанию сводная таблица выводится по всем числовым полям, однако это не всегда удобно, а иногда и лишено смысла, поэтому можно выводить сводные данные только по отдельным столбцам. Выведите только столбец "Стоимость", для этого добавьте параметр values=['Цена']:

In [None]:
data_pivot = data_pd.pivot_table(index=['Контакт', 'Менеджер'], values=['Цена'])
data_pivot

5. Столбец с ценой по умолчанию выводит среднее значение, однако нам скорее интересна сумма продаж. Добавляем параметр aggfunc='sum':

In [None]:
data_pivot = data_pd.pivot_table(index=['Контакт', 'Менеджер'], values=['Цена'], aggfunc='sum')
data_pivot

6. С помощью параметра columns выведите в столбцы наименование продуктов:

In [None]:
data_pivot = data_pd.pivot_table(index=['Контакт', 'Менеджер'], columns='Продукт', values=['Цена'], aggfunc='sum')
data_pivot

7. Наверное вы обратили внимание, что в ячейках, где нет данных пусто, хотя нам привычнее, что бы в таких полях указывалось бы значение 0. Добавьте параметр fill_value=0:

In [None]:
data_pivot = data_pd.pivot_table(index=['Контакт', 'Менеджер'], columns='Продукт', values=['Цена'],
                                  aggfunc='sum', fill_value=0)
data_pivot

8. Вероятно полезно было бы рассматривать эффективность деятельности наших менеджеров не только по стоимости продаж, но и по их количеству. Добавьте в параметр values переменную  "Количество"

In [None]:
data_pivot = data_pd.pivot_table(index=['Контакт', 'Менеджер'], columns='Продукт', values=['Цена', 'Количество'],
                                  aggfunc='sum', fill_value=0)
data_pivot

9. Выведите продажи только менеджера "Илья Сергеев":

In [None]:
data_pivot.columns
data_pivot.loc[data_pivot.index.get_level_values('Менеджер') == 'Илья Сергеев']