In [18]:
"""Pivot table in pandas."""

'Pivot table in pandas.'

# Сводная таблица в pandas

*Сводная таблица* - это мощный инструмент для обобщения и представления данных. 

В Pandas есть функция [`DataFrame.pivot_table()`](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pivot_table.html), которая позволяет быстро преобразовать [`DataFrame`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) в сводную таблицу.

Обобщенная схема работы функции `pivot_table`:

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/pivot_table_pandas.png" >

Эта функция очень полезна, но иногда бывает сложно запомнить, как ее использовать для форматирования данных нужным вам способом.

В этом Блокноте рассказывается, как использовать `pivot_table`.

Полный текст оригинальной статьи находится [здесь](http://pbpython.com/pandas-pivot-table-explained.html).

В этом сценарии я собираюсь отслеживать воронку (план) продаж (также называемую воронкой, funnel). Основная проблема заключается в том, что некоторые циклы продаж очень длинные (например, "корпоративное программное обеспечение", капитальное оборудование и т.д.), и руководство хочет отслеживать их детально в течение года.

Типичные вопросы, относящиеся к таким данным, включают:

Какой доход находится в воронке (плане продаж)?
Какие продукты находятся в воронке?
У кого какие продукты на каком этапе?
Насколько вероятно, что мы закроем сделки к концу года?

In [19]:
import numpy as np
import pandas as pd

Прочтите данные о нашей воронке продаж в `DataFrame`:

In [20]:
# pylint: disable=line-too-long

df = pd.read_excel(
    "https://github.com/dm-fedorov/pandas_basic/raw/master/%D0%B1%D1%8B%D1%81%D1%82%D1%80%D0%BE%D0%B5%20%D0%B2%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5%20%D0%B2%20pandas/data/salesfunnel.xlsx"
)
df.head()
# Счет, Название компании, Представитель компании, Менеджер по продажам, Продукт, Кол-во, Стоимость, Статус сделки

Unnamed: 0,Account,Name,Rep,Manager,Product,Quantity,Price,Status
0,714466,Trantow-Barrows,Craig Booker,Debra Henley,CPU,1,30000,presented
1,714466,Trantow-Barrows,Craig Booker,Debra Henley,Software,1,10000,presented
2,714466,Trantow-Barrows,Craig Booker,Debra Henley,Maintenance,2,5000,pending
3,737550,"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,CPU,1,35000,declined
4,146832,Kiehn-Spinka,Daniel Hilton,Debra Henley,CPU,2,65000,won


Для удобства давайте представим столбец `Status` как [категориальную переменную](https://pandas.pydata.org/pandas-docs/stable/user_guide/categorical.html) (`category`) и установим порядок, в котором хотим просматривать.

Это не является строго обязательным, но помогает поддерживать желаемый порядок при работе с данными.

In [None]:
df["Status"] = df["Status"].astype("category")
df["Status"] = df["Status"].cat.set_categories(
    ["Ordered", "Shipped", "Delivered", "Returned"]
)

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17 entries, 0 to 16
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype   
---  ------    --------------  -----   
 0   Account   17 non-null     int64   
 1   Name      17 non-null     object  
 2   Rep       17 non-null     object  
 3   Manager   17 non-null     object  
 4   Product   17 non-null     object  
 5   Quantity  17 non-null     int64   
 6   Price     17 non-null     int64   
 7   Status    0 non-null      category
dtypes: category(1), int64(3), object(4)
memory usage: 1.3+ KB


# Поворот данных

Создавать сводную таблицу (`pivot table`) проще всего последовательно. Добавляйте элементы по одному и проверяйте каждый шаг, чтобы убедиться, что вы получаете ожидаемые результаты.

Самая простая сводная таблица должна иметь `DataFrame` и индекс (`index`). В этом примере давайте использовать `Name` в качестве индекса:

In [None]:
numeric_cols = df.select_dtypes(include=["number"]).columns
pd.pivot_table(df, index=["Name"], values=numeric_cols)  # type: ignore[call-overload]

Unnamed: 0_level_0,Account,Price,Quantity
Name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Barton LLC,740150.0,35000.0,1.0
"Fritsch, Russel and Anderson",737550.0,35000.0,1.0
Herman LLC,141962.0,65000.0,2.0
Jerde-Hilpert,412290.0,5000.0,2.0
"Kassulke, Ondricka and Metz",307599.0,7000.0,3.0
Keeling LLC,688981.0,100000.0,5.0
Kiehn-Spinka,146832.0,65000.0,2.0
Koepp Ltd,729833.0,35000.0,2.0
Kulas Inc,218895.0,25000.0,1.5
Purdy-Kunde,163416.0,30000.0,1.0


У вас может быть несколько индексов. Фактически, большинство аргументов pivot_table могут принимать несколько значений в качестве элементов списка:

In [24]:
pd.pivot_table(
    df,
    index=["Name", "Rep", "Manager"],
    values=df.select_dtypes(include="number").columns.tolist(),
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Account,Price,Quantity
Name,Rep,Manager,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Barton LLC,John Smith,Debra Henley,740150.0,35000.0,1.0
"Fritsch, Russel and Anderson",Craig Booker,Debra Henley,737550.0,35000.0,1.0
Herman LLC,Cedric Moss,Fred Anderson,141962.0,65000.0,2.0
Jerde-Hilpert,John Smith,Debra Henley,412290.0,5000.0,2.0
"Kassulke, Ondricka and Metz",Wendy Yule,Fred Anderson,307599.0,7000.0,3.0
Keeling LLC,Wendy Yule,Fred Anderson,688981.0,100000.0,5.0
Kiehn-Spinka,Daniel Hilton,Debra Henley,146832.0,65000.0,2.0
Koepp Ltd,Wendy Yule,Fred Anderson,729833.0,35000.0,2.0
Kulas Inc,Daniel Hilton,Debra Henley,218895.0,25000.0,1.5
Purdy-Kunde,Cedric Moss,Fred Anderson,163416.0,30000.0,1.0


Это интересно, но не особо полезно. 

Мы хотим посмотреть на эти данные со стороны менеджера (`Manager`) и директора (`Director`). Это достаточно просто сделать, изменив индекс:

In [26]:
pd.pivot_table(
    df,
    index=["Manager", "Rep"],
    values=df.select_dtypes(include="number").columns.tolist(),
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Account,Price,Quantity
Manager,Rep,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Debra Henley,Craig Booker,720237.0,20000.0,1.25
Debra Henley,Daniel Hilton,194874.0,38333.333333,1.666667
Debra Henley,John Smith,576220.0,20000.0,1.5
Fred Anderson,Cedric Moss,196016.5,27500.0,1.25
Fred Anderson,Wendy Yule,614061.5,44250.0,3.0


Вы могли заметить, что сводная таблица достаточно умна, чтобы начать агрегирование данных и их обобщение, группируя представителей (`Rep`) с их менеджерами (`Manager`). Теперь мы начинаем понимать, что может сделать для нас сводная таблица.

Давайте удалим счет (`Account`) и количество (`Quantity`), явно определив столбцы, которые нам нужны, с помощью параметра `values`:

In [27]:
pd.pivot_table(df, index=["Manager", "Rep"], values=["Price"])

Unnamed: 0_level_0,Unnamed: 1_level_0,Price
Manager,Rep,Unnamed: 2_level_1
Debra Henley,Craig Booker,20000.0
Debra Henley,Daniel Hilton,38333.333333
Debra Henley,John Smith,20000.0
Fred Anderson,Cedric Moss,27500.0
Fred Anderson,Wendy Yule,44250.0


Столбец цен (`price`) по умолчанию усредняет данные, но мы можем произвести подсчет количества или суммы. Добавить их можно с помощью параметра `aggfunc`:

In [28]:
pd.pivot_table(df, index=["Manager", "Rep"], values=["Price"], aggfunc=np.sum)

  pd.pivot_table(df, index=["Manager", "Rep"], values=["Price"], aggfunc=np.sum)


Unnamed: 0_level_0,Unnamed: 1_level_0,Price
Manager,Rep,Unnamed: 2_level_1
Debra Henley,Craig Booker,80000
Debra Henley,Daniel Hilton,115000
Debra Henley,John Smith,40000
Fred Anderson,Cedric Moss,110000
Fred Anderson,Wendy Yule,177000


`aggfunc` может принимать список функций. 

Давайте попробуем узнать среднее значение и количество:

In [29]:
pd.pivot_table(df, index=["Manager", "Rep"], values=["Price"], aggfunc=[np.mean, len])

  pd.pivot_table(df, index=["Manager", "Rep"], values=["Price"], aggfunc=[np.mean, len])


Unnamed: 0_level_0,Unnamed: 1_level_0,mean,len
Unnamed: 0_level_1,Unnamed: 1_level_1,Price,Price
Manager,Rep,Unnamed: 2_level_2,Unnamed: 3_level_2
Debra Henley,Craig Booker,20000.0,4
Debra Henley,Daniel Hilton,38333.333333,3
Debra Henley,John Smith,20000.0,2
Fred Anderson,Cedric Moss,27500.0,4
Fred Anderson,Wendy Yule,44250.0,4


Если мы хотим увидеть продажи с разбивкой по продуктам (`Product`), переменная `columns` позволяет нам определить один или несколько столбцов.

Я думаю, что одна из сложностей `pivot_table` - это использование столбцов (`columns`) и значений (`values`). 

Помните, что столбцы необязательны - они предоставляют дополнительный способ сегментировать актуальные значения, которые вам нужны. 

Функции агрегирования применяются к перечисленным значениям (`values`):

In [30]:
pd.pivot_table(
    df,
    index=["Manager", "Rep"],
    values=["Price"],
    columns=["Product"],
    aggfunc=[np.sum],
)

  pd.pivot_table(


Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Price,Price,Price,Price
Unnamed: 0_level_2,Product,CPU,Maintenance,Monitor,Software
Manager,Rep,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Debra Henley,Craig Booker,65000.0,5000.0,,10000.0
Debra Henley,Daniel Hilton,105000.0,,,10000.0
Debra Henley,John Smith,35000.0,5000.0,,
Fred Anderson,Cedric Moss,95000.0,5000.0,,10000.0
Fred Anderson,Wendy Yule,165000.0,7000.0,5000.0,


Значения `NaN` немного отвлекают. Если мы хотим их убрать, то можем использовать параметр `fill_value`, чтобы установить в `0`.

In [31]:
pd.pivot_table(
    df,
    index=["Manager", "Rep"],
    values=["Price"],
    columns=["Product"],
    aggfunc=[np.sum],
    fill_value=0,
)

  pd.pivot_table(


Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Price,Price,Price,Price
Unnamed: 0_level_2,Product,CPU,Maintenance,Monitor,Software
Manager,Rep,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3
Debra Henley,Craig Booker,65000,5000,0,10000
Debra Henley,Daniel Hilton,105000,0,0,10000
Debra Henley,John Smith,35000,5000,0,0
Fred Anderson,Cedric Moss,95000,5000,0,10000
Fred Anderson,Wendy Yule,165000,7000,5000,0


Думаю, было бы полезно добавить количество (`Quantity`). 

Добавьте количество (`Quantity`) в список значений `values`:

In [32]:
pd.pivot_table(
    df,
    index=["Manager", "Rep"],
    values=["Price", "Quantity"],
    columns=["Product"],
    aggfunc=[np.sum],
    fill_value=0,
)

  pd.pivot_table(


Unnamed: 0_level_0,Unnamed: 1_level_0,sum,sum,sum,sum,sum,sum,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Price,Price,Price,Price,Quantity,Quantity,Quantity,Quantity
Unnamed: 0_level_2,Product,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software
Manager,Rep,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
Debra Henley,Craig Booker,65000,5000,0,10000,2,2,0,1
Debra Henley,Daniel Hilton,105000,0,0,10000,4,0,0,1
Debra Henley,John Smith,35000,5000,0,0,1,2,0,0
Fred Anderson,Cedric Moss,95000,5000,0,10000,3,1,0,1
Fred Anderson,Wendy Yule,165000,7000,5000,0,7,3,2,0


Что интересно, вы можете добавлять элементы в индекс, чтобы получить другое визуальное представление. 

Добавим товары (`Products`) в индекс.

In [33]:
pd.pivot_table(
    df,
    index=["Manager", "Rep", "Product"],
    values=["Price", "Quantity"],
    aggfunc=[np.sum],
    fill_value=0,
)

  pd.pivot_table(


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,sum,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Price,Quantity
Manager,Rep,Product,Unnamed: 3_level_2,Unnamed: 4_level_2
Debra Henley,Craig Booker,CPU,65000,2
Debra Henley,Craig Booker,Maintenance,5000,2
Debra Henley,Craig Booker,Software,10000,1
Debra Henley,Daniel Hilton,CPU,105000,4
Debra Henley,Daniel Hilton,Software,10000,1
Debra Henley,John Smith,CPU,35000,1
Debra Henley,John Smith,Maintenance,5000,2
Fred Anderson,Cedric Moss,CPU,95000,3
Fred Anderson,Cedric Moss,Maintenance,5000,1
Fred Anderson,Cedric Moss,Software,10000,1


Для этого набора данных такое представление имеет больше смысла. 

А что, если я хочу увидеть некоторые итоги? `margins=True` делает это за нас.

In [34]:
pd.pivot_table(
    df,
    index=["Manager", "Rep", "Product"],
    values=["Price", "Quantity"],
    aggfunc=[np.sum, np.mean],
    fill_value=0,
    margins=True,
)

  pd.pivot_table(
  pd.pivot_table(


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,sum,sum,mean,mean
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Price,Quantity,Price,Quantity
Manager,Rep,Product,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Debra Henley,Craig Booker,CPU,65000,2,32500.0,1.0
Debra Henley,Craig Booker,Maintenance,5000,2,5000.0,2.0
Debra Henley,Craig Booker,Software,10000,1,10000.0,1.0
Debra Henley,Daniel Hilton,CPU,105000,4,52500.0,2.0
Debra Henley,Daniel Hilton,Software,10000,1,10000.0,1.0
Debra Henley,John Smith,CPU,35000,1,35000.0,1.0
Debra Henley,John Smith,Maintenance,5000,2,5000.0,2.0
Fred Anderson,Cedric Moss,CPU,95000,3,47500.0,1.5
Fred Anderson,Cedric Moss,Maintenance,5000,1,5000.0,1.0
Fred Anderson,Cedric Moss,Software,10000,1,10000.0,1.0


Давайте переместим анализ на уровень выше и посмотрим на наш план продаж (воронку) на уровне менеджера.

Обратите внимание на то, как статус упорядочен на основе нашего предыдущего определения категории.

In [35]:
pd.pivot_table(
    df,
    index=["Manager", "Status"],
    values=["Price"],
    aggfunc=[np.sum],
    fill_value=0,
    margins=True,
)

  pd.pivot_table(
  pd.pivot_table(


Unnamed: 0_level_0,Unnamed: 1_level_0,sum
Unnamed: 0_level_1,Unnamed: 1_level_1,Price
Manager,Status,Unnamed: 2_level_2
Debra Henley,Ordered,0
Debra Henley,Shipped,0
Debra Henley,Delivered,0
Debra Henley,Returned,0
Fred Anderson,Ordered,0
Fred Anderson,Shipped,0
Fred Anderson,Delivered,0
Fred Anderson,Returned,0
All,,0


Очень удобно передать словарь в качестве `aggfunc`, чтобы вы могли выполнять разные функции с каждым из выбранных значений. Это имеет побочный эффект - названия становятся немного чище:

In [36]:
pd.pivot_table(
    df,
    index=["Manager", "Status"],
    columns=["Product"],
    values=["Quantity", "Price"],
    aggfunc={"Quantity": len, "Price": np.sum},
    fill_value=0,
)

  pd.pivot_table(
  pd.pivot_table(


Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Price,Price,Price
Unnamed: 0_level_1,Product,CPU,Maintenance,Monitor,Software
Manager,Status,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Debra Henley,Ordered,0,0,0,0
Debra Henley,Shipped,0,0,0,0
Debra Henley,Delivered,0,0,0,0
Debra Henley,Returned,0,0,0,0
Fred Anderson,Ordered,0,0,0,0
Fred Anderson,Shipped,0,0,0,0
Fred Anderson,Delivered,0,0,0,0
Fred Anderson,Returned,0,0,0,0


Вы также можете предоставить список агрегированных функций (aggfunctions), которые будут применяться к каждому значению:

In [37]:
table = pd.pivot_table(
    df,
    index=["Manager", "Status"],
    columns=["Product"],
    values=["Quantity", "Price"],
    aggfunc={"Quantity": len, "Price": [np.sum, np.mean]},  # type: ignore
    fill_value=0,
)

  table = pd.pivot_table(
  table = pd.pivot_table(
  table = pd.pivot_table(


table

Может показаться сложным собрать все это сразу, но как только вы начнете играть с данными и медленно добавлять элементы, то почувствуете, как это работает.

Мое общее практическое правило заключается в том, что после использования нескольких группировок (`grouby`) вы должны оценить, является ли сводная таблица (`pivot table`) полезным подходом.

# Расширенная фильтрация сводной таблицы

После того, как вы сгенерировали свои данные, они находятся в `DataFrame`, поэтому можно фильтровать их, используя обычные методы `DataFrame`.

Если вы хотите посмотреть только на одного менеджера:

In [38]:
# https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.query.html

table.query('Manager == ["Debra Henley"]')

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Price,Price,Price,Price,Price,Price,Price
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,mean,mean,mean,sum,sum,sum,sum
Unnamed: 0_level_2,Product,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software
Manager,Status,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3
Debra Henley,Ordered,0.0,0.0,0.0,0.0,0,0,0,0
Debra Henley,Shipped,0.0,0.0,0.0,0.0,0,0,0,0
Debra Henley,Delivered,0.0,0.0,0.0,0.0,0,0,0,0
Debra Henley,Returned,0.0,0.0,0.0,0.0,0,0,0,0


Мы можем просмотреть все незавершенные (`pending`) и выигранные (`won`) сделки:

In [39]:
table.query('Status == ["pending", "won"]')

Unnamed: 0_level_0,Unnamed: 1_level_0,Price,Price,Price,Price,Price,Price,Price,Price
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,mean,mean,mean,sum,sum,sum,sum
Unnamed: 0_level_2,Product,CPU,Maintenance,Monitor,Software,CPU,Maintenance,Monitor,Software
Manager,Status,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3,Unnamed: 9_level_3


Я надеюсь, что этот пример показал вам, как использовать сводные таблицы в собственных наборах данных.

# Шпаргалка

Схема с примером из Блокнота:

<img src="https://raw.githubusercontent.com/dm-fedorov/pandas_basic/master/pic/pivot-table-datasheet.png" >