# Подробное руководство по группировке и агрегированию с помощью pandas

<a href="https://colab.research.google.com/github/dm-fedorov/pandas_basic/blob/master/быстрое%20введение%20в%20pandas/Подробное%20руководство%20по%20группировке%20и%20агрегированию%20с%20помощью%20pandas.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory" target="_blank"></a>

## Введение

Одна из базовых функций анализа данных - группировка и агрегирование. В некоторых случаях этого уровня анализа может быть достаточно, чтобы ответить на вопросы бизнеса. В других случаях - это действие может быть первым шагом в более сложном анализе. В pandas функцию [`groupby`](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html) можно комбинировать с одной или несколькими функциями агрегирования, чтобы быстро и легко обобщать данные. Эта концепция обманчиво проста и большинство новых пользователей pandas поймут ее. Однако они могут быть удивлены тем, насколько полезными могут быть сложные функции агрегирования для проведения сложного анализа данных. 

В этой статье кратко изложены основные функции агрегирования pandas и показаны примеры более сложных настраиваемых агрегаций. Независимо от того, являетесь ли вы новым или более опытным пользователем pandas, я думаю, вы узнаете несколько вещей из этой статьи.

## Агрегирование

В контексте даннной статьи функция агрегирования - это функция, которая принимает несколько отдельных значений и возвращает сводные данные. В большинстве случаев эти сводные данные представляет собой одно значение.

Наиболее распространенные функции агрегирования - это простое среднее или суммирование значений. Начиная с pandas 0.20, вы можете вызывать функцию агрегирования для одного или нескольких столбцов DataFrame.

Вот быстрый пример расчета общей и средней стоимости проезда с использованием набора данных "Титаник" (загруженного из пакета [seaborn](https://seaborn.pydata.org/examples/index.html)).

*15 апреля 1912 года* самый большой пассажирский лайнер в истории во время своего первого рейса столкнулся с айсбергом. Когда Титаник затонул, погибли 1502 из 2224 пассажиров и членов экипажа. 

Эта сенсационная трагедия потрясла международное сообщество и привела к улучшению правил безопасности для судов. Одна из причин, по которой кораблекрушение привело к гибели людей, заключалась в том, что не хватало спасательных шлюпок для пассажиров и экипажа. Несмотря на то, что в выживании после затопления была определенная доля удачи, некоторые группы людей имели больше шансов выжить, чем другие.

In [4]:
import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic')

Каждая строка набора данных представляет одного человека. Столбцы описывают различные атрибуты, включая то, выжили ли они (survived), их возраст (age), класс пассажира (pclass), пол (sex) и стоимость проезда (fare).

In [2]:
df.head()

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


In [1]:
df['fare'].agg(['sum', 'mean']) # сумма и среднее по столбцу стоимости проезда

sum     28693.949300
mean       32.204208
Name: fare, dtype: float64

Эта простая концепция - необходимый строительный блок для более сложного анализа. 

Одна из областей, которую необходимо обсудить, - это то, что существует несколько способов вызова функции агрегирования. Как показано выше, вы можете передать *список функций* для применения к одному или нескольким столбцам данных.

Что, если вы хотите выполнить анализ только подмножества столбцов? Есть два других варианта агрегирования: *использование словаря* или [*именованное агрегирование*](https://stackoverflow.com/questions/57127632/how-to-use-named-aggregation) (named aggregation).

Использование словарей:

In [5]:
df.agg({'fare': ['sum', 'mean'],
        'sex' : ['count']})

Unnamed: 0,fare,sex
count,,891.0
mean,32.204208,
sum,28693.9493,


Использование кортежей:

In [6]:
df.agg(fare_sum=('fare', 'sum'),
       fare_mean=('fare', 'mean'),
       sex_count=('sex', 'count'))

Unnamed: 0,fare,sex
fare_sum,28693.9493,
fare_mean,32.204208,
sex_count,,891.0


Важно знать об этих параметрах и знать, какой из них и когда использовать.

*Как правило, я предпочитаю использовать словари для агрегирования.*

Подход с кортежами ограничен возможностью применять только одно агрегирование за раз к определенному столбцу. Если мне нужно переименовать столбцы, я буду использовать функцию [`rename`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rename.html) после завершения агрегации. В некоторых случаях подход со списком является более рациональным. Тем не менее, я повторю, что, на мой взгляд, словарный подход обеспечивает наиболее надежный способ для большинства ситуаций.

## Groupby

Теперь, когда мы знаем, как использовать агрегацию, мы можем объединить это с [`groupby`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html) для резюмирования данных.

### Основы математики

Наиболее распространенными встроенными функциями агрегирования являются базовые математические функции, включая сумму (sum), среднее значение (mean), медианное значение (median), минимум (minimum), максимум (maximum), стандартное отклонение (standard deviation), дисперсию (variance), среднее абсолютное отклонение (mean absolute deviation) и произведение (product).

Мы можем применить все эти функции к `fare` (стоимость проезда) при группировке по `embark_town` (город посадки на корабль):

In [7]:
agg_func_math = {
    'fare': ['sum', 'mean', 'median', 'min', 'max', 'std', 'var', 'mad', 'prod']
}

In [8]:
df.groupby(['embark_town']).agg(agg_func_math).round(2)

Unnamed: 0_level_0,fare,fare,fare,fare,fare,fare,fare,fare,fare
Unnamed: 0_level_1,sum,mean,median,min,max,std,var,mad,prod
embark_town,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Cherbourg,10072.3,59.95,29.7,4.01,512.33,83.91,7041.39,53.02,6.193716e+250
Queenstown,1022.25,13.28,7.75,6.75,90.0,14.19,201.3,7.87,6.4586709999999994e+78
Southampton,17439.4,27.08,13.0,0.0,263.0,35.89,1287.95,21.3,0.0


Все это относительно простая математика.

Кстати, я не нашел подходящего варианта использования функции [`prod`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.prod.html), которая вычисляет произведение всех значений в группе. Я включаю его для полноты картины.

Еще один полезный трюк - использовать [`describe`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.describe.html) для одновременного запуска нескольких встроенных агрегаторов:

In [9]:
agg_func_describe = {'fare': ['describe']}

In [10]:
df.groupby(['embark_town']).agg(agg_func_describe).round(2)

Unnamed: 0_level_0,fare,fare,fare,fare,fare,fare,fare,fare
Unnamed: 0_level_1,describe,describe,describe,describe,describe,describe,describe,describe
Unnamed: 0_level_2,count,mean,std,min,25%,50%,75%,max
embark_town,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3,Unnamed: 7_level_3,Unnamed: 8_level_3
Cherbourg,168.0,59.95,83.91,4.01,13.7,29.7,78.5,512.33
Queenstown,77.0,13.28,14.19,6.75,7.75,7.75,15.5,90.0
Southampton,644.0,27.08,35.89,0.0,8.05,13.0,27.9,263.0


### Подсчет

После базовой математики подсчет (counting) является следующим наиболее распространенным агрегированием, которое я выполняю для сгруппированных данных. В некотором смысле это может быть немного сложнее, чем простая математика. Вот три примера подсчета:

In [11]:
agg_func_count = {'embark_town': ['count', 'nunique', 'size']}

In [12]:
df.groupby(['deck']).agg(agg_func_count) # статистика по палубам Титаника

Unnamed: 0_level_0,embark_town,embark_town,embark_town
Unnamed: 0_level_1,count,nunique,size
deck,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
A,15,2,15
B,45,2,47
C,59,3,59
D,33,2,33
E,32,3,32
F,13,3,13
G,4,1,4


Главное отличие, о котором следует помнить, заключается в том, что `count` не будет включать значения `NaN`, тогда как `size` будет. В зависимости от набора данных это различие может оказаться полезным, а может и не оказаться. Кроме того, функция `nunique` исключит значения `NaN` из уникальных счетчиков. Продолжайте читать, чтобы увидеть пример того, как включить `NaN` в подсчет уникальных значений.

### Первый и последний

В этом примере мы можем выбрать самый высокий и самый низкий тариф по городу, в котором совершили посадку. Следует помнить один важный момент: вы должны сначала отсортировать данные, если хотите, чтобы качестве `first` (первого) и `last` (последнего) были выбраны максимальные и минимальные значения.

In [13]:
agg_func_selection = {'fare': ['first', 'last']}

In [14]:
df.sort_values(by=['fare'], ascending=False).groupby(['embark_town']).agg(agg_func_selection)

Unnamed: 0_level_0,fare,fare
Unnamed: 0_level_1,first,last
embark_town,Unnamed: 1_level_2,Unnamed: 2_level_2
Cherbourg,512.3292,4.0125
Queenstown,90.0,6.75
Southampton,263.0,0.0


В приведенном выше примере я бы рекомендовал использовать `max` и `min`, но для полноты картины включил `first` и `last`. В других приложениях (например, при анализе временных рядов) вы можете выбрать `first` и `last` значения для дальнейшего анализа.

Другой подход к выбору - использовать `idxmax` и `idxmin` для выбора значения индекса, соответствующего максимальному или минимальному значениям.

In [15]:
agg_func_max_min = {'fare': ['idxmax', 'idxmin']}

In [16]:
df.groupby(['embark_town']).agg(agg_func_max_min)

Unnamed: 0_level_0,fare,fare
Unnamed: 0_level_1,idxmax,idxmin
embark_town,Unnamed: 1_level_2,Unnamed: 2_level_2
Cherbourg,258,378
Queenstown,245,143
Southampton,27,179


Мы можем проверить результаты:

In [17]:
df.loc[[258, 378]]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True
378,0,3,male,20.0,0,0,4.0125,C,Third,man,True,,Cherbourg,no,True


Вот еще один трюк, который можно использовать для просмотра строк с максимальной стоимостью проезда (`fare`):

In [18]:
df.loc[df.groupby('class')['fare'].idxmax()]

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
258,1,1,female,35.0,0,0,512.3292,C,First,woman,False,,Cherbourg,yes,True
72,0,2,male,21.0,0,0,73.5,S,Second,man,True,,Southampton,no,True
159,0,3,male,,8,2,69.55,S,Third,man,True,,Southampton,no,False


Приведенный выше пример - одно из тех мест, где агрегирование на основе списка является полезным.

### Другие библиотеки

Вы не ограничены функциями агрегирования в pandas. К примеру, можно использовать функции статистики из [`scipy`](https://docs.scipy.org/doc/scipy/reference/stats.html) или [`numpy`](https://numpy.org/doc/stable/reference/routines.statistics.html).

Вот пример расчета моды (`mode`) и асимметрии (`skew`) данных о стоимости проезда.

In [19]:
from scipy.stats import skew, mode

In [20]:
agg_func_stats = {'fare': [skew, mode, pd.Series.mode]}

In [21]:
df.groupby(['embark_town']).agg(agg_func_stats)

Unnamed: 0_level_0,fare,fare,fare
Unnamed: 0_level_1,skew,mode,mode
embark_town,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Cherbourg,3.305112,"([7.2292], [15])",7.2292
Queenstown,4.265111,"([7.75], [30])",7.75
Southampton,3.640276,"([8.05], [43])",8.05


Результаты моды (`mode`) интересны. Функция [`mode`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mode.html) из [`scipy.stats`](https://docs.scipy.org/doc/scipy/reference/stats.html) возвращает наиболее часто встречающееся значение, а также количество вхождений. Если вам просто нужно наиболее частое значение, то используйте [`pd.Series.mode`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.mode.html).

Ключевым моментом является то, что вы можете использовать любую функцию, которую хотите, если она знает, как интерпретировать массив значений pandas и возвращает одно значение.

### Работа с текстом

При работе с текстом функции подсчета будут работать должным образом. Вы также можете использовать функцию `mode` из `scipy` для текстовых данных.

Одно интересное приложение состоит в том, что если у вас небольшое количество различных значений, вы можете использовать питоновскую функцию [`set`](https://docs.python.org/3/tutorial/datastructures.html#sets) для отображения списка уникальных значений.

Это краткая сводка `class` и `deck` показывает, как данный подход может быть полезен для некоторых наборов данных.

In [23]:
agg_func_text = {'deck': ['nunique', mode, set]}

In [24]:
df.groupby(['class']).agg(agg_func_text)

Unnamed: 0_level_0,deck,deck,deck
Unnamed: 0_level_1,nunique,mode,set
class,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
First,5,"([C], [59])","{nan, A, E, B, C, D}"
Second,3,"([F], [8])","{nan, E, F, D}"
Third,3,"([F], [5])","{nan, F, G, E}"


### Пользовательские функции

Стандартные функции агрегирования pandas и предварительно созданные функции из экосистемы Python удовлетворят многие ваши потребности в анализе данных. Однако вы, вероятно, захотите создать свои собственные пользовательские функции агрегирования. Есть четыре метода создания собственных функций. 

Чтобы проиллюстрировать различия, давайте вычислим 25-й процентиль данных, используя четыре подхода.

Во-первых, мы можем использовать функцию [`partial`](https://docs.python.org/3/library/functools.html#functools.partial):

In [25]:
from functools import partial

In [26]:
q_25 = partial(pd.Series.quantile, q=0.25)

In [27]:
q_25.__name__ = '25%'

Затем мы определяем нашу собственную функцию (которая представляет собой небольшую обертку для [`quantile`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.quantile.html)):

In [28]:
def percentile_25(x):
    return x.quantile(.25)

Мы можем определить лямбда-функцию и дать ей имя:

In [29]:
lambda_25 = lambda x: x.quantile(.25)

In [30]:
lambda_25.__name__ = 'lambda_25%'

Или определите встроенную (inline) лямбду:

In [31]:
agg_func = {
    'fare': [q_25, percentile_25, lambda_25, lambda x: x.quantile(.25)]
}

In [32]:
df.groupby(['embark_town']).agg(agg_func).round(2)

Unnamed: 0_level_0,fare,fare,fare,fare
Unnamed: 0_level_1,25%,percentile_25,lambda_25%,<lambda_0>
embark_town,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Cherbourg,13.7,13.7,13.7,13.7
Queenstown,7.75,7.75,7.75,7.75
Southampton,8.05,8.05,8.05,8.05


Как видите, результаты одинаковые, но названия столбцов немного отличаются. Это область предпочтений программистов, но я рекомендую ознакомиться с вариантами, поскольку вы встретите большинство из них в онлайн-решениях.

*Я предпочитаю использовать собственные функции или встроенные (inline) лямбды.*

Как и во многих других областях программирования, это элемент стиля и предпочтений, но я рекомендую вам выбрать один или два подхода и придерживаться их для единообразия.

### Примеры пользовательских функций 

Как показано выше, существует несколько подходов к разработке пользовательских функций агрегирования. Я приведу несколько конкретных полезных примеров, чтобы подчеркнуть, как они часто используются.

В большинстве случаев функции представляют собой легкие обертки (wrappers) для встроенных функций pandas. Отчасти это нужно делать потому, что нет возможности передавать аргументы в агрегаты (aggregations). Некоторые примеры должны прояснить этот момент.

Если вы хотите подсчитать количество нулевых значений, вы можете использовать эту [функцию](https://medium.com/escaletechblog/writing-custom-aggregation-functions-with-pandas-96f5268a8596):

In [33]:
def count_nulls(s):
    return s.size - s.count()

Если вы хотите включить значения `NaN` в свои уникальные счетчики, вам необходимо указать параметр `dropna=False` у функции `nunique`.

In [34]:
def unique_nan(s):
    return s.nunique(dropna=False)

Вот резкльтат всех значений вместе:

In [35]:
agg_func_custom_count = {
    'embark_town': ['count', 'nunique', 'size', unique_nan, count_nulls, set]
}

In [36]:
df.groupby(['deck']).agg(agg_func_custom_count)

Unnamed: 0_level_0,embark_town,embark_town,embark_town,embark_town,embark_town,embark_town
Unnamed: 0_level_1,count,nunique,size,unique_nan,count_nulls,set
deck,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,15,2,15,2,0,"{Southampton, Cherbourg}"
B,45,2,47,3,2,"{nan, Southampton, Cherbourg}"
C,59,3,59,3,0,"{Queenstown, Southampton, Cherbourg}"
D,33,2,33,2,0,"{Southampton, Cherbourg}"
E,32,3,32,3,0,"{Southampton, Queenstown, Cherbourg}"
F,13,3,13,3,0,"{Queenstown, Southampton, Cherbourg}"
G,4,1,4,1,0,{Southampton}


Если вы хотите рассчитать 90-й процентиль, используйте [`quantile`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.quantile.html):

In [37]:
def percentile_90(x):
    return x.quantile(.9)

Если вы хотите вычислить усеченное среднее (trimmed mean) значение, из которого исключен самый низкий 10-й процент, используйте функцию [`trim_mean`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.trim_mean.html) из `scipy`:

In [43]:
from scipy.stats import trim_mean

def trim_mean_10(x):
    return trim_mean(x, 0.1)

Если вы хотите получить наибольшее значение, независимо от порядка сортировки (см. выше о `first` и `last`):

In [39]:
def largest(x):
    return x.nlargest(1)

Это эквивалентно `max`, но я приведу еще один пример `nlargest` ниже, чтобы подчеркнуть разницу.

Ранее я уже [писал](https://pbpython.com/styling-pandas.html) о [`sparkline`](https://pypi.org/project/sparklines/). Обратитесь к этой статье за инструкциями по установке. Вот как включить их в агрегатную функцию для уникального представления данных:

In [None]:
#!pip3 install sparklines

In [53]:
from sparklines import sparklines

In [54]:
import numpy as np

def sparkline_str(x):
    bins = np.histogram(x)[0]
    sl = ''.join(sparklines(bins))
    return sl

Вот они все вместе:

In [41]:
agg_func_largest = {
    'fare': [percentile_90, trim_mean_10, largest, sparkline_str]
}

In [55]:
df.groupby(['class', 'embark_town']).agg(agg_func_largest)

Unnamed: 0_level_0,Unnamed: 1_level_0,fare,fare,fare,fare
Unnamed: 0_level_1,Unnamed: 1_level_1,percentile_90,trim_mean_10,largest,sparkline_str
class,embark_town,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
First,Cherbourg,227.525,85.408335,512.3292,█▇▂▁▃▁▁▁▁▂
First,Queenstown,90.0,90.0,90.0,▁▁▁▁▁█▁▁▁▁
First,Southampton,152.315,60.50016,263.0,▃█▄▃▂▂▁▁▂▂
Second,Cherbourg,41.5792,25.1675,41.5792,█▄▁▁▄▂▄▁▄▅
Second,Queenstown,12.35,12.35,12.35,▁▁▁▁▁█▁▁▁▁
Second,Southampton,31.75,18.202273,73.5,▂█▂▅▁▂▁▁▁▁
Third,Cherbourg,19.0229,10.677941,22.3583,▁█▃▂▁▄▃▁▂▂
Third,Queenstown,24.06,9.670476,29.125,█▁▁▂▁▁▁▂▁▂
Third,Southampton,31.275,11.501469,69.55,▁█▂▂▂▁▁▁▁▁


Функции `nlargest` и `nsmallest` могут быть полезны для резюмирования данных в различных сценариях. Вот код, чтобы показать суммарную стоимость для 10 первых и 10 последних людей:

In [56]:
def top_10_sum(x):
    return x.nlargest(10).sum()

In [56]:
def bottom_10_sum(x):
    return x.nsmallest(10).sum()

In [56]:
agg_func_top_bottom_sum = {
    'fare': [top_10_sum, bottom_10_sum]
}

In [56]:
df.groupby('class').agg(agg_func_top_bottom_sum)

Unnamed: 0_level_0,fare,fare
Unnamed: 0_level_1,top_10_sum,bottom_10_sum
class,Unnamed: 1_level_2,Unnamed: 2_level_2
First,3361.2584,108.3709
Second,622.2376,42.0
Third,656.3374,36.1291


Использование этого подхода может быть полезно при применении [закона Парето](https://ru.wikipedia.org/wiki/%D0%97%D0%B0%D0%BA%D0%BE%D0%BD_%D0%9F%D0%B0%D1%80%D0%B5%D1%82%D0%BE) к вашим собственным данным.

### Пользовательские функции с несколькими столбцами

Если у вас есть сценарий, в котором небходимо запустить несколько агрегаций по столбцам, то вы можете использовать `groupby` в сочетании с `apply`, как описано в этом [ответе на stack overflow](https://stackoverflow.com/questions/14529838/apply-multiple-functions-to-multiple-groupby-columns/47103408#47103408).

Используя этот метод, вы получите доступ ко всем столбцам данных и сможете выбрать подходящий подход агрегирования для создания итогового `DataFrame` (включая наименование столбцов):

In [57]:
def summary(x):
    result = {
        'fare_sum': x['fare'].sum(),
        'fare_mean': x['fare'].mean(),
        'fare_range': x['fare'].max() - x['fare'].min()
    }
    return pd.Series(result).round(0)

In [58]:
df.groupby(['class']).apply(summary)

Unnamed: 0_level_0,fare_sum,fare_mean,fare_range
class,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
First,18177.0,84.0,512.0
Second,3802.0,21.0,74.0
Third,6715.0,14.0,70.0


Использование `apply` с `groupby` дает максимальную гибкость. Однако есть и обратная сторона. Функция `apply` работает медленно, поэтому этот подход следует использовать с осторожностью.

## Работа с групповыми объектами

После группировки и агрегирования данных вы можете выполнять дополнительные вычисления для сгруппированных объектов.

В первом примере мы выясним, какой процент от общего количества проданных билетов можно отнести к каждой комбинации `embark_town` и `class`. Мы используем `assign` и лямбда-функцию для добавления столбца `pct_total`:

In [59]:
df.groupby(['embark_town', 'class']).agg({'fare': 'sum'}).assign(pct_total=lambda x: x / x.sum())

Unnamed: 0_level_0,Unnamed: 1_level_0,fare,pct_total
embark_town,class,Unnamed: 2_level_1,Unnamed: 3_level_1
Cherbourg,First,8901.075,0.311947
Cherbourg,Second,431.0917,0.015108
Cherbourg,Third,740.1295,0.025939
Queenstown,First,180.0,0.006308
Queenstown,Second,37.05,0.001298
Queenstown,Third,805.2043,0.028219
Southampton,First,8936.3375,0.313183
Southampton,Second,3333.7,0.116833
Southampton,Third,5169.3613,0.181165


Следует иметь в виду, что вы можете сделать проще, используя [`pd.crosstab`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html), как описано в [статье](https://pbpython.com/pandas-crosstab.html):

In [60]:
pd.crosstab(df['embark_town'],
            df['class'],
            values=df['fare'],
            aggfunc='sum',
            normalize=True)

class,First,Second,Third
embark_town,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Cherbourg,0.311947,0.015108,0.025939
Queenstown,0.006308,0.001298,0.028219
Southampton,0.313183,0.116833,0.181165


Пока мы говорим о `crosstab` (кросс-таблицах), полезно иметь в виду, что функции агрегации также можно комбинировать со сводными таблицами (pivot tables).

Вот небольшой пример:

In [61]:
pd.pivot_table(data=df,
               index=['embark_town'],
               columns=['class'],
               aggfunc=agg_func_top_bottom_sum)

Unnamed: 0_level_0,fare,fare,fare,fare,fare,fare
Unnamed: 0_level_1,bottom_10_sum,bottom_10_sum,bottom_10_sum,top_10_sum,top_10_sum,top_10_sum
class,First,Second,Third,First,Second,Third
embark_town,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3
Cherbourg,282.9957,172.2041,68.25,3239.3542,334.6084,196.7457
Queenstown,180.0,37.05,73.5916,180.0,37.05,264.575
Southampton,108.3709,42.0,39.6291,2237.5251,614.5,656.3374


Иногда необходимо проделать несколько группировок (multiple groupby), чтобы ответить на вопрос. Например, если мы хотим увидеть кумулятивную сумму стоимости билетов, мы можем сгруппировать и агрегировать по городу (town) и классу (class), затем сгруппировать полученный объект и вычислить кумулятивную сумму (cumulative sum):

In [62]:
fare_group = df.groupby(['embark_town', 'class']).agg({'fare': 'sum'})

In [63]:
fare_group.groupby(level=0).cumsum()

Unnamed: 0_level_0,Unnamed: 1_level_0,fare
embark_town,class,Unnamed: 2_level_1
Cherbourg,First,8901.075
Cherbourg,Second,9332.1667
Cherbourg,Third,10072.2962
Queenstown,First,180.0
Queenstown,Second,217.05
Queenstown,Third,1022.2543
Southampton,First,8936.3375
Southampton,Second,12270.0375
Southampton,Third,17439.3988


Это может быть немного сложно понять. Вот краткое пояснение того, что мы делаем:

<img src="https://pbpython.com/images/multiple-groupby.png" >

Вот еще один пример, в котором резюмируем ежедневные данные о продажах и преобразуем их в совокупное ежедневное и ежеквартальное представление. Обратитесь к [статье о Grouper](https://pbpython.com/pandas-grouper-agg.html), если вы не знакомы с использованием [`pd.Grouper`](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Grouper.html).

В первом примере мы хотим включить сумму ежедневных продаж, а также совокупную (cumulative) сумму за квартал:

In [64]:
sales = pd.read_excel('https://github.com/chris1610/pbpython/blob/master/data/2018_Sales_Total_v2.xlsx?raw=True')
sales.head()

Unnamed: 0,account number,name,sku,quantity,unit price,ext price,date
0,740150,Barton LLC,B1-20000,39,86.69,3380.91,2018-01-01 07:21:51
1,714466,Trantow-Barrows,S2-77896,-1,63.16,-63.16,2018-01-01 10:00:47
2,218895,Kulas Inc,B1-69924,23,90.7,2086.1,2018-01-01 13:24:58
3,307599,"Kassulke, Ondricka and Metz",S1-65481,41,21.05,863.05,2018-01-01 15:05:22
4,412290,Jerde-Hilpert,S2-34077,6,83.21,499.26,2018-01-01 23:26:55


In [65]:
daily_sales = sales.groupby([pd.Grouper(key='date', freq='D')]).agg(daily_sales=('ext price', 'sum')).reset_index()
daily_sales.head()

Unnamed: 0,date,daily_sales
0,2018-01-01,6766.16
1,2018-01-02,1551.91
2,2018-01-03,4278.96
3,2018-01-04,6044.1
4,2018-01-05,1971.94


In [67]:
daily_sales['quarter_sales'] = daily_sales.groupby(pd.Grouper(key='date', freq='Q')).agg({'daily_sales': 'cumsum'})
daily_sales.head()

Unnamed: 0,date,daily_sales,quarter_sales
0,2018-01-01,6766.16,6766.16
1,2018-01-02,1551.91,8318.07
2,2018-01-03,4278.96,12597.03
3,2018-01-04,6044.1,18641.13
4,2018-01-05,1971.94,20613.07


Чтобы понять это, вам нужно взглянуть на границу квартала (с конца марта по начало апреля), чтобы получить хорошее представление о том, что происходит.

<img src="https://pbpython.com/images/cumulative_total.png" >

Если вы хотите просто получить совокупный (cumulative) квартальный итог, вы можете связать несколько функций `groupby`.

Сначала сгруппируйте ежедневные результаты, затем сгруппируйте эти результаты по кварталам и используйте кумулятивную сумму:

In [69]:
sales.groupby(
    [pd.Grouper(key='date', 
                freq='D')]).agg(
                             daily_sales=('ext price', 
                                          'sum')).groupby(
                                                    pd.Grouper(freq='Q')).agg(
                                                                     {'daily_sales': 'cumsum'}).rename(
                                                                                                 columns={'daily_sales': 'quarterly_sales'})

Unnamed: 0_level_0,quarterly_sales
date,Unnamed: 1_level_1
2018-01-01,6766.16
2018-01-02,8318.07
2018-01-03,12597.03
2018-01-04,18641.13
2018-01-05,20613.07
...,...
2018-12-27,480817.47
2018-12-28,484389.92
2018-12-29,489227.01
2018-12-30,494106.67


В этом примере я включил именованный подход агрегации (named aggregation approach), чтобы переименовать переменную и уточнить, что теперь это ежедневные продажи. Затем я снова группирую и использую совокупную (cumulative) сумму, чтобы получить текущую сумму за квартал. Наконец, я переименовал столбец в квартальные продажи (quarterly sales). 

По общему признанию, это немного сложно понять. Однако, если вы сделаете это шаг за шагом, построите функцию и будете проверять результаты на каждом шаге, вы начнете понимать ее. Не расстраивайтесь!

## Сглаживание иерархических индексов столбцов

По умолчанию pandas в сводном `DataFrame` создает иерархический индекс у столбца. 

Вот что я имею в виду:

In [72]:
df.groupby(['embark_town', 'class']).agg({'fare': ['sum', 'mean']}).round()

Unnamed: 0_level_0,Unnamed: 1_level_0,fare,fare
Unnamed: 0_level_1,Unnamed: 1_level_1,sum,mean
embark_town,class,Unnamed: 2_level_2,Unnamed: 3_level_2
Cherbourg,First,8901.0,105.0
Cherbourg,Second,431.0,25.0
Cherbourg,Third,740.0,11.0
Queenstown,First,180.0,90.0
Queenstown,Second,37.0,12.0
Queenstown,Third,805.0,11.0
Southampton,First,8936.0,70.0
Southampton,Second,3334.0,20.0
Southampton,Third,5169.0,15.0


В какой-то момент в процессе анализа вы, вероятно, захотите «сгладить» (flatten) столбцы, чтобы получилась одна строка с именами.

Я обнаружил, что мне лучше всего подходит следующий подход. Я использую параметр `as_index=False` при группировке, а затем создаю новое имя свернутого (collapsed) столбца.

Вот код:

In [73]:
multi_df = df.groupby(['embark_town', 'class'],
                    as_index=False).agg({'fare': ['sum', 'mean']})

In [74]:
multi_df.columns = [
'_'.join(col).rstrip('_') for col in multi_df.columns.values
]

Вот изображение, показывающее, как выглядит сплющенный кадр данных:

<img src="https://pbpython.com/images/column_flatten.png" >

Я предпочитаю использовать `_` в качестве разделителя, но вы можете использовать другие значения. Просто имейте в виду, что для вашего последующего анализа будет проще, если в именах результирующих столбцов нет пробелов.

## Промежуточные итоги

Один процесс, который не является простым с группировкой и агрегацией в pandas, - это добавление промежуточного итога (subtotal). Если вы хотите добавить промежуточные итоги, я рекомендую пакет [`sidetable`](https://github.com/chris1610/sidetable).

Инструкция по работе с `sidetable` на русском языке [тут](http://dfedorov.spb.ru/pandas/%D0%A1%D0%B2%D0%BE%D0%B4%D0%BD%D0%B0%D1%8F%20%D1%82%D0%B0%D0%B1%D0%BB%D0%B8%D1%86%D0%B0%20%D0%B2%20pandas.html).

Вот как вы можете суммировать `fares` по `class`, `embark_town` и `sex` с промежуточным итогом на каждом уровне, а также общим итогом внизу:

In [None]:
#!pip3 install sidetable

In [76]:
import sidetable

In [77]:
df.groupby(['class', 'embark_town', 'sex']).agg({'fare': 'sum'}).stb.subtotal()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,fare
class,embark_town,sex,Unnamed: 3_level_1
First,Cherbourg,female,4972.5333
First,Cherbourg,male,3928.5417
First,Cherbourg,First | Cherbourg - subtotal,8901.075
First,Queenstown,female,90.0
First,Queenstown,male,90.0
First,Queenstown,First | Queenstown - subtotal,180.0
First,Southampton,female,4753.2917
First,Southampton,male,4183.0458
First,Southampton,First | Southampton - subtotal,8936.3375
First,First - subtotal,,18017.4125


`sidetable` также позволяет настраивать уровни промежуточных итогов и итоговые метки. Обратитесь к [документации пакета](https://github.com/chris1610/sidetable) для получения дополнительных примеров того, как `sidetable` может резюмировать данные.

## Резюме

Спасибо, что прочитали эту статью. Здесь много деталей, но это связано с тем, что существует множество различных применений для группировки и агрегирования данных с помощью pandas. Я надеюсь, что этот пост станет полезным ресурсом, который вы сможете добавить в закладки и вернуться к нему, когда столкнетесь с собственной сложной проблемой.

Если у вас есть другие распространенные техники, которые вы часто используете, дайте мне знать в комментариях. Если я получу что-нибудь полезное, я включу его в этот пост или как обновленную [статью](https://pbpython.com/groupby-agg.html).