### Урок 6.2. Применение функций: группировка и агрегирование

In [2]:
import pandas as pd
import numpy as np 
df = pd.read_csv("WeightLoss.csv")
df['total'] = df['w1'] + df['w2'] + df['w3']
df['total_gr'] = df['total'] * 1000

Иногда нас интересуют сводные характеристики не по всей таблице, а по группам: например, хочется посмотреть, сколько килограммов в сумме потеряли люди, которые сидели на диете и те, кто помимо диеты выполнял комплекс упражнений. Для группировки в `pandas`| используется метод `groupby()`:

In [3]:
df.groupby('group')

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x1100a62e8>

Результат как таковой от нас скрыт, это особый объект в `pandas`, результат представляет собой список пар «название группы и сам датафрейм». Чтобы увидеть пример результата явно, сконвертируем в список и посмотрим на первый элемент: 

In [4]:
list(df.groupby('group'))[0]

('Control',     id    group  w1  w2   w3   se1   se2   se3  total  total_gr
 0    1  Control   4   3  3.0  14.0  13.0  15.0   10.0   10000.0
 1    2  Control   4   4  3.0  13.0  14.0  17.0   11.0   11000.0
 2    3  Control   4   3  1.0  17.0  12.0  16.0    8.0    8000.0
 3    4  Control   3   2  1.0  11.0  11.0  12.0    6.0    6000.0
 4    5  Control   5   3  2.0  16.0  15.0  14.0   10.0   10000.0
 5    6  Control   6   5  4.0  17.0  18.0  18.0   15.0   15000.0
 6    7  Control   6   5  4.0  17.0  16.0  19.0   15.0   15000.0
 7    8  Control   5   4  1.0   NaN   NaN   NaN   10.0   10000.0
 8    9  Control   5   4  1.0  14.0  14.0  15.0   10.0   10000.0
 9   10  Control   3   3  2.0  14.0  15.0  13.0    8.0    8000.0
 10  11  Control   4   2  2.0  16.0  16.0  11.0    8.0    8000.0
 11  12  Control   5   2  1.0  15.0  13.0  16.0    8.0    8000.0)

Теперь попробуем к каждой группе применить функцию, которая будет суммировать значения по каждому показателю в каждой группе. Тут не понадобится `.apply()`, есть специальный метод для агрегирования –  `agg()`.

In [5]:
df.groupby('group').agg('sum')  # название функции - в кавычках

Unnamed: 0_level_0,id,w1,w2,w3,se1,se2,se3,total,total_gr
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Control,78,54,40,25.0,164.0,157.0,166.0,119.0,119000.0
Diet,222,64,47,27.0,178.0,165.0,194.0,138.0,138000.0
DietEx,295,62,61,21.0,152.0,133.0,159.0,133.0,133000.0


А теперь посчитаем средние показателей по каждой группе:

In [6]:
df.groupby('group').agg('mean')

Unnamed: 0_level_0,id,w1,w2,w3,se1,se2,se3,total,total_gr
group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Control,6.5,4.5,3.333333,2.083333,14.909091,14.272727,15.090909,9.916667,9916.666667
Diet,18.5,5.333333,3.916667,2.25,14.833333,13.75,16.166667,11.5,11500.0
DietEx,29.5,6.2,6.1,2.333333,15.2,13.3,17.666667,14.777778,14777.777778


Если нужно применить сразу несколько функций, их можно оформить в виде списка. Найдем минимальное, максимальное и среднее значение показателей по каждой группе:

In [7]:
df.groupby('group').agg(['min', 'max', 'mean'])

Unnamed: 0_level_0,id,id,id,w1,w1,w1,w2,w2,w2,w3,...,se2,se3,se3,se3,total,total,total,total_gr,total_gr,total_gr
Unnamed: 0_level_1,min,max,mean,min,max,mean,min,max,mean,min,...,mean,min,max,mean,min,max,mean,min,max,mean
group,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
Control,1,12,6.5,3,6,4.5,2,5,3.333333,1.0,...,14.272727,11.0,19.0,15.090909,6.0,15.0,9.916667,6000.0,15000.0,9916.666667
Diet,13,24,18.5,3,7,5.333333,2,6,3.916667,1.0,...,13.75,11.0,19.0,16.166667,6.0,17.0,11.5,6000.0,17000.0,11500.0
DietEx,25,34,29.5,3,9,6.2,4,9,6.1,1.0,...,13.3,16.0,19.0,17.666667,8.0,20.0,14.777778,8000.0,20000.0,14777.777778


Как и в случае с `.apply()`, внутри `.agg()` можно прописывать свои функции, но тогда уже их название должно идти без кавычек.