### Группировки и агрегация в деле

Друзья, тема группировок вызывает множество вопросов, давайте еще немнгого погруппируем и поагрегируем данные. Повторение, как говорится, мать <s>заика</s> учения.

Итак, представим себе, Гэндальф прислал нам вот такой датасет и попросил выяснить по возможности, характерные особенности рас в Средиземье.

In [5]:
import pandas as pd

In [6]:
lotr = pd.DataFrame(data={'имя': ['Галадриэль', 'Леголас', 'Арвен', 'Гимли', 'Торин Дубощит', 'Боромир', 'Фарамир', 'Бильбо', 'Фродо', 'Сэм'],
                        'пол': ['жен', 'муж', 'жен', 'муж', 'муж', 'муж', 'муж', 'муж', 'муж', 'муж'],
                        'раса': ['эльф', 'эльф', 'эльф', 'гном', 'гном', 'человек', 'человек', 'хоббит', 'хоббит', 'хоббит'],
                        'возраст': [6992, 2931, 2777, 87, 105, 40, 35, 128, 50, 38],
                        'вес': [55, 64, 51, 95, 87, 70, 73, 48, 43, 49] 
   })
lotr

Unnamed: 0,имя,пол,раса,возраст,вес
0,Галадриэль,жен,эльф,6992,55
1,Леголас,муж,эльф,2931,64
2,Арвен,жен,эльф,2777,51
3,Гимли,муж,гном,87,95
4,Торин Дубощит,муж,гном,105,87
5,Боромир,муж,человек,40,70
6,Фарамир,муж,человек,35,73
7,Бильбо,муж,хоббит,128,48
8,Фродо,муж,хоббит,50,43
9,Сэм,муж,хоббит,38,49


Группировка помогает нам найти некие показатели, характерные для категорий данных. Например, посмотрим, как отличаеются  средние показатели персонажей, в зависимости от расы.

In [7]:
lotr.groupby('раса').mean()

Unnamed: 0_level_0,возраст,вес
раса,Unnamed: 1_level_1,Unnamed: 2_level_1
гном,96.0,91.0
хоббит,72.0,46.666667
человек,37.5,71.5
эльф,4233.333333,56.666667


Pandas во всей красе: короткий код, понятный результат. Напротив имени каждой расы видим средние показатели. Эльфы живут очень долго, люди, увы, меньше всех, хоббиты весят мало, гномы - больше всех. Столько выводов в одну строку кода, Гэндальф бы нами гордился.    
Обратим внимание на то, что к нечисловым полям невозможно применить функцию среднего, поэтому в результате автоматически остались лишь числовые поля - возраст и вес.

Предположим, мы собираемся в Рохан на корабле с ограниченной грузоподъемностью 1000 кг и нас не интересует возраст, а только средний вес для различных рас.  
Представленный выше результат - это обычный датафрейм pandas, поэтому мы спокойно можем привычным образом выделить один из его столбцов:

In [8]:
lotr.groupby('раса').mean()['вес']

раса
гном       91.000000
хоббит     46.666667
человек    71.500000
эльф       56.666667
Name: вес, dtype: float64

Отлично, теперь мы знаем, что в среднем можем взять с собой 10 гномов. Или 21-го хоббита.

Хотя стоп. Вдруг нам попадутся особо большие гномы? Давайте перестрахуемся и посмотрим <i>максимальный</i> вес для каждой расы.

In [9]:
lotr.groupby('раса').max()['вес']

раса
гном       95
хоббит     49
человек    73
эльф       64
Name: вес, dtype: int64

Похоже, даже самых тяжелых гномов поместится все еще 10.

Итак, применив различные функции агрегации, мы узнали много полезного о гномах и прочих расах Средиземья.

Кстати, функция `max`, в отличие от `mean`, работает со строками (`'a' < 'b'`), поэтому, не указывая столец, мы получим результаты по всем полям:

In [10]:
lotr.groupby('раса').max()

Unnamed: 0_level_0,имя,пол,возраст,вес
раса,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
гном,Торин Дубощит,муж,105,95
хоббит,Фродо,муж,128,49
человек,Фарамир,муж,40,73
эльф,Леголас,муж,6992,64


С точки зрения python "Торин" больше, чем "Гимли", а "Леголас" больше, чем "Андариэль".

Безусловно, мы можем группировать и по другим категориальным полям. Давайте посмотрим, как дела обстоят у полов:

In [11]:
lotr.groupby('пол').mean()

Unnamed: 0_level_0,возраст,вес
пол,Unnamed: 1_level_1,Unnamed: 2_level_1
жен,4884.5,53.0
муж,426.75,66.125


Хороший пример того, как данные могут вводить в заблуждение. Из женщин у нас представлены только эльфийки, поэтому создаётся впечатление, что они живут гораздо дольше мужчин, которым люди портят всю статистику. В работе нужно опасаться подобных выводов.  
Но с весом все нормально, мужчины в среднем, весят несколько больше.

#### Бонус: структура groupby изнутри.

Итак, приведенного выше шаблона достаточно, чтобы делать большинство вещей, связанных с группировкой и агрегацией данных. Но для самых любопытных хотел бы рассказать о самой структуре данных groupby и немного заглянуть "под капот" происходящих процессов.  
Дисклеймер: <i> многим на данном этапе это может показаться непонятным, это сугубо дополнительный материал, для выполнения проектов и продвидения по курсу его понимание не требуется. Тем, кто учит программирование с нуля, вероятно, не стоит пока этим забивать голову, а сосредоточиться на проекте. 

И тем не менее, для полноты повествования я все же приведу небольшое объяснение.

Итак, наверняка многим из вас было интересно, что это за groupby такой и что в нем хранится. Давайте попробуем вывести его на экран:

In [12]:
lotr.groupby('раса')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fa81b1e3e50>

Получили нечто невнятное, никаких данных не видно. Дело в том, что groupby хоть и очень похож на список, но это не список и не датафрейм в привычном понимани слова. Это специальный объект pandas, давайте его исследуем при помощи цикла.

In [13]:
group = lotr.groupby('раса')

In [14]:
for element in group:
    print('Очередной элемент группировки:')
    display(element)

Очередной элемент группировки:


('гном',
              имя  пол  раса  возраст  вес
 3          Гимли  муж  гном       87   95
 4  Торин Дубощит  муж  гном      105   87)

Очередной элемент группировки:


('хоббит',
       имя  пол    раса  возраст  вес
 7  Бильбо  муж  хоббит      128   48
 8   Фродо  муж  хоббит       50   43
 9     Сэм  муж  хоббит       38   49)

Очередной элемент группировки:


('человек',
        имя  пол     раса  возраст  вес
 5  Боромир  муж  человек       40   70
 6  Фарамир  муж  человек       35   73)

Очередной элемент группировки:


('эльф',
           имя  пол  раса  возраст  вес
 0  Галадриэль  жен  эльф     6992   55
 1     Леголас  муж  эльф     2931   64
 2       Арвен  жен  эльф     2777   51)

Итак, что же мы видим: группировка разбивает данные на пары, где имени группы соответствует некий мини-датафрейм, в котором собраны все строки, относящиеся к этой группе:

<code>[
    ['группа_1', датафрейм со всеми строками их этой группы],
    ['группа_2', датафрейм со всеми строками их этой группы],
    ['группа_3', датафрейм со всеми строками их этой группы],
    ...
]

Что же происходит, когда мы к группировке применяем некую функцию агрегации? Она просто применяется к каждому мини-датафрейму отдельно и результаты заносятся в аккуратную табличку напротив имени группы.

Давайте создадим датафрейм, где будут отобраны только хоббиты и посчитаем средние значения:

In [24]:
hobbits = lotr[lotr['раса'] == 'хоббит']
hobbits

Unnamed: 0,имя,пол,раса,возраст,вес
7,Бильбо,муж,хоббит,128,48
8,Фродо,муж,хоббит,50,43
9,Сэм,муж,хоббит,38,49


In [25]:
hobbits.mean()

возраст    72.000000
вес        46.666667
dtype: float64

Получили средние значения числовых параметров для хоббитов. То же самое происходит в группировке, только метод применяется к мини-датафреймам сразу для всех групп:

In [27]:
group.mean()

Unnamed: 0_level_0,возраст,вес
раса,Unnamed: 1_level_1,Unnamed: 2_level_1
гном,96.0,91.0
хоббит,72.0,46.666667
человек,37.5,71.5
эльф,4233.333333,56.666667


Видим полученные выше результаты напротив хоббитов.  
На этом у меня всё, спасибо всем, кто осилил, удачных всем агрегаций!