# Пакет `pandas`: группировка и агрегирование

---

**Источники:**

[Group by: split-apply-combine](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html)

[Pandas groupby: 13 Functions To Aggregate](https://cmdlinetips.com/2019/10/pandas-groupby-13-functions-to-aggregate/)

[Aggregation and Grouping](https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html)

[pandas.DataFrame.groupby](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html)

[Введение в pandas: анализ данных на Python](https://khashtamov.com/ru/pandas-introduction/)

---

## Подготовка окружения

In [1]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

!pip -V

pip 20.3 from /home/ira/anaconda3/envs/LevelUp_DataScience/lib/python3.8/site-packages/pip (python 3.8)


In [2]:
# !conda install pandas -y

In [3]:
import pandas as pd

pd.__version__

'1.2.1'

### Загрузка данных

Для примера возьмем [данные (data set) Gapminder World](https://www.kaggle.com/tklimonova/gapminder-datacamp-2007).

In [4]:
df = pd.read_csv('./../../data/gapminder_full.csv')

# показать все колонки
pd.options.display.max_columns = None

# отобразить первые 5 и последние 5 строк
df

Unnamed: 0,country,year,population,continent,life_exp,gdp_cap
0,Afghanistan,1952,8425333,Asia,28.801,779.445314
1,Afghanistan,1957,9240934,Asia,30.332,820.853030
2,Afghanistan,1962,10267083,Asia,31.997,853.100710
3,Afghanistan,1967,11537966,Asia,34.020,836.197138
4,Afghanistan,1972,13079460,Asia,36.088,739.981106
...,...,...,...,...,...,...
1699,Zimbabwe,1987,9216418,Africa,62.351,706.157306
1700,Zimbabwe,1992,10704340,Africa,60.377,693.420786
1701,Zimbabwe,1997,11404948,Africa,46.809,792.449960
1702,Zimbabwe,2002,11926563,Africa,39.989,672.038623


In [5]:
# показать первые 5 строк
df.head()

Unnamed: 0,country,year,population,continent,life_exp,gdp_cap
0,Afghanistan,1952,8425333,Asia,28.801,779.445314
1,Afghanistan,1957,9240934,Asia,30.332,820.85303
2,Afghanistan,1962,10267083,Asia,31.997,853.10071
3,Afghanistan,1967,11537966,Asia,34.02,836.197138
4,Afghanistan,1972,13079460,Asia,36.088,739.981106


За группировку отвечает метод `pandas.groupby`.

Функция `Pandas` `groupby` позволяет легко выполнять парадигму анализа данных **разделить-применить-объединить (Split-Apply-Combine)**.

По сути, с помощью  `groupby` можно разбить фрейм данных на более мелкие группы, используя одну или несколько переменных. 


## Группировка

## Функции для агрегирования

`Pandas` имеет ряд **агрегирующих** функций, которые уменьшают размер сгруппированного объекта.

- `mean()`: среднее значение для каждой группы
- `sum()`: сумма значений для каждой группы
- `size()`: размер (количество строк) каждой группы
- `count()`: количество значений в каждой группе
- `std()`: стандартное отклонение (**st**andar**d** deviation) для каждой группы
- `var()`: дисперсия (**var**iance) для каждой группы
- `sem()`: стандартная ошибка среднего (**S**tandard **E**rror of the **M**ean) для каждой группы
- `describe()`: описательная статистика
- `first()`: первое из значений группы
- `last()`: последнее из значений группы
- `nth()`: n-е значение или подмножество, если n - список
- `min()`: минимальное значение для каждой группы
- `max()`: максимальное значение для каждой группы

### `mean()`: среднее значение для каждой группы

In [6]:
# среднее значение в каждой колонке по континетнам
df.groupby(["continent"]).mean()

Unnamed: 0_level_0,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Africa,1979.5,9916003.0,48.86533,2193.754578
Americas,1979.5,24504790.0,64.658737,7136.110356
Asia,1979.5,77038720.0,60.064903,7902.150428
Europe,1979.5,17169760.0,71.903686,14469.475533
Oceania,1979.5,8874672.0,74.326208,18621.609223


In [7]:
# можно НЕ использовать [], если только одна колонка

# среднее значение в каждой колонке по континетнам
df.groupby("continent").mean()

Unnamed: 0_level_0,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Africa,1979.5,9916003.0,48.86533,2193.754578
Americas,1979.5,24504790.0,64.658737,7136.110356
Asia,1979.5,77038720.0,60.064903,7902.150428
Europe,1979.5,17169760.0,71.903686,14469.475533
Oceania,1979.5,8874672.0,74.326208,18621.609223


In [8]:
# среднее значение численности населения по континетнам
df.groupby("continent")["population"].mean()

continent
Africa      9.916003e+06
Americas    2.450479e+07
Asia        7.703872e+07
Europe      1.716976e+07
Oceania     8.874672e+06
Name: population, dtype: float64

### `sum()`: сумма значений для каждой группы

In [9]:
# суммарное значение для каждой колонки по каждому континенту
df.groupby("continent").sum()

Unnamed: 0_level_0,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Africa,1235208,6187585961,30491.966,1368903.0
Americas,593850,7351438499,19397.621,2140833.0
Asia,783882,30507333901,23785.70168,3129252.0
Europe,712620,6181115304,25885.327,5209011.0
Oceania,47508,212992136,1783.829,446918.6


In [10]:
# суммарное значение численности населения по каждому континенту
df.groupby("continent").population.sum()

continent
Africa       6187585961
Americas     7351438499
Asia        30507333901
Europe       6181115304
Oceania       212992136
Name: population, dtype: int64

### `size()`: размер (количество строк) каждой группы

In [11]:
# количество строк для каждого континента
# пропущенные значения (nan, null...) считаются
df.groupby("continent").size()

continent
Africa      624
Americas    300
Asia        396
Europe      360
Oceania      24
dtype: int64

### `count()`: количество значений в каждой группе

По сути, это та же функция агрегирования, что и `size`, НО *игнорируются любые отсутствующие значения*.

Если фрейм данных не имеет пропущенных значений, поэтому результаты обеих функций одинаковы.

In [12]:
# количество значений для каждой колонки для каждого континента
# пропущенные значения (nan, null...) НЕ считаются
df.groupby("continent").count()

Unnamed: 0_level_0,country,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,624,624,624,624,624
Americas,300,300,300,300,300
Asia,396,396,396,396,396
Europe,360,360,360,360,360
Oceania,24,24,24,24,24


In [13]:
# количество значений о численности населения для каждого континента
# пропущенные значения (nan, null...) НЕ считаются
df.groupby("continent").population.count()

continent
Africa      624
Americas    300
Asia        396
Europe      360
Oceania      24
Name: population, dtype: int64

### `std()`: стандартное отклонение (standard deviation) для каждой группы

In [14]:
# стандартное отклонение для каждой колонки для каждого континента
df.groupby("continent").std()

Unnamed: 0_level_0,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Africa,17.27411,15490920.0,9.15021,2827.929863
Americas,17.289102,50979430.0,9.345088,6396.764112
Asia,17.282097,206885200.0,11.864532,14045.373112
Europe,17.284285,20519440.0,5.433178,9355.213498
Oceania,17.631494,6506342.0,3.795611,6358.983321


In [15]:
# стандартное отклонение численности населения для каждого континента
df.groupby("continent").population.std()

continent
Africa      1.549092e+07
Americas    5.097943e+07
Asia        2.068852e+08
Europe      2.051944e+07
Oceania     6.506342e+06
Name: population, dtype: float64

### `var()`: дисперсия для каждой группы

In [16]:
# дисперсия для каждой колонки для каждого континента
df.groupby("continent").var()

Unnamed: 0_level_0,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Africa,298.394864,239968700000000.0,83.726347,7997187.0
Americas,298.913043,2598902000000000.0,87.33067,40918590.0
Asia,298.670886,4.280149e+16,140.767108,197272500.0
Europe,298.746518,421047300000000.0,29.519421,87520020.0
Oceania,310.869565,42332490000000.0,14.406663,40436670.0


In [17]:
# дисперсия численности населения для каждого континента
df.groupby("continent").population.var()

continent
Africa      2.399687e+14
Americas    2.598902e+15
Asia        4.280149e+16
Europe      4.210473e+14
Oceania     4.233249e+13
Name: population, dtype: float64

### `sem()`: стандартная ошибка среднего (Standard Error of the Mean) для каждой группы

In [18]:
# стандартная ошибка среднего для каждой колонки для каждого континента
df.groupby("continent").sem()

Unnamed: 0_level_0,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Africa,0.691518,620133.2,0.366302,113.207797
Americas,0.998187,2943299.0,0.539539,369.317348
Asia,0.868458,10396370.0,0.596215,705.806555
Europe,0.910962,1081469.0,0.286354,493.063044
Oceania,3.599014,1328102.0,0.774776,1298.022035


In [19]:
# стандартная ошибка среднего численности населения для каждого континента
df.groupby("continent").population.sem()

continent
Africa      6.201332e+05
Americas    2.943299e+06
Asia        1.039637e+07
Europe      1.081469e+06
Oceania     1.328102e+06
Name: population, dtype: float64

### `describe()`: описательная статистика

Краткая сводка по значениям в каждой группе.

`describe()` вычисляет количество значений, среднее, стандартное, минимальное значение, максимальное значение и значение в нескольких процентилях.

In [20]:
# статистика для каждой колонки для каждого континента
df.groupby("continent").describe()

Unnamed: 0_level_0,year,year,year,year,year,year,year,year,population,population,population,population,population,population,population,population,life_exp,life_exp,life_exp,life_exp,life_exp,life_exp,life_exp,life_exp,gdp_cap,gdp_cap,gdp_cap,gdp_cap,gdp_cap,gdp_cap,gdp_cap,gdp_cap
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
continent,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2,Unnamed: 23_level_2,Unnamed: 24_level_2,Unnamed: 25_level_2,Unnamed: 26_level_2,Unnamed: 27_level_2,Unnamed: 28_level_2,Unnamed: 29_level_2,Unnamed: 30_level_2,Unnamed: 31_level_2,Unnamed: 32_level_2
Africa,624.0,1979.5,17.27411,1952.0,1965.75,1979.5,1993.25,2007.0,624.0,9916003.0,15490920.0,60011.0,1342075.0,4579311.0,10801489.75,135031200.0,624.0,48.86533,9.15021,23.599,42.3725,47.792,54.4115,76.442,624.0,2193.754578,2827.929863,241.165876,761.24701,1192.138217,2377.417422,21951.21176
Americas,300.0,1979.5,17.289102,1952.0,1965.75,1979.5,1993.25,2007.0,300.0,24504790.0,50979430.0,662850.0,2962358.75,6227510.0,18340309.0,301139900.0,300.0,64.658737,9.345088,37.579,58.41,67.048,71.6995,80.653,300.0,7136.110356,6396.764112,1201.637154,3427.779072,5465.509853,7830.210416,42951.65309
Asia,396.0,1979.5,17.282097,1952.0,1965.75,1979.5,1993.25,2007.0,396.0,77038720.0,206885200.0,120447.0,3844393.0,14530830.5,46300348.0,1318683000.0,396.0,60.064903,11.864532,28.801,51.42625,61.7915,69.50525,82.603,396.0,7902.150428,14045.373112,331.0,1056.993223,2646.786844,8549.255654,113523.1329
Europe,360.0,1979.5,17.284285,1952.0,1965.75,1979.5,1993.25,2007.0,360.0,17169760.0,20519440.0,147962.0,4331500.0,8551125.0,21802867.0,82401000.0,360.0,71.903686,5.433178,43.585,69.57,72.241,75.4505,81.757,360.0,14469.475533,9355.213498,973.533195,7213.085036,12081.749115,20461.386162,49357.19017
Oceania,24.0,1979.5,17.631494,1952.0,1965.75,1979.5,1993.25,2007.0,24.0,8874672.0,6506342.0,1994794.0,3199212.5,6403491.5,14351625.0,20434180.0,24.0,74.326208,3.795611,69.12,71.205,73.665,77.5525,81.235,24.0,18621.609223,6358.983321,10039.59564,14141.858697,17983.303955,22214.11711,34435.36744


In [21]:
# статистика по численности населения для каждого континента
df.groupby("continent").population.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Africa,624.0,9916003.0,15490920.0,60011.0,1342075.0,4579311.0,10801489.75,135031200.0
Americas,300.0,24504790.0,50979430.0,662850.0,2962358.75,6227510.0,18340309.0,301139900.0
Asia,396.0,77038720.0,206885200.0,120447.0,3844393.0,14530830.5,46300348.0,1318683000.0
Europe,360.0,17169760.0,20519440.0,147962.0,4331500.0,8551125.0,21802867.0,82401000.0
Oceania,24.0,8874672.0,6506342.0,1994794.0,3199212.5,6403491.5,14351625.0,20434180.0


### `first()`: первое из значений группы

Получает значение из первой строки в каждой группе.

In [22]:
# первое значение для каждой колонки для каждого континента
df.groupby("continent").first()

Unnamed: 0_level_0,country,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,Algeria,1952,9279525,43.077,2449.008185
Americas,Argentina,1952,17876956,62.485,5911.315053
Asia,Afghanistan,1952,8425333,28.801,779.445314
Europe,Albania,1952,1282697,55.23,1601.056136
Oceania,Australia,1952,8691212,69.12,10039.59564


In [23]:
# первое значение численности населения для каждого континента
df.groupby("continent").population.first()

continent
Africa       9279525
Americas    17876956
Asia         8425333
Europe       1282697
Oceania      8691212
Name: population, dtype: int64

### `last()`: последнее из значений группы

Получает значение из последней строки в каждой группе.

In [24]:
# последнее значение для каждой колонки для каждого континента
df.groupby("continent").last()

Unnamed: 0_level_0,country,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,Zimbabwe,2007,12311143,43.487,469.709298
Americas,Venezuela,2007,26084662,73.747,11415.80569
Asia,"Yemen, Rep.",2007,22211743,62.698,2280.769906
Europe,United Kingdom,2007,60776238,79.425,33203.26128
Oceania,New Zealand,2007,4115771,80.204,25185.00911


In [25]:
# последнее значение численности населения для каждого континента
df.groupby("continent").population.last()

continent
Africa      12311143
Americas    26084662
Asia        22211743
Europe      60776238
Oceania      4115771
Name: population, dtype: int64

### `nth()`: n-е значение или подмножество, если n - список

In [26]:
# 15 значение для каждой колонки для каждого континента
df.groupby("continent").nth(15)

Unnamed: 0_level_0,country,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,Angola,1967,5247469,35.985,5522.776375
Americas,Bolivia,1967,4040665,45.032,2586.886053
Asia,Bahrain,1967,202182,59.923,14804.6727
Europe,Austria,1967,7376998,70.14,12834.6024
Oceania,New Zealand,1967,2728150,71.52,14463.91893


In [27]:
# 1, 2 и 15 значение для каждой колонки для каждого континента
df.groupby("continent").nth([1, 2, 15])

Unnamed: 0_level_0,country,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,Algeria,1957,10270856,45.685,3013.976023
Africa,Algeria,1962,11000948,48.303,2550.81688
Africa,Angola,1967,5247469,35.985,5522.776375
Americas,Argentina,1957,19610538,64.399,6856.856212
Americas,Argentina,1962,21283783,65.142,7133.166023
Americas,Bolivia,1967,4040665,45.032,2586.886053
Asia,Afghanistan,1957,9240934,30.332,820.85303
Asia,Afghanistan,1962,10267083,31.997,853.10071
Asia,Bahrain,1967,202182,59.923,14804.6727
Europe,Albania,1957,1476505,59.28,1942.284244


In [28]:
# 15 значение численности населения для каждого континента
df.groupby("continent").population.nth(15)

continent
Africa      5247469
Americas    4040665
Asia         202182
Europe      7376998
Oceania     2728150
Name: population, dtype: int64

In [29]:
# 1, 2 и 15 значение численности населения для каждого континента
df.groupby("continent").population.nth([1, 2, 15])

continent
Africa      10270856
Africa      11000948
Africa       5247469
Americas    19610538
Americas    21283783
Americas     4040665
Asia         9240934
Asia        10267083
Asia          202182
Europe       1476505
Europe       1728137
Europe       7376998
Oceania      9712569
Oceania     10794968
Oceania      2728150
Name: population, dtype: int64

### `min()`: минимальное значение для каждой группы

In [30]:
# минимальное значение для каждой колонки для каждого континента
df.groupby("continent").min()

Unnamed: 0_level_0,country,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,Algeria,1952,60011,23.599,241.165876
Americas,Argentina,1952,662850,37.579,1201.637154
Asia,Afghanistan,1952,120447,28.801,331.0
Europe,Albania,1952,147962,43.585,973.533195
Oceania,Australia,1952,1994794,69.12,10039.59564


In [31]:
# минимальное значение численности населения для каждого континента
df.groupby("continent").population.min()

continent
Africa        60011
Americas     662850
Asia         120447
Europe       147962
Oceania     1994794
Name: population, dtype: int64

### `max()`: максимальное значение для каждой группы

In [32]:
# максимальное значение для каждой колонки для каждого континента
df.groupby("continent").max()

Unnamed: 0_level_0,country,year,population,life_exp,gdp_cap
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Africa,Zimbabwe,2007,135031164,76.442,21951.21176
Americas,Venezuela,2007,301139947,80.653,42951.65309
Asia,"Yemen, Rep.",2007,1318683096,82.603,113523.1329
Europe,United Kingdom,2007,82400996,81.757,49357.19017
Oceania,New Zealand,2007,20434176,81.235,34435.36744


In [33]:
# максимальное значение численности населения для каждого континента
df.groupby("continent").population.max()

continent
Africa       135031164
Americas     301139947
Asia        1318683096
Europe        82400996
Oceania       20434176
Name: population, dtype: int64

## Группировка по нескольким параметрам

In [34]:
# сумма значений для каждой колонке по годам и континентам
df.groupby(by=["year", "continent"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,population,life_exp,gdp_cap
year,continent,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1952,Africa,237640501,2035.046,65133.768223
1952,Americas,345152446,1331.996,101976.563805
1952,Asia,1395357351,1528.375,171450.972133
1952,Europe,418120846,1932.255,169831.723043
1952,Oceania,10686006,138.51,20596.1713
1957,Africa,264837738,2145.85,72032.275237
1957,Americas,386953916,1399.007,115401.093329
1957,Asia,1562780599,1627.51196,190995.187018
1957,Europe,437890351,2001.092,208890.384478
1957,Oceania,11941976,140.59,23197.04491


Можно поменять порядок столбцов для группировки (`by`).

In [35]:
# сумма значений для каждой колонке по годам и континентам
df.groupby(by=["continent", "year"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,population,life_exp,gdp_cap
continent,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Africa,1952,237640501,2035.046,65133.768223
Africa,1957,264837738,2145.85,72032.275237
Africa,1962,296516865,2252.611,83100.098892
Africa,1967,335289489,2357.396,106618.917645
Africa,1972,379879541,2467.449,121660.015058
Africa,1977,433061021,2578.182,134468.80244
Africa,1982,499348587,2682.829,129042.833907
Africa,1987,574834110,2773.929,118698.787546
Africa,1992,659081517,2788.738,118654.137329
Africa,1997,743832984,2787.11,123695.496865


Можно использовать метод `aggregate` для выбора функции агрегирования.

In [36]:
# сумма значений для каждой колонке по годам и континентам
df.groupby(by=["continent", "year"]).aggregate("sum")

Unnamed: 0_level_0,Unnamed: 1_level_0,population,life_exp,gdp_cap
continent,year,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Africa,1952,237640501,2035.046,65133.768223
Africa,1957,264837738,2145.85,72032.275237
Africa,1962,296516865,2252.611,83100.098892
Africa,1967,335289489,2357.396,106618.917645
Africa,1972,379879541,2467.449,121660.015058
Africa,1977,433061021,2578.182,134468.80244
Africa,1982,499348587,2682.829,129042.833907
Africa,1987,574834110,2773.929,118698.787546
Africa,1992,659081517,2788.738,118654.137329
Africa,1997,743832984,2787.11,123695.496865


Хотя каждый шаг этой последовательности вполне понятен, тем не менее длинную строку кода достаточно трудно читать и использовать.

Подобные операции широко распространены, в связи с чем библиотека `pandas` имеет в своем составе специальный метод `pivot_table,` лаконично реализующий данный тип многомерной агрегации.