## Библиотека pandas. Продолжение.

### Группировка и агрегирование: методы `.groupby()` и `.agg()`

Часто случается, что данные необходимо сгруппировать по какому-то признаку ‒ по значениям определенной переменной. На входе имеется таблица (датафрейм), а на выходе хочется получить несколько таблиц: отдельная таблица для каждого значения. Давайте рассмотрим такой пример. У нас есть база данных с результатами выборов, и нам нужно сгруппировать данные по регионам.

Для начала импортируем библиотеку pandas и загрузим файл с данными.

In [1]:
import pandas as pd

Для разнообразия загрузим файл по ссылке с Github (база большая, загрузится не моментально):

In [2]:
df = pd.read_csv("https://raw.githubusercontent.com/allatambov/R-programming-3/master/lectures/lect7-12-01/47130-8314.csv")

В таблице сохранены результаты выборов президента России 2012 года.

In [3]:
df.head(2)

Unnamed: 0,link,uik,kom1,kom2,kom3,kom4,kom5,1,2,3,...,18,19,20,21,22,23,а,б,в,г
0,http://www.adygei.vybory.izbirkom.ru/region/ad...,1,Республика Адыгея (Адыгея),Адыгейская,УИК №1,,,2383.0,2147.0,0.0,...,0.0,24.0,382.0,28.0,71.0,1066.0,,,,
1,http://www.adygei.vybory.izbirkom.ru/region/ad...,2,Республика Адыгея (Адыгея),Адыгейская,УИК №2,,,2865.0,2586.0,0.0,...,0.0,51.0,453.0,49.0,104.0,1174.0,,,,


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 90003 entries, 0 to 90002
Data columns (total 34 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   link    90003 non-null  object 
 1   uik     90003 non-null  int64  
 2   kom1    90003 non-null  object 
 3   kom2    90003 non-null  object 
 4   kom3    89618 non-null  object 
 5   kom4    0 non-null      float64
 6   kom5    0 non-null      float64
 7   1       89994 non-null  float64
 8   2       89994 non-null  float64
 9   3       89994 non-null  float64
 10  4       89994 non-null  float64
 11  5       89994 non-null  float64
 12  6       89994 non-null  float64
 13  7       89994 non-null  float64
 14  8       89994 non-null  float64
 15  9       89994 non-null  float64
 16  10      89994 non-null  float64
 17  11      89994 non-null  float64
 18  12      89994 non-null  float64
 19  13      89994 non-null  float64
 20  14      89994 non-null  float64
 21  15      89994 non-null  float64
 22

Столбцы в этой базе имеют порядковый номер строки в таблице на сайте Центральной избирательной комиссии.

Таблица достаточно большая, поэтому давайте выберем те столбцы, которые понадобятся нам для работы.

Выберем столбцы, которые соответствуют уровням комиссий, а также следующим показателям: общее число зарегистрированных избирателей, число недействительных бюллетеней, число действительных бюллетеней, число голосов за Жириновского, Зюганова, Миронова, Прохорова и Путина.

In [5]:
d = df[["kom1", "kom2", "kom3", "1", "9", "10", "19", "20", "21", "22", "23"]]

In [6]:
d.head()

Unnamed: 0,kom1,kom2,kom3,1,9,10,19,20,21,22,23
0,Республика Адыгея (Адыгея),Адыгейская,УИК №1,2383.0,19.0,1571.0,24.0,382.0,28.0,71.0,1066.0
1,Республика Адыгея (Адыгея),Адыгейская,УИК №2,2865.0,29.0,1831.0,51.0,453.0,49.0,104.0,1174.0
2,Республика Адыгея (Адыгея),Адыгейская,УИК №3,2821.0,31.0,1673.0,36.0,481.0,24.0,107.0,1025.0
3,Республика Адыгея (Адыгея),Адыгейская,УИК №4,2069.0,0.0,1246.0,0.0,414.0,0.0,48.0,784.0
4,Республика Адыгея (Адыгея),Адыгейская,УИК №5,777.0,8.0,454.0,19.0,138.0,4.0,7.0,286.0


Теперь присвоим столбцам более информативные названия:

In [7]:
d.columns = ["region", "tik", "uik", "total", "invalid", "valid", "Zh", "Zu", "Mi", "Pr", "Pu"]

In [8]:
d.head() # опять посмотрим

Unnamed: 0,region,tik,uik,total,invalid,valid,Zh,Zu,Mi,Pr,Pu
0,Республика Адыгея (Адыгея),Адыгейская,УИК №1,2383.0,19.0,1571.0,24.0,382.0,28.0,71.0,1066.0
1,Республика Адыгея (Адыгея),Адыгейская,УИК №2,2865.0,29.0,1831.0,51.0,453.0,49.0,104.0,1174.0
2,Республика Адыгея (Адыгея),Адыгейская,УИК №3,2821.0,31.0,1673.0,36.0,481.0,24.0,107.0,1025.0
3,Республика Адыгея (Адыгея),Адыгейская,УИК №4,2069.0,0.0,1246.0,0.0,414.0,0.0,48.0,784.0
4,Республика Адыгея (Адыгея),Адыгейская,УИК №5,777.0,8.0,454.0,19.0,138.0,4.0,7.0,286.0


Посмотрим теперь, какие регионы есть в базе. Выбрать столбец *region* в таком случае будет не совсем удачно, поскольку в нем будет много повторяющихся значений. Посмотрим только на уникальные:

In [9]:
d.region.unique() # метод unique - уникальные значения

array(['Республика Адыгея (Адыгея)', 'Республика Алтай',
       'Республика Башкортостан', 'Республика Бурятия',
       'Республика Дагестан', 'Ðåñïóáëèêà Äàãåñòàí',
       'Республика Ингушетия', 'Кабардино-Балкарская Республика',
       'Республика Калмыкия', 'Карачаево-Черкесская Республика',
       'Республика Карелия', 'Республика Коми', 'Республика Марий Эл',
       'Республика Мордовия', 'Республика Саха (Якутия)',
       'Республика Северная Осетия - Алания', 'Республика Тыва',
       'Удмуртская Республика', 'Республика Хакасия',
       'Чувашская Республика - Чувашия', 'Алтайский край',
       'Забайкальский край', 'Камчатский край', 'Краснодарский край',
       'Красноярский край', 'Пермский край', 'Приморский край',
       'Ставропольский край', 'Хабаровский край', 'Õàáàðîâñêèé êðàé',
       'Амурская область', 'Архангельская область',
       'Астраханская область', 'Белгородская область', 'Брянская область',
       'Владимирская область', 'Волгоградская область',
       'В

Видно, что в этом массиве встречаются какие-то названия со странной кодировкой. Уберем эти строки из базы.

In [10]:
# отфильтруем с помощью условий
d = d[(d.region != 'Ðåñïóáëèêà Äàãåñòàí') &
  (d.region != 'Õàáàðîâñêèé êðàé') &
  (d.region != 'Ìóðìàíñêàÿ îáëàñòü') & (d.region != 'Ãîðîä Ñàíêò-Ïåòåðáóðã')]

Сгруппируем данные по регионам и посчитаем для каждого региона явку в процентах и процент голосов за каждого кандидата. Группировка осуществляется с помощью метода `.groupby()`.

In [11]:
d.groupby('region') # пока ничего не увидели

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7997ab7529d0>

Метод `.groupby()` создает список, состоящий из кортежей. Каждый кортеж ‒ это пара *название группы*-*соответствующий ей фрагмент датафрейма*.

In [12]:
# посмотрим на все сразу
for g in d.groupby('region'):
    print(g)

('Алтайский край',                region                 tik       uik   total  invalid   valid  \
14416  Алтайский край            Алейская  УИК №517   577.0      2.0   368.0   
14417  Алтайский край            Алейская  УИК №518   233.0      0.0   165.0   
14418  Алтайский край            Алейская  УИК №519    46.0      0.0    36.0   
14419  Алтайский край            Алейская  УИК №520   135.0      0.0   101.0   
14420  Алтайский край            Алейская  УИК №521   185.0      0.0   146.0   
...               ...                 ...       ...     ...      ...     ...   
16273  Алтайский край  Яровская городская  УИК №512  2405.0     19.0  1553.0   
16274  Алтайский край  Яровская городская  УИК №513  2338.0     22.0  1341.0   
16275  Алтайский край  Яровская городская  УИК №514  2443.0     20.0  1529.0   
16276  Алтайский край  Яровская городская  УИК №515  2387.0     17.0  1505.0   
16277  Алтайский край  Яровская городская  УИК №516  2740.0     16.0  1711.0   

          Zh     Zu 

В таком виде метод `.groupby()` дает нам немного. Мы же хотим не просто получать отдельные таблицы, а агрегировать данные по регионам ‒ суммировать все показатели (число избирателей, бюллетеней, голосов) по каждому региону. Тут на помощь придет метод `.agg()`, который выполняет агрегирование по группам.

In [13]:
d.groupby('region').agg('sum')

Unnamed: 0_level_0,tik,uik,total,invalid,valid,Zh,Zu,Mi,Pr,Pu
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
Алтайский край,АлейскаяАлейскаяАлейскаяАлейскаяАлейскаяАлейск...,УИК №517УИК №518УИК №519УИК №520УИК №521УИК №5...,1961328.0,12004.0,1163426.0,97961.0,261665.0,45883.0,83778.0,674139.0
Амурская область,АрхаринскаяАрхаринскаяАрхаринскаяАрхаринскаяАр...,УИК №1УИК №2УИК №3УИК №4УИК №5УИК №6УИК №7УИК ...,662320.0,4708.0,394996.0,39717.0,67433.0,13594.0,23070.0,251182.0
Архангельская область,"Архангельск, Исакогорская Архангельск, Исакого...",УИК №1УИК №2УИК №3УИК №4УИК №5УИК №6УИК №7УИК ...,988678.0,5522.0,569492.0,51169.0,91648.0,33223.0,60108.0,333344.0
Астраханская область,"Астрахань, КировскаяАстрахань, КировскаяАстрах...",УИК №382УИК №383УИК №384УИК №385УИК №386УИК №3...,769608.0,5107.0,427496.0,21918.0,67662.0,18595.0,21873.0,297448.0
Белгородская область,АлексеевскаяАлексеевскаяАлексеевскаяАлексеевск...,УИК №1УИК №2УИК №3УИК №4УИК №5УИК №6УИК №7УИК ...,1210590.0,10209.0,889764.0,59561.0,211079.0,35601.0,49807.0,533716.0
...,...,...,...,...,...,...,...,...,...,...
Хабаровский край,АмурскаяАмурскаяАмурскаяАмурскаяАмурскаяАмурск...,УИК №394УИК №395УИК №396УИК №397УИК №398УИК №3...,1056125.0,8733.0,645264.0,68500.0,115436.0,31944.0,62145.0,367239.0
Челябинская область,АгаповскаяАгаповскаяАгаповскаяАгаповскаяАгапов...,УИК №1544УИК №1545УИК №1546УИК №1547УИК №1548У...,2757879.0,25366.0,1704033.0,97869.0,254542.0,88177.0,138907.0,1124538.0
Чувашская Республика - Чувашия,АлатырскаяАлатырскаяАлатырскаяАлатырскаяАлатыр...,УИК №1УИК №2УИК №3УИК №4УИК №5УИК №6УИК №7УИК ...,954572.0,10465.0,692492.0,39707.0,144676.0,31201.0,38838.0,438070.0
Чукотский автономный округ,АнадырскаяАнадырскаяАнадырскаяАнадырскаяАнадыр...,УИК №6УИК №7УИК №8УИК №9УИК №10УИК №11УИК №12У...,35968.0,428.0,28909.0,2106.0,2651.0,633.0,2209.0,21310.0


Сначала в `.groupby()` мы указали переменную, по которой нужно выполнить группировку, затем в `.agg()` мы указали функцию, которую нужно выполнить. В нашем случае это 'sum', поскольку нам нужно просто сложить все показатели в пределах одного региона. Применять можно и другие функции, например, считать среднее:

In [14]:
#d.groupby('region').agg('mean').head() # mean - среднее

Или сразу несколько статистик. которые можно указать в `.agg()` в виде списка.

In [15]:
#d.groupby('region').agg(['mean', 'median']).head() # среднее и медиана

Кроме того, внутри `.agg()` можно указывать свои функции. Например, нас интересует разница между максимальным и минимальным значением. Сначала напишем функцию `my_diff`, которая будет определять такую разность:

In [16]:
def my_diff(x):
    return max(x) - min(x)

Проверим, как она работает:

In [17]:
my_diff([4, 6, 18]) # все верно, 8 - 4 = 4

14

Теперь используем эту функцию внутри `.agg()`:

In [None]:
#d.groupby('region').agg(my_diff).head() # везде смотрим на первые 5 строк

Возможностей у метода `.agg()` много.
Все, что мы пока сделали, очень интересно, но есть проблема: все данные пока даны в абсолютных значениях, не в процентах. Это неудобно. Давайте сгруппируем данные по региону и добавим в базу с агрегированными данными новые столбцы: явка в процентах и проценты голосов за каждого кандидата.

Для этого необходимо вспомнить, как считается явка и проценты голосов. Явка считается так: суммируем число действительных и недействительных бюллетеней. Чтобы получить явку в процентах, делим явку на общее число зарегистрированных избирателей и домножаем на 100, чтобы перевести долю в проценты. Проценты голосов за кандидатов считаем от явки, берем число голосов за кандидата, делим на явку и домножаем на 100. Проделаем это поэтапно.

Сначала сохраним результат агрегирования в переменную `regs` и добавим новый столбец для явки в абсолютных значениях (в голосах).

In [18]:
regs = d.groupby('region').agg('sum')

regs["turnout"] = regs.invalid + regs.valid # новый столбец - сумма двух старых
regs.head(3)

Unnamed: 0_level_0,tik,uik,total,invalid,valid,Zh,Zu,Mi,Pr,Pu,turnout
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Алтайский край,АлейскаяАлейскаяАлейскаяАлейскаяАлейскаяАлейск...,УИК №517УИК №518УИК №519УИК №520УИК №521УИК №5...,1961328.0,12004.0,1163426.0,97961.0,261665.0,45883.0,83778.0,674139.0,1175430.0
Амурская область,АрхаринскаяАрхаринскаяАрхаринскаяАрхаринскаяАр...,УИК №1УИК №2УИК №3УИК №4УИК №5УИК №6УИК №7УИК ...,662320.0,4708.0,394996.0,39717.0,67433.0,13594.0,23070.0,251182.0,399704.0
Архангельская область,"Архангельск, Исакогорская Архангельск, Исакого...",УИК №1УИК №2УИК №3УИК №4УИК №5УИК №6УИК №7УИК ...,988678.0,5522.0,569492.0,51169.0,91648.0,33223.0,60108.0,333344.0,575014.0


Теперь добавим столбец с явкой в процентах:

In [19]:
regs["turnout_perc"] = round(regs.turnout / regs.total * 100, 2)
regs.head(3)

Unnamed: 0_level_0,tik,uik,total,invalid,valid,Zh,Zu,Mi,Pr,Pu,turnout,turnout_perc
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Алтайский край,АлейскаяАлейскаяАлейскаяАлейскаяАлейскаяАлейск...,УИК №517УИК №518УИК №519УИК №520УИК №521УИК №5...,1961328.0,12004.0,1163426.0,97961.0,261665.0,45883.0,83778.0,674139.0,1175430.0,59.93
Амурская область,АрхаринскаяАрхаринскаяАрхаринскаяАрхаринскаяАр...,УИК №1УИК №2УИК №3УИК №4УИК №5УИК №6УИК №7УИК ...,662320.0,4708.0,394996.0,39717.0,67433.0,13594.0,23070.0,251182.0,399704.0,60.35
Архангельская область,"Архангельск, Исакогорская Архангельск, Исакого...",УИК №1УИК №2УИК №3УИК №4УИК №5УИК №6УИК №7УИК ...,988678.0,5522.0,569492.0,51169.0,91648.0,33223.0,60108.0,333344.0,575014.0,58.16


Осталось проделать аналогичные операции для голосов за разных кандидатов. Но повторять одно и то же пять раз не хочется (а что бы мы делали, если бы кандидатов было больше?). Давайте напишем функцию, которая будет принимать на вход столбец, делить все его значения на значения из столбца *turnout* и переводить все в проценты.

In [20]:
def to_perc(x):
    return round(x / regs.turnout * 100, 2)

А теперь выберем из базы данных столбцы с голосами за кандидатов и применим к ним нашу функцию.

In [21]:
perc = regs[['Zh' ,'Zu', 'Mi', 'Pr', 'Pu']].apply(to_perc, axis = 0) # axis = 0 - по столбцам, не по строкам
perc.head(3)

Unnamed: 0_level_0,Zh,Zu,Mi,Pr,Pu
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Алтайский край,8.33,22.26,3.9,7.13,57.35
Амурская область,9.94,16.87,3.4,5.77,62.84
Архангельская область,8.9,15.94,5.78,10.45,57.97


Нужно переименовать столбцы в базе `perc`. Давайте сделаем это по-умному: возьмем названия столбцов в `perc` и приклеим к ним часть с `_perc`, чтобы названия столбцов с показателями в процентах отличались от показателей в абсолютных числах.

In [22]:
old_cols = list(perc.columns)
old_cols

['Zh', 'Zu', 'Mi', 'Pr', 'Pu']

In [23]:
new_cols = [x + "_perc" for x in old_cols]
new_cols

['Zh_perc', 'Zu_perc', 'Mi_perc', 'Pr_perc', 'Pu_perc']

In [24]:
perc.columns = new_cols

In [25]:
perc.head(3)

Unnamed: 0_level_0,Zh_perc,Zu_perc,Mi_perc,Pr_perc,Pu_perc
region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Алтайский край,8.33,22.26,3.9,7.13,57.35
Амурская область,9.94,16.87,3.4,5.77,62.84
Архангельская область,8.9,15.94,5.78,10.45,57.97


А теперь соединим нашу таблицу `regs` с таблицей `perc`, чтобы все показатели были в одном месте. Для этого просто склеим две таблицы по столбцам с помощью метода `.concat()`.

In [26]:
final = pd.concat([regs, perc], axis = 1) # axis = 1 - по столбцам

In [None]:
final.head()

In [None]:
final.loc[['Кировская область','Нижегородская область']]

NameError: name 'final' is not defined