Источник:

https://data-in.ru/data-catalog/datasets/187/#dataset-codebook

In [1]:
import pandas as pd
import numpy as np

# from google.colab import drive
# drive.mount('/content/drive')

Для эксперимента возьмём датасет "Крупные города России: объединенные данные по основным социально-экономическим показателям за 1985-2019 гг." инфраструктуры научно-исследовательских данных (https://data-in.ru/data-catalog/datasets/187/#dataset-codebook). Использовать будем только столбцы 'region' (субъект РФ), 'municipality' (муниципальное образование), 'year' (год), 'birth' (число родившихся на 1000 человек населения), 'wage' (cреднемесячная номинальная начисленная заработная плата, руб.). Сразу оговорюсь, что Москва и Санкт-Петербург являются отдельными субъектами Российской Федерации и в этом датафрейме отсутствуют.

In [39]:
df1 = pd.read_csv('Krupnie_goroda-RF_1985-2019_187_09.12.21/data.csv', sep=';')
print(df.columns)
df = df1[['region', 'municipality', 'year', 'birth', 'wage']]
df.sample(20)

Index(['region', 'municipality', 'year', 'birth', 'wage'], dtype='object')


Unnamed: 0,region,municipality,year,birth,wage
3890,Республика Татарстан,Набережные Челны,2017,13.2,33841.5
3388,Республика Башкортостан,Октябрьский,2018,12.0,35612.2
2862,Тюменская область,Тюмень,2006,12.6,16702.0
189,Красноярский край,Красноярск,2017,12.8,44384.3
1015,Иркутская область,Ангарский район,2015,14.3,38856.3
2645,Свердловская область,Асбестовский городской округ,2003,10.4,4704.0
681,Владимирская область,Город Владимир,2003,9.0,4807.0
798,Волгоградская область,Город Камышин,2013,9.6,18117.8
2385,Ростовская область,Город Батайск,2011,14.3,19783.2
2371,Ростовская область,Город Ростов-на-Дону,2015,12.5,35394.7


In [40]:
print(df.shape)
df.columns


(4109, 5)


Index(['region', 'municipality', 'year', 'birth', 'wage'], dtype='object')

Минимальные данные можно получить использовав метод .describe(include = 'all'). Мы видим что у нас 4109 строки, по 81 региону и 202 городам. Средняя рождаемость на 1000 человек 11,39, минимальная - 3,4, максимальная - 36,1.

In [41]:
df.describe(include = 'all')

Unnamed: 0,region,municipality,year,birth,wage
count,4109,4109,4109.0,4104.0,4098.0
unique,81,202,,,
top,Московская область,Барнаул,,,
freq,365,27,,,
mean,,,2007.474081,11.396564,19619.858897
std,,,7.686001,2.9522,18274.629869
min,,,1985.0,3.4,0.116
25%,,,2002.0,9.3,4387.175
50%,,,2008.0,10.9,15586.55
75%,,,2014.0,13.0,30025.65


## Агрегирование
Если объяснять простыми словами, то агрегирование - это процесс приведения некого большого массива значений к некому сжатому по определенному параметру массиву значений. Например, среднее, медиана, количество, сумма.

In [42]:
df[['birth', 'wage']].agg(['mean', 'median', 'min', 'max'])

Unnamed: 0,birth,wage
mean,11.396564,19619.858897
median,10.9,15586.55
min,3.4,0.116
max,36.1,170460.0


Мы убедились, что среднее значение по рождаемости - 11,39, средняя зарплата - 19619. Таким образом мы провели агрегирование.

## Groupby
Но средняя температура по больнице нам не интересна, мы хотим знать победителей в лицо. Допустим нам нужно посмотреть средние значения с группировкой по городам и субъектам РФ. Для этого закономерно используем метод .groupby(['region', 'municipality']).agg('mean').

In [43]:
df_groupby = df.groupby(['region', 'municipality']).agg('mean')
df_groupby.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,year,birth,wage
region,municipality,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Алтайский край,Барнаул,2005.555556,10.881481,12700.674407
Алтайский край,Бийск,2009.5,11.0,13479.875
Алтайский край,Рубцовск,2009.5,9.68,12774.935
Амурская область,Благовещенск,2005.555556,11.803704,17359.895556
Архангельская область,Архангельск,2005.555556,10.477778,18911.154519
Архангельская область,Северодвинск,2009.5,10.39,27084.675
Астраханская область,Город Астрахань,2005.555556,12.1,13896.580111
Белгородская область,Городской округ Белгород,2005.555556,9.977778,14138.07937
Белгородская область,Старооскольский городской округ,2009.5,10.635,19157.82
Брянская область,Город Брянск,2005.555556,9.818519,12311.532037


Но мы на этом не успкаиваемся и хотим больше данных: среднее, медиану, минимум, максимум.

In [44]:
agg_func_math = {
    'birth': ['mean', 'median', 'min', 'max'],
    'wage': ['mean', 'median', 'min', 'max']
}

In [45]:
df.groupby(['region', 'municipality']).agg(agg_func_math).head(7)

Unnamed: 0_level_0,Unnamed: 1_level_0,birth,birth,birth,birth,wage,wage,wage,wage
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,min,max,mean,median,min,max
region,municipality,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
Алтайский край,Барнаул,10.881481,10.7,7.6,16.0,12700.674407,7696.0,0.213,37855.1
Алтайский край,Бийск,11.0,10.7,8.7,13.5,13479.875,12575.75,1386.0,30203.9
Алтайский край,Рубцовск,9.68,9.65,7.2,12.3,12774.935,11907.25,1192.0,29941.9
Амурская область,Благовещенск,11.803704,11.8,9.3,16.1,17359.895556,11913.7,0.219,50675.5
Архангельская область,Архангельск,10.477778,10.7,7.9,15.4,18911.154519,13432.0,0.236,54598.8
Архангельская область,Северодвинск,10.39,10.4,7.0,13.1,27084.675,23156.8,2407.0,63519.0
Астраханская область,Город Астрахань,12.1,12.3,8.9,14.5,13896.580111,8448.8,0.17,39924.8


Посмотрим топ городов по зарплатам.

In [46]:
df.groupby(['region', 'municipality']).agg('mean').sort_values(by='wage', ascending=False).head(7)

Unnamed: 0_level_0,Unnamed: 1_level_0,year,birth,wage
region,municipality,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Московская область,Долгопрудный,2017.0,10.42,69366.2
Ямало-Ненецкий автономный округ,Новый Уренгой,2010.277778,13.894444,64519.627778
Московская область,Реутов,2017.0,9.36,53252.2
Московская область,Домодедово,2014.5,13.29,52964.01
Ханты-Мансийский автономный округ - Югра,Сургут,2009.5,16.595,51231.465
Красноярский край,Норильск,2009.5,12.7,50389.215
Ямало-Ненецкий автономный округ,Ноябрьск,2010.277778,13.4,50348.477778


А что если посмотреть данные в разрезе по годам...?

## Pivot table

Ответим на этот вопрос чуть позже, а пока создадим сводную таблицу аналогичную той, что мы уже делали ранее.

In [47]:
df_pivot_table = df.pivot_table(index=['region', 'municipality'])
df_pivot_table.head(7)

Unnamed: 0_level_0,Unnamed: 1_level_0,birth,wage,year
region,municipality,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Алтайский край,Барнаул,10.881481,12700.674407,2005.555556
Алтайский край,Бийск,11.0,13479.875,2009.5
Алтайский край,Рубцовск,9.68,12774.935,2009.5
Амурская область,Благовещенск,11.803704,17359.895556,2005.555556
Архангельская область,Архангельск,10.477778,18911.154519,2005.555556
Архангельская область,Северодвинск,10.39,27084.675,2009.5
Астраханская область,Город Астрахань,12.1,13896.580111,2005.555556


Уже на этом этапе видно, что сводная таблица достаточно умная и сама агрегировала данные и посчитала средние значения.

Но если мы захотим расширить таблицу новыми значениями - медианой, то увидим, что конечный результат по структуре будет отличаться от того, что мы делали при использовании метода groupby. 

In [53]:
df_pivot_table = df1.pivot_table(index=['region', 'municipality'],
                                values=['year', 'pension'],
                                aggfunc=[np.mean, np.median])
df_pivot_table.head(7)

Unnamed: 0_level_0,Unnamed: 1_level_0,mean,mean,median,median
Unnamed: 0_level_1,Unnamed: 1_level_1,pension,year,pension,year
region,municipality,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Алтайский край,Барнаул,7682.25,2005.555556,8027.55,2006.0
Алтайский край,Бийск,7333.783333,2009.5,7680.8,2009.5
Алтайский край,Рубцовск,7186.183333,2009.5,7521.1,2009.5
Амурская область,Благовещенск,8028.077778,2005.555556,8347.2,2006.0
Архангельская область,Архангельск,9712.111111,2005.555556,10086.35,2006.0
Архангельская область,Северодвинск,10540.638889,2009.5,10861.7,2009.5
Астраханская область,Город Астрахань,7273.744444,2005.555556,7577.6,2006.0


Так мы плавно подошли к тем преимуществам, которые делает сводные таблицы швейцарским ножом для аналитиков. Если использую groupby мы "укрупняли" строки по городам, то сейчас мы можем "развернуть" столбец, например, 'year' (год) и посмотреть данные в разрезе по годам.   

In [55]:
df_pivot_table = df.pivot_table(index=['region', 'municipality'],
                                values=['wage'],
                                columns='year')
df_pivot_table.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage,wage
Unnamed: 0_level_1,year,1985,1990,1991,1995,1996,1997,1998,1999,2000,2001,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
region,municipality,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
Алтайский край,Барнаул,0.213,0.296,,440.0,756.5,889.9,947.4,1300.0,1873.2,2473.0,...,16564.0,18574.6,21753.0,24449.4,26523.4,27433.4,28937.3,31013.5,34651.1,37855.1
Алтайский край,Бийск,,,,,,,,,1386.0,1986.0,...,13306.5,15008.6,17335.0,19558.2,20888.2,21802.4,22849.8,24558.8,27516.0,30203.9
Алтайский край,Рубцовск,,,,,,,,,1192.0,1838.0,...,12574.5,14136.5,16281.9,18918.9,20203.8,20002.4,21385.4,23656.8,27176.9,29941.9
Амурская область,Благовещенск,0.219,0.361,,613.7,932.2,1224.5,1215.7,1546.1,2155.6,2962.4,...,23890.9,27245.0,30030.5,34348.1,36466.8,36753.7,38634.9,41808.1,46360.5,50675.5
Архангельская область,Архангельск,0.236,0.336,,617.0,993.3,1169.0,1233.0,2003.0,2924.0,4084.0,...,25020.7,27856.0,31541.6,35754.4,38288.6,40323.7,43177.7,45097.7,50419.6,54598.8
Архангельская область,Северодвинск,,,,,,,,,2407.0,3414.0,...,24433.9,28003.5,32028.5,36983.4,42843.9,47363.1,51110.5,54679.6,59153.0,63519.0
Астраханская область,Город Астрахань,0.17,0.293,,388.0,645.0,765.0,879.4,1305.1,1848.2,2550.4,...,18688.3,20583.0,23690.0,27588.0,29724.0,30908.3,32934.2,35179.0,39118.0,39924.8
Белгородская область,Городской округ Белгород,0.175,0.268,,392.9,628.7,801.9,946.0,1448.2,2070.5,2964.5,...,19128.5,21391.1,24098.8,26423.9,28571.3,30011.1,31868.0,33566.7,36954.7,40032.3
Белгородская область,Старооскольский городской округ,,,,,,,,,2513.5,3679.2,...,18097.7,20662.0,23453.3,25489.2,27733.7,29502.4,31395.9,34012.4,37889.8,40902.7
Брянская область,Город Брянск,0.187,0.278,,362.6,555.0,700.6,783.5,1132.7,1574.3,2372.5,...,15724.1,18111.7,21426.1,24420.1,26283.8,26839.3,28606.0,30540.9,33736.8,36447.5


И, конечно, данные в сводной таблице можно фильтровать. Создадим сводную таблицу и оставим в ней данные по городам, в которых рождаемость на 1000 человек превышает 12, зарплата выше 40.000 и отсортируем всё по убыванию рождаемости.

In [56]:
df2 = df.pivot_table(index=['region', 'municipality'])
df2.query("`birth`>12 and `wage`>40000").sort_values(by='birth', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,birth,wage,year
region,municipality,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Ханты-Мансийский автономный округ - Югра,Сургут,16.595,51231.465,2009.5
Ямало-Ненецкий автономный округ,Салехард,15.896296,40139.665926,2005.555556
Московская область,Раменский,14.922222,42697.511111,2015.0
Ямало-Ненецкий автономный округ,Новый Уренгой,13.894444,64519.627778,2010.277778
Ямало-Ненецкий автономный округ,Ноябрьск,13.4,50348.477778,2010.277778
Московская область,Домодедово,13.29,52964.01,2014.5
Ханты-Мансийский автономный округ - Югра,Нефтеюганск,13.25,40221.24,2009.5
Московская область,Красногорский,13.141667,47492.783333,2013.5
Чукотский автономный округ,Анадырь,12.825926,45773.736815,2005.555556
Красноярский край,Норильск,12.7,50389.215,2009.5


## Pivot

Всё было замечательно, но в Pandas кроме pivot_table есть ещё просто pivot. Посмотрим что это за зверь и чем они отличаются. 

Создадим pivot: рождаемость в разрезе по регионам и годам.

In [57]:
df_pivot = df.pivot(index='region',
                    values='birth',
                    columns='year')
df_pivot.head(7)

ValueError: Index contains duplicate entries, cannot reshape

Мы получили ошибку "Index contains duplicate entries, cannot reshape". Что-то не так с индексами, попробуем создать pivot с индексами по городам, а не регионам.

In [None]:
df_pivot = df.pivot(index='municipality',
                    values='birth',
                    columns='year')
df_pivot.head(7)

year,1985,1990,1991,1995,1996,1997,1998,1999,2000,2001,...,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019
municipality,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Абакан,16.8,14.4,,10.4,9.7,9.2,9.3,9.0,10.1,10.0,...,14.6,14.6,14.9,15.4,14.9,15.4,14.5,13.5,12.2,11.5
Альметьевский район,,,,,,,,,9.9,10.7,...,13.9,13.9,14.8,15.8,15.8,17.4,16.7,15.0,13.6,12.7
Анадырь,15.8,13.5,,9.5,7.8,9.1,12.0,11.0,10.5,11.4,...,17.9,14.0,13.5,12.2,12.1,12.6,12.2,11.7,11.3,8.9
Ангарский район,,,,,,,,,8.0,9.1,...,11.9,12.6,13.3,13.2,13.2,14.3,13.6,11.7,10.8,9.4
Арзамас,,,,,,,,,8.5,9.0,...,11.0,10.9,12.1,11.5,11.2,13.1,12.9,11.3,10.3,9.6
Артёмовский,,,,,,,,,8.1,8.6,...,12.1,12.7,13.3,12.9,13.2,13.3,12.1,11.8,11.3,10.6
Архангельск,15.4,12.1,,8.6,8.8,8.3,8.9,7.9,8.3,9.4,...,11.7,11.1,11.9,11.8,12.1,11.8,11.6,10.0,9.1,8.1


Всё получилось. Как мы уже заметили всё дело в индексах. На самом деле всё в повторяющихся индексах. Как мы видили ранее в датафрейме есть позиции с несколькими городами в рамках одного субъекта, так получаются дублированные данные индексов с которыми не умеет работать pivot.

## Вывод:
Groupby, pivot и pivot_table удобные и привычные инструменты для работы с данными. Groupby позволяет кодом в одну строку получить агрегированные и сортированные данные, а pivot и pivot_table работать в более глубоком разрезе. Pivot_table предпочтителен, т.к. не ограничивает вас в уникальности значений в столбце индекса. И, конечно, все эти данные можно фильтровать под ваши запросы.
