# Группировка и агрегация

In [3]:
from urllib.request import urlretrieve
import pandas as pd

covid_data = 'https://github.com/SerjiEvg/data-analysis/blob/main/data/COVID-19%20data%20by%20regions%20of%20RUSSIA.csv?raw=true'
urlretrieve(covid_data, 'COVID-19 data by regions of RUSSIA.csv')
covid_df = pd.read_csv('COVID-19 data by regions of RUSSIA.csv', sep=';')

In [7]:
covid_df.дата

0       25.02.2020
1       25.02.2020
2       25.02.2020
3       25.02.2020
4       25.02.2020
           ...    
9957    30.06.2020
9958    30.06.2020
9959    30.06.2020
9960    30.06.2020
9961    30.06.2020
Name: дата, Length: 9962, dtype: object

## Работа с датами

Хотя мы рассмотрели общие цифры по случаям, населению и т.д., было бы также полезно изучать и анализировать данные по месяцам. Библиотека pandas также предоставляет методы и свойства для работы с типами данных date.

Например, мы можем вывести столбец date, обращаясь к нему по ключевому слову

In [12]:
covid_df.дата

0       25.02.2020
1       25.02.2020
2       25.02.2020
3       25.02.2020
4       25.02.2020
           ...    
9957    30.06.2020
9958    30.06.2020
9959    30.06.2020
9960    30.06.2020
9961    30.06.2020
Name: дата, Length: 9962, dtype: object

В выведенном результате время имеет тип object, так как библиотека pandas не знает, что этот столбец является датой. Мы можем преобразовать этот столбец в datetime, используя метод pd.to_datetime.

In [13]:
covid_df['date'] = pd.to_datetime(covid_df.дата)

covid_df['date']

0      2020-02-25
1      2020-02-25
2      2020-02-25
3      2020-02-25
4      2020-02-25
          ...    
9957   2020-06-30
9958   2020-06-30
9959   2020-06-30
9960   2020-06-30
9961   2020-06-30
Name: date, Length: 9962, dtype: datetime64[ns]

После преобразования столбец date имеет тип данных datetime64. Теперь мы можем извлечь из него разные части данных в отдельные столбцы, используя класс DatetimeIndex .

In [14]:
covid_df['Год'] = pd.DatetimeIndex(covid_df.date).year
covid_df['Месяц'] = pd.DatetimeIndex(covid_df.date).month
covid_df['День'] = pd.DatetimeIndex(covid_df.date).day
covid_df['Неделя'] = pd.DatetimeIndex(covid_df.date).weekday

covid_df

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей,date,Год,Месяц,День,Неделя
0,Республика Бурятия,Дальневосточный федеральный округ,25.02.2020,,986109,,2020-02-25,2020,2,25,1
1,Алтайский край,Сибирский федеральный округ,25.02.2020,,2317052,,2020-02-25,2020,2,25,1
2,Амурская область,Дальневосточный федеральный округ,25.02.2020,,790676,,2020-02-25,2020,2,25,1
3,Архангельская область,Северо-Западный федеральный округ,25.02.2020,,1092277,,2020-02-25,2020,2,25,1
4,Астраханская область,Южный федеральный округ,25.02.2020,,1005967,,2020-02-25,2020,2,25,1
...,...,...,...,...,...,...,...,...,...,...,...
9957,Челябинская область,Уральский федеральный округ,30.06.2020,144.0,3466960,,2020-06-30,2020,6,30,1
9958,Чеченская Республика,Северо-Кавказский федеральный округ,30.06.2020,5.0,1476752,,2020-06-30,2020,6,30,1
9959,Чукотский АО,Дальневосточный федеральный округ,30.06.2020,,50726,,2020-06-30,2020,6,30,1
9960,Ямало-Ненецкий автономный округ,Уральский федеральный округ,30.06.2020,248.0,544008,,2020-06-30,2020,6,30,1


Мы назвали один из столбцов Неделя для краткости, на самом деле числа в столбце обозначают дни недели.

Давайте проверим общие данные за май. Мы можем запросить строки за май, выбрать подмножество столбцов и использовать метод sum() для агрегирования значений каждого выбранного столбца.

In [15]:
# Запрос строк за May
covid_df_may = covid_df[covid_df.Месяц == 5]

# Выделение подмножества столбцов для агрегации
covid_df_may_metrics = covid_df_may[['случаи заболевания', 'количество смертей', 'население']]

# Возвращение сумм по столбцам
covid_may_totals = covid_df_may_metrics.sum()

covid_may_totals

случаи заболевания    1.930860e+05
количество смертей    2.811000e+03
население             3.228077e+09
dtype: float64

Мы также можем объединить вышеуказанные операции в один оператор.

In [17]:
covid_df[covid_df.Месяц == 5][['случаи заболевания', 'количество смертей', 'население']].sum()

случаи заболевания    1.930860e+05
количество смертей    2.811000e+03
население             3.228077e+09
dtype: float64

В качестве другого примера давайте проверим, превышает ли количество случаев, зарегистрированных по воскресеньям, среднее количество случаев, регистрируемых каждый день. На этот раз мы можем захотеть агрегировать столбцы с помощью метода mean().

In [20]:
# Вычисление среднего
covid_df['случаи заболевания'].mean()

88.91244682310965

In [21]:
# Среднее по воскресеньям
covid_df[covid_df.Неделя == 6]['случаи заболевания'].mean()

95.99914893617022

Похоже, что по воскресеньям было зарегистрировано больше случаев, чем в другие дни.

Теперь вы знаете основные моменты работы с библиотекой pandas и можете приступать к заданиям.

## Группировка данных

Перейдем к следующему шагу: будем обобщать дневные данные, и для этого создадим новый DataFrame с месячными данными. 

Чтобы решить эту задачу мы можем использовать функцию groupby(). Функция groupby() модуля pandas используется для разделения (выделения) части данных из DataFrame на основе определенных  условий или параметров.

В нашей задаче она создает группу для каждого месяца, и при помощи метода sum происходит суммирование данных (агрегация) по месяцам для каждого показателя(столбец).

In [23]:
covid_month_df = covid_df.groupby('Месяц')[['случаи заболевания', 'количество смертей', 'население']].sum()

covid_month_df

Unnamed: 0_level_0,случаи заболевания,количество смертей,население
Месяц,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,17408.0,260.0,439920318
2,19257.0,245.0,586665416
3,22072.0,242.0,3226817276
4,110766.0,1192.0,3080641449
5,193086.0,2811.0,3228077180
6,156800.0,2890.0,3228077180
7,21373.0,231.0,586665416
8,20862.0,213.0,586665416
9,20888.0,289.0,586665416
10,21205.0,322.0,586665416


Результатом выполнения программы является новый фрейм данных, который использует уникальные значения из столбца, переданного в функцию groupby в качестве индекса. Группировка и агрегация — это мощный метод постепенного суммирования данных в более мелкие фреймы данных.

Вместо агрегирования по сумме допускается агрегировать (группировать) по другим показателям, например по среднему значению. Давайте посчитаем среднее количество ежедневных новых случаев, смертей за каждый месяц.

In [24]:
covid_month_mean_df = covid_df.groupby('Месяц')[['случаи заболевания', 'количество смертей']].mean()

covid_month_mean_df

Unnamed: 0_level_0,случаи заболевания,количество смертей
Месяц,Unnamed: 1_level_1,Unnamed: 2_level_1
1,85.333333,6.5
2,98.25,4.375
3,46.467368,3.967213
4,69.707992,3.87013
5,108.903553,5.323864
6,91.056911,4.439324
7,100.342723,4.62
8,92.72,5.071429
9,93.25,4.378788
10,94.665179,5.551724


Помимо группировки, другой формой агрегирования является текущая или кумулятивная сумма (накапливаемая сумма) случаев или смертей на даты каждой строки. Мы можем использовать метод cumsum() для вычисления совокупной суммы столбца как нового ряда. Добавим два новых столбца: total_cases, total_deaths.

In [25]:
covid_df['total_cases'] = covid_df['случаи заболевания'].cumsum()

covid_df['total_deaths'] = covid_df['количество смертей'].cumsum()

covid_df

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей,date,Год,Месяц,День,Неделя,total_cases,total_deaths
0,Республика Бурятия,Дальневосточный федеральный округ,25.02.2020,,986109,,2020-02-25,2020,2,25,1,,
1,Алтайский край,Сибирский федеральный округ,25.02.2020,,2317052,,2020-02-25,2020,2,25,1,,
2,Амурская область,Дальневосточный федеральный округ,25.02.2020,,790676,,2020-02-25,2020,2,25,1,,
3,Архангельская область,Северо-Западный федеральный округ,25.02.2020,,1092277,,2020-02-25,2020,2,25,1,,
4,Астраханская область,Южный федеральный округ,25.02.2020,,1005967,,2020-02-25,2020,2,25,1,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...
9957,Челябинская область,Уральский федеральный округ,30.06.2020,144.0,3466960,,2020-06-30,2020,6,30,1,647608.0,
9958,Чеченская Республика,Северо-Кавказский федеральный округ,30.06.2020,5.0,1476752,,2020-06-30,2020,6,30,1,647613.0,
9959,Чукотский АО,Дальневосточный федеральный округ,30.06.2020,,50726,,2020-06-30,2020,6,30,1,,
9960,Ямало-Ненецкий автономный округ,Уральский федеральный округ,30.06.2020,248.0,544008,,2020-06-30,2020,6,30,1,647861.0,


Обратите внимание, что значения NaN столбце количество смертей остаются неизменными.