# Анализ данных из фреймов

In [None]:
from urllib.request import urlretrieve
import pandas as pd

covid_data = 'https://github.com/SerjiEvg/data-analysis/blob/main/data/COVID-19%20data%20by%20regions%20of%20RUSSIA.csv?raw=true'
urlretrieve(covid_data, 'COVID-19 data by regions of RUSSIA.csv')
covid_df = pd.read_csv('COVID-19 data by regions of RUSSIA.csv', sep=';')

Попробуем ответить на некоторые вопросы о наших данных на практике, используя уже известные нам свойства и методы

**A: Каково общее количество зарегистрированных случаев заболевания и смертей, связанных с Covid-19?**

Подобно массивам numpy, серия pandas поддерживает метод sum. Поэтому именно его мы используем, чтобы ответить на эти вопросы

In [None]:
total_cases = covid_df['случаи заболевания'].sum()
total_deaths = covid_df['количество смертей'].sum()

print('Количество зарегистрированных случае равно {} и количество смертей равно {}.'.format(int(total_cases), int(total_deaths)))

Количество зарегистрированных случае равно 647905 и количество смертей равно 9286.


**Б: Каков общий уровень смертности?**

Уровень смертности равен отношению зарегистрированных смертей к общему количеству зарегистрированных случаев заболевания Covid-19:

In [None]:
death_rate = covid_df['количество смертей'].sum() / covid_df['случаи заболевания'].sum()

print("Общий зарегистрированный уровень смертности в России составляет {:.2f} %.".format(death_rate*100))

Общий зарегистрированный уровень смертности в России составляет 1.43 %.


Теперь мы на практике узнали каким образом происходит использованных ранее нами использованных функций. Но это еще все, далее мы научимся фильтровать эти данные и работать с ними.  

## Запросы и сортировка строк

Допустим, мы хотим посмотреть только те дни, когда было зарегистрировано более 100 случаев. Мы можем использовать логическое выражение, чтобы проверить, какие строки удовлетворяют этому критерию. А именно

In [None]:
high_new_cases = covid_df['случаи заболевания'] > 100

print(high_new_cases)

0       False
1       False
2       False
3       False
4       False
        ...  
9957     True
9958    False
9959    False
9960     True
9961    False
Name: случаи заболевания, Length: 9962, dtype: bool


Из результата видно, что возвращается серия логических выражений, содержащую логические значения True и  False. Можно использовать эту серию для выбора подмножества строк из исходного фрейма данных, соответствующих значениям True в серии. Для этого есть команда

In [None]:
covid_df[high_new_cases]

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей
1729,Москва,Центральный федеральный округ,25.03.2020,120.0,12692466,
1814,Москва,Центральный федеральный округ,26.03.2020,136.0,12692466,
1886,Москва,Центральный федеральный округ,27.03.2020,157.0,12692466,
1984,Москва,Центральный федеральный округ,28.03.2020,114.0,12692466,
2066,Москва,Центральный федеральный округ,29.03.2020,197.0,12692466,
...,...,...,...,...,...,...
9944,Свердловская область,Уральский федеральный округ,30.06.2020,276.0,4310861,2.0
9954,Ульяновская область,Приволжский федеральный округ,30.06.2020,106.0,1229687,3.0
9956,Ханты-Мансийский АО,Уральский федеральный округ,30.06.2020,279.0,1674086,3.0
9957,Челябинская область,Уральский федеральный округ,30.06.2020,144.0,3466960,


Мы можем кратко написать это в одной строке, передав логическое выражение в качестве индекса для фрейма данных.

In [None]:
high_cases_df = covid_df[covid_df['случаи заболевания'] > 100]

Результат выполнения будет аналогичным предыдущей конструкции.

Как видно из результат, фрейм данных содержит 970 строк, но для краткости Jupyter по умолчанию отображает только первые и последние пять строк. Мы можем изменить некоторые параметры отображения, чтобы просмотреть все строки. Например:

In [None]:
from IPython.display import display
with pd.option_context('display.max_rows', 100):
    display(covid_df[covid_df['случаи заболевания'] > 100])

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей
1729,Москва,Центральный федеральный округ,25.03.2020,120.0,12692466,
1814,Москва,Центральный федеральный округ,26.03.2020,136.0,12692466,
1886,Москва,Центральный федеральный округ,27.03.2020,157.0,12692466,
1984,Москва,Центральный федеральный округ,28.03.2020,114.0,12692466,
2066,Москва,Центральный федеральный округ,29.03.2020,197.0,12692466,
...,...,...,...,...,...,...
9944,Свердловская область,Уральский федеральный округ,30.06.2020,276.0,4310861,2.0
9954,Ульяновская область,Приволжский федеральный округ,30.06.2020,106.0,1229687,3.0
9956,Ханты-Мансийский АО,Уральский федеральный округ,30.06.2020,279.0,1674086,3.0
9957,Челябинская область,Уральский федеральный округ,30.06.2020,144.0,3466960,


В итоге вы увидите все записи из файла, которые соответствуют указанному условию (работает не везде, все зависит от реализации консоли).

Мы также можем формулировать более сложные запросы, включающие несколько столбцов. В качестве примера попробуем определить дни, когда отношение зарегистрированных случаев к численности населения выше positive_rate (равного 0.01, меньше 1%).

Для нахождения ответа на поставленный вопрос необходимо ввести следующую команду

In [None]:
positive_rate = 0.01

high_ratio_df = covid_df[covid_df['случаи заболевания'] / covid_df.население < positive_rate]

high_ratio_df

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей
115,Московская обл.,Центральный федеральный округ,06.03.2020,5.0,7687647,
118,Нижегородская область,Приволжский федеральный округ,06.03.2020,1.0,3203818,
197,Липецкая область,Центральный федеральный округ,07.03.2020,3.0,1139492,
233,Санкт-Петербург,Северо-Западный федеральный округ,07.03.2020,1.0,5392992,
259,Белгородская область,Центральный федеральный округ,08.03.2020,1.0,1547532,
...,...,...,...,...,...,...
9956,Ханты-Мансийский АО,Уральский федеральный округ,30.06.2020,279.0,1674086,3.0
9957,Челябинская область,Уральский федеральный округ,30.06.2020,144.0,3466960,
9958,Чеченская Республика,Северо-Кавказский федеральный округ,30.06.2020,5.0,1476752,
9960,Ямало-Ненецкий автономный округ,Уральский федеральный округ,30.06.2020,248.0,544008,


Результатом выполнения операции над двумя столбцами является новый ряд (отношение выявленных случаев и численности населения)

In [None]:
covid_df['случаи заболевания'] / covid_df.население

0            NaN
1            NaN
2            NaN
3            NaN
4            NaN
          ...   
9957    0.000042
9958    0.000003
9959         NaN
9960    0.000456
9961    0.000035
Length: 9962, dtype: float64

Мы можем использовать эту серию, чтобы добавить новый столбец во фрейм данных, то есть

In [None]:
covid_df['positive_rate'] = covid_df['случаи заболевания'] / covid_df.население

covid_df

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей,positive_rate
0,Республика Бурятия,Дальневосточный федеральный округ,25.02.2020,,986109,,
1,Алтайский край,Сибирский федеральный округ,25.02.2020,,2317052,,
2,Амурская область,Дальневосточный федеральный округ,25.02.2020,,790676,,
3,Архангельская область,Северо-Западный федеральный округ,25.02.2020,,1092277,,
4,Астраханская область,Южный федеральный округ,25.02.2020,,1005967,,
...,...,...,...,...,...,...,...
9957,Челябинская область,Уральский федеральный округ,30.06.2020,144.0,3466960,,0.000042
9958,Чеченская Республика,Северо-Кавказский федеральный округ,30.06.2020,5.0,1476752,,0.000003
9959,Чукотский АО,Дальневосточный федеральный округ,30.06.2020,,50726,,
9960,Ямало-Ненецкий автономный округ,Уральский федеральный округ,30.06.2020,248.0,544008,,0.000456


Очевидно, что объект covid_df содержит в себе еще один столбец с данными positive_rate

Давайте удалим столбец positive_rate с помощью метода drop.

In [None]:
covid_df.drop(columns=['positive_rate'], inplace=True)

covid_df

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей
0,Республика Бурятия,Дальневосточный федеральный округ,25.02.2020,,986109,
1,Алтайский край,Сибирский федеральный округ,25.02.2020,,2317052,
2,Амурская область,Дальневосточный федеральный округ,25.02.2020,,790676,
3,Архангельская область,Северо-Западный федеральный округ,25.02.2020,,1092277,
4,Астраханская область,Южный федеральный округ,25.02.2020,,1005967,
...,...,...,...,...,...,...
9957,Челябинская область,Уральский федеральный округ,30.06.2020,144.0,3466960,
9958,Чеченская Республика,Северо-Кавказский федеральный округ,30.06.2020,5.0,1476752,
9959,Чукотский АО,Дальневосточный федеральный округ,30.06.2020,,50726,
9960,Ямало-Ненецкий автономный округ,Уральский федеральный округ,30.06.2020,248.0,544008,


## Сортировка строк по значениям столбцов

Строки также можно отсортировать по определенному столбцу с помощью метода .sort_values() . 

Давайте отсортируем на примере одну из колонок , чтобы определить дни с наибольшим количеством случаев, а затем свяжем их с методом head, чтобы вывести только первые несколько результатов.

Это будет выглядеть следующим образом

In [None]:
covid_df.sort_values('случаи заболевания', ascending=False).head(10)

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей
5316,Москва,Центральный федеральный округ,07.05.2020,6703.0,12692466,39.0
5656,Москва,Центральный федеральный округ,11.05.2020,6169.0,12692466,56.0
4976,Москва,Центральный федеральный округ,03.05.2020,5948.0,12692466,34.0
5202,Москва,Центральный федеральный округ,06.05.2020,5858.0,12692466,50.0
5401,Москва,Центральный федеральный округ,08.05.2020,5846.0,12692466,51.0
5113,Москва,Центральный федеральный округ,04.05.2020,5795.0,12692466,35.0
5117,Москва,Центральный федеральный округ,05.05.2020,5714.0,12692466,52.0
5486,Москва,Центральный федеральный округ,09.05.2020,5667.0,12692466,54.0
5571,Москва,Центральный федеральный округ,10.05.2020,5551.0,12692466,58.0
5741,Москва,Центральный федеральный округ,12.05.2020,5392.0,12692466,55.0


Обратите внимание, что результаты были отсортированы по убыванию, так как параметр ascending=False.

Похоже, что в последние две недели мая было наибольшее количество ежедневных случаев. Давайте сравним это с днями, когда было зафиксировано наибольшее количество смертей.

In [None]:
covid_df.sort_values('количество смертей', ascending=False).head(10)

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей
7271,Москва,Центральный федеральный округ,30.05.2020,2367.0,12692466,78.0
6251,Москва,Центральный федеральный округ,18.05.2020,3238.0,12692466,77.0
7441,Москва,Центральный федеральный округ,01.06.2020,2297.0,12692466,76.0
6931,Москва,Центральный федеральный округ,26.05.2020,2830.0,12692466,76.0
7186,Москва,Центральный федеральный округ,29.05.2020,2332.0,12692466,76.0
6421,Москва,Центральный федеральный округ,20.05.2020,2699.0,12692466,75.0
6081,Москва,Центральный федеральный округ,16.05.2020,3505.0,12692466,74.0
6591,Москва,Центральный федеральный округ,22.05.2020,2988.0,12692466,73.0
7016,Москва,Центральный федеральный округ,27.05.2020,2140.0,12692466,73.0
6336,Москва,Центральный федеральный округ,19.05.2020,3545.0,12692466,71.0


Похоже, что ежедневная смертность достигает пика примерно через две недели после пика ежедневных новых случаев.

Давайте также посмотрим на дни с наименьшим количеством случаев. 

In [None]:
covid_df.sort_values('случаи заболевания').head(10)

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей
4821,Республика Алтай,Сибирский федеральный округ,01.05.2020,1.0,220140,
4384,Ненецкий АО,Северо-Западный федеральный округ,26.04.2020,1.0,44110,
2691,Ярославская область,Центральный федеральный округ,05.04.2020,1.0,1253189,
2686,Хабаровский край,Дальневосточный федеральный округ,05.04.2020,1.0,1315310,
2645,Новосибирская область,Сибирский федеральный округ,05.04.2020,1.0,2798251,
4396,Республика Алтай,Сибирский федеральный округ,26.04.2020,1.0,220140,
5708,Чукотский АО,Дальневосточный федеральный округ,11.05.2020,1.0,50726,
2602,Удмуртская Республика,Приволжский федеральный округ,04.04.2020,1.0,1501005,
2597,Тамбовская область,Центральный федеральный округ,04.04.2020,1.0,1006962,
2595,Смоленская область,Центральный федеральный округ,04.04.2020,1.0,934747,


Давайте посмотрим на несколько записей фрейма.

In [None]:
covid_df.loc[6169:6172]

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей
6169,Ненецкий АО,Северо-Западный федеральный округ,17.05.2020,2.0,44110,
6170,Нижегородская область,Приволжский федеральный округ,17.05.2020,281.0,3203818,1.0
6171,Новгородская область,Северо-Западный федеральный округ,17.05.2020,33.0,596173,
6172,Новосибирская область,Сибирский федеральный округ,17.05.2020,70.0,2798251,


Предположим, что нам нужно изменить в данных какое-то значение. Мы можем использовать метод .at для изменения определенного значения во фрейме.

In [None]:
covid_df.at[6170, 'случаи заболевания'] = (covid_df.at[6169, 'случаи заболевания'] + covid_df.at[6171, 'случаи заболевания'])/2

covid_df.loc[6169:6172]

Unnamed: 0,Регион,Федеральный округ,дата,случаи заболевания,население,количество смертей
6169,Ненецкий АО,Северо-Западный федеральный округ,17.05.2020,2.0,44110,
6170,Нижегородская область,Приволжский федеральный округ,17.05.2020,17.5,3203818,1.0
6171,Новгородская область,Северо-Западный федеральный округ,17.05.2020,33.0,596173,
6172,Новосибирская область,Сибирский федеральный округ,17.05.2020,70.0,2798251,


Здесь в краткой форме изложены функции и методы, которые мы рассмотрели в этом разделе:

- **covid_df['случаи заболевания'].sum()** - вычисление суммы значений в столбце или ряду
- **covid_df[covid_df['случаи заболевания'] > 100]** - запрос подмножества строк, удовлетворяющих выбранным критериям, с использованием логических выражений.
- **df['pos_rate'] = df['случаи заболевания']/df.население** - добавление новых столбцов путем объединения данных из существующих столбцов
- **covid_df.drop('positive_rate')** - удаление одного или нескольких столбцов из фрейма данных
- **sort_values** - сортировка строк фрейма данных с использованием значений столбцов
- **covid_df.at[6170, 'случаи заболевания'] = ...** - замена значения в фрейме данных