In [3]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
# Мы будем изучать методы визуализации, используя два набора данных:

# covid_data — данные о показателях заболеваемости за каждый день
# в различных регионах 187 стран. (источник данных)

covid_data = pd.read_csv('data/covid_data.csv')
display(covid_data.head())

Unnamed: 0,date,province/state,country,confirmed,deaths,recovered
0,01/22/2020,Anhui,China,1.0,0.0,0.0
1,01/22/2020,Beijing,China,14.0,0.0,0.0
2,01/22/2020,Chongqing,China,6.0,0.0,0.0
3,01/22/2020,Fujian,China,1.0,0.0,0.0
4,01/22/2020,Gansu,China,0.0,0.0,0.0


In [None]:
# Мы будем работать со следующими столбцами:

# date — дата наблюдения;
# province/state — наименование провинции/штата;
# country — наименование страны;
# confirmed — общее число зафиксированных случаев на указанный день;
# deaths — общее число зафиксированных смертей на указанный день;
# recovered — общее число выздоровлений на указанный день.

In [5]:
# country_vaccinations — данные о процессе вакцинирования людей в 221 стране мира. (источник данных)

# Обратите внимание, что в приведённом источнике данные о вакцинации постоянно обновляются.
# В данном модуле будет использоваться файл, который мы скачали заранее.

vaccinations_data = pd.read_csv('data/country_vaccinations.csv')
vaccinations_data = vaccinations_data[
    ['country', 'date', 'total_vaccinations', 
     'people_vaccinated', 'people_vaccinated_per_hundred',
     'people_fully_vaccinated', 'people_fully_vaccinated_per_hundred',
     'daily_vaccinations', 'vaccines']
]
display(vaccinations_data.head())

# Данная таблица содержит следующие столбцы:

# country — наименование страны;
# date — дата наблюдения;
# total_vaccinations — общее число введённых вакцин в стране на указанный день;
# people_vaccinated — общее число привитых первым компонентом в стране на указанный день;
# people_vaccinated_per_hundred — процент привитых первым компонентом в стране на указанный день (рассчитывается как );
# people_fully_vaccinated — общее число привитых вторым компонентом в стране на указанный день (первый компонент уже был введён им ранее);
# people_fully_vaccinated_per_hundred — процент привитых вторым компонентом в стране на указанный день (рассчитывается как );
# daily_vaccination — ежедневная вакцинация (число вакцинированных в указанный день);
# vaccines — комбинации вакцин, используемые в стране.

Unnamed: 0,country,date,total_vaccinations,people_vaccinated,people_vaccinated_per_hundred,people_fully_vaccinated,people_fully_vaccinated_per_hundred,daily_vaccinations,vaccines
0,Afghanistan,2021-02-22,0.0,0.0,0.0,,,,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
1,Afghanistan,2021-02-23,,,,,,1367.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
2,Afghanistan,2021-02-24,,,,,,1367.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
3,Afghanistan,2021-02-25,,,,,,1367.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."
4,Afghanistan,2021-02-26,,,,,,1367.0,"Johnson&Johnson, Oxford/AstraZeneca, Pfizer/Bi..."


In [None]:
# В таблице covid_data данные о заболеваемости представлены
# для каждого региона (штата) страны за каждый день.
# Например, для США (United States) записи
# за 29 мая 2021 года имеют вид:

# В таблице vaccinations_data параметры вакцинирования отображены 
# для всех стран на каждый день, без учёта регионов. 
# Вот часть таблицы для тех же Соединённых Штатов за 29 мая 2021 года.
# Как видите, она всего одна:

# В данных много пропусков, 
# а также неверно введённых значений. 
# Например, для США (United States) и Великобритании (United Kingdom) в
# большинстве записей таблицы covid_data число выздоровевших людей равно 0.
# В данном модуле мы закроем на это глаза, 
# но вообще эти страны подлежали бы исключению из данных или
# нам понадобился бы дополнительный источник данных, 
# из которого мы смогли бы получить недостающую информацию.

# Обратите внимание, что признаки 
# confirmed, deaths, recovered, total_vaccination, people_vaccinated, people_fully_vaccinated
# — это суммарные показатели по стране, то есть с каждым днём они должны расти.
# Такие признаки называют накопительными.

# Возникает большое желание объединить таблицы. Для этого необходимо учитывать следующие нюансы:

#1 В таблице covid_data необходимо предварительно рассчитать
# суммарное ежедневное число заболевших во всех провинциях/штатах в каждой стране.

# 2 В таблицах не совпадает число стран, а иногда и их названия. 

# При объединении таблиц по столбцу мы определённо 
# теряем данные (в данной задаче потери незначительны). 
# Избежать этого можно ручными преобразованиями данных — 
# искать различия в названиях стран в таблицах и преобразовывать их. 
# Однако это не является темой данного модуля.

# 3 Таблицы имеют разные периоды наблюдений (вакцины появились позже, чем сам вирус). 
# Объединив данные с типом inner, мы можем потерять большое количество наблюдений в таблице covid_data.

In [6]:
# ПРЕДОБРАБОТКА ДАННЫХ

# Опираясь на замечания выше, выполним небольшую предобработку.

# В таблице covid_data:

#1 Группируем таблицу по дате и названию страны 
# и рассчитываем суммарные показатели по всем регионам. 
# Тем самым переходим от данных по регионам к данным по странам:

covid_data = covid_data.groupby(
    ['date', 'country'], 
    as_index=False
)[['confirmed', 'deaths', 'recovered']].sum()

In [7]:
# 2 Преобразуем даты в формат datetime с помощью функции pd.to_datetime():

covid_data['date'] = pd.to_datetime(covid_data['date'])

In [8]:
# 3 Создадим признак больных на данный момент (active).
# Для этого вычтем из 
# общего числа зафиксированных случаев
# число смертей и число выздоровевших пациентов:

covid_data['active'] = covid_data['confirmed'] - covid_data['deaths'] - covid_data['recovered']

In [10]:
# 4 Создадим признак ежедневного прироста числа 
# заболевших,
# умерших 
# и выздоровевших людей. 
# Для этого отсортируем данные 
# по названиям стран,
# а затем по датам. 
# 
# После этого произведём группировку по странам 
# и рассчитаем разницу между «вчера и сегодня» с помощью метода diff():

covid_data = covid_data.sort_values(by=['country', 'date'])
covid_data['daily_confirmed'] = covid_data.groupby('country')['confirmed'].diff()
covid_data['daily_deaths'] = covid_data.groupby('country')['deaths'].diff()
covid_data['daily_recovered'] = covid_data.groupby('country')['recovered'].diff()

In [11]:
# Итоговый вид таблицы covid_data:
display(covid_data.sort_values(by='date'))

Unnamed: 0,date,country,confirmed,deaths,recovered,active,daily_confirmed,daily_deaths,daily_recovered
4056,2020-01-22,Japan,2.0,0.0,0.0,2.0,,,
4055,2020-01-22,Hong Kong,0.0,0.0,0.0,0.0,,,
4054,2020-01-22,China,547.0,17.0,28.0,502.0,,,
4061,2020-01-22,Thailand,4.0,0.0,2.0,2.0,,,
4060,2020-01-22,Taiwan,1.0,0.0,0.0,1.0,,,
...,...,...,...,...,...,...,...,...,...
45506,2021-05-29,Serbia,712046.0,6844.0,0.0,705202.0,274.0,10.0,0.0
45490,2021-05-29,Peru,1947555.0,68978.0,1897522.0,-18945.0,5501.0,162.0,4728.0
45433,2021-05-29,Iran,2893218.0,79741.0,2425033.0,388444.0,7107.0,173.0,14781.0
45523,2021-05-29,Syria,24440.0,1763.0,21593.0,1084.0,30.0,5.0,5.0


In [12]:
# В таблице vaccinations_data достаточно будет 
# преобразовать столбцы в формат datetime:

vaccinations_data['date'] = pd.to_datetime(vaccinations_data['date'])
display(vaccinations_data.sort_values(by='date'))

Unnamed: 0,country,date,total_vaccinations,people_vaccinated,people_vaccinated_per_hundred,people_fully_vaccinated,people_fully_vaccinated_per_hundred,daily_vaccinations,vaccines
28893,Norway,2020-12-02,0.0,0.0,0.00,,,,"Moderna, Pfizer/BioNTech"
28894,Norway,2020-12-03,0.0,0.0,0.00,,,0.0,"Moderna, Pfizer/BioNTech"
21214,Latvia,2020-12-04,1.0,1.0,0.00,,,,"Johnson&Johnson, Moderna, Oxford/AstraZeneca, ..."
28895,Norway,2020-12-04,0.0,0.0,0.00,,,0.0,"Moderna, Pfizer/BioNTech"
21215,Latvia,2020-12-05,,,,,,0.0,"Johnson&Johnson, Moderna, Oxford/AstraZeneca, ..."
...,...,...,...,...,...,...,...,...,...
29639,Pakistan,2021-09-06,63319214.0,48106755.0,21.36,20058377.0,8.91,1182525.0,"CanSino, Covaxin, Moderna, Oxford/AstraZeneca,..."
6809,Canada,2021-09-06,53829771.0,28120156.0,73.87,25709615.0,67.54,81797.0,"Moderna, Oxford/AstraZeneca, Pfizer/BioNTech"
30024,Panama,2021-09-06,4711715.0,2819641.0,64.35,1892074.0,43.18,50933.0,"Oxford/AstraZeneca, Pfizer/BioNTech"
36494,South Sudan,2021-09-06,59865.0,53147.0,0.47,6718.0,0.06,388.0,Oxford/AstraZeneca


In [None]:
# Задание 3.1
# 1 point possible (graded)
# За какой период представлены данные в таблице covid_data?
# В качестве ответа введите даты в формате datetime (без указания времени).
# Введите ответ в следующем формате (без пробелов): ГГГГ-ММ-ДД-ГГГГ-ММ-ДД
#   Ответ:2020-01-22-2021-05-29 

In [None]:
# Задание 3.2
# 1/1 point (graded)
# За какой период представлены данные в таблице vaccinations_data? 
# В качестве ответа введите даты в формате datetime без указания времени.
# Введите ответ в следующем формате (без пробелов): ГГГГ-ММ-ДД-ГГГГ-ММ-ДД
#   Ответ:2020-12-02-2021-09-06

In [13]:
# Задание 3.3
# 
# С помощью метода merge() 
# объедините таблицы covid_data и vaccinations_data по столбцам
# date и country.
# 
# Тип объединения выставьте так, 
# чтобы в результирующую таблицу попали только наблюдения за период, 
# вычисленный в задании 3.1. 
# 
# 2020-01-22-2021-05-29

# То есть в результирующую таблицу должны попасть 
# все записи из таблицы covid_data и из её пересечения с vaccinations_data, но не более. 
# Результат объединения занесите в переменную covid_df.
#
# Сохраните таблицу covid_df — она понадобится нам в следующем юните.

covid_df = covid_data.merge(
    vaccinations_data,
    on= ['date','country'],
    how='left'
)
display(covid_df)
# Сколько строк и столбцов в таблице covid_df?

# Введите ответ в виде двух чисел через дефис (например, 333-33): 
# первое число — количество строк,
# второе число — количество столбцов.

Unnamed: 0,date,country,confirmed,deaths,recovered,active,daily_confirmed,daily_deaths,daily_recovered,total_vaccinations,people_vaccinated,people_vaccinated_per_hundred,people_fully_vaccinated,people_fully_vaccinated_per_hundred,daily_vaccinations,vaccines
0,2020-02-24,Afghanistan,1.0,0.0,0.0,1.0,,,,,,,,,,
1,2020-02-25,Afghanistan,1.0,0.0,0.0,1.0,0.0,0.0,0.0,,,,,,,
2,2020-02-26,Afghanistan,1.0,0.0,0.0,1.0,0.0,0.0,0.0,,,,,,,
3,2020-02-27,Afghanistan,1.0,0.0,0.0,1.0,0.0,0.0,0.0,,,,,,,
4,2020-02-28,Afghanistan,1.0,0.0,0.0,1.0,0.0,0.0,0.0,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
86780,2020-03-12,occupied Palestinian territory,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,
86781,2020-03-14,occupied Palestinian territory,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,
86782,2020-03-15,occupied Palestinian territory,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,
86783,2020-03-16,occupied Palestinian territory,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,


In [14]:

# В получившейся в задании 3.3 таблице covid_df 
# создайте признаки 
# death_rate — общий процент смертей среди зафиксированных случаев (летальность)
# и recover_rate — общий процент случаев выздоровления. 
# 
# Данные характеристики рассчитайте как отношение 
# числа смертей (deaths) и числа выздоровлений (recovered)
# к числу зафиксированных случаев (confirmed) и умножьте результаты на 100%.

covid_df['death_rate'] = covid_df['deaths']/covid_df['confirmed']*100
covid_df['recover_rate'] = covid_df['deaths']/covid_df['confirmed']*100
display(covid_df)

Unnamed: 0,date,country,confirmed,deaths,recovered,active,daily_confirmed,daily_deaths,daily_recovered,total_vaccinations,people_vaccinated,people_vaccinated_per_hundred,people_fully_vaccinated,people_fully_vaccinated_per_hundred,daily_vaccinations,vaccines,death_rate,recover_rate
0,2020-02-24,Afghanistan,1.0,0.0,0.0,1.0,,,,,,,,,,,0.0,0.0
1,2020-02-25,Afghanistan,1.0,0.0,0.0,1.0,0.0,0.0,0.0,,,,,,,,0.0,0.0
2,2020-02-26,Afghanistan,1.0,0.0,0.0,1.0,0.0,0.0,0.0,,,,,,,,0.0,0.0
3,2020-02-27,Afghanistan,1.0,0.0,0.0,1.0,0.0,0.0,0.0,,,,,,,,0.0,0.0
4,2020-02-28,Afghanistan,1.0,0.0,0.0,1.0,0.0,0.0,0.0,,,,,,,,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
86780,2020-03-12,occupied Palestinian territory,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,,
86781,2020-03-14,occupied Palestinian territory,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,,
86782,2020-03-15,occupied Palestinian territory,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,,
86783,2020-03-16,occupied Palestinian territory,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,,,,,,


In [15]:
%store covid_df

Stored 'covid_df' (DataFrame)


In [33]:
# Задание 3.4
# 1 point possible (graded)
# Какова максимальная летальность в США (United States) за весь период?
# Ответ округлите до второго знака после запятой.
covid_df[covid_df['country']=='United States']['death_rate'].max().round(2)

#covid_df.pivot_table(
    #values='death_rate',
    #index='country',
    #columns='death_rate',
    #aggfunc='max'
#)



7.19

In [37]:
# Задание 3.5
# 1 point possible (graded)
# Чему равен средний процент выздоровевших в России (Russia)?
# Ответ округлите до второго знака после запятой.
covid_df[covid_df['country']=='Russia']['recover_rate'].mean().round(2)

1.5

In [38]:
round(covid_df[covid_df['country'] == 'Russia']['recover_rate'].mean(), 2)

1.5