In [None]:
# ЛИНЕЙНЫЙ ГРАФИК (LINEPLOT)

# Это самый простой тип графика. Вы, несомненно, рисовали такие на уроках математики в школе.

# Линейный график представляет собой последовательность точек, соединённых линией. 
# Каждая точка — это пара координат x и y, которые отображены по осям абсцисс и ординат (в двумерном случае). 

# На практике, в Data Science такие графики чаще всего используются для визуализации временных рядов, 
# например чтобы отследить динамику продаж во времени, число активных пользователей по дням, изменение курса валют и акций.

# График бывает особенно полезен, когда вы пытаетесь спрогнозировать ряд и вам необходимо увидеть свой прогноз на графике 
# и сравнить его с действительностью.

# Несмотря на свою простоту, при правильном применении линейный график может быть очень информативным и полезным: 
# он позволяет выявить тенденцию движения показателя и найти ключевые точки его роста или падения.

# ПРИМЕР:

# Ниже представлен график динамики продаж видеоигр в зависимости от региона. 
# По оси ординат отложено число проданных дисков с видеоиграми (в миллионах) в различных регионах 
# (NA — Северная Америка, EU — Европа, JP — Япония, Other — другие регионы, Global — во всём мире), по оси абсцисс — год выпуска игры.
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

vg_data = pd.read_csv('data/Video_Games_Sales_as_at_22_Dec_2016.csv')
dinamic_by_region = vg_data[
        ['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales', 'Year_of_Release']
    ].groupby('Year_of_Release').sum()

fig = plt.figure(figsize=(12, 6))
lineplot = sns.lineplot(data=dinamic_by_region)
lineplot.set_title('Динамика продаж видеоигр', fontsize=16);
lineplot.set_xlabel('Год выпуска');
lineplot.set_ylabel('Суммарный объём продаж');

In [None]:
# ГИСТОГРАММА (HISTOGRAM)

# Гистограмма — это способ визуализации частоты попадания признака в некоторый численный интервал. 
# Гистограмма состоит из прямоугольников, расположенных вдоль оси x.

# Ось разбита на интервалы, их ещё называют корзинами (bins), их число задаётся пользователем. 
# Ширина интервалов одинакова и задаёт ширину прямоугольника.

# По оси y откладывается высота прямоугольника — количество наблюдений, которые попали в интервал. 
# Чем выше столбик, тем больше наблюдений находятся в интервале.

# Гистограммы часто используются для оценки распределения числового признака, например мы можем понять, 
# как распределены цены на товары, число шагов, которые делает пользователь умных часов, масса метеоритов, падающих на землю.

# ПРИМЕР:

# Ниже приведено два вида гистограмм с общей осью.

# Верхняя гистограмма описывает общее распределение стоимости недвижимости в Мельбурне. В
# есь диапазон цен разбит на 30 равных интервалов. На каждом интервале строится прямоугольник, 
# его высота — число объектов, стоимость которых лежит в этом интервале.

# Нижняя гистограмма описывает то же распределение, но с учётом типов недвижимости. 
# Здесь число объектов, попавших в корзину, обозначается интенсивностью цвета: чем темнее полоса, 
# тем больше в данных объектов с ценой из этого интервала.
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

melb_data = pd.read_csv('data/melb_data.csv')

fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(12, 10))
plt.subplots_adjust(hspace=.0)

histplot1 = sns.histplot(
    data=melb_data, 
    x='Price', 
    bins=30,
    ax=axes[0],
)
histplot1.set_title('Распределение стоимости недвижимости в Мельбурне', fontsize=16);
histplot1.set_xlabel('Цена объекта (млн. австралийских долларов)');
histplot1.set_ylabel('Число объектов');

histplot2 = sns.histplot(
    data=melb_data,
    x='Price',
    y='Type',
    bins=30,
    color='green',
    ax=axes[1]
)
histplot2.set_xlabel('Цена объекта (млн. австралийских долларов)');
histplot2.set_ylabel('Тип объекта');

In [None]:
# ДИАГРАММА РАССЕЯНИЯ (SCATTERPLOT)

# Другое название этого графика — точечная диаграмма.

# График представляет собой облака точек: по оси абсцисс откладывается одна числовая переменная, 
# по оси ординат — вторая, а каждая точка на графике — это запись из таблицы.

# Диаграммы рассеяния являются стандартным средством визуализации связи между двумя числовыми переменными. 
# Однако через настройки графика в исследование зависимости можно добавить и несколько категориальных переменных.

# Диаграммы рассеяния являются мощным инструментом, который очень широко используется в Data Science. 
# С их помощью мы можем увидеть, как зависит (или не зависит) давление от возраста пациента, 
# объём продаж товаров от количества показанной рекламы и т. д.

# Оценив взаимосвязь признаков, мы можем принять решение об использовании какого-то из признаков для предсказания.

# ПРИМЕР:

# Окунёмся немного в орнитологию. 
# На диаграмме рассеяния ниже показана зависимость длины крыльев пингвинов от длины их клюва в миллиметрах. 
# При этом цвет точки на графике зависит от вида пингвина, а размер точки — от пола птицы. 
# Итого на одном графике уместилась зависимость сразу между четырьмя признаками! И это ещё не предел.

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

penguins_df = sns.load_dataset("penguins")

fig = plt.figure(figsize=(10, 5))

scatterplot = sns.scatterplot(
    data=penguins_df,
    x='bill_length_mm',
    y='flipper_length_mm',
    hue='species',
    s=100,
    size='sex',
    sizes=(50, 300)

)
scatterplot.set_title('Взаимосвязь размеров параметров тела разных видов пингвинов', fontsize=16);
scatterplot.set_xlabel('Длина клюва');
scatterplot.set_ylabel('Длина крыльев');

In [None]:
# КРУГОВАЯ ДИАГРАММА (PIE CHART)

# Синонимичные названия диаграммы — пироговая диаграмма и секторная диаграмма.

# Круговая диаграмма представляет собой круг, разделённый на секторы. Весь круг составляет 100 %. 
# Каждый из секторов отображает долю одной из категорий в данных, размер сектора соответствует части целого от круга.

# Диаграмма является способом визуализации для категориального признака: например, 
# можно визуализировать и сравнивать доли от выручки, которые делает каждый продавец. 

# Круговые диаграммы наглядны, когда нужно показать, как делится на части что-либо целое: например, 
# так можно визуализировать вклад каждого из продавцов в выручку магазина. Однако круговые диаграммы неудобны, 
# когда рассматривается больше одного признака — в этом случае приходится добавлять отдельную диаграмму. 
# Из-за большей информативности столбчатых диаграмм специалисты склонны выбирать именно их.

# ПРИМЕР:

# Перед вами диаграмма количества погибших главных и второстепенных персонажей в сериале «Игра престолов» 
# в зависимости от их верности какому-либо из домов. На диаграмме изображены названия семи домов 
# (None — персонаж не принадлежал к определённому дому), а внутри секторов указано количество погибших персонажей в процентах.

import matplotlib.pyplot as plt
import pandas as pd

game_of_thrones_df = pd.read_csv('data/character-deaths.csv')
game_of_thrones_df['Allegiances'] = game_of_thrones_df['Allegiances'].str.replace('House ', '')
fig = plt.figure(figsize=(12, 6))
ax = fig.add_axes((1, 1, 1, 1))
deaths_count = game_of_thrones_df['Allegiances'].value_counts().sort_values(ascending=False).head(7)
pie = ax.pie(
    deaths_count,
    labels=deaths_count.index,
    autopct='%1.1f%%',
    startangle=90
)
title = ax.set_title('Смертность персонажей в GoT в зависимости от их верности', fontsize=16)
plt.show(pie)

In [None]:
# СТОЛБЧАТАЯ ДИАГРАММА (BAR CHART)

# Столбчатая диаграмма также максимально проста: по оси x откладывается некоторый категориальный признак, 
# для каждой категории которого рассчитан некоторый показатель (средняя цена товаров, медианная стоимость нефти, 
# максимальная зафиксированная концентрация газа). Высота столбца и есть значение этого показателя. 

# Основное применение столбчатых диаграмм в Data Science — сравнение категорий друг с другом. 
# Например, сравнение ресторанов по суммарной прибыли, сравнение средних расходов пользователей, 
# сравнение медианной стоимости квартир по районам и т. д.

# Преимущество столбчатых диаграмм над круговыми в том, что в столбчатые диаграммы можно добавлять разделение 
# по другим категориальным признакам и рассматривать совместное распределение показателей, 
# тем самым повышая информативность. Такие диаграммы называются многоуровневыми.

# ПРИМЕР:

# В качестве примера приведём две диаграммы стоимости женского нижнего белья на сайте Amazon.

# На левой диаграмме изображены средние цены товаров для каждого бренда. 
# На правой диаграмме изображены те же цены, но с разделением цветом по категориям товаров 
# (Bras — бюстгальтеры, Panties — трусы). Правая диаграмма является многоуровневой столбчатой диаграммой.
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

amazon_data = pd.read_csv('data/amazon_com.csv')

def replace_url(brand_name):
    if 'ref=' in brand_name:
        if 'Calvin' in brand_name:
            return 'Calvin-Klein'
        elif 'Wacoal' in brand_name:
            return 'Wacoal'
        else:
            return 'b.tempt'
    else:
        return brand_name
    
amazon_data['brand_name'] = amazon_data['brand_name'].apply(replace_url)
amazon_data['price'] = amazon_data['price'].str.replace('$', '').astype('float64')
amazon_data['brand_name'].unique()
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(20, 7))
barplot1 = sns.barplot(
    data=amazon_data,
    x='brand_name',
    y='price',
    orient='v',
    ax = axes[0],
    ci=None
)
barplot1.tick_params(axis='x', rotation=70);
barplot1.set_title('Средняя стоимость товаров по брендам', fontsize=16);
barplot1.set_xlabel('Название бренда', fontsize=14);
barplot1.set_ylabel('Средняя цена', fontsize=14);
barplot1.grid();

barplot2 = sns.barplot(
    data=amazon_data,
    x='brand_name',
    y='price',
    hue='product_category',
    orient='v',
    ax = axes[1],
    ci=None,
    dodge=False
)
barplot2.tick_params(axis='x', rotation=70);
barplot2.set_title('Средняя стоимость товаров по брендам и категориям', fontsize=16);
barplot2.set_xlabel('Название бренда', fontsize=14);
barplot2.set_ylabel('Средняя цена', fontsize=14);
barplot2.grid();

In [None]:
# ТЕПЛОВАЯ КАРТА (HEATMAP)

# Тепловая карта — это графическое представление некоторой таблицы, 
# где значения в ячейках выделяются определённым цветом или интенсивностью цвета. 
# Таблицей может быть как DataFrame, так и, например, изображение.

# Способы применения тепловых карт разнообразны: 
# от визуализации категорий объектов на изображениях до графического представления матриц.

# При исследовании табличных данных тепловые карты чаще всего применяются для визуализации сводных таблиц.

# ПРИМЕР:

# Ниже представлена тепловая карта ежедневной активности 
# в Twitter Дональда Трампа и Джо Байдена перед американскими президентскими выборами в 2020 году.

# На оси абсцисс отложены минуты, а на оси ординат — часы. 
# Квадраты тепловых карт окрашены в соответствии с тем, сколько твитов было выложено кандидатами 
# в каждую часовую/минутную ячейку за указанный период. Сбоку находится легенда, 
# которая показывает соотношения цвета и количества твитов.
tweets_df = pd.read_csv("https://bit.ly/3cngqgL", 
                 parse_dates=['date_utc'], 
                 dtype={'hour_utc':int,'minute_utc':int,'id':str}
                )
g = tweets_df.groupby(['hour_utc','minute_utc','username'])
tweet_cnt = g.id.nunique()
jb_tweet_cnt = tweet_cnt.loc[:,:,'JoeBiden'].reset_index().pivot_table(index='hour_utc', columns='minute_utc', values='id', fill_value=0)
dt_tweet_cnt = tweet_cnt.loc[:,:,'realDonaldTrump'].reset_index().pivot_table(index='hour_utc', columns='minute_utc', 
values='id', fill_value=0)
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(16, 12))
jb_heatmap = sns.heatmap(
    jb_tweet_cnt,
    linewidth=1,
    linecolor='w',
    cmap='viridis',
    ax = axes[0]
)
jb_heatmap.set_title('@JoeBiden');
jb_heatmap.set_xlabel('Минута часа');
jb_heatmap.set_ylabel('Час дня');

dt_heatmap = sns.heatmap(
    dt_tweet_cnt,
    linewidth=1,
    linecolor='w',
    cmap='viridis',
    ax = axes[1]
)

dt_heatmap.set_title('@realDonaldTrump');
dt_heatmap.set_xlabel('Минута часа');
dt_heatmap.set_ylabel('Час дня');

In [None]:
# КОРОБЧАТАЯ ДИАГРАММА (BOXPLOT, BOX AND WHISKER PLOT)

# Синонимичные названия диаграммы — ящик с усами и диаграмма размаха.

# Коробчатые диаграммы, которые были введены в употребление Джоном Тьюки в 1977 году, 
# являются новым типом диаграмм для исследования распределения числового признака по отношению к предыдущим. 
# Диаграмма основана на понятии квантилей.


# Для построения коробчатой диаграммы надо знать три характеристики:

# — 25 % квантиль;
# — 50 % квантиль, или медиана;
# — 75 % квантиль.
# Основные составляющие графика:

# 1
# Ящик, или коробка. Левая граница коробки соответствует значению , правая — , 
# а линия внутри коробки — медиане. Ширина ящика называется межквартильным размахом (Interquartile range) и вычисляется как .

# 2
# Усы ящика, длина которых равна . Крайние точки усов часто обозначаются 
# в литературе как min и max и называются границами распределения. 
# Фактически эти точки не всегда являются истинными минимумом и максимумом признака.

# 3
# Потенциальные выбросы — точки, лежащие за пределами границ.

# Согласно теории Тьюки, эти точки следует считать аномалиями и они подлежат исключению из данных. 
# Однако на практике так бывает не всегда, и необходимо проводить дополнительное исследование. 
# Об этом мы будем говорить подробнее в модуле по очистке данных.

# Коробчатые диаграммы часто используются для поиска потенциальных выбросов в данных, 
# а также для сравнения показателей нескольких распределений друг с другом: например, 
# можно визуально сравнить медианные стоимости товаров разных магазинов или размах цен на квартиры в районах Москвы (размеры ящиков).

# Коробчатые диаграммы часто являются более совершенными аналогами гистограмм.

# ПРИМЕР:

# Коробчатая диаграмма ниже иллюстрирует зависимость возраста пользователей компании CitiBike от типа пользователя 
# (Customer — клиент с подпиской на 24 часа или на три дня, Subscriber — подписчик с годовой арендой велосипеда).

import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
url = 'https://drive.google.com/file/d/1A-HHAaMQtU-ZAc65b0yWqc4fDlwMlYw6/view?usp=sharing'
file_id = url.split('/')[-2]
dwn_url = 'https://drive.google.com/uc?export=download&id='+file_id
citibike_df = pd.read_csv(dwn_url)

citibike_df['age'] = 2018 - citibike_df['birth year']
fig = plt.figure(figsize=(12, 6))
boxplot = sns.boxplot(data=citibike_df, x='age', y='usertype')
boxplot.set_title('Boxplot для возраста пользователей приложения CitiBike', fontsize=16);
boxplot.set_xlabel('Возраст пользователя');
boxplot.set_ylabel('Тип пользователя');

### 3. Знакомимся с новыми данными: коронавирус

In [None]:
covid_data = pd.read_csv('data/covid_data.csv')
covid_data.head()

In [None]:
# Мы будем работать со следующими столбцами:

# date — дата наблюдения;
# province/state — наименование провинции/штата;
# country — наименование страны;
# confirmed — общее число зафиксированных случаев на указанный день;
# deaths — общее число зафиксированных смертей на указанный день;
# recovered — общее число выздоровлений на указанный день.

# country_vaccinations — данные о процессе вакцинирования людей в 221 стране мира. (источник данных)

# Обратите внимание, что в приведённом источнике данные о вакцинации постоянно обновляются. 
# В данном модуле будет использоваться файл, который мы скачали заранее.

vaccinations_data = pd.read_csv('data/country_vaccinations.csv')
vaccinations_data = vaccinations_data[
    ['country', 'date', 'total_vaccinations', 
     'people_vaccinated', 'people_vaccinated_per_hundred',
     'people_fully_vaccinated', 'people_fully_vaccinated_per_hundred',
     'daily_vaccinations', 'vaccines']
]

# Данная таблица содержит следующие столбцы:

# country — наименование страны;
# date — дата наблюдения;
# total_vaccinations — общее число введённых вакцин в стране на указанный день;
# people_vaccinated — общее число привитых первым компонентом в стране на указанный день;
# people_vaccinated_per_hundred — процент привитых первым компонентом в стране на указанный день (рассчитывается как );
# people_fully_vaccinated — общее число привитых вторым компонентом в стране на указанный день 
# (первый компонент уже был введён им ранее);
# people_fully_vaccinated_per_hundred — процент привитых вторым компонентом в стране на указанный день (рассчитывается как );
# daily_vaccination — ежедневная вакцинация (число вакцинированных в указанный день);
# vaccines — комбинации вакцин, используемые в стране.

# ПРЕДОБРАБОТКА ДАННЫХ

# Опираясь на замечания выше, выполним небольшую предобработку.

# В таблице covid_data:

# 1
# Группируем таблицу по дате и названию страны и рассчитываем суммарные показатели по всем регионам. 
# Тем самым переходим от данных по регионам к данным по странам:
covid_data = covid_data.groupby(
    ['date', 'country'], 
    as_index=False
)[['confirmed', 'deaths', 'recovered']].sum()
# 2
# Преобразуем даты в формат datetime с помощью функции pd.to_datetime():
covid_data['date'] = pd.to_datetime(covid_data['date'])

# 3
# Создадим признак больных на данный момент (active). Для этого вычтем из общего числа зафиксированных случаев число смертей 
# и число выздоровевших пациентов:
covid_data['active'] = covid_data['confirmed'] - covid_data['deaths'] - covid_data['recovered']

# 4
# Создадим признак ежедневного прироста числа заболевших, умерших и выздоровевших людей. 
# Для этого отсортируем данные по названиям стран, а затем по датам. После этого произведём группировку по странам 
# и рассчитаем разницу между «вчера и сегодня» с помощью метода diff():
covid_data = covid_data.sort_values(by=['country', 'date'])
covid_data['daily_confirmed'] = covid_data.groupby('country')['confirmed'].diff()
covid_data['daily_deaths'] = covid_data.groupby('country')['deaths'].diff()
covid_data['daily_recovered'] = covid_data.groupby('country')['recovered'].diff()

# В таблице vaccinations_data достаточно будет преобразовать столбцы в формат datetime:
vaccinations_data['date'] = pd.to_datetime(vaccinations_data['date'])

In [None]:
# ЗАДАНИЕ 3.1
# За какой период представлены данные в таблице covid_data? В качестве ответа введите даты в формате datetime (без указания времени).
print(f"Данные о заболеваемости предоставлены от {covid_data['date'].min()} до {covid_data['date'].max()}")

# ЗАДАНИЕ 3.2
# За какой период представлены данные в таблице vaccinations_data? В качестве ответа введите даты в формате datetime 
# без указания времени.
print(f"Данные о вакцинации предоставлены от {vaccinations_data['date'].min()} до {vaccinations_data['date'].max()}")

# ЗАДАНИЕ 3.3
# С помощью метода merge() объедините таблицы covid_data и vaccinations_data по столбцам date и country.
# Тип объединения выставьте так, чтобы в результирующую таблицу попали только наблюдения за период, 
# вычисленный в задании 3.1. То есть в результирующую таблицу должны попасть все записи из таблицы covid_data
# и из её пересечения с vaccinations_data, но не более. Результат объединения занесите в переменную covid_df.
covid_df = covid_data.merge(vaccinations_data, on=['date', 'country'], how='left')
print('Число строк: ', covid_df.shape[0])
print('Число столбцов: ', covid_df.shape[1])

# ЗАДАНИЕ 3.4
# Какова максимальная летальность в США (United States) за весь период? Ответ округлите до второго знака после запятой.
covid_df['death_rate'] = covid_df['deaths'] / covid_df['confirmed'] * 100
covid_df['recover_rate'] = covid_df['recovered'] / covid_df['confirmed'] * 100
round(covid_df[covid_df['country'] == 'United States']['death_rate'].max(), 2)

# ЗАДАНИЕ 3.5
# Чему равен средний процент выздоровевших в России (Russia)? Ответ округлите до второго знака после запятой.
round(covid_df[covid_df['country'] == 'Russia']['recover_rate'].mean(), 2)

### 4. Графические возможности библиотеки Pandas

In [None]:
# БАЗОВАЯ ВИЗУАЛИЗАЦИЯ В PANDAS

# Основным методом для создания простейших графиков в Pandas является plot().

# Основные параметры метода plot()
# Давайте попрактикуемся в использовании метода plot().

# Начнём с исследования заболеваемости коронавирусом во всём мире. 
# Для этого первым делом отобразим, как менялось ежедневное число заболевших (daily_confirmed) 
# во всём мире во времени. Далее сгруппируем таблицу по датам и подсчитаем суммарное число зафиксированных случаев по дням.

# Теперь мы наконец можем построить график с помощью метода plot(). Будем использовать линейный график размером 12x4 
# (попробуйте взять другие числа, чтобы увидеть разницу). Подпишем график и отобразим сетку. 
# Параметр lw (line width) отвечает за ширину линии для линейного графика.

grouped_cases = covid_df.groupby('date')['daily_confirmed'].sum()
grouped_cases.plot(
    kind='line',
    figsize=(12, 4),
    title='Ежедневная заболеваемость во времени',
    grid = True,
    lw=3
);

In [None]:
# Теперь построим гистограмму, которая покажет распределение ежедневной заболеваемости во всём мире. 
# Для этого параметр kind выставляем на значение 'hist'. 
# Параметр bins (корзины) отвечает за число прямоугольников в гистограмме — пусть их будет 10 
# (попробуйте использовать другие числа, чтобы увидеть разницу).

grouped_cases.plot(
    kind='hist',
    figsize=(10, 6),
    title='Распределение ежедневной заболеваемости',
    grid = True,
    color = 'black',
    bins=10
);

In [None]:
# Давайте построим столбчатую диаграмму, которая покажет ТОП-10 стран по суммарной заболеваемости.

# Для этого сгруппируем данные по странам и вычислим последний зафиксированный показатель 
# с помощью агрегирующего метода last() — он возвращает последнее значение в столбце DataFrame.

# Для построения столбчатой диаграммы значение параметра kind выставляем на 'bar'. 
# Параметр colormap отвечает за цветовую гамму графика.

grouped_country = covid_df.groupby(['country'])['confirmed'].last()
grouped_country = grouped_country.nlargest(10)
grouped_country.plot(
    kind='bar',
    grid=True,
    figsize=(12, 4),
    colormap='plasma'
);

In [None]:
# А теперь посмотрим, как в этих десяти странах соотносится количество заболевших и умерших от вируса. 
# Для этого отобразим сразу два показателя на столбчатой диаграмме: 

grouped_country = covid_df.groupby(['country'])[['confirmed', 'deaths']].last()
grouped_country = grouped_country.nlargest(10, columns=['confirmed'])
grouped_country.plot( 
    kind='bar', 
    grid=True, 
    figsize=(12, 4), 
);

### 5. Графические возможности библиотеки Matplotlib

In [None]:
# НЕМНОГО О БИБЛИОТЕКЕ

# Matplotlib — это библиотека Python, обладающая большим количеством возможностей для визуализации 
# и настройки отображения графиков и диаграмм.

# Для установки библиотеки введите в командную строку (или командную строку Anaconda) следующее:

# pip install matplotlib
# На самом деле мы с вами уже использовали Matplotlib — встроенная визуализация в Pandas полностью основана на данной библиотеке. 
# Однако визуализация в Matplotlib не ограничивается только DataFrame: 
# c помощью Matplotlib можно визуализировать любые последовательности (списки, словари, NumPy-массивы).

# К тому же инструментарий библиотеки поможет вам расширить ваши возможности визуализации, 
# управляя параметрами настройки графиков вручную.

# За визуализацию графиков в Matplotlib отвечает модуль pyplot. 
# Традиционно он импортируется под псевдонимом plt. Для более корректного отображения графиков в ноутбуках используется 
# команда %matplotlib inline.

import matplotlib.pyplot as plt
%matplotlib inline
# Примечание. Если вы используете тёмную тему в VS Code, 
# то для корректного отображения графиков на тёмном фоне выполните следующую команду по установке стиля отображения:
plt.style.use('default')

In [None]:
# ОСНОВНЫЕ ОБЪЕКТЫ MATPLOTLIB

# Библиотека Matplotlib позволяет работать в нескольких режимах. 
# Самый распространённый и мощный по функционалу — объектно-ориентированный режим. 
# Он основан на работе с объектами фигур (figure, их ещё называют канвасами или холстами) 
# и координатных плоскостей (axes, или системы координат).

# Процесс работы над графиком максимально прозрачен: сначала создаётся объект фигуры (fig), 
# содержащий необходимую информацию и настройки, например размер в дюймах (figsize, 
# восемь дюймов в ширину, четыре — в высоту). К этому объекту с помощью метода add_axes() добавляется координатная плоскость, 
# а на ней располагаются графические объекты. Для создания координатной плоскости необходимо указать её расположение на фигуре 
# в виде списка из координат. В нашем случае она начинается в левом нижнем углу без отступов (координаты 0, 0) 
# и занимает всё отведённое место в области (100%, ширина и высота равны 1).

fig = plt.figure(figsize=(8, 4))
axes = fig.add_axes([0, 0, 1, 1])

In [None]:
# Теперь на созданной системе координат мы можем построить график. 

# Утверждается, что коллективная вакцинация позволяет минимизировать риск заражения коронавирусной инфекцией 
# (но только после второго компонента). Давайте проверим это на примере США: построим диаграмму рассеяния,
# которая покажет зависимость числа ежедневно обнаруживаемых случаев заражения (daily_confirmed) 
# от общего количества привитых вторым компонентом вакцины (people_fully_vaccinated) в США.

# У объекта координатной плоскости axes вызовем метод scatter().

# x, y — последовательности, которые будут отложены по осям абсцисс и ординат;
# s — размер маркеров;
# marker — вид маркеров ('o' — точки, '^' — треугольники);
# c — цвет маркеров.

# Основные параметры метода scatter()
# На диаграмме рассеяния по оси абсцисс откладываем суммарное число поставленных вакцин, 
# а по оси ординат — ежедневный прирост заболевших:

us_data = covid_df[covid_df['country'] == 'United States']

fig = plt.figure(figsize=(8, 4))
axes = fig.add_axes([0, 0, 1, 1])
axes.scatter(
    x=us_data['people_fully_vaccinated'], 
    y=us_data['daily_confirmed'], 
    s=100,
    marker='o',
    c = 'blue'
);

In [None]:
# Построим круговую диаграмму, чтобы отобразить ТОП-10 комбинаций вакцин в мире.

# Примечание. Обратите внимание, что под «распространённостью» вакцины здесь подразумевается не количество введённых доз 
# (таких данных у нас в таблице нет), а количество стран, в которых она используется. 
# При этом подсчёт ведётся не по каждой отдельной вакцине, а по их комбинациям, и одна и та же вакцина учитывается несколько раз 
# в сочетаниях с другими.

# Для построения круговых диаграмм в Matplotlib используется метод pie().

# x — значения, по которым будет строиться круговая диаграмма;
# labels — метки, соответствующие значениям;
# autopct — формат отображения долей на диаграмме (например, '%.1f%%' означает, 
# что округление будет производиться до первого знака после запятой и при выводе будет указан знак "%"; 
# открывающий и закрывающий проценты означают форматирование, а внутренний — вывод знака "%");
# explode — последовательность, которая определяет долю смещения сектора от центра для каждого значения из x.

# Основные параметры метода pie()
# ТОП-10 комбинаций вакцин (vaccines) по распространённости мы находим с помощью метода value_counts(). 
# Круговую диаграмму строим на полученных значениях, метки для каждого значения — индексы промежуточной таблицы. 
# Будем отображать доли в процентах и округлять их до одного знака после запятой. 
# Самую распространённую вакцину сместим на 10 % от центра:

vaccine_combinations = covid_df['vaccines'].value_counts()[:10]
fig = plt.figure(figsize=(5, 5))
axes = fig.add_axes([0, 0, 1, 1])
axes.pie(
    vaccine_combinations,
    labels=vaccine_combinations.index,
    autopct='%.1f%%',
    explode = [0.1, 0, 0, 0, 0, 0, 0, 0, 0, 0]
);

In [None]:
# Обратите внимание, что диаграмма показывает соотношение только для десяти популярных комбинаций вакцин, 
# а не для всех вакцин в совокупности, что является не совсем корректным для круговой диаграммы, 
# так как она должна отображать единое целое.

# К тому же наша круговая диаграмма считает количество использований каждой комбинации в таблице,
# а не количество стран, в которых используется эта комбинация, что также является некорректным.

# Более правильным вариантом в данном случае было бы выделить каждую вакцину в отдельности и посчитать, 
# в скольких странах она используется.

# Однако для этого нам необходимо будет совершить несколько довольно сложных преобразований:

# Для начала нам необходимо избавиться от пропусков в столбце с вакцинами. Сделаем это с помощью метода dropna(), 
# который удаляет строки, содержащие пропуски в столбце, указанном в параметре subset(). 
# Данный метод мы будем изучать в следующем модуле, посвящённом очистке данных — пока что не вам не стоит заострять на нём внимание:
combination_not_nan = covid_df.dropna(subset=['vaccines'])

# Полученные данные необходимо сгруппировать по странам (country) 
# и определить последнюю зафиксированную комбинации вакцин в столбце vaccines:
combination_last = combination_not_nan.groupby(['country'])['vaccines'].last()
# В результате такого преобразования мы получаем Series, значениями которого являются комбинации вакцин, 
# которые использовались в странах в последний день рассматриваемого периода.
print(combination_last)

# Преобразуем данные с помощью метода apply(): применим к столбцу lambda-функцию, 
# в которой будем удалять из строки с комбинациями вакцин пробелы и разделять комбинацию на отдельные составляющие по запятым.
combination_last = combination_last.apply(lambda x: x.replace(' ', '').split(','))

# В результате в каждой строке столбца получим список с отдельными вакцинами, которые используются в стране:
# Создадим словарь vaccines_dict={}, ключами которого будут являться уникальные вакцины, 
# а значениями — количество стран, в которых они используются. Изначально словарь пустой.
# Заполнение словаря реализуем «в лоб» — используя циклы. Во внешнем цикле будем проходиться 
# по всем элементам Series combination_last. На каждой итерации цикла в переменной цикла vaccines_list будет находиться список вакцин, 
# которые используются в стране.
# Во внутреннем цикле будем проходиться по элементам этого списка, вакцинам. Переменную внутреннего цикла назовём vaccine.

# В теле внутреннего цикла проверяем условие, что текущей вакцины ещё нет среди ключей словаря vaccones_dict. 
# Если это условие выполняется, добавляем вакцину в словарь со значением 1. В противном случае увеличиваем текущее количество стран,
# в которых используется данная вакцина:

vaccines_dict = {} 
#создаём цикл по элементам Series combination_last
for vaccines_list in combination_last:
    #создаём цикл по элементам списка с вакцинами
    for vaccine in vaccines_list:
        #проверяем условие, что текущей вакцины ещё нет среди ключей словаря
        if vaccine not in vaccines_dict:#если условие выполняется
            vaccines_dict[vaccine] = 1 #заносим вакцину в словарь со значением 1
        else: #в противном случае
            vaccines_dict[vaccine] += 1 #увеличивает количество
            
# В результате работы получаем словарь, который преобразуем в объект Series. 
# Далее выделим семь наиболее популярных вакцин, а остальные обозначим как 'other'.
# Для этого сортируем Series по убыванию. Вычислим суммарное количество стран, 
# в которых используются вакцины, не попавшие в наш ТОП-7, результат запишем в Series по индексу 'other'.

# Далее выделим восемь наибольших значений в полученной Series — для них и будем строить круговую диаграмму.
vaccines = pd.Series(vaccines_dict).sort_values(ascending=False)
vaccines['other'] = vaccines[7:].sum()
vaccines = vaccines.sort_values(ascending=False)[:8]

# Строим круговую диаграмму:
fig = plt.figure(figsize=(5, 5))
axes = fig.add_axes([0, 0, 1, 1])
axes.pie(
    vaccines,
    labels=vaccines.index,
    autopct='%.1f%%',
);

# Полный код:

#избавляемся от пропусков в столбце с вакцинами
combination_not_nan = covid_df.dropna(subset=['vaccines'])
#группируем по странам и выбираем последнюю комбинацию вакцин в стране
combination_last = combination_not_nan.groupby(['country'])['vaccines'].last() 
#заменяем пробелы в строках и делим комбинации на отдельные вакцины по запятой
combination_last = combination_last.apply(lambda x: x.replace(' ', '').split(',')) 
#создаём пустой словарь, ключами которого будут вакцины, а значениями — количество стран
vaccines_dict = {} 
#создаём цикл по элементам Series combination_last
for vaccines_list in combination_last:
    #создаём цикл по элементам списка с вакцинами
    for vaccine in vaccines_list:
        #проверяем условие, что текущей вакцины ещё нет среди ключей словаря
        if vaccine not in vaccines_dict:#если условие выполняется
            vaccines_dict[vaccine] = 1 #заносим вакцину в словарь со значением 1
        else: #в противном случае
            vaccines_dict[vaccine] += 1 #увеличивает количество
#преобразуем словарь в Series
vaccines = pd.Series(vaccines_dict).sort_values(ascending=False)
#выделяем ТОП-7 вакцин и добавляем категорию 'other'
vaccines['other'] = vaccines[7:].sum()
vaccines = vaccines.sort_values(ascending=False)[:8]
#строим круговую диаграмму
fig = plt.figure(figsize=(5, 5))
axes = fig.add_axes([0, 0, 1, 1])
axes.pie(
    vaccines,
    labels=vaccines.index,
    autopct='%.1f%%',
);

In [None]:
# ДОБАВЛЕНИЕ ИНФОРМАТИВНОСТИ В ГРАФИКИ

# Вы, наверное, заметили, что до этого мы не подписывали графики. 
# График не имеет смысла, если без лишних слов непонятно, что на нём изображено. 
# Управлять информативностью графика можно с помощью методов координатной плоскости axes. 
# Перечислим основные из них (не пугайтесь, запоминать их не обязательно — вы всегда сможете подсмотреть их в документации):

# axes.set_title() — заголовок диаграммы, а также его настройки (например, параметр fontsize отвечает за размер шрифта);
# axes.set_xlabel() — название оси абсцисс;
# axes.set_ylabel() — название оси ординат;
# axes.set_xticks() — установка отметок на оси абсцисс;
# axes.set_yticks() — установка отметок на оси ординат;
# axes.xaxis.set_tick_params() — управление параметрами отметок на оси абсцисс (например, 
# параметр rotation отвечает за поворот отметок в градусах);
# axes.yaxis.set_tick_params() — управление параметрами отметок на оси ординат;
# axes.legend() — отображение легенды;
# axes.grid() — установка сетки.
# Например, изобразим на одном графике, как росла общая заболеваемость (confirmed), 
# число зафиксированных смертей (deaths), выздоровевших пациентов (recovered) и активных случаев (active) в Китае.

# Для построения линейных графиков в Matplotlib используется метод plot() (не путайте с методом plot() в Pandas!). 
# При вызове метода без параметров по оси абсцисс откладываются значения столбца таблицы, 
# по оси ординат — индексы (в нашем случае это будут даты). 

# Дополнительно в параметрах метода указываем параметр label — название графика, 
# которое будет отображаться на легенде, а также lw — ширину линии графика. Добавим к графику заголовок, 
# названия осей, установим метки по оси y с частотой в 10 000, повернём метки по оси x на 30 градусов, 
# а также добавим легенду (метки для легенды выставляются в параметре label метода plot()):

china_data = covid_df[covid_df['country'] == 'China']
china_grouped = china_data.groupby(['date'])[['confirmed', 'active', 'deaths', 'recovered']].sum()

#визуализация графиков
fig = plt.figure(figsize=(10, 4))
axes = fig.add_axes([0, 0, 1, 1])
axes.plot(china_grouped['confirmed'], label='Общее число зафиксированных случаев', lw=3)
axes.plot(china_grouped['deaths'], label='Общее число смертей', lw=3)
axes.plot(china_grouped['recovered'], label='Общее число выздоровевших пациентов', lw=3)
axes.plot(china_grouped['active'], label='Общее число активных случаев', lw=3, linestyle='dashed')

#установка параметров отображения
axes.set_title('Статистика Covid-19 в Китае', fontsize=16)
axes.set_xlabel('Даты')
axes.set_ylabel('Число случаев')
axes.set_yticks(range(0, 100000, 10000))
axes.xaxis.set_tick_params(rotation=30)
axes.grid()
axes.legend();

In [None]:
# ИСПОЛЬЗОВАНИЕ НЕСКОЛЬКИХ СИСТЕМ КООРДИНАТ

# При использовании библиотеки Matplotlib вовсе не обязательно ограничиваться одной системой координат.

# Вы можете размещать несколько систем координат на одной фигуре, 
# что позволит нам отображать вспомогательную информацию на основном графике.

# Для добавления второй системы координат необходимо повторно применить к объекту fig метод add_axes, 
# указав новое имя для второй системы координат.

# Например, отобразим ТОП-5 стран по общему числу привитых вторым компонентом людей (people_fully_vaccinated), 
# а также ТОП-5 стран по числу полностью привитых на 100 человек населения (people_fully_vaccinated_per_hundred).

# Для этого построим столбчатые диаграммы с помощью метода bar().

# Кликните на плашку, чтобы увидеть информацию ↓

# Основные параметры метода bar()
# Группируем таблицу по странам, находим последний по дате зафиксированный показатель с помощью метода last() 
# и выбираем ТОП-5 стран с использованием метода nlargest().

# При отображении графиков создаём две координатные плоскости main_axes и insert_axes, н
# а каждой из них отдельно строим столбчатые диаграммы.
vacc_country = covid_df.groupby('country')['people_fully_vaccinated'].last().nlargest(5)
vacc_country_per_hundred = covid_df.groupby('country')['people_fully_vaccinated_per_hundred'].last().nlargest(5)

#визуализация главного графика
fig = plt.figure(figsize=(13, 4))
main_axes = fig.add_axes([0, 0, 1, 1])
main_axes.bar(x = vacc_country.index, height = vacc_country);
main_axes.set_ylabel('Число вакцинированных (2 компонент)')
main_axes.set_title('Топ 5 стран по числу полностью привитых людей')

#визуализация вспомогательного графика
insert_axes = fig.add_axes([0.6, 0.6, 0.38, 0.38])
insert_axes.bar(x = vacc_country_per_hundred.index, height = vacc_country_per_hundred, width=0.5);
insert_axes.set_ylabel('На 100 человек')
insert_axes.xaxis.set_tick_params(rotation=45)

In [None]:
# SUBPLOTS

# Создание дополнительных систем координат с помощью метода add_axes() полезно, однако используется не так часто.

# В большинстве случаев для отображения нескольких систем координат используется функция subplots(). 
# Она создаёт целую таблицу из систем координат на одной фигуре. Функция возвращает новую фигуру, а также список координатных плоскостей.

# Кликните на плашку, чтобы увидеть информацию ↓

# Основные параметры метода subplots()
# Например, следующий код создаст шесть координатных плоскостей, сведённых в таблицу размера 2x3:
fig, axes = plt.subplots(nrows=2, ncols=3, figsize=(10, 5))

# Теперь, обладая знаниями о методе subplots(), построим три графика:

# Столбчатую диаграмму, которая покажет динамику ежедневной вакцинации в России.
# Линейный график изменения ежедневной заболеваемости в стране.
# Гистограмму ежедневной заболеваемости в стране.
# За построение гистограмм в библиотеке Matplotlib отвечает метод hist().

# Кликните на плашку, чтобы увидеть информацию ↓

# Основные параметры метода hist()
# Фильтруем таблицу covid_df по признаку страны и выбираем записи только для России.

# Для того чтобы отобразить график в соответствующей координатной плоскости, 
# нужно обратиться к списку axes по индексу (от 0 до 2). Дальнейшая настройка графиков вам уже известна.
russia_data = covid_df[covid_df["country"] == "Russia"]

# визуализация систем координат
fig, axes = plt.subplots(nrows=1, ncols=3, figsize=(15, 4))

# столбчатая диаграмма
axes[0].bar(
    x=russia_data["date"],
    height=russia_data["daily_vaccinations"],
    label="Число вакцинированных",
)
axes[0].set_title("Ежедневная вакцинация в России")
axes[0].xaxis.set_tick_params(rotation=45)

# линейный график
axes[1].plot(
    russia_data["date"],
    russia_data["daily_confirmed"],
    label="Число заболевших",
    color="tomato",
    lw=2,
)
axes[1].set_title("Ежедневная заболеваемость в России")
axes[1].xaxis.set_tick_params(rotation=45)

# гистограмма
axes[2].hist(
    x=russia_data["daily_confirmed"], label=["Число заболевших"], color="lime", bins=20
)
axes[2].set_title("Гистограмма заболеваемости в России")
axes[2].xaxis.set_tick_params(rotation=30)

In [None]:
# Также стоит отметить, что, помимо объектно-ориентированного подхода в работе с библиотекой Matplotlib, 
# вы можете встретить и модульный подход.

# Модульный подход основан на обращении к модулю pyplot (plt) напрямую, 
# а не средствами объектов фигур и плоскостей. Например, следующий код строит столбчатую диаграмму: 
# по оси x откладываются элементы списка names (названия групп), а высоту столбцов определяет список values.
names = ['group_a', 'group_b', 'group_c']
values = [1, 10, 100]
plt.bar(names, values)
plt.show()

### 6. Графические возможности библиотеки Seaborn

In [None]:
# НЕМНОГО О БИБЛИОТЕКЕ

# Seaborn — надстройка над библиотекой Matplotlib, которая значительно расширяет её возможности, 
# позволяя создавать графики более высокого уровня с эстетичным оформлением. 
# Библиотека предоставляет большое количество дополнительных опций для творчества при визуализации данных.

# Установка библиотеки стандартна. В командной строке (или командной строке Anaconda) выполните следующее:

# pip install seaborn
# Традиционно Seaborn импортируется под псевдонимом sns:
import seaborn as sns
print(sns.__version__)

# Если импорт прошёл успешно, вы увидите на экране вашу версию библиотеки. Теперь можно начинать работу!

# В данном разделе мы будем сравнивать несколько стран: Россию, Австралию, Германию, Канаду и Великобританию. 
# Создадим специальный DataFrame croped_covid_df для этих данных.

# Для фильтрации по списку значений используем метод isin(), который проверяет, есть ли запись в столбце в переданном в метод списке. 
# В результате возвращается привычная нам маска.

# А теперь снова немного магии Feature Engineering, чтобы показатели по странам стали сопоставимыми: д
# обавим информацию о населении стран, чтобы рассчитать ежедневную заболеваемость на 100 человек — заболеваемость в процентах 
# от общего количества населения (daily_confirmed_per_hundred).

countries = ['Russia', 'Australia', 'Germany', 'Canada', 'United Kingdom']
croped_covid_df = covid_df[covid_df['country'].isin(countries)]

populations = pd.DataFrame([
    ['Canada', 37664517],
    ['Germany', 83721496],
    ['Russia', 145975300],
    ['Australia', 25726900],
    ['United Kingdom', 67802690]
    ],
    columns=['country', 'population']
)
croped_covid_df = croped_covid_df.merge(populations, on=['country'])
croped_covid_df['daily_confirmed_per_hundred'] = croped_covid_df['daily_confirmed'] / croped_covid_df['population'] * 100
croped_covid_df.head()

In [None]:
# Начнём с гистограммы. Для визуализации гистограмм в библиотеке Seaborn используется метод histplot().
# У данного метода (как и у всех методов библиотеки Seaborn) огромнейшее количество параметров. Мы приведём лишь основные.

# Основные параметры метода histplot()
# Построим сразу две гистограммы: одна будет иллюстрировать общее распределение ежедневной заболеваемости (daily_confirmed), 
# а вторая — то же распределение в разрезе стран. 

# Для этого создаём две координатные плоскости с помощью метода subplots(). 

# На первой координатной плоскости рисуем простую гистограмму с 25 столбцами, а также добавим на неё сглаживающую кривую. 
# На второй гистограмме добавляем параметр названия страны по оси y. 
# В таком случае количество наблюдений будет обозначаться на диаграмме яркостью цвета 
# (чем темнее полоса, тем больше наблюдений находится в интервале).
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(10, 8))
sns.histplot(
    data=croped_covid_df,
    x='daily_confirmed_per_hundred',
    bins=25,
    kde=True,
    ax=axes[0]
);
axes[0].set_title('Гистограмма ежедневной заболеваемости на 100 человек', fontsize=16)
sns.histplot(
    data=croped_covid_df,
    x='daily_confirmed_per_hundred',
    y='country',
    bins=25,
    color='red',
    ax=axes[1]
);

In [None]:
# Рассмотрим пример — построим коробчатые диаграммы признака летальности (death_rate), который вы создавали ранее в задании 3.3.

# Коробчатые диаграммы в Seaborn строятся с помощью метода boxplot().

# Ящики отразим горизонтально (для этого по оси x отложим признак летальности, а по оси y — страны), 
# параметр orient отвечает за ориентацию диаграммы, а width — за ширину коробок:

fig = plt.figure(figsize=(10, 7))
boxplot = sns.boxplot(
    data=croped_covid_df,
    y='country',
    x='death_rate',
    orient='h',
    width=0.9
)
boxplot.set_title('Распределение летальности по странам');
boxplot.set_xlabel('Летальность');
boxplot.set_ylabel('Страна');
boxplot.grid()

In [None]:
# Теперь рассмотрим пример многоуровневой столбчатой диаграммы. С помощью неё мы можем, например, 
# посмотреть на средний ежедневный процент заболевших в странах по кварталам.

# Для построения столбчатых диаграмм в Seaborn используется метод barplot(). 
# По умолчанию метод отображает среднее по столбцу, который указан в параметре x (
# вместо среднего можно вычислить и любую другую статистическую характеристику, наименование которой задаётся в параметре estimator). 
# Для добавления многоуровневости используется параметр hue, который позволяет группировать данные по признаку:
fig = plt.figure(figsize=(10, 7))
croped_covid_df['quarter'] = croped_covid_df['date'].dt.quarter
barplot = sns.barplot(
    data=croped_covid_df,
    x='country',
    y='daily_confirmed_per_hundred',
    hue='quarter',
)
barplot.set_title('Средний процент болеющего населения по кварталам');

In [None]:
# Построим один из самых любимых дата-сайентистами графиков — jointplot() — в котором совмещены диаграмма рассеяния и гистограмма. 
# Это довольно удобный и полезный инструмент, когда мы хотим одновременно посмотреть и на распределения переменных, 
# и сразу оценить их взаимосвязь.

# Построим jointplot зависимости ежедневной заболеваемости в странах от общей численности населения 
# в процентах (daily_confirmed_per_hundred) от числа полностью вакцинированных в процентах (people_fully_vaccinated_per_hundred).

# Параметры xlim и ylim определяют диапазон отображения осей x и y. 
# Параметр height отвечает за высоту и ширину графика (он квадратный).
jointplot = sns.jointplot(
    data=croped_covid_df, 
    x='people_fully_vaccinated_per_hundred', 
    y='daily_confirmed_per_hundred',
    hue='country',
    xlim = (0, 40),
    ylim = (0, 0.1),
    height=8,
)

In [None]:
# Допустим, мы хотим сравнить темпы вакцинации по странам во времени. 
# Вы, скорее всего, сразу подумали о линейном графике. Но давайте мыслить шире. 
# Когда мы хотим сравнить скорость изменения показателей по малому количеству категорий 
# (в данном случае — по странам, а их у нас их всего пять), нагляднее всего будет тепловая карта.

# Предварительно создадим сводную таблицу: по столбцам отложим признак даты, а по строкам — страны. 
# В ячейках таблицы будет находиться процент вакцинированных (первым компонентом) людей в стране на определённую дату. 
# Чтобы даты отображались на тепловой карте верно, их необходимо привести к типу string.
pivot = croped_covid_df.pivot_table(
    values='people_vaccinated_per_hundred',
    columns='date',
    index='country',
)
pivot.columns = pivot.columns.astype('string')
print(pivot)

In [None]:
# Для построения тепловой карты в Seaborn используется метод heatmap(). 
# Данный метод работает с табличными данными и визуализирует все ячейки таблицы с помощью цвета. 
# Параметр annot отвечает за отображение легенды (аннотации), параметр cmap — за цветовую гамму графика.
heatmap = sns.heatmap(data=pivot, cmap='YlGnBu')
heatmap.set_title('Тепловая карта вакцинации', fontsize=16);

In [None]:
# ЗАДАНИЕ 6.4
# Создайте новый признак confirmed_per_hundred, 
# который покажет процентное отношение заболевших вирусом к общему числу населения в странах ().
# Постройте тепловую карту, которая покажет, как росло число заболевших в процентах 
# от общего числа населения (confirmed_per_hundred) в странах из таблицы croped_covid_df.
croped_covid_df['confirmed_per_hundred'] = croped_covid_df['confirmed']/croped_covid_df['population'] * 100
pivot = croped_covid_df.pivot_table(
    values='confirmed_per_hundred',
    columns='date',
    index='country'
)
pivot.columns = pivot.columns.astype('string')
fig = plt.figure(figsize=(10, 5))

heatmap = sns.heatmap(data=pivot, cmap='plasma')
heatmap.set_title('Тепловая карта заболеваемости', fontsize=16)

# ЗАДАНИЕ 6.5
# Постройте коробчатую диаграмму для признака recover_rate 
# (отношение выздоровлений к числу зафиксированных случаев заболевания в процентах).
fig = plt.figure(figsize=(10, 7))
boxplot = sns.boxplot(
    data=croped_covid_df,
    x='country',
    y='recover_rate',
    orient='v',
    width=0.9
)

### 7. Графические возможности библиотеки Plotly

In [None]:
# НЕМНОГО О БИБЛИОТЕКЕ

# Библиотека Plotly является сравнительно новым коммерческим продуктом с бесплатной версией, 
# который создавался специально для Data Science, в отличие от относительно старой библиотеки Matplotlib, 
# которая изначально разрабатывалась для научных вычислений.

# Библиотека Plotly позволяет строить интерактивные графики, которые можно приближать, отдалять, 
# а также просматривать значения на графике в реальном времени. 
# К тому же в библиотеке собрано огромнейшее количество красочных методов визуализации. 
# У Plotly приятный дизайн, а способов работы с ней несколько.

# С помощью Plotly можно делать сложные визуализации с элементами управления, 
# например строить интерактивную 3D-визуализацию, карту мира и многое другое.

# Раньше дата-сайентисты использовали Plotly как «тяжёлую артиллерию» по визуализации данных для задач, 
# в которых нужны крайне специфичные графики, которых нет в традиционных библиотеках (например, тепловой карты мира), 
# или в задачах составления красивых дашбордов.

# Это было связано с тем, что традиционный Plotly имеет огромную функциональность со множеством параметров, 
# в которых легко запутаться. Графики в библиотеке строятся иногда десятками строк кода, отрисовываются медленно 
# и очень сильно нагружают видеокарту.

# Сейчас, с появлением новых оптимизированных модулей и надстроек в Plotly (express и cufflinks), 
# которые позволили упростить работу с библиотекой, в отрасли наблюдается тенденция постепенного перехода бизнеса 
# к использованию Plotly при работе с данными, ведь бесплатную версию библиотеки разрешено применять в коммерческих продуктах.

# Библиотека нуждается в дополнительной установке. Для этого введите в командной строке (или командной строке Anaconda) следующее:

# pip install plotly
# Из библиотеки нам понадобятся модуль express, он традиционно импортируется под псевдонимом px.

# Также импортируем саму библиотеку, чтобы можно было вывести её версию:

import plotly
import plotly.express as px
print(plotly.__version__)

In [None]:
# ЭКСПРЕСС-РЕЖИМ

# Plotly позволяет строить графики в нескольких режимах. 
# Мы рассмотрим самый новый и подающий надежды — экспресс-режим. 
# Его функциональность скромнее, чем у полного режима Plotly, но нам её будет более чем достаточно. 
# Для работы в экспресс-режиме предназначен модуль plotly.express. 
# Он был выпущен в марте 2019 года и находится в процессе активной разработки.

# Работа с plotly.express напоминает работу с библиотекой Seaborn. 
# Отличие лишь в том, что все настройки графика (размеры, подписи осей, текста на графике) прописываются в самом методе.

# С помощью экспресс-режима (px) можно строить уже знакомые нам графики:
# line() — линейные графики;
# histogram() — гистограммы;
# scatter() — диаграммы рассеяния;
# box() — коробчатые диаграммы;
# bar() — столбчатые диаграммы;
# pie() — круговые диаграммы.

# Также есть множество других графиков — их список вы можете посмотреть в документации.
# Примечание. Дальнейшая работа будет вестись с таблицей covid_df — полными данными о статистике распространения вируса Covid-19, 
# а также о вакцинации в разных странах.

# Рассмотрим процесс визуализации на примере. Посмотрим, как выглядит линейный график, 
# построенный с помощью метода line() из модуля express. В документации к методу приведена пара десятков его параметров 
# (они схожи с параметрами других методов) — мы приведём основные из них.

# Кликните на плашку, чтобы увидеть информацию ↓

# Основные параметры метода line()
# Построим график роста зафиксированного числа случаев заражения (confirmed), смертей (deaths), 
# выздоровлений (recovered) и активных случаев (active) за всё время. 
# Для этого просуммируем статистику по дням и передадим полученный DataFrame в метод line().

# Для отображения созданной методом line() фигуры используется метод fig.show():
line_data = covid_df.groupby('date', as_index=False).sum()
fig = px.line(
    data_frame=line_data, #DataFrame
    x='date', #ось абсцисс
    y=['confirmed', 'recovered', 'deaths', 'active'], #ось ординат
    height=500, #высота
    width=1000, #ширина
    title='Confirmed, Recovered, Deaths, Active cases over Time' #заголовок
)
fig.show()

In [None]:
# Давайте рассмотрим ещё один пример — построим столбчатую диаграмму, 
# показывающую ТОП-10 стран по среднему проценту выздоравливающих пациентов (recover_rate). 
# Для этого используем метод bar() модуля express. Добавим несколько параметров:

# color — группирующий признак, в соответствии с которым будут раскрашены столбцы диаграммы;
# text — текст, который будет подписан на столбцах диаграммы;
# orientation — ориентация графика ('v' — вертикальная, 'h' — горизонтальная).
#считаем средний процент выздоровлений для каждой страны
bar_data = covid_df.groupby(
    by='country',
    as_index=False
)[['recover_rate']].mean().round(2).nlargest(10, columns=['recover_rate'])

#строим график
fig = px.bar(
    data_frame=bar_data, #датафрейм
    x="country", #ось x
    y="recover_rate", #ось y
    color='country', #расцветка в зависимости от страны
    text = 'recover_rate', #текст на столбцах
    orientation='v', #ориентация графика
    height=500, #высота
    width=1000, #ширина
    title='Top 10 Countries for Recovery Rate' #заголовок
)

#отображаем его
fig.show()

In [None]:
# Основные параметры метода treemap()
# data_frame — DataFrame, по которому строится график;
# path — категориальные признаки (их может быть несколько), в разрезе которых строится диаграмма;
# values — показатель, по которому рассчитываются размеры прямоугольников.
# Но, как говорится, лучше один раз увидеть, чем сто раз прочитать. 
# Построим иерархическую диаграмму для среднего ежедневного показателя выздоровевших пациентов (daily_recovered) во всех странах.

#считаем среднее ежедневно фиксируемое количество выздоровевших по странам
treemap_data = covid_df.groupby(
    by='country',
    as_index=False
)[['daily_recovered']].mean()

#строим график
fig = px.treemap(
    data_frame=treemap_data, #DataFrame
    path=['country'], #категориальный признак, для которого строится график
    values='daily_recovered', #параметр, который сравнивается
    height=500, #высота
    width=1000, #ширина
    title='Daily Recovered Cases by Country' #заголовок
)

#отображаем график
fig.show()

In [None]:
# АНИМАЦИЯ ГРАФИКОВ ВО ВРЕМЕНИ

# С помощью plotly.express можно строить даже анимированные графики. 
# Мы рассмотрим только базовые приёмы анимации, но на самом деле это очень интересная и глубокая тема. 
# Если вы захотите, то сможете ознакомиться с ней более детально здесь и здесь.

# Для нашей задачи отлично подойдёт график под названием choropleth() (тепловая картограмма) — это тепловая карта, 
# которая строится на географической карте мира. Чтобы увидеть, как изменяется значение показателя на карте во времени,
# можно добавить в график анимацию.

# Основные параметры метода choropleth()
# data_frame — DataFrame, по которому строится график;
# locations — название столбца, из которого берутся локации (столбец со странами или регионами);
# locationmode — режим геопривязки; определяет, как будет производиться сопоставление данных с картой в Plotly 
# (возможно сопоставление по названию страны, "country_name", или по её трёхзначному шифру, согласно международному стандарту ISO-3);
# range_color — диапазон изменения цвета;
# animation_frame — анимирующий признак, изменяя который, мы получаем визуализацию во времени;
# color_continuous_scale — цветовая палитра.
# Итак, построим фоновую картограмму, которая покажет распространение (confirmed) коронавируса в мире во времени.

# Предварительно для правильного отображения на анимационном бегунке даты в таблице covid_df необходимо перевести обратно 
# в строковый тип данных.

#преобразуем даты в строковый формат
choropleth_data = covid_df.sort_values(by='date')
choropleth_data['date'] = choropleth_data['date'].astype('string')

#строим график
fig = px.choropleth(
    data_frame=choropleth_data, #DataFrame
    locations="country", #столбец с локациями
    locationmode = "country names", #режим сопоставления локаций с базой Plotly
    color="confirmed", #от чего зависит цвет
    animation_frame="date", #анимационный бегунок
    range_color=[0, 30e6], #диапазон цвета
    title='Global Spread of COVID-19', #заголовок
    width=800, #ширина
    height=500, #высота
    color_continuous_scale='Reds' #палитра цветов
)

#отображаем график
fig.show()

In [None]:
# ТРЁХМЕРНАЯ ВИЗУАЛИЗАЦИЯ

# Настало время познакомиться с 3D-визуализацией.

# На самом деле общий принцип построения 3D-графиков ничем не отличается от построения обычных. 
# Просто добавляется ещё один параметр — ось z (ось аппликат).

# Давайте рассмотрим пример.

# Построим 3D-диаграмму рассеяния, которая покажет, как число ежедневно обнаруживаемых случаев и число ежедневных 
# смертей влияют на желание людей вакцинироваться. Для того чтобы нам было проще рассматривать диаграмму 
# (точки будут более сгруппированными), построим её в логарифмическом масштабе по осям абсцисс и ординат.

# Для построения такой диаграммы используем метод scatter_3d(). Добавим несколько параметров:

# z — параметр по оси аппликат;
# log_x — установка логарифмического масштаба по оси x;
# log_y — установка логарифмического масштаба по оси y.
# Чтобы не перегрузить график, будем строить зависимость только в нескольких странах: 
# США, России, Великобритании, Бразилии и Франции. Наблюдения для каждой страны окрасим разными цветами.

#фильтруем таблицу по странам
countries=['United States', 'Russia', 'United Kingdom', 'Brazil', 'France']
scatter_data = covid_df[covid_df['country'].isin(countries)]

#строим график
fig = px.scatter_3d(
    data_frame=scatter_data, #DataFrame
    x = 'daily_confirmed', #ось абсцисс
    y = 'daily_deaths', #ось ординат
    z = 'daily_vaccinations', #ось аппликат
    color='country', #расцветка в зависимости от страны
    log_x=True, 
    log_y=True,
    width=1000,
    height=700
)

#отображаем график
fig.show()
fig.write_html("/data/plotly/scatter_3d.html")