# Простейший график с помощью Plotly
Существует множество прекрасных инструментов визуального анализа данных. Многие профессионалы обязательно осваивают Tableau Public или MS Power BI, но неизбежно вынуждены мириться с рядом технических проблем. Tableau Public прекрасный инструмент, но работает только в связке со своим онлайн сервисом, который не гарантирует конфиденциальность. Power BI является коммерческим продуктом Microsoft, но не входит в экосистему MS Office. Для полноценного использования нужно дополнительно платить. Попытки автоматизировать процессы сбора и обновления информации являются нестабильным и сложным процессом. Для работы с данными в Power BI придётся изучить специальный язык Power Qwery, который распространен только среди аналитиков работающих в Excel.

Вместо освоения премудростей хитроумных программ можно освоить язык  Python, который специально создан для того, чтобы анализировать данные и который поддерживает множество бесплатных инструментов визуализации данных. Библиотека Plotly, позволяет не только строить изображения, но и анализировать их в интерактивном режиме, что похоже во многом на Tableau Public или MS Power BI.

Давайте рассмотрим использование Plotly на примере мрачной статистики смертности от COVID-19.

In [2]:
import numpy as np          # загружаем numpy чтобы делать вычисления
import pandas as pd         # загружаем pandas, чтобы читать и преобразовывать данные

In [3]:
import plotly.express as px # загружаем облегченную версию библотеки plotly

## Данные
Нужно загрузить и обработать данные. Источник: GitHub Университета Джона Хопкинса. Прямо оттуда их и скачиваем.

In [4]:
url='https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv'

### Какие функции pandas нам пригодились:

read_csv() — чтение файла Comma-Separated Values. Документ где табличные данные разбиты строчками на строки, а колонки оформлены специльными символами. В нашем случае это запятая.

set_index() — делаем индексом наименование страны.

drop() — удаляем лишние столбцы с координатами и районами стран.

groupby(level=0).sum() — группируем строки по индексу, то есть по именам стран. Если имя повторяестя несколько раз, как в случае с Китаем, то значения суммируются.

In [5]:
world = pd.read_csv(url).set_index('Country/Region').drop(columns=['Province/State','Lat','Long']).groupby(level=0).sum()
world.head()

Unnamed: 0_level_0,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,1/28/20,1/29/20,1/30/20,1/31/20,...,3/27/20,3/28/20,3/29/20,3/30/20,3/31/20,4/1/20,4/2/20,4/3/20,4/4/20,4/5/20
Country/Region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Afghanistan,0,0,0,0,0,0,0,0,0,0,...,4,4,4,4,4,4,6,6,7,7
Albania,0,0,0,0,0,0,0,0,0,0,...,8,10,10,11,15,15,16,17,20,20
Algeria,0,0,0,0,0,0,0,0,0,0,...,26,29,31,35,44,58,86,105,130,152
Andorra,0,0,0,0,0,0,0,0,0,0,...,3,3,6,8,12,14,15,16,17,18
Angola,0,0,0,0,0,0,0,0,0,0,...,0,0,2,2,2,2,2,2,2,2


In [6]:
world.index.name = None #убираем в индексах ненужное имя, чтобы оно не мешало нам после транспонирования
world.head()

Unnamed: 0,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,1/28/20,1/29/20,1/30/20,1/31/20,...,3/27/20,3/28/20,3/29/20,3/30/20,3/31/20,4/1/20,4/2/20,4/3/20,4/4/20,4/5/20
Afghanistan,0,0,0,0,0,0,0,0,0,0,...,4,4,4,4,4,4,6,6,7,7
Albania,0,0,0,0,0,0,0,0,0,0,...,8,10,10,11,15,15,16,17,20,20
Algeria,0,0,0,0,0,0,0,0,0,0,...,26,29,31,35,44,58,86,105,130,152
Andorra,0,0,0,0,0,0,0,0,0,0,...,3,3,6,8,12,14,15,16,17,18
Angola,0,0,0,0,0,0,0,0,0,0,...,0,0,2,2,2,2,2,2,2,2


In [7]:
world = world.T.diff() # транспонируем и вычисляем разницу значений от строки к строке, то есть изо дня в день
world.head()

Unnamed: 0,Afghanistan,Albania,Algeria,Andorra,Angola,Antigua and Barbuda,Argentina,Armenia,Australia,Austria,...,United Arab Emirates,United Kingdom,Uruguay,Uzbekistan,Venezuela,Vietnam,West Bank and Gaza,Western Sahara,Zambia,Zimbabwe
1/22/20,,,,,,,,,,,...,,,,,,,,,,
1/23/20,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1/24/20,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1/25/20,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1/26/20,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [8]:
time = world.index # забирваем значения индекса, чтобы ими манипулировать
time[0:9]

Index(['1/22/20', '1/23/20', '1/24/20', '1/25/20', '1/26/20', '1/27/20',
       '1/28/20', '1/29/20', '1/30/20'],
      dtype='object')

In [9]:
world_time=[] # создаю пустой список

for i in time:
   world_time.append(i[:-2] + '20' + i[-2:]) # с помощью цикла дописываю значение года, то есть из 20 делаю 2020. 20 интегрируется таким образом, чтобы в следующем году значение года стало 2021

world_time = pd.to_datetime(world_time, format='%m/%d/%Y') # преобразую в стандартный формат времени

world_time[0:9]

DatetimeIndex(['2020-01-22', '2020-01-23', '2020-01-24', '2020-01-25',
               '2020-01-26', '2020-01-27', '2020-01-28', '2020-01-29',
               '2020-01-30'],
              dtype='datetime64[ns]', freq=None)

In [10]:
world = world.set_index(world_time).reset_index().rename(columns = {'index':'Time'}) # делаю индексом новые форматы времени, затем сбрасываю индексы, переименовываю столбец
world.head()

Unnamed: 0,Time,Afghanistan,Albania,Algeria,Andorra,Angola,Antigua and Barbuda,Argentina,Armenia,Australia,...,United Arab Emirates,United Kingdom,Uruguay,Uzbekistan,Venezuela,Vietnam,West Bank and Gaza,Western Sahara,Zambia,Zimbabwe
0,2020-01-22,,,,,,,,,,...,,,,,,,,,,
1,2020-01-23,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2020-01-24,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,2020-01-25,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,2020-01-26,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


In [11]:
world_melt = world.melt(id_vars='Time').rename(columns = {'variable':'Сountries', 'value':'Deaths'}) #делаю плоскую таблицу, переименовываю столбцы
world_melt

Unnamed: 0,Time,Сountries,Deaths
0,2020-01-22,Afghanistan,
1,2020-01-23,Afghanistan,0.0
2,2020-01-24,Afghanistan,0.0
3,2020-01-25,Afghanistan,0.0
4,2020-01-26,Afghanistan,0.0
...,...,...,...
13720,2020-04-01,Zimbabwe,0.0
13721,2020-04-02,Zimbabwe,0.0
13722,2020-04-03,Zimbabwe,0.0
13723,2020-04-04,Zimbabwe,0.0


In [20]:
fig = px.line(world_melt, x = 'Time', y = 'Deaths', color='Сountries') # создаю линейные графики
fig.update_layout(showlegend=False) # удаляю избыточную в нашем случе легенду. весь расчет на интерактив
fig.show() # вывожу интерактивную графику. её не видно в предпросмотре Github, но она есть

## Вывод
За 20 несложных шагов, которые можно в будущем применять к любым похожим по структуре данным, мы создали интерактивный график и можем его изучать. Если дальше продолжить изучение Plotly, то можно научиться делать интерактивные графики для интеграции их в html без зависимости от крупных компаний-гигантов. Но помните, Plotly тоже разработка компании, которая продвигает свой коммерческий продукт. Такие компании регулярно меняют условия использования бесплатных ранее предложений, но, надеюсь, с Plotly это не произойдет.