<a href="https://colab.research.google.com/github/X1ef/SF_data_science/blob/main/%D0%92%D0%B8%D0%B7%D1%83%D0%B0%D0%BB%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# <center> Визуализация данных: plotly

Спикер: Андрей Рысистов

Контакты:
* Телеграм @Rysistov
* Slack @Андрей Рысистов (эксперт)


## <center> 0. План занятия:
    1. Обсудим что такое визуализация
    2. Поговорим о библиотеке для интерактивной визуализации plotly
    3. Разберем основные методы визуализации в plotly.express
    4. Разберем основные методы визуализации в plotly.graph_objects

## <center> 1. Визуализация: для чего нужна?

Лучший способ отобразить информацию и донести её до других — использовать визуальные методы: графики, диаграммы, тепловые карты и другие приёмы визуализации данных.
Визуализация данных – это представление данных в виде, который обеспечивает наиболее эффективную работу человека по их изучению.

Очень важный инструмент в рамках EDA, который облегчает определение распределений, поиск аномалий, зависимостей, первичное выдвижение гипотез и пр.
Важность визуализации может продемонстрировать [квартет Энскомба](https://en.wikipedia.org/wiki/Anscombe%27s_quartet).

Классический пример:
<img src=https://raw.githubusercontent.com/AndreyRysistov/DatasetsForPandas/main/zp_predictions.jpg>

##  <center> 2. Библиотека для интерактивной визуализации plotly

Библиотека Plotly является сравнительно новым коммерческим продуктом с бесплатной версией, который создавался специально для Data Science, в отличие от относительно старой библиотеки Matplotlib, которая изначально разрабатывалась для научных вычислений.

→ Библиотека Plotly позволяет строить интерактивные графики, которые можно приближать, отдалять, а также просматривать значения на графике в реальном времени. К тому же в библиотеке собрано огромнейшее количество красочных методов визуализации. У Plotly приятный дизайн, а способов работы с ней несколько.

→ С помощью Plotly можно делать сложные визуализации с элементами управления, например строить интерактивную 3D-визуализацию, карту мира и многое другое.

Раньше, дата-сайентисты использовали Plotly как «тяжёлую артиллерию» по визуализации данных для задач, в которых нужны крайне специфичные графики, которых нет в традиционных библиотеках (например, тепловой карты мира), или в задачах составления красивых дашбордов.

Это было связано с тем, что традиционный Plotly имеет огромную функциональность со множеством параметров, в которых легко запутаться. Графики в библиотеке строятся иногда десятками строк кода, отрисовываются медленно и очень сильно нагружают видеокарту.

Сейчас, с появлением новых оптимизированных модулей и надстроек в Plotly (express и cufflinks), которые позволили упростить работу с библиотекой, в отрасли наблюдается тенденция постепенного перехода бизнеса к использованию Plotly при работе с данными, ведь бесплатную версию библиотеки разрешено применять в коммерческих продуктах.

In [None]:
!pip install plotly==5.3.1

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting plotly==5.3.1
  Downloading plotly-5.3.1-py2.py3-none-any.whl (23.9 MB)
[K     |████████████████████████████████| 23.9 MB 79.8 MB/s 
Installing collected packages: plotly
  Attempting uninstall: plotly
    Found existing installation: plotly 5.5.0
    Uninstalling plotly-5.5.0:
      Successfully uninstalled plotly-5.5.0
Successfully installed plotly-5.3.1


In [None]:
import pandas as pd
import numpy as np

import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff

import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

## <center> 3. Знакомство с данными: видеоигры

Поработаем с данными о продажах и оценках видео-игр с [Kaggle Datasets](https://www.kaggle.com/ashaheedq/video-games-sales-2019?select=vgsales-12-4-2019.csv).

In [None]:
games_df = pd.read_csv('https://raw.githubusercontent.com/obulygin/SkillFactory/main/vgsales.csv')
games_df.head()

Unnamed: 0,Name,Platform,Year_of_Release,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating
0,Wii Sports,Wii,2006.0,Sports,Nintendo,41.36,28.96,3.77,8.45,82.53,76.0,51.0,8.0,322.0,Nintendo,E
1,Super Mario Bros.,NES,1985.0,Platform,Nintendo,29.08,3.58,6.81,0.77,40.24,,,,,,
2,Mario Kart Wii,Wii,2008.0,Racing,Nintendo,15.68,12.76,3.79,3.29,35.52,82.0,73.0,8.3,709.0,Nintendo,E
3,Wii Sports Resort,Wii,2009.0,Sports,Nintendo,15.61,10.93,3.28,2.95,32.77,80.0,73.0,8.0,192.0,Nintendo,E
4,Pokemon Red/Pokemon Blue,GB,1996.0,Role-Playing,Nintendo,11.27,8.89,10.22,1.0,31.37,,,,,,


In [None]:
games_df.columns

Index(['Name', 'Platform', 'Year_of_Release', 'Genre', 'Publisher', 'NA_Sales',
       'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales', 'Critic_Score',
       'Critic_Count', 'User_Score', 'User_Count', 'Developer', 'Rating'],
      dtype='object')

In [None]:
games_df.shape

(16719, 16)

In [None]:
games_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16719 entries, 0 to 16718
Data columns (total 16 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Name             16717 non-null  object 
 1   Platform         16719 non-null  object 
 2   Year_of_Release  16450 non-null  float64
 3   Genre            16717 non-null  object 
 4   Publisher        16665 non-null  object 
 5   NA_Sales         16719 non-null  float64
 6   EU_Sales         16719 non-null  float64
 7   JP_Sales         16719 non-null  float64
 8   Other_Sales      16719 non-null  float64
 9   Global_Sales     16719 non-null  float64
 10  Critic_Score     8137 non-null   float64
 11  Critic_Count     8137 non-null   float64
 12  User_Score       10015 non-null  object 
 13  User_Count       7590 non-null   float64
 14  Developer        10096 non-null  object 
 15  Rating           9950 non-null   object 
dtypes: float64(9), object(7)
memory usage: 2.0+ MB


In [None]:
games_df.columns

Index(['Name', 'Platform', 'Year_of_Release', 'Genre', 'Publisher', 'NA_Sales',
       'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales', 'Critic_Score',
       'Critic_Count', 'User_Score', 'User_Count', 'Developer', 'Rating'],
      dtype='object')

Немного предобработаем данные:

In [None]:
data = games_df.copy()
data = data[data['Year_of_Release'].notna()] 
data['User_Score'] = data.User_Score.replace('tbd', np.NaN).astype('float64')
#data['Critic_Score'] = data.Critic_Score.replace('tbd', np.NaN).astype('float64')

data['User_Count'] = data.User_Count.replace('<NA>', np.NaN).astype('float64')
data['Critic_Count'] = data.Critic_Count.replace('<NA>', np.NaN).astype('float64')

data['Year_of_Release'] = data.Year_of_Release.astype('Int64')

data['User_Score'] = data.User_Score * 10
#data = data.drop(['User_Count','Critic_Count'], axis=1)
data = data.sort_values('Year_of_Release', ascending=True, ignore_index=True)
data.tail()

Unnamed: 0,Name,Platform,Year_of_Release,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating
16445,Rise of the Tomb Raider,PS4,2016,Adventure,Square Enix,0.23,0.53,0.04,0.14,0.94,,,,,,
16446,Phantasy Star Online 2 Episode 4: Deluxe Package,PSV,2017,Role-Playing,Sega,0.0,0.0,0.01,0.0,0.01,,,,,,
16447,Phantasy Star Online 2 Episode 4: Deluxe Package,PS4,2017,Role-Playing,Sega,0.0,0.0,0.04,0.0,0.04,,,,,,
16448,Brothers Conflict: Precious Baby,PSV,2017,Action,Idea Factory,0.0,0.0,0.01,0.0,0.01,,,,,,
16449,Imagine: Makeup Artist,DS,2020,Simulation,Ubisoft,0.27,0.0,0.0,0.02,0.29,,,,,Ubisoft,E


# <center> 4. Plotly express

Plotly позволяет строить графики в нескольких режимах. Рассмотрим самый новый и подающий надежды — экспресс-режим. Его функциональность скромнее, чем у полного режима Plotly, но нам её будет более чем достаточно. Для работы в экспресс-режиме предназначен модуль plotly.express. Он был выпущен в марте 2019 года и находится в процессе активной разработки.

Рассмотрим основные возможности:

In [None]:
data.isnull().sum()

Name                  2
Platform              0
Year_of_Release       0
Genre                 2
Publisher            32
NA_Sales              0
EU_Sales              0
JP_Sales              0
Other_Sales           0
Global_Sales          0
Critic_Score       8467
Critic_Count       8467
User_Score         8987
User_Count         8987
Developer          6543
Rating             6681
dtype: int64

In [None]:
cols

NameError: ignored

In [None]:
null_data = data.isnull().sum()
cols = null_data[null_data > 0].index

fig = px.imshow(    
    data[cols].isnull().astype('int'),
    labels=dict(x='Columns', y='Rows sorted by year'),
    title='Heatmap of NaN'
)
fig.show()

In [None]:
data = data.fillna({
    'Genre': data['Genre'].mode()[0],
    'Publisher': data['Publisher'].mode()[0]
})
data = data.dropna(subset=['Name'])

In [None]:
fig = px.histogram(
    data_frame=data,
    x='Critic_Score',
    nbins=25,
    title='Distribution of critic score',
    width=500,
    height=300,
    marginal='box',
    #histnorm='percent'
)
fig.show()

In [None]:
fig = px.histogram(
    data_frame=data,
    x='Year_of_Release',
    range_y=[0, 1500],
    width=800,
    height=500,
    title='Distribution of the number of games produced'
)
fig.update_xaxes(type='category', categoryorder='category ascending')
fig.show()

In [None]:
fig = px.histogram(
    data,
    x='User_Count',
    y='Genre',
    color='Genre',
    title='Distribution of user count by genre',
    width=700,
    height=500,
)
fig.show()

In [None]:
fig = px.box(
    data_frame=data,
    x='User_Score',
    y='Genre',
    color='Genre',
    title='Distribution of user count by genre',
    width=600,
    height=400
)
fig.show()

In [None]:
data

Unnamed: 0,Name,Platform,Year_of_Release,Genre,Publisher,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales,Critic_Score,Critic_Count,User_Score,User_Count,Developer,Rating
0,Asteroids,2600,1980,Shooter,Atari,4.00,0.26,0.00,0.05,4.31,,,,,,
1,Freeway,2600,1980,Action,Activision,0.32,0.02,0.00,0.00,0.34,,,,,,
2,Missile Command,2600,1980,Shooter,Atari,2.56,0.17,0.00,0.03,2.76,,,,,,
3,Boxing,2600,1980,Fighting,Activision,0.72,0.04,0.00,0.01,0.77,,,,,,
4,Ice Hockey,2600,1980,Sports,Activision,0.46,0.03,0.00,0.01,0.49,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
16445,Rise of the Tomb Raider,PS4,2016,Adventure,Square Enix,0.23,0.53,0.04,0.14,0.94,,,,,,
16446,Phantasy Star Online 2 Episode 4: Deluxe Package,PSV,2017,Role-Playing,Sega,0.00,0.00,0.01,0.00,0.01,,,,,,
16447,Phantasy Star Online 2 Episode 4: Deluxe Package,PS4,2017,Role-Playing,Sega,0.00,0.00,0.04,0.00,0.04,,,,,,
16448,Brothers Conflict: Precious Baby,PSV,2017,Action,Idea Factory,0.00,0.00,0.01,0.00,0.01,,,,,,


In [None]:
fig = px.violin(
    data,
    x='User_Score',
    y='Genre',
    color='Genre',
    title='Distribution of user score by genre',
    width=700,
    height=400,
    #points="all"
)
fig.show()

In [None]:
line_data

NameError: ignored

In [None]:
line_data = data.groupby('Year_of_Release', as_index=False)['Global_Sales'].sum()
fig = px.line(
    line_data,
    x='Year_of_Release',
    y='Global_Sales',
    title='Dynamics of video game sales',
    width=800,
    height=300,    
)
fig.show()

In [None]:
data['Genre'].value_counts(normalize=True) * 100

Action          20.111868
Sports          14.019942
Misc            10.463278
Role-Playing     9.016294
Shooter          7.879377
Adventure        7.861138
Racing           7.453794
Platform         5.338035
Simulation       5.216440
Fighting         5.088765
Strategy         4.091683
Puzzle           3.459387
Name: Genre, dtype: float64

In [None]:
fig = px.pie(
    data_frame=data,
    names='Genre',
    height=500,
    width=700,
    title='Ratio of genres',
    hole=0.2
)
fig.show()

In [None]:
top_data = data.groupby(['Platform', 'Year_of_Release'], as_index=False)['Global_Sales'].sum()
top_data.columns = ['Platform', 'Year_of_Release', 'Sum']
top_data = top_data[top_data['Year_of_Release'] > 2000]
top_data['Year_of_Release'] = top_data['Year_of_Release'].astype('object')

fig = px.bar(
    data_frame=top_data,
    x='Year_of_Release',
    y='Sum',
    color='Platform',
    barmode="group",
    title="Total released video-games by platform"
)
#fig.update_layout(width=1000, title='New title')
fig.update_xaxes(type='category', categoryorder='category ascending')
fig.show()

# <center> 5. Plotly Objects

Часто возникает потребность более гибкого управления настройками графика и построения более сложных визуализаций. В таком случае можно использовать классические графические объекты из библиотеки plotly. Они находятся в модуле graph_objects

In [None]:
import plotly.graph_objects as go

In [None]:
#предварительно подготовим данные для круговой диаграммы
#сгруппируем наши данные по признаку жанра и вычисляем суммарные мировые продажи каждого жанра
#результат отсортируем по убыванию продаж
pie_data = data.groupby(
    'Genre', as_index=False
)['Global_Sales'].sum().sort_values('Global_Sales', ascending=False)

#создаем фигуру
fig = go.Figure()
#добавляем пространство для графика
#в пространстве вызываем функцию go.Pie для построения круговой диаграммы
#передаем необходимые параметры
fig.add_trace(trace=go.Pie(
    labels=pie_data['Genre'],
    values=pie_data['Global_Sales'], 
    pull=[0.09, 0.07, 0.05, 0.03, 0, 0, 0, 0, 0],
    hole=0.1
)) 
#обновляем параметры пространства: позицию текста, вид справочной информации
fig.update_traces(textposition='inside', textinfo='percent+label')
#обновляем параметры фона: задаем название графику, ширину и высоту
fig.update_layout(title="Percent of sales by Genre", height=500, width=700)
#отображаем фигуру и построенный на ней график
fig.show()

In [None]:
#построим пузырьковую диаграмму, отображающую зависимость оценки критиков от оценки пользователей
#размер точки будет зависеть от объема мировых продаж
s = data['Global_Sales']
#нормируем размер точек на диапазон от 0 до 1
sizes = (s -  s.min())/(s.max() - s.min()) * 100
#создаем фигуру
fig = go.Figure() 
#добавляем пространство для графика
#на пространстве строим диаграмму рассеяния
fig.add_trace(trace=go.Scatter(
    x=data['User_Score'], 
    y=data['Critic_Score'],
    mode='markers', #задаем маркеры
    marker={'size': sizes} #и их размеры
))
#добавляем на диагональную пространство линию
fig.add_trace(go.Scatter(
    x=[0, 100], 
    y=[0, 100],
    mode='lines'
))
#обновляем параметры фона: задаем название графика, его ширину и высоту
fig.update_layout(title="Dependence of critic score on user score", height=500, width=700)
#отображаем фигуру и построенный на ней график
fig.show()

In [None]:
#сгруппируем продажи в различных регионах по году релиза игр (построим зависимость продаж от времени)
geo_data = data[['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales', 'Year_of_Release']].groupby(
    'Year_of_Release',
    as_index=False
).sum()
#сортируем по году релиза
geo_data = geo_data.sort_values('Year_of_Release', ascending=True)
geo_data.head(3)

Unnamed: 0,Year_of_Release,NA_Sales,EU_Sales,JP_Sales,Other_Sales,Global_Sales
0,1980,10.59,0.67,0.0,0.12,11.38
1,1981,33.4,1.96,0.0,0.32,35.77
2,1982,26.92,1.65,0.0,0.31,28.86


In [None]:
#создаем фигуру
fig = go.Figure()
#выделим список целевых регионов
regions = ['NA_Sales', 'EU_Sales', 'JP_Sales', 'Other_Sales', 'Global_Sales']
#создаем цикл по выделенным регионам
for region in regions:
    #на каждой итерации добавляем на фигуру новый график, соответствующий продажам текущего региона
    fig.add_trace(go.Scatter(
        x=geo_data['Year_of_Release'], 
        y=geo_data[region], 
        mode='lines', #линейный график
        stackgroup='one', #заливка площади под графиком
        name=region, #имя графика соответствует региону
    ))
#обновляем параметры фона: задаем название графика
fig.update_layout(title="Total sales per year by region (Millions)")
#обновляем параметры оси x: задаем поворот меток на оси x
fig.update_xaxes(tickangle=45)
#отображаем график
fig.show()

In [None]:
#выделим топ 5 издательств на каждом из региональных рынков
#для этого сгруппируем данные по признаку Publisher и посчитаем суммарные продажи в каждом регионе
#отсортируем данные по убыванию и возьмем первые 5 элементов
EU = data.groupby('Publisher', as_index=False)['EU_Sales'].sum()
EU = EU.sort_values(by='EU_Sales', ascending=False).iloc[:5]
EU_publishers = EU['Publisher']

JP =  data.groupby('Publisher', as_index=False)['JP_Sales'].sum()
JP = JP.sort_values(by='JP_Sales', ascending=False).iloc[:5]
JP_publishers = JP['Publisher']

NA = data.groupby('Publisher', as_index=False)['NA_Sales'].sum()
NA = NA.sort_values(by='NA_Sales', ascending=False).iloc[:5]
NA_publishers = NA['Publisher']

Other = data.groupby('Publisher', as_index=False)['Other_Sales'].sum()
Other = Other.sort_values(by='Other_Sales', ascending=False).iloc[0:5]
Other_publishers = Other['Publisher']

Global = data.groupby('Publisher', as_index=False)['Global_Sales'].sum()
Global = Global.sort_values(by='Global_Sales', ascending=False).iloc[0:5]
Global_publishers = Global['Publisher']

In [None]:
#создаем фигуру
fig = go.Figure()

fig.add_trace(
    go.Bar(y=NA['NA_Sales'],
           x=NA['Publisher'],
           name="North America",
           marker={'color': NA['NA_Sales'],'colorscale': 'tealgrn'}
          )
    )
fig.add_trace(
    go.Bar(y=EU['EU_Sales'],
           x=EU_publishers,
           name="Europe",
           marker={'color': EU['EU_Sales'],'colorscale': 'tealgrn'},
           visible=False
           )
    )
fig.add_trace(
    go.Bar(y=JP['JP_Sales'],
           x=JP_publishers,
           name="Japan",
           marker={'color': JP['JP_Sales'],'colorscale': 'tealgrn'},
           visible=False
           )
    )

fig.add_trace(
    go.Bar(y=Other['Other_Sales'],
           x=Other_publishers,
           name="Others",
           marker={'color': Other['Other_Sales'],'colorscale': 'tealgrn'},
           visible=False
           )
    )

fig.add_trace(
    go.Bar(y=Global['Global_Sales'],
           x=Global_publishers,
           name="Global",
           marker={'color': Global['Global_Sales'],'colorscale': 'tealgrn'},
               visible=False 
           )
    )

buttons = []
countries = ['North America', 'Europe', 'Japan', 'Others', 'Global']
for i, country in enumerate(countries):
    buttons.append(dict(
        label=country,
        method="update",
        args=[{"visible": [False] * i + [True] + [False] * (3-i+1)},
              {"title": f"Top 5 Publishers for {country}"}]
    ))

fig.update_layout(
    title_text="Top 5 Publishers per region",
    xaxis_domain=[0.05, 1.0],
    updatemenus=[
        dict(
            type="buttons",
            direction="right",
            #active=0,
            x=0.57,
            y=1.2,
            buttons=buttons,
        )
    ])

fig.show()

##  <center> 6. Дополнительные источники

### Как правильно выбрать тип визуализации?

[DataVizCatalogue](https://datavizcatalogue.com/)  
[ExtremePresentation](https://extremepresentation.com/tools/)  
[PythonGraphGallery](https://www.python-graph-gallery.com/)  
[А так не надо](https://t.me/awfulcharts) 

### Документация plotly

https://plotly.com/python/

### Обратная связь:

https://skillfactoryschool.typeform.com/to/E9YAIWSL#course=xxxxx&webinar=xxxxx&link=xxxxx