# Технологии искусственного интеллекта. Семестр 1

© Петров М.В., старший преподаватель кафедры суперкомпьютеров и общей информатики, Самарский университет

## Лекция 2. Визуализация данных

### Содержание

1. [Библиотеки](#2.1-Библиотеки)
2. [Датасет](#2.2-Датасет)
3. [Предобработка данных](#2.3-Предобработка-данных)
4. [Интерактивный график в `matplotlib`](#2.4-Интерактивный-график-в-matplotlib)
5. [Интерактивный график в `plotly`](#2.5-Интерактивный-график-в-plotly)
6. [Построение графиков средствами `pandas`](#2.6-Построение-графиков-средствами-`pandas`)
7. [Построение графиков в `seaborn`](#2.7-Построение-графиков-в-seaborn)
8. [Построение различных графиков](#2.8-Построение-различных-графиков)
9. [Экспорт в растровый и векторный форматы](#2.9-Экспорт-в-растровый-и-векторный-форматы)

### 2.1 Библиотеки

- [matplotlib](https://matplotlib.org/) - Python-библиотека для визуализации данных.
- [seaborn](https://seaborn.pydata.org/index.html) — это библиотека для создания статистических графиков на Python.
   Она основывается на `matplotlib` и тесно взаимодействует со структурами данных `pandas`.
- [plotly](https://plotly.com/python/) - библиотека для визуализации данных.
   - Фреймворк [Dash](https://dash.plotly.com/).

Гайды по `matplotlib`:
- [Quick start guide](https://matplotlib.org/stable/users/explain/quick_start.html)
- [Pyplot tutorial](https://matplotlib.org/stable/tutorials/pyplot.html)
- [Examples](https://matplotlib.org/stable/gallery/index.html)
- [Interactive Plotting in IPython](https://ipython.readthedocs.io/en/stable/interactive/plotting.html)
- [Enable interactive mode - matplotlib.pyplot.ion](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.ion.html)

Гайды по `seaborn`:
- [Tutorial](https://seaborn.pydata.org/tutorial.html)
- [Visualizing categorical data](https://seaborn.pydata.org/tutorial/categorical.html)

Гайды по `plotly`:
- [Шпаргалка по визуализации данных в Python с помощью Plotly @ Хабр](https://habr.com/ru/articles/502958/)
- [Забудьте о matplotlib: визуализация данных в Python вместе с plotly @ proglib](https://proglib.io/p/plotly)

Гайды по `pandas`:
- [pandas.DataFrame.plot](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html)
- [Chart visualization](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)

Гайды:
- [Открытый курс машинного обучения. Тема 2: Визуализация данных c Python](https://habr.com/ru/company/ods/blog/323210/)

### 2.2 Датасет

[Goodreads Books - 31 Features](https://www.kaggle.com/datasets/austinreese/goodreads-books)

| Признак                | Описание                                                                                              |
|------------------------|-------------------------------------------------------------------------------------------------------|
| id                     | id книги                                                                                              |
| title                  | Название книги                                                                                        |
| link                   | Ссылка на Goodreads                                                                                   |
| series                 | Название цикла, если книга является частью многоциколового произведения                               |
| cover_link             | Ссылка на обложку книги                                                                               |
| author                 | Список авторов книжного произведения                                                                  |
| author_link            | Ссылка на запись об авторах книжного произведения                                                     |
| rating_count           | Количество выставленных оценок на книжное произведение                                                |
| review_count           | Количество оставленных отзывов на книжное произведение                                                |
| average_rating         | Средняя оценка книжного произведения                                                                  |
| five_star_ratings      | Количество выставленных оценок на книжное произведение "5 звезд"                                      |
| four_star_ratings      | Количество выставленных оценок на книжное произведение "4 звезды"                                     |
| three_star_ratings     | Количество выставленных оценок на книжное произведение "3 звезды"                                     |
| two_star_ratings       | Количество выставленных оценок на книжное произведение "2 звезды"                                     |
| one_star_ratings       | Количество выставленных оценок на книжное произведение "1 звезда"                                     |
| number_of_pages        | Количество страниц в книжном произведении                                                             |
| date_published         | Дата выхода книги в печатном издании                                                                  |
| publisher              | Название издательства                                                                                 |
| original_title         | Исходное название книги                                                                               |
| genre_and_votes        | Список указанных пользователями жанров в виде <жанр1 N1>, <жанр2 N2>, где N1, N2 - количество "меток" |
| isbn                   | ISBN номер книжного произведения                                                                      |
| isbn13                 | 13-тизначный ISBN номер книжного произведения                                                         |
| asin                   | Amazon Standard Identification Number - артикул на площадке Amazon                                    |
| settings               | Место (или несколько), в котором происходят описываемые в книге события                               |
| characters             | Имена основных персонажей в книге                                                                     |
| awards                 | Список названий присужденных книжному произведению премий (наград)                                    |
| amazon_redirect_link   | URL ссылка редиректа на площадку Amazon                                                               |
| worldcat_redirect_link | URL ссылка редиректа на Goodread's WorldCat                                                           |
| recommended_books      | Список id рекомендуемых книг с Goodread                                                               |
| books_in_series        | Список id книг, входящих в одноименный цикл                                                           |
| description            | Синопсис                                                                                              |

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path
# путь к папке с данными
data_path = "../lecture_1/data"
# датасет: Goodreads Books - 31 Features: https://www.kaggle.com/datasets/austinreese/goodreads-books
df = pd.read_csv(Path(data_path, 'goodreads_books.csv'))
df.info()
df.head(10)

### 2.3 Предобработка данных
#### Дропаем ненужное

In [None]:
df.drop(columns=['link', 'cover_link', 'author_link', 'original_title', 'isbn', 'isbn13', 'asin', 'amazon_redirect_link', 'worldcat_redirect_link',
                 'recommended_books'], inplace=True)
df.info()

In [None]:
df.head(10)

#### Парсим год выхода

##### Избавимся от NaN

In [None]:
print(f"{df[df['date_published'].isna()].shape[0]} out of {df['date_published'].shape[0]} is NaN")

In [None]:
df.drop(df[df['date_published'].isna()].index, inplace=True)
df['date_published'].shape[0]

In [None]:
df['date_published'].head(10)

##### Добавим признак `Год выхода` и спарсим год из даты

In [None]:
# см. https://regex101.com/
df['year_published'] = df['date_published'].str.extract(r'(\d{4})')
df.drop(df[df['year_published'].isna()].index, inplace=True)
df['year_published'] = df['year_published'].astype(int)
# дропаем дату выхода
df.drop(columns=['date_published'], inplace=True)
df.info()

#### Удаляем скобки в столбце `series`

In [None]:
df.series.head(10)

In [None]:
df['series'] = df['series'].str.strip('()')
df.series.head(10)

In [None]:
df['series'].str.extract(r'( #\d+ *)')

In [None]:
df['series'].str.replace(r'( #\d+ *)', '', regex=True)

In [None]:
df['series'] = df['series'].str.replace(r'( #\d+ *)', '', regex=True)
df.series.head(10)

#### Проанализируем `books_in_series`

In [None]:
df.books_in_series.head(10)

#### Добавим признак `books_in_series_count` - количество книг в цикле

In [None]:
df['books_in_series_count'] = [len([idx for idx in x.split(',')])
                               if pd.notna(x)
                               else 0
                               for x in df['books_in_series']]
df['books_in_series_count'] += 1
df['books_in_series_count'].head(10)

In [None]:
df.info()

In [None]:
len(df[df['books_in_series_count'] > 1])

#### Проанализируем `awards`

In [None]:
df[df.awards.notna()].awards.head(10)

In [None]:
df[df.awards.notna()].awards.str.replace(r' *\(\d+\) *', '', regex=True)

In [None]:
df.awards = df.awards.str.replace(r' *\(\d+\) *', '', regex=True)
df[df.awards.notna()].awards.head(10)

#### Добавим признак `awards_count`

In [None]:
df['awards_count'] = [len([idx for idx in x.split(',')])
                      if pd.notna(x)
                      else 0
                      for x in df['awards']]
df[df['awards_count'] > 0]['awards_count'].head(10)

##### Какая самая титулованная книга?

In [None]:
df.loc[df['awards_count'].idxmax(), ['title', 'awards', 'awards_count']]

#### Проанализируем признак `author`

In [None]:
df['author'].head(10)

In [None]:
df['author'] = [[idx for idx in x.split(',')] for x in df['author']]
df['author'].head(10)

In [None]:
df['author'][0]

#### Проанализируем признак `genre_and_votes`

In [None]:
df.genre_and_votes

In [None]:
df.genre_and_votes.str.replace(r'( *\d+ *)', '', regex=True)

In [None]:
df.genre_and_votes.str.replace(r'(, )', ',', regex=True)
df.genre_and_votes[0]

In [None]:
df.dropna(subset=['genre_and_votes'], inplace = True)
df.genre_and_votes = df.genre_and_votes.str.replace(r'( *\d+ *)', '', regex=True)
df.genre_and_votes = df.genre_and_votes.str.replace(', ', ',')
df.genre_and_votes[8]

In [None]:
# American-Southern,Sequential Art-Graphic Novels
# genre group regex: ([\w ]+)(?>-)
# subgenre regex: (?<=-)([\w ]+)

In [None]:
df.genre_and_votes.str.findall(r'(?<=-)([\w ]+)')

In [None]:
df.genre_and_votes.str.findall(r'([\w ]+)(?>-)')
# см. https://stackoverflow.com/a/74722529

In [None]:
df.genre_and_votes = df.genre_and_votes.str.findall(r'([\w ]+)')
df.genre_and_votes[8]

In [None]:
df.genre_and_votes.apply(lambda x: pd.unique(x))

In [None]:
df.genre_and_votes.apply(lambda x: pd.unique(np.array(x)))

In [None]:
df.genre_and_votes = df.genre_and_votes.apply(lambda x: pd.unique(np.array(x)))
df.rename(columns = {'genre_and_votes' : 'genre'}, inplace = True)
df.genre

### 2.4 Интерактивный график в `matplotlib`
#### Сгруппируем оценки пользователей по годам выхода книжного издания

In [None]:
df_ratings = df.groupby('year_published') \
    .agg({'rating_count' : 'sum',
          'five_star_ratings' : 'sum',
          'four_star_ratings': 'sum',
          'three_star_ratings': 'sum',
          'two_star_ratings': 'sum',
          'one_star_ratings': 'sum'}) \
    .reset_index()
df_ratings.describe()

#### Ограничим год выхода 1800+

In [None]:
df_ratings = df_ratings[df_ratings.year_published > 1800]
ratings = ['five_star_ratings', 'four_star_ratings',
           'three_star_ratings', 'two_star_ratings',
           'one_star_ratings']

#### Количество оценок переведем в %

In [None]:
# show rating categories as a percentage
for ratings in ratings:
    df_ratings[ratings] = df_ratings[ratings] / df_ratings['rating_count'] * 100
df_ratings = df_ratings.reset_index(drop=True)
df_ratings.head()

#### Импорт библиотек

In [None]:
# magic function - см. Interactive Plotting in IPython
%matplotlib inline
%matplotlib widget
from ipywidgets import *
import matplotlib as mpl
import matplotlib.pyplot as plt
# см. https://ipython.readthedocs.io/en/stable/interactive/plotting.html
# Starting with IPython 5.0 and matplotlib 2.0 you can avoid the use of IPython’s specific magic
# and use matplotlib.pyplot.ion()/matplotlib.pyplot.ioff() which have the advantages of working outside of IPython as well.
# plt.ion()

In [None]:
from matplotlib.widgets import Slider, Button

fig, ax = plt.subplots(figsize=(13, 7.5))
r5 = ax.plot(list(df_ratings.year_published),
             list(df_ratings.five_star_ratings), label = '★★★★★')
r4 = ax.plot(list(df_ratings.year_published),
             list(df_ratings.four_star_ratings), label = '★★★★')
r3 = ax.plot(list(df_ratings.year_published),
             list(df_ratings.three_star_ratings), label = '★★★')
r2 = ax.plot(list(df_ratings.year_published),
             list(df_ratings.two_star_ratings), label = '★★')
r1 = ax.plot(list(df_ratings.year_published),
             list(df_ratings.one_star_ratings), label = '★')
plt.xlabel("Год выхода")
plt.ylabel("% отзывов")
plt.title("Средний пользовательский рейтинг")
# plt.legend(loc='right', bbox_to_anchor = (1.3, 0.5))
leg = ax.legend(loc ='right', bbox_to_anchor = (1.13, 0.5), fancybox=True, shadow=True)

# adjust the main plot to make room for the sliders
fig.subplots_adjust(bottom=0.25)

ax_year = fig.add_axes([0.20, 0.1, 0.60, 0.03])
year_slider = Slider(
    ax=ax_year,
    label='Год',
    valmin=1800,
    valmax=2020,
    valinit=1800,
    valstep = 1,
)

lines = ax.get_lines()
lined = {}  # Will map legend lines to original lines.
for legline, origline in zip(leg.get_lines(), lines):
    legline.set_picker(7)  # Enable picking on the legend line.
    lined[legline] = origline

# The function to be called anytime a slider's value changes
def update(val):
    ax.clear()
    year = year_slider.val
    df_ratings_year = df_ratings[df_ratings.year_published >= year]
    r5 = ax.plot(list(df_ratings_year.year_published),
                 list(df_ratings_year.five_star_ratings), label = '★★★★★');
    r4 = ax.plot(list(df_ratings_year.year_published),
                 list(df_ratings_year.four_star_ratings), label = '★★★★');
    r3 = ax.plot(list(df_ratings_year.year_published),
                 list(df_ratings_year.three_star_ratings), label = '★★★');
    r2 = ax.plot(list(df_ratings_year.year_published),
                 list(df_ratings_year.two_star_ratings), label = '★★');
    r1 = ax.plot(list(df_ratings_year.year_published),
                 list(df_ratings_year.one_star_ratings), label = '★');
    leg = ax.legend(loc ='right', bbox_to_anchor = (1.13, 0.5), fancybox=True, shadow=True)
    ax.set_xlabel("Год выхода")
    ax.set_ylabel("% отзывов")
    ax.set_title("Средний пользовательский рейтинг")

    lines = ax.get_lines()
    for legline, origline in zip(leg.get_lines(), lines):
        legline.set_picker(7)  # Enable picking on the legend line.
        lined[legline] = origline

    fig.canvas.draw_idle()

def on_pick(event):
    # On the pick event, find the original line corresponding to the legend
    # proxy line, and toggle its visibility.
    legline = event.artist
    origline = lined[legline]
    visible = not origline.get_visible()
    origline.set_visible(visible)
    # Change the alpha on the line in the legend, so we can see what lines
    # have been toggled.
    legline.set_alpha(1.0 if visible else 0.2)
    # year_slider.set_cal(year_slider.val)
    fig.canvas.draw()

fig.canvas.mpl_connect('pick_event', on_pick)


# register the update function with each slider
year_slider.on_changed(update)

ax_21y = fig.add_axes([0.125, 0.9, 0.025, 0.04])
button_21y = Button(ax_21y, '21y', hovercolor='0.975')

ax_100y = fig.add_axes([0.155, 0.9, 0.025, 0.04])
button_100y = Button(ax_100y, '100y', hovercolor='0.975')

ax_ally = fig.add_axes([0.185, 0.9, 0.025, 0.04])
button_ally = Button(ax_ally, 'ally', hovercolor='0.975')

def clicked_w(year):
    def clicked(event):
        year_slider.set_val(year)
    return clicked

button_21y.on_clicked(clicked_w(year=2000))
button_100y.on_clicked(clicked_w(year=1920))
button_ally.on_clicked(clicked_w(year=1800))

resetax = fig.add_axes([0.8, 0.025, 0.1, 0.04])
button_reset = Button(resetax, 'Reset', hovercolor='0.975')

def reset(event):
    year_slider.reset()
button_reset.on_clicked(reset)

### 2.5 Интерактивный график в `plotly`
> Для корректного отображения в Jupyter Lab: https://stackoverflow.com/a/56777278

#### Импорт библиотек

In [None]:
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go
from plotly.offline import iplot, init_notebook_mode
init_notebook_mode(connected=True)
# import plotly.io as pio
# pio.renderers.default='notebook'

In [None]:
fig_1 = go.Figure()

fig_1.add_trace(
    go.Scatter(x=list(df_ratings.year_published),
               y=list(df_ratings.five_star_ratings), name = '★★★★★'))
fig_1.add_trace(
    go.Scatter(x=list(df_ratings.year_published),
               y=list(df_ratings.four_star_ratings), name = '★★★★'))
fig_1.add_trace(
    go.Scatter(x=list(df_ratings.year_published),
               y=list(df_ratings.three_star_ratings), name = '★★★'))
fig_1.add_trace(
    go.Scatter(x=list(df_ratings.year_published),
               y=list(df_ratings.two_star_ratings),name = '★★'))
fig_1.add_trace(
    go.Scatter(x=list(df_ratings.year_published),
               y=list(df_ratings.one_star_ratings), name = '★'))

# Set title
fig_1.update_layout(
    title_text="Средний пользовательский рейтинг",
    title_x=0.5,
    legend_title="Рейтинг",
    legend = dict(orientation = "v", y = .5, x = 1.025)
)

# Add range slider
fig_1.update_layout(
    xaxis = dict(
        rangeselector = dict(
            buttons = list([
                dict(count = 21,
                     label = "21y",
                     step = "year",
                     stepmode = "backward"),
                dict(count = 100,
                     label = "100y",
                     step = "year",
                     stepmode = "backward"),
                dict(step = "all")
            ])
        ),
        rangeslider = dict(
            visible = True
        ),
        type = "date"
    ),
    autosize=False,
    width=1300,
    height=800,
)

fig_1.show()

### 2.6 Построение графиков средствами `pandas`
#### `hist`

In [None]:
df_ratings.hist(figsize=(15, 7.5));

In [None]:
df_ratings.hist(column='five_star_ratings', bins = 10);

### 2.7 Построение графиков в `seaborn`
#### Импорт библиотеки

In [None]:
import seaborn as sns

#### `boxplot`

In [None]:
df_ratings['five_star_ratings']

In [None]:
fig_sns, ax_sns = plt.subplots(figsize=(13, 5))
sns.boxplot(ax = ax_sns, data=df_ratings['five_star_ratings']);

> [Getting Error 0 when plotting boxplot of a filtered dataset](https://stackoverflow.com/a/71423584)

In [None]:
# import copy
# dff = copy.deepcopy(df_ratings)
# dff = dff.reset_index()
# sns.boxplot(ax = ax_sns, data = dff['five_star_ratings'].values);

In [None]:
fig_sns, ax_sns = plt.subplots(1, 5, figsize=(13, 5))
sns.boxplot(ax=ax_sns[0], data=df_ratings, x='five_star_ratings');
sns.boxplot(ax=ax_sns[1], data=df_ratings, x='four_star_ratings');
sns.boxplot(ax=ax_sns[2], data=df_ratings, x='three_star_ratings');
sns.boxplot(ax=ax_sns[3], data=df_ratings, x='two_star_ratings');
sns.boxplot(ax=ax_sns[4], data=df_ratings, x='one_star_ratings');

#### Ящик с усами
[Wiki](https://ru.wikipedia.org/wiki/%D0%AF%D1%89%D0%B8%D0%BA_%D1%81_%D1%83%D1%81%D0%B0%D0%BC%D0%B8)

<div align="center">
  <img src="https://upload.wikimedia.org/wikipedia/commons/1/1a/Boxplot_vs_PDF.svg" width="66%" title="Python logo"/>
</div>

### 2.8 Построение различных графиков

#### Анализ жанров

In [None]:
genres = df['genre'].explode().value_counts().index.tolist()
genres[:10]

In [None]:
print(f"Жанров всего: {len(genres)}")

In [None]:
auth = df['author'].explode().value_counts().reset_index()
auth = auth[:10]
gen = df['genre'].explode().value_counts().reset_index()
gen = gen[:10]

In [None]:
auth

In [None]:
fig_2 = make_subplots(rows=1, cols=2,
                      specs=[[{'type': 'xy'}, {"type": "xy"}]],
                      subplot_titles=("Топ 10 самых популярных жанров",
                                      "Топ 10 самых популярных авторов"))
# Setting Bar parameters
fig_2.add_trace(go.Bar(x=gen.index,
                       y=gen['count'],
                       name ='Books',
                       marker_color=px.colors.sequential.Plasma),
                       row=1, col=1)
# Setting Bar parameters
fig_2.add_trace(go.Bar(x=auth.index,
                       y=auth['count'],
                       name ='Books',
                       marker_color=px.colors.sequential.Plotly3),
                       row=1, col=2)
# Setting the parameters of the chart when displaying
fig_2.update_traces(marker_line_width=0)

# Setting the parameters of the chart when displaying
fig_2.update_layout(showlegend=False,
                    plot_bgcolor='rgba(0,0,0,0)',
                    font=dict(family='Arial',
                              size=12,
                              color='black'),
                    autosize=False,
                    width=1300,
                    height=800,)

# Displaying the graph
fig_2.show()

#### Введем искусственный признак - тип серии (цикличность)

In [None]:
di = {1: 'Standalone', 2: 'Duology', 3: 'Trilogy'}
df['series_type'] = df['books_in_series_count'].map(di).fillna('Saga')
df['series_type']

#### Распределение по типу серии

In [None]:
fig_sns, ax_sns = plt.subplots(figsize=(13, 5))
sns.countplot(ax=ax_sns, data=df, x='series_type');

#### Топ 10 издательств

In [None]:
pubs = df['publisher'].explode().value_counts().index.tolist()
pubs[:10]

In [None]:
df['publisher'].value_counts().head(10)

In [None]:
pubs_i = df['publisher'].value_counts().head(10).index
pubs_i

In [None]:
df_pubs = df[df['publisher'].isin(pubs_i)]
df_pubs.info()

#### Количество книг в топ 10 издательств

In [None]:
fig_sns, ax_sns = plt.subplots(figsize=(13, 5))
sns.countplot(ax=ax_sns, data=df_pubs, x='publisher');

#### Количество книг в топ 10 издательств по типу серии

In [None]:
fig_sns, ax_sns = plt.subplots(figsize=(13, 5))
sns.countplot(ax=ax_sns, data=df_pubs, x='publisher', hue='series_type');

#### Топ 10 издательств по количеству оценок в определенном жанре

In [None]:
df_grouped_by_pub = df.groupby('publisher') \
    .agg({'title':'count',
          'average_rating':'mean',
          'rating_count': 'sum'}) \
    .reset_index()

In [None]:
df_pub_popular = df_grouped_by_pub.sort_values(by=['rating_count'], ascending=False)[:10]
df_pub_popular

In [None]:
def barplot_by_genre(genre):
    mask = [genre in x for x in df['genre']]
    newframe = df[mask]
    df_grouped_by_pub = newframe.groupby('publisher') \
       .agg({'title':'count', 'average_rating':'mean', 'rating_count': 'sum'}) \
       .reset_index()
    df_popular = df_grouped_by_pub.sort_values(by=['rating_count'], ascending=False)[:10]
    barplot = px.bar(data_frame = df_popular,
                     x = 'publisher',
                     y = 'rating_count',
                     labels = {'publisher': 'Издательство', 'rating_count': 'Количество оценок', 'average_rating': 'Рейтинг'},
                     color = 'average_rating',
                     opacity = 0.9,
                     orientation = 'v',
                     barmode = 'relative',
                     title = f"Топ 10 издательств по количеству оценок в жанре \"{genre}\"",
                    )
    barplot.layout.update(autosize=False,
                          width=1300,
                          height=800,
                          title_x = 0.5)
    barplot
    barplot.show()

In [None]:
interact(barplot_by_genre, genre=genres, df = fixed(df));

In [None]:
feat = [f for f in df.columns if 'star' in f]
df_ratings[feat].hist();

In [None]:
sns.pairplot(height=2.5, data=df_ratings[feat]);

#### Связь рейтинга книги с количеством страниц и количеством сиквелов

In [None]:
series_type_anno = [('Любая', 'All'), ('Отдельная', 'Standalone'),
                    ('Дилогия', 'Duology'), ('Трилогия', 'Trilogy'),
                    ('Цикл', 'Saga')]
series_type_dict = dict()
for t in series_type_anno:
    series_type_dict[t[1]] = t[0]

toggle = widgets.ToggleButtons(options=series_type_anno,
                               description='Цикличность:',
                               disabled=False,
                               button_style='',
                               tooltips=['Любое количество книг',
                                        'Отдельная книга',
                                        'Две книги в цикле',
                                        'Три книги в цикле',
                                        'Больше книг богу книг']
                                )
def making_pages(df, toggle, label):
    df_pages = df[df['number_of_pages'] <= 1500].copy()
    if not toggle == 'All':
        mask = [toggle in x for x in df_pages['series_type']]
        colour = 'rating_count'
    else:
        mask = [True for x in df_pages['series_type']]
        colour = 'series_type'
    title = f"Зависимость рейтинга от количества страниц для цикличности \"{label}\""
    fig = px.scatter(df_pages[mask],
                     x="number_of_pages",
                     y="rating_count",
                     labels = {"number_of_pages": 'Количество страниц', "rating_count": 'Количество оценок',
                               "review_count": 'Количество рецензий', "series_type": 'Цикличность'},
                     size='review_count',
                     color="review_count",
                     hover_data=['title', 'author'],
                     facet_col="series_type",
                     title = title
                    )
    # Меняем названия subplot'ов
    fig.for_each_annotation(lambda a: a.update(text = series_type_dict[a.text.split('=')[1]]))
    # Меняем названия рядов в легенде
    # fig.for_each_trace(lambda t: t.update(name = series_type_dict[t.name],
    #                                       legendgroup = series_type_dict[t.name],
    #                                       hovertemplate = t.hovertemplate.replace(t.name, series_type_dict[t.name.split('=')[1]])
    #                                      ) if t.name != '' else '')

    fig.layout.update(autosize=False,
                      width=1300,
                      height=400,
                      title_x = 0.5)
    fig.show()

    df_scat = df_pages[mask].groupby(['year_published', 'series_type']) \
        .agg({'average_rating' : 'mean',
              'rating_count' : 'sum',
              'review_count' : 'sum'}) \
        .reset_index()
    df_scat = df_scat[df_scat.year_published > 1950]
    title = f"Средняя оценка для цикличности \"{label}\" c 1950 по 2021 гг."
    fig = px.scatter(df_scat,
                     y="average_rating",
                     x="year_published",
                     labels = {"average_rating": 'Средняя оценка', "year_published": 'Год выхода', "series_type": 'Цикличность', "rating_count": 'Количество оценок'},
                     log_x=True,
                     log_y=True,
                     color=colour,
                     size="rating_count",
                     title = title)
    fig.layout.update(autosize=False,
                      width=1300,
                      height=400,
                      title_x = 0.5)
    fig.show()

In [None]:
interact(making_pages, toggle = toggle, label = toggle.label, df=fixed(df));

In [None]:
df.corr()

In [None]:
# since pandas version 2.0.0 now you need to add numeric_only=True param to avoid the issue
# https://stackoverflow.com/a/76717659
df.corr(numeric_only=True)

In [None]:
fig_sns, ax_sns = plt.subplots(figsize=(9, 8))
sns.heatmap(ax = ax_sns, data = df[df.columns[~df.columns.isin(['id'])]].corr(numeric_only=True));
for item in ax_sns.get_xticklabels():
    item.set_rotation(25)
for item in ax_sns.get_yticklabels():
    item.set_rotation(30)

In [None]:
fig_sns, ax_sns = plt.subplots(2, 1, figsize=(13, 12))
sns.violinplot(ax = ax_sns[0], data = df_pubs, x = 'publisher', y = 'average_rating');
sns.boxplot(ax = ax_sns[1], data = df_pubs, x = 'publisher', y = 'average_rating');

#### QQ-график
Графики Q-Q (квантиль-квантиль) сравнивают два распределения вероятностей путем построения совместных квантилей. График Q-Q используется для сравнения форм распределений, обеспечивая графическое представление того, насколько подобны или различны положение, масштаб и асимметрия двух распределений.

С помощью него определяем насколько числовой признак похож на нормальное распределение. Поскольку целый ряд методов статистики предполагают, что распределение признака нормальное. QQ-график — один из способов проверить нормальность распределения.

In [None]:
from scipy import stats

fig_p, ax_p = plt.subplots(2, 1, figsize=(13, 12))
stats.probplot( df['average_rating'], dist="norm", plot=plt)
plt.subplot(2,1,2)
df.hist(ax = ax_p[0], column = 'average_rating', bins = 30 )
plt.show()

In [None]:
from scipy import stats

fig_p, ax_p = plt.subplots(2, 1, figsize=(15, 12))
stats.probplot( df['average_rating'], dist=stats.expon, plot=plt)
plt.subplot(2,1,2)
df.hist(ax = ax_p[0], column = 'average_rating', bins = 30 )
plt.show()

### 2.9 Экспорт в растровый и векторный форматы
DPI - dots per inch - разрешение нашего рисунка, количество точек на дюйм. Пришло из полиграфии. "Физический" размер рисунка может оставаться таким же, а изменение `dpi` приведет к изменению размера рисунка на бумаге или в документе. 300 dpi достаточно для печати. Соответственно, комбинация `figsize=(w, h)` и `dpi=n` задает искомый размер (в документе размер рисунка можно поправить, и визуально качество не ухудшится, а вот на печати это скажется при апскейле) и разрешение (для печати и отображения).
Рисунки, содержащие графики, желательно экспортировать в векторный формат, чтобы не страдало качество печати.

#### matplotlib

In [None]:
# Сохранение в растровый формат, matplotlib
fig.savefig(Path(data_path, 'ratings_by_year_300.png'), dpi=300)
fig.savefig(Path(data_path, 'ratings_by_year_600.png'), dpi=600)

In [None]:
# Сохранение в векторный формат, matplotlib
fig.savefig(Path(data_path, 'ratings_by_year.svg'), dpi=300)

#### plotly
В `plotly` нет явного параметра `dpi`, есть только размер в пикселах и параметр `scale`.
Необходимо установить `kaleido`. Однако, последняя версия не работает, см. [Not able to save plotly plots using to_image or write_image](https://stackoverflow.com/questions/70997997/not-able-to-save-plotly-plots-using-to-image-or-write-image).
```bash
pip install kaleido==0.1.0post1
```

In [None]:
# Сохранение в растровый формат, plotly
import plotly
plotly.io.kaleido.scope.mathjax=None
fig_2.write_image(Path(data_path, 'top10_authors_and_genres.png'), format='png',engine='kaleido')

In [None]:
# Сохранение в векторный формат, plotly
fig_2.write_image(Path(data_path, 'top10_authors_and_genres.svg'))