# Технологии искусственного интеллекта. Анализ данных

© Петров М.В., старший преподаватель кафедры киберфотоники, Самарский университет

План:
1. Библиотека Pandas. Визуализация данных
2. Задачи классификации. Метрики качества. Классификация *kNN*
3. Деревья решений
4. Линейная регрессия. Метрики качества
5. Градиентный бустинг
6. **[TBA]**

## Лекция 1. Библиотека Pandas. Визуализация данных

### Содержание

1. [Введение](#1.1-Введение)
2. [Pandas](#1.2-Pandas)
3. [Предобработка данных](#1.3-Предобработка-данных)
4. [Визуализация данных](#1.4-Визуализация-данных)
5. [Датасет](#1.5-Датасет)
6. [Предобработка данных датасета](#1.6-Предобработка-данных-датасета)
7. [Интерактивный график в `matplotlib`](#1.7-Интерактивный-график-в-matplotlib)
8. [Интерактивный график в `plotly`](#1.8-Интерактивный-график-в-plotly)
9. [Построение графиков средствами `pandas`](#1.9-Построение-графиков-средствами-`pandas`)
10. [Построение графиков в `seaborn`](#1.10-Построение-графиков-в-seaborn)
11. [Построение различных графиков](#1.11-Построение-различных-графиков)
12. [Экспорт в растровый и векторный форматы](#1.12-Экспорт-в-растровый-и-векторный-форматы)
13. [`plotly` `Dash`](#1.13-plotly-Dash)

### 1.1 Введение

Что потребуется:
- [Python 3](https://www.python.org/)
- Библиотеки:
  - [NumPy](https://numpy.org/)
  - [SciPy](https://scipy.org/)
  - [Pandas](https://pandas.pydata.org/)
  - [Matplotlib](https://matplotlib.org/)
  - [Plotly](https://plotly.com/python/)
  - [Scikit-learn](https://scikit-learn.org/stable/)
  - [CatBoost](https://catboost.ai/)
  - [Jupyter Notebook или JupyterLab](https://jupyter.org/)
  - [kagglehub](https://pypi.org/project/kagglehub/)
- Настроенная IDE

Подробнее:
- [Установка Python. Менеджеры пакетов. Виртуальное окружение. Настройка IDE](../../self-study/python_stuff.md).

### 1.2 Pandas
`pandas` &ndash; это высокоуровневая Python библиотека для работы с табличными данными.

Гайды:
- [pandas User Guide](https://pandas.pydata.org/docs/user_guide/index.html)
- [pandas API reference](https://pandas.pydata.org/docs/reference/index.html)
- [Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas](https://habr.com/company/ods/blog/322626/)

In [None]:
import pandas as pd
pd.__version__

In [None]:
from pathlib import Path
# путь к папке с данными
data_path = "data"
# Чтение данных из csv-файла
# датасет: Goodreads Books - 31 Features: https://www.kaggle.com/datasets/austinreese/goodreads-books
data = pd.read_csv(Path(data_path, 'goodreads_books.csv'))
type(data)

> [DataFrame](https://pandas.pydata.org/docs/reference/frame.html) - Two-dimensional, size-mutable, potentially heterogeneous tabular data.

Скачивание датасета с использованием `kagglehub`:

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("austinreese/goodreads-books")

print("Path to dataset files:", path)

In [None]:
# возвращает первые n строк, n=5 по-умолчанию
data.head()

[Pandas options and settings](https://pandas.pydata.org/pandas-docs/stable/reference/options.html):  
- `display.max_columnsint`  
    If max_cols is exceeded, switch to truncate view. Depending on large_repr, objects are either centrally truncated or printed as a summary view. ‘None’ value means unlimited.  
    In case python/IPython is running in a terminal and large_repr equals ‘truncate’ this can be set to 0 or None and pandas will auto-detect the width of the terminal and print a truncated object which fits the screen width. The IPython notebook, IPython qtconsole, or IDLE do not run in a terminal and hence it is not possible to do correct auto-detection and defaults to 20.

In [None]:
# вывод всех столбцов датафрейма - None
pd.set_option('display.max_columns', None)

In [None]:
data.head()

In [None]:
# размерностть
data.shape

In [None]:
# информация о данных в DataFrame, тип данных признаков
data.info()

In [None]:
# статистика по числовым признакам
data.describe()

In [None]:
# убираем колонки в датафрейме по названию, изменяем состояние объекта - inplace=True
data.drop(columns=['settings', 'amazon_redirect_link', 'worldcat_redirect_link', 
                   'recommended_books', 'books_in_series', 'description', 'asin',
                   'link', 'author_link', 'cover_link','original_title'], inplace=True)

In [None]:
data.info()

In [None]:
data.describe()

In [None]:
# вывод данных колонки `title`
data['title']

In [None]:
type(data['title'])

> [Series](https://pandas.pydata.org/docs/reference/series.html) - One-dimensional ndarray with axis labels (including time series).

In [None]:
data['title'].head(3)

#### Индексация

In [None]:
# срез с указанием признаков
data.loc[200:204, ['title', 'five_star_ratings']]

In [None]:
# срез numpy-like
data.iloc[200:204, 0:3]

In [None]:
# фильтрация данных - маска
data['five_star_ratings'] > 2500

In [None]:
# фильтрация данных по булевой маске
data[data['five_star_ratings'] > 2500]

In [None]:
type(data[data['five_star_ratings'] > 2500])

In [None]:
data[data['five_star_ratings'] > 2500]['number_of_pages'].mean()

In [None]:
data[data['five_star_ratings'] > 3500]['number_of_pages'].mean()

In [None]:
data['date_published']

In [None]:
data[data['date_published'].str.len() == 3]

In [None]:
len(data[data['date_published'].str.len() == 3])

In [None]:
df = data[data['date_published'].str.len() > 3]

In [None]:
df.info()

In [None]:
type(df['date_published'])

In [None]:
df['date_published']

In [None]:
df['date_published'].str.extract(r'(\d{4})')

> Хороший интерактивный ресурс для отладки регулярных выражений: [Regex 101](https://regex101.com/).

In [None]:
df['year_published'] = df['date_published'].str.extract(r'(\d{4})')

In [None]:
df['year_published']

In [None]:
type(df['date_published'].str.extract(r'(\d{4})'))

In [None]:
type(df['year_published'])

In [None]:
# 1D numpy массив
df['year_published'] = df['date_published'].str.extract(r'(\d{4})').to_numpy().flatten()

In [None]:
df['year_published']

In [None]:
df['year_published'].isnull()

In [None]:
df[df['year_published'].isna()]

In [None]:
df[df['year_published'].isna()].index

In [None]:
df = df.drop(df[df['year_published'].isna()].index)

In [None]:
df.info()

In [None]:
df['year_published'] = df['year_published'].astype(int)

#### Группировка данных

[GroupBy](https://pandas.pydata.org/docs/reference/groupby.html).

In [None]:
dfgby = df.groupby('year_published')

In [None]:
type(dfgby)

In [None]:
len(dfgby)

In [None]:
for year, sub_df in dfgby:
    if year == 2009:
        print(sub_df)

In [None]:
dfgby['three_star_ratings'].mean()

In [None]:
import numpy as np
dfgby['five_star_ratings'].apply(np.sum, axis=0)

#### Иерархические индексы (MultiIndex)
Иерархические индексы позволяют организовать несколько (два и более) уровней индексирования по одной оси. Другими словави, это способ работать с многомерными данными, представив их в форме с меньшей размерностью.

In [None]:
# сгенерируем series с multiindex
data = pd.Series(np.random.randn(10),
    index= [ ['a', 'a', 'a', 'b', 'b', 'b', 'с', 'с', 'd', 'd'],
             [1, 2, 3, 1, 2, 3, 1, 2, 2, 3] ]
)
data

In [None]:
# сгенерируем dataframe с multiindex
data = pd.DataFrame(np.random.randn(10,2),
    index= [ ['a', 'a', 'a', 'b', 'b', 'b', 'с', 'с', 'd', 'd'],
             [1, 2, 3, 1, 2, 3, 1, 2, 2, 3] ]
)
data

In [None]:
data.index

In [None]:
# доступ по частичному значению индекса
data.loc['a']

In [None]:
# доступ по полному значению индекса
data.loc[('a', 1)]

In [None]:
# Можно даже сразу получить значение поля
data.loc[('a', 1), 1]

### 1.3 Предобработка данных

Предобработка данных &ndash; это предварительный этап работы с данными, цель которого &ndash; "почистить" данные от ненужного или дополнить их. Может включать в себя центрирование, нормализацию, сдвиг, вращение, обрезку.

#### Виды проблем в данных

- **Неполные данные**  
  Заказчик выслал не все данные, в них есть пропуски, нет данных за определённый период, есть данные только для части задач. Например, есть рейсы только одной авиакомпании, есть суммы покупок с января по март и с июня по декабрь.
- **Грязные данные**  
   - данные в плохом или разном формате;
   - в данных есть мусор, например, смешиваются русские и английские буквы, данные в виде шифра;
   - разные меры данных, например, часть в метрах, часть в футах;
   - данные старые, значения признака перемешиваются.
- **Плохая разметка**
   - в данных есть ошибки;
   - разная оценка данных из-за человеческого фактора;
   - разметка не соответствует реальности;
   - размеченных данных очень много &ndash; должна быть «золотая середина».
  
> Чем лучше хотите получить разметку данных, тем больше времени придётся потратить.  

- **Данные с утечкой**  
  В данных нужно избегать признаков, от которых явно зависит целевая переменная. Такая ситуация приводит к тому, что во время обучения модель всё предсказывает, но в боевых условиях бесполезна.

#### Работа с пропусками

**Пропуски** &ndash; отсутствие значений в данных. Обычно это случается из-за ошибок человека:
- забыли, какие данные не внесли;
- не всё перенесли из другого документа;
- неверно заполнили документ;
- случайно удалили часть данных.

Например, при опросе респонденты отвечали только на часть вопросов, не указывая какие-то данные.

##### Что делать с пропусками?

- **Удалить пропуски**: удалить строки с пропусками, если таких строк немного, или столбцы (признаки) в данных, если их много, и это не повлияет на результат в целом.
- **Заменить пропуски**: заменить на среднее значение (медианой) или на самый часто попадающийся вариант. Например, опрос респондентов проходил в Москве, вероятнее, большинство &ndash; жители города, а не туристы. Значит, в графе город можно поставить «Москва». Или же по другим данным в документе можно восстановить пол людей, которые его не указали.
- **Записать новое значение**: например, вместо пропуска в столбце «Пол» указать «не определён».
- **Заменить алгоритмами МО**: признак можно считать целевой переменной и обучать модель, чтобы предсказать пропущенные значения.

#### Нормализация признаков
Некоторые алгоритмы чувствительны к масштабу признаков: если масштаб разный &ndash; алгоритмы хуже сходятся к оптимальным значениям. Один из способов обработки данных &ndash; **нормализация** &ndash; процесс приведения данных к одному масштабу, обеспечивает лучшие условия выборки, изменения, удаления данных.

Базовые методы нормализации:  

- **MinMax** нормализация &ndash; приведение данных к масштабу $[0, 1]$.
- **Стандартная** нормализация &ndash; данные имеют среднее $0$ и стандартное отклонение $1$.

Иногда данные лучше удалить, если они не несут пользы. Например, столбец считался по ошибке и содержит мусор, или признак не имеет полезной информации, или столбец содержит всегда одинаковое значение.

#### Преобразование признаков, имеющих не нормальное распредление

Один из способов визуализации &ndash; **гистограмма** &ndash; вид диаграммы, показывающий данные в форме столбцов. Демонстрирует распределение данных по выборке внутри столбца и значений в признаке. Позволяет увидеть проблемы или некорректные значения в данных, преобразовать их в наглядную форму и распределить, чтобы облегчить работу.

**Графики Q-Q (квантиль-квантиль)** сравнивают два распределения вероятностей путем построения совместных квантилей. График Q-Q используется для сравнения форм распределений, обеспечивая графическое представление того, насколько подобны или различны положение, масштаб и асимметрия двух распределений.

Многие алгоритмы работают лучше, когда на вход принимают нормально распределённые данные. Один из способов сделать данные «нормальными» &ndash; взять **логарифм**. При этом не должно быть значений, равных $0$, иначе метод `np.log` выдаст бесконечность.  
Если значения всё-таки начинаются с $0$, то перед тем, как взять логарифм, можно прибавить к данным $1$.  
Другой способ &ndash; взять квадратный корень от данных.

#### Скореллированные признаки

**Correlation plot** &ndash; корреляционный график. Признаки в данных могут иметь сильную корреляцию, то есть линейную зависимость. Если зависимость большая, признаки несут избыточную информацию, поэтому скореллированные признаки лучше удалять.

#### Поиск выбросов (outliers)

**Выброс** &ndash; результат измерения, который выделяется из общей выборки. Выбросы появляются из-за ошибок в данных и сильно выделяются среди остальных значений. Их нужно искать и удалять, иначе данные будут подстраиваться под них и давать неверный результат.

Как искать выбросы:  
- **Поиск и удаление по порогу**  
  Способ нахождения выбросов, основанный на здравом смысле и методе пристального взгляда. Посмотреть на данные и поискать невозможные и/или нелогичные значения, например, в столбце «высота здания» стоит $30$ км.  
- **Поиск с помощью статистики**  
  Поиск с помощью здравого смысла трудно автоматизировать, поэтому эффективнее статистические методы. Например, поиск по отклонению или по распределению $IQR$ (interquartile range, межквартильное расстояние).  
- **Поиск с помощью DBSCAN**  
  Поиск с помощью методов кластеризации, один из таких методов &ndash; DBSCAN, который может автоматически находить шум в данных.

Разные способы поиска выбросов могут давать разные результаты. Не всегда выделяющееся значение будет являться выбросом, возможно, у нас пока просто не хватает данных.

#### Создание новых признаков &ndash; feature engineering

**Feature Engineering** &ndash; способ создания признаков, техника решения задач МО, которая увеличивает качество разрабатываемых алгоритмов. Превращает специфичные данные в понятные для модели векторы.

Способы:  
- **Ручное создание признаков**  
  Новые признаки можно создавать на основе имеющихся, если понятно, что означает тот или иной признак. Техника может значительно улучшить модель, но требуется погружение в предметную область. Например, зная массу и рост человека, можно посчитать индекс массы тела; зная координаты места нарушения ПДД и центра города, можно посчитать расстояние между ними.
- **Полиномиальные признаки**  
  Например, попарное перемножение имеющихся столбцов, чтобы получить нелинейные комбинации признаков. Другой пример &ndash; возведение признаков в квадрат или корень из признака, чтобы получить искусственные признаки.  
- **Dummy-переменные**    
  Между категориальными признаками не всегда есть порядок, поэтому их следует заменять на dummy-переменные, в виде цифр, чтобы алгоритм подумал, что в данных есть порядок.  
  > Например, лев, тигр, медведь лучше записать как $0$, $1$, $2$. Расстояние между «лев» и «тигр» равно $1$, а между «лев» и «медведь» &ndash; $2$, хотя это не так. Решение &ndash; создать новые признаки по количеству категорий. Для признака «лев» значение будет $1$, если это лев, иначе $0$. Теперь расстояния между всеми признаками равны $1$.
- **Работа с датой/временем**  
  Обычно дата &ndash; это строка, похожая на «2005-06-02». В таком виде признак имеет мало смысла, но его можно разделить на набор других признаков. Модель не принимает текст, поэтому заменяем его на набор других числовых признаков. Например, день, месяц, год или день недели, праздник/выходной.  
- **Статистики по наборам признаков**  
  Если в данных есть признаки, описывающие значение в разные моменты времени, то они могут быть полезными. Например, зарплата_2016, зарплата_2017, зарплата_2018. Отсюда можно вытащить среднюю зарплату за $3$ года, медианную зарплату, динамику зарплаты, максимальную и минимальную зарплату.

### 1.4 Визуализация данных

Библиотеки

- [matplotlib](https://matplotlib.org/)  
    Python-библиотека для визуализации данных.
- [seaborn](https://seaborn.pydata.org/index.html)  
    Библиотека для создания статистических графиков на Python. Она основывается на `matplotlib` и тесно взаимодействует со структурами данных `pandas`.
- [plotly](https://plotly.com/python/)  
   Библиотека для визуализации данных.
   - Фреймворк [Dash](https://dash.plotly.com/).

Гайды по `matplotlib`:
- [Quick start guide](https://matplotlib.org/stable/users/explain/quick_start.html)
- [Pyplot tutorial](https://matplotlib.org/stable/tutorials/pyplot.html)
- [Examples](https://matplotlib.org/stable/gallery/index.html)
- [Interactive Plotting in IPython](https://ipython.readthedocs.io/en/stable/interactive/plotting.html)
- [Enable interactive mode - matplotlib.pyplot.ion](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.ion.html)

Гайды по `seaborn`:
- [Tutorial](https://seaborn.pydata.org/tutorial.html)
- [Visualizing categorical data](https://seaborn.pydata.org/tutorial/categorical.html)

Гайды по `plotly`:
- [Шпаргалка по визуализации данных в Python с помощью Plotly @ Хабр](https://habr.com/ru/articles/502958/)
- [Забудьте о matplotlib: визуализация данных в Python вместе с plotly @ proglib](https://proglib.io/p/plotly)
- [Визуализация данных с помощью Python Dash @ Хабр](https://habr.com/ru/companies/otus/articles/716190/)

Гайды по `pandas`:
- [pandas.DataFrame.plot](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html)
- [Chart visualization](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)

Гайды:
- [Открытый курс машинного обучения. Тема 2: Визуализация данных c Python](https://habr.com/ru/company/ods/blog/323210/)

### 1.5 Датасет

[Goodreads Books - 31 Features](https://www.kaggle.com/datasets/austinreese/goodreads-books)

| Признак                | Описание                                                                                                    |
|------------------------|-------------------------------------------------------------------------------------------------------------|
| id                     | id книги                                                                                                    |
| title                  | Название книги                                                                                              |
| link                   | Ссылка на Goodreads                                                                                         |
| series                 | Название цикла, если книга является частью многоциколового произведения                                     |
| cover_link             | Ссылка на обложку книги                                                                                     |
| author                 | Список авторов книжного произведения                                                                        |
| author_link            | Ссылка на запись об авторах книжного произведения                                                           |
| rating_count           | Количество выставленных оценок на книжное произведение                                                      |
| review_count           | Количество оставленных отзывов на книжное произведение                                                      |
| average_rating         | Средняя оценка книжного произведения                                                                        |
| five_star_ratings      | Количество выставленных оценок на книжное произведение "5 звезд"                                            |
| four_star_ratings      | Количество выставленных оценок на книжное произведение "4 звезды"                                           |
| three_star_ratings     | Количество выставленных оценок на книжное произведение "3 звезды"                                           |
| two_star_ratings       | Количество выставленных оценок на книжное произведение "2 звезды"                                           |
| one_star_ratings       | Количество выставленных оценок на книжное произведение "1 звезда"                                           |
| number_of_pages        | Количество страниц в книжном произведении                                                                   |
| date_published         | Дата выхода книги в печатном издании                                                                        |
| publisher              | Название издательства                                                                                       |
| original_title         | Исходное название книги                                                                                     |
| genre_and_votes        | Список указанных пользователями жанров в виде <жанр1 N1>, <жанр2 N2>, где N1, N2 &ndash; количество "меток" |
| isbn                   | ISBN номер книжного произведения                                                                            |
| isbn13                 | 13-тизначный ISBN номер книжного произведения                                                               |
| asin                   | Amazon Standard Identification Number &ndash; артикул на площадке Amazon                                    |
| settings               | Место (или несколько), в котором происходят описываемые в книге события                                     |
| characters             | Имена основных персонажей в книге                                                                           |
| awards                 | Список названий присужденных книжному произведению премий (наград)                                          |
| amazon_redirect_link   | URL ссылка редиректа на площадку Amazon                                                                     |
| worldcat_redirect_link | URL ссылка редиректа на Goodread's WorldCat                                                                 |
| recommended_books      | Список id рекомендуемых книг с Goodreads                                                                    |
| books_in_series        | Список id книг, входящих в одноименный цикл                                                                 |
| description            | Синопсис                                                                                                    |

In [None]:
import pandas as pd
import numpy as np
from pathlib import Path
# путь к папке с данными
data_path = "../lecture_1/data"
# датасет: Goodreads Books - 31 Features: https://www.kaggle.com/datasets/austinreese/goodreads-books
df = pd.read_csv(Path(data_path, 'goodreads_books.csv'))
df.info()
df.head(10)

### 1.6 Предобработка данных датасета
#### Дропаем ненужные очевидные признаки

Уберем из датафрейма следующие признаки:
- `link`: ссылка на Goodreads
- `cover_link`: ссылка на обложку книги
- `author_link`: ссылка на запись об авторах книжного произведения
- `original_title`: исходное название книги
- `isbn`: ISBN номер книжного произведения
- `isbn13`: 13-тизначный ISBN номер книжного произведения
- `asin`: Amazon Standard Identification Number &ndash; артикул на площадке Amazon
- `amazon_redirect_link`: URL ссылка редиректа на площадку Amazon
- `worldcat_redirect_link`: URL ссылка редиректа на Goodread's WorldCat
- `recommended_books`: список id рекомендуемых книг с Goodreads 

#### Парсим год выхода

##### Избавимся от NaN

In [None]:
print(f"{df[df['date_published'].isna()].shape[0]} out of {df['date_published'].shape[0]} is NaN")

In [None]:
df.drop(df[df['date_published'].isna()].index, inplace=True)
df['date_published'].shape[0]

In [None]:
df['date_published'].head(10)

##### Добавим признак `Год выхода` и спарсим год из даты

In [None]:
# см. https://regex101.com/
df.loc[:, 'year_published'] = df['date_published'].str.extract(r'(\d{4})').to_numpy().flatten()
df.drop(df[df['year_published'].isna()].index, inplace=True)
df['year_published'] = df['year_published'].astype(int)
# дропаем дату выхода
df.drop(columns=['date_published'], inplace=True)
df.info()

#### Удаляем скобки в столбце `series`

In [None]:
df.series.head(10)

In [None]:
df['series'] = df['series'].str.strip('()')
df.series.head(10)

Отделим порядковый номер книги в книжном издании `#N` от самого названия цикла.

In [None]:
df['series'].str.extract(r'( *#\d+ *)')

In [None]:
# сначала проверим результат замены с regexp'ом
df['series'].str.replace(r'( *#\d+ *)', '', regex=True)

In [None]:
df['series'] = df['series'].str.replace(r'( *#\d+ *)', '', regex=True)
df.series.head(10)

#### Проанализируем `books_in_series`

In [None]:
df.books_in_series.head(10)

#### Добавим признак `books_in_series_count` &ndash; количество книг в цикле
> Пример того самого *feature engineering*.

In [None]:
df['books_in_series_count'] = [len([idx for idx in x.split(',')])
                               if pd.notna(x)
                               else 0
                               for x in df['books_in_series']]
df['books_in_series_count'] += 1  # не забываем посчитать и саму книгу
df['books_in_series_count'].head(10)

In [None]:
df.info()

In [None]:
# количество "серийных" книжных изданий (НЕ серий, а именно книг, входящих в книжные циклы
len(df[df['books_in_series_count'] > 1])

In [None]:
# количество книжных циклов
df['series'].unique().shape

#### Проанализируем `awards`

In [None]:
pd.set_option('display.width', 1000)
df[df.awards.notna()].awards.head(10)

In [None]:
df.awards[10]

Допустим, мы хотим в данном признаке оставить перечисление названий книжных премий без указания года присуждения.

In [None]:
df[df.awards.notna()].awards.str.replace(r' *\(\d+\) *', '', regex=True)

In [None]:
df.awards = df.awards.str.replace(r' *\(\d+\) *', '', regex=True)
df[df.awards.notna()].awards.head(10)

In [None]:
df.awards[10]

#### Добавим признак `awards_count`

In [None]:
df['awards_count'] = [len([idx for idx in x.split(',')])
                      if pd.notna(x)
                      else 0
                      for x in df['awards']]
df[df['awards_count'] > 0]['awards_count'].head(10)

##### Какая самая титулованная книга?

In [None]:
df.loc[df['awards_count'].idxmax(), ['title', 'awards', 'awards_count']]

#### Проанализируем признак `author`

In [None]:
df['author'].head(10)

In [None]:
df['author'][0]

Преобразуем строку в массив строк.

In [None]:
df['author'] = [[idx for idx in x.split(',')] for x in df['author']]
df['author'].head(10)

In [None]:
df['author'][0]

#### Проанализируем признак `genre_and_votes`

In [None]:
df.genre_and_votes

Возможно, информация о количестве проставленных тегов может представлять для нас какой-то интерес. Например, получить популярность того или иного жанра.
> Вдруг какой-нибудь жанр наиболее предпочитаем пользователем, и ему везде "мерещится" наличие элементов этого жанра в прочитанных им произведениях.

Мы же просто уберем количество проставленных тегов.

In [None]:
# тестовая проверка удаления количества проставленных тегов
df.genre_and_votes.str.replace(r'( *\d+ *)', '', regex=True)

In [None]:
df.genre_and_votes.str.replace(r'(, )', ',', regex=True)

In [None]:
# дропаем NaN и вносим изменения
df.dropna(subset=['genre_and_votes'], inplace = True)
df.genre_and_votes = df.genre_and_votes.str.replace(r'( *\d+ *)', '', regex=True)
df.genre_and_votes = df.genre_and_votes.str.replace(', ', ',')
df.genre_and_votes[8]

Можно заметить, что помимо жанров имеются поджанры. Иерархическую структуру данных этого признака можно отразить в датафрейме путем дублирования данных (с точки зрения основной сущности &ndash; записи о книжном издании): ввести признаки `genre` и `subgenre`, например. И на какой-то стадии обработки и/или анализа данных по жанрам задать MultiIndex `genre` &rarr; `subgenre`.

Нужные нам регулярки для выделения:
- жанра &ndash; все, что идет до разделителя "-": `([\w ]+)(?>-)`
- поджанра &ndash; все, что идет после разделителя "-": `(?<=-)([\w ]+)`

In [None]:
# поджанры
df.genre_and_votes.str.findall(r'(?<=-)([\w ]+)')

In [None]:
# жанры
df.genre_and_votes.str.findall(r'([\w ]+)(?>-)')
# см. https://stackoverflow.com/a/74722529

> В Python &leq; 3.10 данная конструкция выполнится с ошибкой, так как поддержка некоторых элементов синтаксиса регэкспа добавлена в версии 3.11.
> Подробнее:
> - [Python Regex - Unknown extension "?>" @ StackOverflow](https://stackoverflow.com/questions/74721240/python-regex-unknown-extension/74722529)
> - [Сверхжадные квантификаторы @ Хабр](https://habr.com/ru/articles/55863/)

В случае успеха мы увидим, что регэкспом мы поймали жанры, у которых есть поджанр, но пропустили жанры без поджанра. Возможно, вместо сложного регулярного выражения имеет смысл выполнить двухэтапный сплит: сначала по ",", потом сплит или регулярка по "-".  
После заполнения признаков `genre` и `subgenre` массивами (если у жанра нет поджанра, просто проставим `None`) можно воспользоваться методом [.explode()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.explode.html).  
Далее осуществим более простой вариант: смешаем жанры и поджанры в одном признаке.

In [None]:
df.genre_and_votes[8]

In [None]:
df.genre_and_votes.str.findall(r'([\w ]+)')[8]

Как видно, такая конструкция выделит все слова с пробелом. Однако, поджанр "Bande DessinÃ©e" превратился в два: 'Bande DessinÃ', 'e'. К тому же мы получили дубли.

In [None]:
df.genre_and_votes = df.genre_and_votes.str.findall(r'([\w ]+)')

Избавимся от дубликатов.

In [None]:
# тестовая проверка
df.genre_and_votes.apply(lambda x: pd.unique(x))

In [None]:
# фикс ворнинга
df.genre_and_votes.apply(lambda x: pd.unique(np.array(x)))

In [None]:
# внесем изменения
df.genre_and_votes = df.genre_and_votes.apply(lambda x: pd.unique(np.array(x)))
df.rename(columns = {'genre_and_votes' : 'genre'}, inplace = True)
df.genre

### 1.7 Интерактивный график в `matplotlib`
#### Сгруппируем оценки пользователей по годам выхода книжного издания

In [None]:
df_ratings = df.groupby('year_published') \
    .agg({'rating_count' : 'sum',
          'five_star_ratings' : 'sum',
          'four_star_ratings': 'sum',
          'three_star_ratings': 'sum',
          'two_star_ratings': 'sum',
          'one_star_ratings': 'sum'}) \
    .reset_index()
df_ratings.describe()

#### Ограничим год выхода 1800+

In [None]:
df_ratings = df_ratings[df_ratings.year_published > 1800]
ratings = ['five_star_ratings', 'four_star_ratings',
           'three_star_ratings', 'two_star_ratings',
           'one_star_ratings']

#### Количество оценок переведем в %

In [None]:
# show rating categories as a percentage
for ratings in ratings:
    df_ratings[ratings] = df_ratings[ratings] / df_ratings['rating_count'] * 100
df_ratings = df_ratings.reset_index(drop=True)
df_ratings.head()

#### Импорт библиотек

In [None]:
# magic function - см. Interactive Plotting in IPython
%matplotlib inline
%matplotlib widget
# %matplotlib ipympl
from ipywidgets import *
import matplotlib as mpl
import matplotlib.cm as cm
import matplotlib.pyplot as plt
from itertools import cycle
# см. https://ipython.readthedocs.io/en/stable/interactive/plotting.html
# Starting with IPython 5.0 and matplotlib 2.0 you can avoid the use of IPython’s specific magic
# and use matplotlib.pyplot.ion()/matplotlib.pyplot.ioff() which have the advantages of working outside of IPython as well.
# plt.ion()

In [None]:
mpl.__version__

In [None]:
from matplotlib.widgets import Slider, Button
%matplotlib widget

def mpl_iplot():
    fig, ax = plt.subplots(figsize=(11, 7.5))
    r5 = ax.plot(list(df_ratings.year_published),
                 list(df_ratings.five_star_ratings), label = '★★★★★')
    r4 = ax.plot(list(df_ratings.year_published),
                 list(df_ratings.four_star_ratings), label = '★★★★')
    r3 = ax.plot(list(df_ratings.year_published),
                 list(df_ratings.three_star_ratings), label = '★★★')
    r2 = ax.plot(list(df_ratings.year_published),
                 list(df_ratings.two_star_ratings), label = '★★')
    r1 = ax.plot(list(df_ratings.year_published),
                 list(df_ratings.one_star_ratings), label = '★')
    plt.xlabel("Год выхода")
    plt.ylabel("% отзывов")
    plt.title("Средний пользовательский рейтинг")
    # plt.legend(loc='right', bbox_to_anchor = (1.3, 0.5))
    leg = ax.legend(loc ='right', bbox_to_anchor = (1.13, 0.5), fancybox=True, shadow=True)
    
    # adjust the main plot to make room for the sliders
    fig.subplots_adjust(bottom=0.25)
    
    ax_year = fig.add_axes([0.20, 0.1, 0.60, 0.03])
    year_slider = Slider(
        ax=ax_year,
        label='Год',
        valmin=1800,
        valmax=2020,
        valinit=1800,
        valstep = 1,
    )
    
    lines = ax.get_lines()
    lined = {}  # Will map legend lines to original lines.
    for legline, origline in zip(leg.get_lines(), lines):
        legline.set_picker(7)  # Enable picking on the legend line.
        lined[legline] = origline
    
    # The function to be called anytime a slider's value changes
    def update(val):
        ax.clear()
        year = year_slider.val
        df_ratings_year = df_ratings[df_ratings.year_published >= year]
        r5 = ax.plot(list(df_ratings_year.year_published),
                     list(df_ratings_year.five_star_ratings), label = '★★★★★');
        r4 = ax.plot(list(df_ratings_year.year_published),
                     list(df_ratings_year.four_star_ratings), label = '★★★★');
        r3 = ax.plot(list(df_ratings_year.year_published),
                     list(df_ratings_year.three_star_ratings), label = '★★★');
        r2 = ax.plot(list(df_ratings_year.year_published),
                     list(df_ratings_year.two_star_ratings), label = '★★');
        r1 = ax.plot(list(df_ratings_year.year_published),
                     list(df_ratings_year.one_star_ratings), label = '★');
        leg = ax.legend(loc ='right', bbox_to_anchor = (1.13, 0.5), fancybox=True, shadow=True)
        ax.set_xlabel("Год выхода")
        ax.set_ylabel("% отзывов")
        ax.set_title("Средний пользовательский рейтинг")
    
        lines = ax.get_lines()
        for legline, origline in zip(leg.get_lines(), lines):
            legline.set_picker(7)  # Enable picking on the legend line.
            lined[legline] = origline
    
        fig.canvas.draw_idle()
    
    def on_pick(event):
        # On the pick event, find the original line corresponding to the legend
        # proxy line, and toggle its visibility.
        legline = event.artist
        origline = lined[legline]
        visible = not origline.get_visible()
        origline.set_visible(visible)
        # Change the alpha on the line in the legend, so we can see what lines
        # have been toggled.
        legline.set_alpha(1.0 if visible else 0.2)
        # year_slider.set_cal(year_slider.val)
        fig.canvas.draw()
    
    fig.canvas.mpl_connect('pick_event', on_pick)
    
    
    # register the update function with each slider
    year_slider.on_changed(update)
    
    ax_21y = fig.add_axes([0.125, 0.9, 0.025, 0.04])
    button_21y = Button(ax_21y, '21y', hovercolor='0.975')
    
    ax_100y = fig.add_axes([0.155, 0.9, 0.025, 0.04])
    button_100y = Button(ax_100y, '100y', hovercolor='0.975')
    
    ax_ally = fig.add_axes([0.185, 0.9, 0.025, 0.04])
    button_ally = Button(ax_ally, 'ally', hovercolor='0.975')
    
    def clicked_w(year):
        def clicked(event):
            year_slider.set_val(year)
        return clicked
    
    button_21y.on_clicked(clicked_w(year=2000))
    button_100y.on_clicked(clicked_w(year=1920))
    button_ally.on_clicked(clicked_w(year=1800))
    
    resetax = fig.add_axes([0.8, 0.025, 0.1, 0.04])
    button_reset = Button(resetax, 'Reset', hovercolor='0.975')
    
    def reset(event):
        year_slider.reset()
    button_reset.on_clicked(reset)
    plt.show()
    return fig

ipl = mpl_iplot()

### 1.8 Интерактивный график в `plotly`
#### Для корректного отображения в Jupyter Lab
Deprecated: 
- [Plotly gives an empty field as output in jupyter lab @ StackOverflow](https://stackoverflow.com/a/56777278): 
   ```cmd
   jupyter labextension install @jupyterlab/plotly-extension
   jupyter labextension list
   jupyter lab build
   ```

`jupyter labextension list` по прежнему выводит список расширений:
```cmd
jupyterlab-execute-time           3.1.2
jupyterlab_pygments               0.3.0
jupyterlab_server                 2.27.1
jupyterlab_widgets                3.0.13
```

но устанавливать их следует через менеджер пакетов:
```cmd
pip3 install jupyterlab-execute-time jupyterlab_pygments jupyterlab_server jupyterlab_widgets
```

> After these, restart JupyterLab, and set `plotly.offline.init_notebook_mode(connected=True)` at the start of each notebook session, then `plotly.offline.iplot` should correctly display the plots in the notebook.

#### Импорт библиотек

In [None]:
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.graph_objects as go
from plotly.offline import iplot, init_notebook_mode
init_notebook_mode(connected=True)
# import plotly.io as pio
# pio.renderers.default='notebook'

In [None]:
import plotly as py
py.__version__

In [None]:
fig_1 = go.Figure()

fig_1.add_trace(
    go.Scatter(x=list(df_ratings.year_published),
               y=list(df_ratings.five_star_ratings), name = '★★★★★'))
fig_1.add_trace(
    go.Scatter(x=list(df_ratings.year_published),
               y=list(df_ratings.four_star_ratings), name = '★★★★'))
fig_1.add_trace(
    go.Scatter(x=list(df_ratings.year_published),
               y=list(df_ratings.three_star_ratings), name = '★★★'))
fig_1.add_trace(
    go.Scatter(x=list(df_ratings.year_published),
               y=list(df_ratings.two_star_ratings),name = '★★'))
fig_1.add_trace(
    go.Scatter(x=list(df_ratings.year_published),
               y=list(df_ratings.one_star_ratings), name = '★'))

# Set title
fig_1.update_layout(
    title_text="Средний пользовательский рейтинг",
    title_x=0.5,
    legend_title="Рейтинг",
    legend = dict(orientation = "v", y = .5, x = 1.025)
)

# Add range slider
fig_1.update_layout(
    xaxis = dict(
        rangeselector = dict(
            buttons = list([
                dict(count = 21,
                     label = "21y",
                     step = "year",
                     stepmode = "backward"),
                dict(count = 100,
                     label = "100y",
                     step = "year",
                     stepmode = "backward"),
                dict(step = "all")
            ])
        ),
        rangeslider = dict(
            visible = True
        ),
        type = "date"
    ),
    autosize=False,
    width=1100,
    height=800,
)

fig_1.show()

# 1.9 Построение графиков средствами `pandas`
#### `hist`

In [None]:
df_ratings.hist(figsize=(11, 7.5));

In [None]:
df_ratings.hist(column='five_star_ratings', bins = 10);

### 1.10 Построение графиков в `seaborn`
#### Импорт библиотеки

In [None]:
import seaborn as sns
sns.__version__

#### `boxplot`

In [None]:
df_ratings['five_star_ratings']

In [None]:
fig_sns, ax_sns = plt.subplots(figsize=(5, 5))
sns.boxplot(ax = ax_sns, data=df_ratings['five_star_ratings']);
fig_sns.tight_layout()
fig_sns.show()

> [Getting Error 0 when plotting boxplot of a filtered dataset](https://stackoverflow.com/a/71423584)

In [None]:
fig_sns, ax_sns = plt.subplots(1, 5, figsize=(11, 5))
sns.boxplot(ax=ax_sns[0], data=df_ratings, x='five_star_ratings');
sns.boxplot(ax=ax_sns[1], data=df_ratings, x='four_star_ratings');
sns.boxplot(ax=ax_sns[2], data=df_ratings, x='three_star_ratings');
sns.boxplot(ax=ax_sns[3], data=df_ratings, x='two_star_ratings');
sns.boxplot(ax=ax_sns[4], data=df_ratings, x='one_star_ratings');
# Пример стайлинга subplot'ов - каждый ящик в свой цвет из палитры
colors = sns.color_palette('Spectral')
cycler = cycle(colors)
for ax in ax_sns:
    for p in ax.patches:
        p.set_facecolor(next(cycler))
plt.show()

#### Ящик с усами
[Wiki](https://ru.wikipedia.org/wiki/%D0%AF%D1%89%D0%B8%D0%BA_%D1%81_%D1%83%D1%81%D0%B0%D0%BC%D0%B8)

<div align="center">
  <img src="https://upload.wikimedia.org/wikipedia/commons/1/1a/Boxplot_vs_PDF.svg" width="66%" title="Python logo"/>
</div>

# 1.11 Построение различных графиков

#### Анализ жанров

In [None]:
genres = df['genre'].explode().value_counts().index.tolist()
genres[:10]

In [None]:
print(f"Жанров всего: {len(genres)}")

Выделим топ-10 жанров и авторов.

In [None]:
auth = df['author'].explode().value_counts().reset_index()
auth = auth[:10]
gen = df['genre'].explode().value_counts().reset_index()
gen = gen[:10]

In [None]:
auth

In [None]:
gen

In [None]:
fig_2 = make_subplots(rows=1, cols=2,
                      specs=[[{'type': 'xy'}, {"type": "xy"}]],
                      subplot_titles=("Топ 10 самых популярных жанров",
                                      "Топ 10 самых популярных авторов"))
# Setting Bar parameters
fig_2.add_trace(go.Bar(x=gen.genre,
                       y=gen['count'],
                       name ='Books',
                       marker_color=px.colors.sequential.Plasma),
                       row=1, col=1)
# Setting Bar parameters
fig_2.add_trace(go.Bar(x=auth.author,
                       y=auth['count'],
                       name ='Books',
                       marker_color=px.colors.sequential.Plotly3),
                       row=1, col=2)
# Setting the parameters of the chart when displaying
fig_2.update_traces(marker_line_width=0)

# Setting the parameters of the chart when displaying
fig_2.update_layout(showlegend=False,
                    plot_bgcolor='rgba(0,0,0,0)',
                    font=dict(family='Arial',
                              size=12,
                              color='black'),
                    autosize=False,
                    width=1100,
                    height=800,)

# Displaying the graph
fig_2.show()

#### Введем искусственный признак - тип серии (цикличность)

In [None]:
di = {1: 'Standalone', 2: 'Duology', 3: 'Trilogy'}
df['series_type'] = df['books_in_series_count'].map(di).fillna('Saga')
df['series_type']

#### Распределение по типу серии

In [None]:
fig_sns, ax_sns = plt.subplots(figsize=(11, 5))
sns.countplot(ax=ax_sns, data=df, x='series_type', hue='series_type', palette='coolwarm');
plt.show()

#### Топ-10 издательств

In [None]:
pubs = df['publisher'].explode().value_counts().index.tolist()
pubs[:10]

In [None]:
df['publisher'].value_counts().head(10)

In [None]:
pubs_i = df['publisher'].value_counts().head(10).index
pubs_i

In [None]:
df_pubs = df[df['publisher'].isin(pubs_i)]
df_pubs.info()

#### Количество книг в топ-10 издательств

In [None]:
fig_sns, ax_sns = plt.subplots(figsize=(11, 5))
pal = sns.diverging_palette(120, 240, s=100, l=60, center='light', n=df_pubs['publisher'].value_counts().shape[0])
sns.countplot(ax=ax_sns, data=df_pubs, x='publisher', hue='publisher', palette=pal);
ax_sns.tick_params(axis='x', rotation=30)
fig_sns.tight_layout()
plt.show()

#### Количество книг в топ-10 издательств по типу серии

In [None]:
fig_sns, ax_sns = plt.subplots(figsize=(11, 5))
sns.countplot(ax=ax_sns, data=df_pubs, x='publisher', hue='series_type');
ax_sns.tick_params(axis='x', rotation=30)
fig_sns.tight_layout()
plt.show()

#### Топ-10 издательств по количеству оценок в определенном жанре

In [None]:
df_grouped_by_pub = df.groupby('publisher') \
    .agg({'title':'count',
          'average_rating':'mean',
          'rating_count': 'sum'}) \
    .reset_index()

In [None]:
df_pub_popular = df_grouped_by_pub.sort_values(by=['rating_count'], ascending=False)[:10]
df_pub_popular

In [None]:
def barplot_by_genre(genre):
    mask = [genre in x for x in df['genre']]
    newframe = df[mask]
    df_grouped_by_pub = newframe.groupby('publisher') \
       .agg({'title':'count', 'average_rating':'mean', 'rating_count': 'sum'}) \
       .reset_index()
    df_popular = df_grouped_by_pub.sort_values(by=['rating_count'], ascending=False)[:10]
    barplot = px.bar(data_frame = df_popular,
                     x = 'publisher',
                     y = 'rating_count',
                     labels = {'publisher': 'Издательство', 'rating_count': 'Количество оценок', 'average_rating': 'Рейтинг'},
                     color = 'average_rating',
                     opacity = 0.9,
                     orientation = 'v',
                     barmode = 'relative',
                     title = f"Топ 10 издательств по количеству оценок в жанре \"{genre}\"",
                    )
    barplot.layout.update(autosize=False,
                          width=1100,
                          height=800,
                          title_x = 0.5)
    barplot
    barplot.show()

In [None]:
interact(barplot_by_genre, genre=genres, df = fixed(df));

In [None]:
# гистограммы с цикличной сменой цвета
feat = [f for f in df.columns if 'star' in f]
colors = cm.Reds(np.linspace(0.8, 0.3, len(feat)))
print(colors)
cycler = cycle(colors)

axes = df_ratings[feat].hist(figsize=(11, 7.5));
for ax in axes.flatten().tolist():
    c = next(cycler)
    for p in ax.patches:
        p.set_facecolor(c)

#### `pairplot`

In [None]:
sns.pairplot(height=2.5, data=df_ratings[feat]);
plt.show()

#### Связь рейтинга книги с количеством страниц и количеством сиквелов

In [None]:
series_type_anno = [('Любая', 'All'), ('Отдельная', 'Standalone'),
                    ('Дилогия', 'Duology'), ('Трилогия', 'Trilogy'),
                    ('Цикл', 'Saga')]
series_type_dict = dict()
for t in series_type_anno:
    series_type_dict[t[1]] = t[0]

toggle = widgets.ToggleButtons(options=series_type_anno,
                               description='Цикличность:',
                               disabled=False,
                               button_style='',
                               tooltips=['Любое количество книг',
                                        'Отдельная книга',
                                        'Две книги в цикле',
                                        'Три книги в цикле',
                                        'Больше книг богу книг']
                                )
def making_pages(df, toggle, label):
    df_pages = df[df['number_of_pages'] <= 1500].copy()
    if not toggle == 'All':
        mask = [toggle in x for x in df_pages['series_type']]
        colour = 'rating_count'
    else:
        mask = [True for x in df_pages['series_type']]
        colour = 'series_type'
    title = f"Зависимость рейтинга от количества страниц для цикличности \"{label}\""
    fig = px.scatter(df_pages[mask],
                     x="number_of_pages",
                     y="rating_count",
                     labels = {"number_of_pages": 'Количество страниц', "rating_count": 'Количество оценок',
                               "review_count": 'Количество рецензий', "series_type": 'Цикличность'},
                     size='review_count',
                     color="review_count",
                     hover_data=['title', 'author'],
                     facet_col="series_type",
                     title = title
                    )
    # Меняем названия subplot'ов
    fig.for_each_annotation(lambda a: a.update(text = series_type_dict[a.text.split('=')[1]]))
    # Меняем названия рядов в легенде
    # fig.for_each_trace(lambda t: t.update(name = series_type_dict[t.name],
    #                                       legendgroup = series_type_dict[t.name],
    #                                       hovertemplate = t.hovertemplate.replace(t.name, series_type_dict[t.name.split('=')[1]])
    #                                      ) if t.name != '' else '')

    fig.layout.update(autosize=False,
                      width=1300,
                      height=400,
                      title_x = 0.5)
    fig.show()

    df_scat = df_pages[mask].groupby(['year_published', 'series_type']) \
        .agg({'average_rating' : 'mean',
              'rating_count' : 'sum',
              'review_count' : 'sum'}) \
        .reset_index()
    df_scat = df_scat[df_scat.year_published > 1950]
    title = f"Средняя оценка для цикличности \"{label}\" c 1950 по 2021 гг."
    fig = px.scatter(df_scat,
                     y="average_rating",
                     x="year_published",
                     labels = {"average_rating": 'Средняя оценка', "year_published": 'Год выхода', "series_type": 'Цикличность', "rating_count": 'Количество оценок'},
                     log_x=True,
                     log_y=True,
                     color=colour,
                     size="rating_count",
                     title = title)
    fig.layout.update(autosize=False,
                      width=1100,
                      height=400,
                      title_x = 0.5)
    fig.show()

In [None]:
interact(making_pages, toggle = toggle, label = toggle.label, df=fixed(df));

#### `heatmap`

In [None]:
df.corr()

In [None]:
# фикс
# since pandas version 2.0.0 now you need to add numeric_only=True param to avoid the issue
# https://stackoverflow.com/a/76717659
df.corr(numeric_only=True)

In [None]:
print(mpl.get_backend())

fig_sns, ax_sns = plt.subplots(figsize=(11, 9))
fig_sns.show()  # Странная ошибка без явного отображения fig_sns перед построением `sns.heatmap`
ax_sns = sns.heatmap(data = df[df.columns[~df.columns.isin(['id'])]].corr(numeric_only=True));
for item in ax_sns.get_xticklabels():
    item.set_rotation(30)
for item in ax_sns.get_yticklabels():
    item.set_rotation(30)
fig_sns.tight_layout()

> Далее косяк с кривым отображением графиков без явного предварительного рендера с `fig_sns.show()` повторяется. Возможно, это косячное сочетание версии `matplotlib`, версии `seaborn` и бэкенда рендера.  
> Подробнее про бэкенды: [Backends](https://matplotlib.org/stable/users/explain/figure/backends.html).

#### violinplot

In [None]:
fig_sns, ax_sns = plt.subplots(2, 1, figsize=(11, 12))
fig_sns.show()
sns.violinplot(ax = ax_sns[0], data = df_pubs, x = 'publisher', y = 'average_rating', hue = 'publisher', palette = 'Spectral');
sns.boxplot(ax = ax_sns[1], data = df_pubs, x = 'publisher', y = 'average_rating', hue = 'publisher', palette = 'Spectral');
for ax in ax_sns:
    ax.tick_params(axis='x', rotation=30)
fig_sns.tight_layout()

#### QQ-график
Графики Q-Q (квантиль-квантиль) сравнивают два распределения вероятностей путем построения совместных квантилей. График Q-Q используется для сравнения форм распределений, обеспечивая графическое представление того, насколько подобны или различны положение, масштаб и асимметрия двух распределений.

С помощью него определяем насколько числовой признак похож на нормальное распределение. Поскольку целый ряд методов статистики предполагают, что распределение признака нормальное. QQ-график — один из способов проверить нормальность распределения.

In [None]:
from scipy import stats

fig_p, ax_p = plt.subplots(2, 1, figsize=(11, 12))
stats.probplot( df['average_rating'], dist="norm", plot=plt)
plt.subplot(2,1,2)
df.hist(ax = ax_p[0], column = 'average_rating', bins = 30 )
plt.show()

In [None]:
from scipy import stats

fig_p, ax_p = plt.subplots(2, 1, figsize=(11, 12))
stats.probplot( df['average_rating'], dist=stats.expon, plot=plt)
plt.subplot(2,1,2)
df.hist(ax = ax_p[0], column = 'average_rating', bins = 30 )
plt.show()

# 1.12 Экспорт в растровый и векторный форматы
DPI - dots per inch - разрешение нашего рисунка, количество точек на дюйм. Пришло из полиграфии. "Физический" размер рисунка может оставаться таким же, а изменение `dpi` приведет к изменению размера рисунка на бумаге или в документе. 300 dpi достаточно для печати. Соответственно, комбинация `figsize=(w, h)` и `dpi=n` задает искомый размер (в документе размер рисунка можно поправить, и визуально качество не ухудшится, а вот на печати это скажется при апскейле) и разрешение (для печати и отображения).
Рисунки, содержащие графики, желательно экспортировать в векторный формат, чтобы не страдало качество печати.

#### matplotlib

In [None]:
# Сохранение в растровый формат, matplotlib
ipl.savefig(Path(data_path, 'ratings_by_year_300.png'), dpi=300)
ipl.savefig(Path(data_path, 'ratings_by_year_600.png'), dpi=600)

In [None]:
# Сохранение в векторный формат, matplotlib
ipl.savefig(Path(data_path, 'ratings_by_year.svg'), dpi=300)

#### plotly
В `plotly` нет явного параметра `dpi`, есть только размер в пикселах и параметр `scale`.
Необходимо установить пакет `kaleido`.

In [None]:
# Сохранение в растровый формат, plotly
import plotly
# plotly.io.kaleido.scope.mathjax=None
# fig_2.write_image(Path(data_path, 'top10_authors_and_genres.png'), format='png', engine='kaleido')
fig_2.write_image(Path(data_path, 'top10_authors_and_genres.png'), format='png')

In [None]:
# Сохранение в векторный формат, plotly
fig_2.write_image(Path(data_path, 'top10_authors_and_genres.svg'))

> В более старой версии `plotly` (&leq; 6.1.1) можно было выбрать движок рендера. Для экспорта в векторный формат использовался `kaleido`, но определенной версии, см. [Not able to save plotly plots using to_image or write_image](https://stackoverflow.com/questions/70997997/not-able-to-save-plotly-plots-using-to-image-or-write-image).
> 
> Рабочая версия:
> ```bash
> pip install kaleido==0.1.0post1
> ```
> &nbsp;  
> И код экспорта немного отличался:
> ```python
> import plotly
> plotly.io.kaleido.scope.mathjax=None
> fig_2.write_image(Path(data_path, 'top10_authors_and_genres.png'), format='png', engine='kaleido')
> ```  
> &nbsp;  
> В настоящее время `kaleido` используется в качестве основного движка, его API изменился. Некоторые сочетания версий `plotly` и `kaleido` не работали (Python 3.10).

In [None]:
!uv pip show kaleido

### 1.13 `plotly` `Dash`

- [A Minimal Dash App](https://dash.plotly.com/minimal-app)
- [Dash in Jupyter Environments](https://dash.plotly.com/dash-in-jupyter)
- [Dash Example Index]()

`Dash` &ndash; библиотека для создания интерактивных веб-приложений и дашбордов.

#### Интерактивный график 1.8 с использованием `Dash`

In [None]:
from dash import Dash, dcc, html, Input, Output
import plotly.graph_objects as go
import pandas as pd

app = Dash(__name__)

app.layout = html.Div(
    [
        html.H2(
            "Средний пользовательский рейтинг",
            style={
                'text-align': 'center',
                'font-family': 'Ink Free'
            }
        ),
        
        html.Div(
            [
                html.Br(),
                dcc.Checklist(
                    id="toggle-rangeslider",
                    options=[{"label": " Слайдер «Год выхода»", "value": "slider"}],
                    value=["slider"],
                    style={
                        'font-family': 'Tiger Expert',
                        'font-weight': 'bold',
                        'text-align': 'left'
                    }
                ),
                html.Br(),
                dcc.Graph(
                    id="graph",
                    style={
                        'font-weight': 'bold',
                        'font-size': '24'
                    }
                )
            ],
            style={
                "display": "flex", 
                'align-items': 'left',
                'flex-direction': 'column'
            }
        ),
    ], style={
        'background-color': 'rgba(180, 180, 180, 0.5)',
        'display': 'flex',
        'align-items': 'center',
        'flex-direction': 'column'
    }
)


@app.callback(
    Output("graph", "figure"),
    Input("toggle-rangeslider", "value"),
)
def display_scatter(value):
    fig_1 = go.Figure()

    fig_1.add_trace(
        go.Scatter(x=list(df_ratings.year_published),
                   y=list(df_ratings.five_star_ratings), name = '★★★★★'))
    fig_1.add_trace(
        go.Scatter(x=list(df_ratings.year_published),
                   y=list(df_ratings.four_star_ratings), name = '★★★★'))
    fig_1.add_trace(
        go.Scatter(x=list(df_ratings.year_published),
                   y=list(df_ratings.three_star_ratings), name = '★★★'))
    fig_1.add_trace(
        go.Scatter(x=list(df_ratings.year_published),
                   y=list(df_ratings.two_star_ratings),name = '★★'))
    fig_1.add_trace(
        go.Scatter(x=list(df_ratings.year_published),
                   y=list(df_ratings.one_star_ratings), name = '★'))

    # Set title
    fig_1.update_layout(
        # title_text="Средний пользовательский рейтинг",
        title_x=0.5,
        legend_title="Рейтинг",
        legend = dict(orientation = "v", y = .5, x = 1.025),
        font_family = 'Ink Free'
    )

    # Add range slider
    fig_1.update_layout(
        xaxis = dict(
            rangeselector = dict(
                buttons = list([
                    dict(count = 21,
                         label = "21y",
                         step = "year",
                         stepmode = "backward"),
                    dict(count = 100,
                         label = "100y",
                         step = "year",
                         stepmode = "backward"),
                    dict(step = "all")
                ])
            ),
            rangeslider = dict(
                visible = "slider" in value
            ),
            type = "date"
        ),
        autosize=False,
        width=1100,
        height=800,
    )

    return  fig_1


if __name__ == "__main__":
    app.run(debug=True, mode='jupyterlab')