## **Введение в визуализацию данных**

### **Основы визуализации данных**

**Визуализация данных** - это представление данных в **графическом** или **визуальном** формате (например, в виде графиков, диаграмм и т.д.) для облегчения их восприятия, анализа и интерпретации.

**Основные задачи визуализации данных**:
1) Упрощение восприятия сложной информации
2) Выявление закономерностей и тенденций
3) Принятие решений на основе данных
4) Обнаружение аномалий
5) Коммуникация и презентация идей

В рамках данного урока мы будем работать с библиотекой `Matplotlib`.

### **Виды графиков**

#### **Линейные графики**

**Линейные графики** используются для отображения данных по порядку или изменений с течением времени

Пример - график температуры за неделю:

![line_graph.png](attachment:line_graph.png)

#### **Столбчатые диаграммы**

**Столбчатые диаграммы** используются для наглядного сравнения данных между категориями

Пример - сравнение количества отзывов для разных игр:

![bar_chart.png](attachment:bar_chart.png)

#### **Круговые диаграммы**

**Круговые диаграммы** используются для наглядного представлений пропорций или долей, составляющих единое целое

Пример - распределение свободного времени среди разных видов деятельности

![pie_chart.png](attachment:pie_chart.png)


#### **Гистограммы**

**Гистограммы** используются для визуализации распределения данных. Они показывают, как данные распределены по **интервалам** и помогают понять **частоту появления** значений в этих интервалах.

Гистограмма состоит из прямоугольных столбиков, где:
- **Высота столбцов** показывает частоту (количество наблюдений) в соответствующем интервале
- **Ширина столбцов** показывает диапазон значений интервала

Пример - распределение оценок студентов на экзамене:

![scores.png](attachment:scores.png)

#### **Точечные графики**

**Точечные графики** используются для визуализации **взаимосвязи** между двумя переменными. Они состоят из отдельных точек, где каждая точка на графике представляет одну наблюдаемую **пару значений**.

Пример - зависимость количества часов, потраченных на подготовку, и полученной оценки на экзамене:

![time_exam.png](attachment:time_exam.png)

#### **Сравнение графиков**

| **Название**          | **Описание**                                 | **Когда лучше применять**                               |
|-----------------------|----------------------------------------------|---------------------------------------------------------|
| **Линейный график**   | Линия, соединяющая точки данных, отображает изменения или тренды | Для анализа трендов во времени, отслеживания изменений показателей или корреляции между переменными |
| **Столбчатая диаграмма** | Набор вертикальных или горизонтальных столбцов, сравнивающих величины | Для сравнения категориальных данных (например, продажи по месяцам, рейтинг продуктов)                                  |
| **Круговая диаграмма**| Круг, разделённый на сегменты, отображает долю каждой категории в общей сумме | Для демонстрации пропорций и долей, когда нужно показать состав целого (например, распределение бюджета)       |
| **Гистограмма**       | Диаграмма, представляющая частотное распределение данных, где высота столбца показывает частоту| Для анализа распределения значений и выявления закономерностей|
| **Точечный график**   | Набор точек на координатной плоскости, отображающих связь между двумя переменными | Для исследования взаимосвязей или корреляций между переменными (например, рост и вес, время и расстояние)              |


### **Введение в Matplotlib**

https://matplotlib.org/ - сайт с официальной документацией

In [None]:
%pip install matplotlib

В `matplotlib` график строится **пошагово**:
1) Готовим данные для визуализации
2) Настраиваем оси и подписи
3) Добавляем необходимые графические элементы
4) Показываем график

Для построения графиков будем использовать модуль `pyplot`, который является частью библиотеки `matplotlib`.

Обычно при импортивании `matplotlib.pyplot` указывается псевдоним `plt`.

In [None]:
# списки с точками для построения линейного графика


#### **Основные функции для построения графика**

Рассмотрим функции и их параметры, которые можно задавать при построении графика:

`plt.plot()` - создание **линейных графиков**.
- `label` - **название** линии на легенде графика
- `marker` - отображение точек на графике с помощью специальных **маркеров**

`plt.title()` - добавление **заголовка** графика

`plt.xlabel()`, `plt.ylabel()` - отображение **подписей осей** X и Y соответственно

`plt.legend()` - отображение **легенды**

`plt.grid()` - отображение координатной **сетки**

`plt.show()` - **демонстрация** визуализации

Построим графики функций `y = sin(x)` и `y = cos(x)`, одновременно отобразим их на координатной плоскости и посмотрим на дополнительные параметры настройки линейных графиков.

In [None]:
# подключаем numpy для получения значений функций y = sin(x) и y = cos(x)


In [None]:
# генерируем 100 равномерно распределенных точек для оси X


In [None]:
# создаем массивы со значениями синусов и косинусов


#### **Дополнительные функции для построения графика**

`plt.figure()` - функция, создающая **контейнер** для одного или нескольких графиков
- Параметр `figsize` задает размер фигуры в **дюймах** (1 дюйм ≈ 2.54 см)

Для функции `plt.plot`:
- Параметр `color` отвечает за **цвет** линии
- Параметр `linestyle` отвечает за **стиль** линии

Параметр `fontsize` отвечает за **размер шрифта** текста

In [None]:
# создаем фигуру размером 10 дюймов по горизонтали и 6 по вертикали

# создаем линейные графики для синуса и косинуса

# настраиваем подписи

# отображение сетки и графиков


### **Подготовка РНД для анализа**

Подключим библиотеку `pandas` и **загрузим** данные из файла `steam_game_reviews_v2.csv` в программу.

Вспомним структуру файла с помощью функции `________`

Помним, что в файле присутствуют **пропущенные** значения, которые могут мешать построению графиков. Посчитаем их с помощью конструкции `________` для каждого столбца.

Удалим строки с пропусками при помощи метода `________`

Запустим заново ячейку с кодом `________` и увидим, что ...

### **Построение графиков для РНД**

#### **1. Линейный график**

Постройте линейный график, где на оси `Х` располагаются **даты отзыва** для игры **Subnautica** за **2015** год, на оси `Y` - средние значения полезности отзывов, сгруппированные по дате.

Отдельно сохраним данные только по игре **Subnautica**

Преобразуем даты в единый формат `YYYY-MM-DD` с помощью знакомой функции `________`

**Удалим** все пропущенные значения, появившиеся после преобразования дат

Оставим данные только за 2015 год при помощи свойства `________`

Cгруппируем данные по дате с помощью метода `________` и атрибутов `________`, затем вычислим средние значения полезности для каждой даты с помощью метода `________`

Построим линейный график, где по оси Х будут **даты отзывов** (`индексы` из сгруппированной серии), а по оси Y - средние значения полезности (`значения` из сгруппированной серии)

**Выводы по графику**:

#### **2. Столбчатая диаграмма**

Постройте столбчатую диаграмму, которая отображает **количество отзывов** по играм Hades, Terraria, Raft и Portal 2 за **2022** год.

Сохраним данные только по указанным играм с помощью метода `________`

Преобразуем даты в единый формат

Удалим появившиеся пропущенные значения

Оставим данные только за **2022** год

Подсчитываем и сохраняем в отдельную **серию** количества отзывов для каждой игры

##### **Функции plt.bar(), plt.text() и plt.xticks()**

`plt.bar()` - функция для построения столбчатой диаграммы
- `x` - значения столбцов по оси X
- `height` - высота столбцов по оси Y
- `color` - цвет графика

`plt.text()` - функция для отображения текста на графике
- `x` - координата по оси X, где будет отображаться текст
- `y` - координата по оси Y, где будет отображаться текст
- `s` - значение, которое будет отображаться на графике
- `ha` - горизонтальное выравнивание текста
- `va` - вертикальное выравнивание текста
- `fontsize` - размер шрифта

`plt.xticks()` - управление ориентацией меток на оси Х. `rotation=0` означает, что метки на оси Х будут выведены **горизонтально**, то есть без поворота.

In [None]:
# создание фигуры для построения столбчатой диаграммы

# строим столбчатую диаграмму на основе данных reviews_count

# отображаем конкретные числа на столбцах диаграммы

# добавление подписей и меток

# демонстрация графика


**Выводы по графику**:

#### **3. Круговая диаграмма**

Постройте на одном графике **4 круговые диаграммы**, отображающие в процентах **рекомендации** для игр `Hades`, `Terraria`, `Raft` и `Portal 2`.

##### **Функции plt.subplots(), pie(), set_title() и plt.tight_layout()**

`plt.subplots()` - функция для создания фигуры и нескольких графиков, которые будут расположены в виде сетки.
- `nrows` - количество **строк** в сетке
- `ncols` - количество **столбцов** в сетке
- `figsize` - размер фигуры в дюймах

`plt.subplots()` возвращает 2 значения - `figure` (контейнер для графиков) и `axes` (список подграфиков)

`axes` - это **список** объектов, представляющий собой отдельные подграфики.

`pie()` - функция, которая строит **круговую диаграмму**
- `x` - набор данных, который будет отображаться на диаграмме
- `labels` - список меток для секторов диаграммы
- `autopct` - формат числовых значений в процентах внутри секторов
- `startangle` - угол, на котором начинается круговая диаграмма

`set_title()` - функция, которая устанавливает **заголовок** для конкретного подграфика:
- `label` - строка текста, которая отражается в качестве **заголовка** графика
- `fontweight` - устанавливает **толщину шрифта** для заголовка

`plt.tight_layout()` - функция для автоматической настройки отступов между подграфиками, чтобы они не перекрывались

In [None]:
# создаем фигуру  и список с подграфиками

# создаем круговую диаграмму для каждой игры

    # получаем строки для конкретной игры

    # подсчитываем количество строк с отзывами игры

    # строим круговую диаграмму для конкретной игры

    # отображаем название диаграммы


# оптимизация отображения и демонстрация графика


**Выводы по графику**: