# Лекция 5. Визуализация данных. Использование библиотек Matplotlib и Seaborn

**Цель лекции:** научиться создавать базовые графики для анализа данных с использованием библиотек `Matplotlib` и `Seaborn`. Эти навыки являются ключевыми для проведения разведочного анализа данных (EDA - Exploratory Data Analysis), который составляет основу любого проекта в машинном обучении.

## Введение: Зачем нужна визуализация?

Анализ данных редко обходится без графиков. Визуализация помогает:

1.  **Быстро находить паттерны и зависимости:** Человеческий глаз отлично справляется с поиском закономерностей на изображениях, в то время как в таблице с тысячами строк эти же закономерности могут быть незаметны.
2.  **Обнаруживать аномалии и выбросы:** Необычные значения на графиках сразу бросаются в глаза.
3.  **Понимать распределение данных:** Является ли распределение нормальным? Есть ли несколько пиков (мод)? Насколько велик разброс?
4.  **Эффектно представлять результаты:** График часто бывает более убедительным и понятным, чем таблица или текст.

В экосистеме Python существует множество инструментов для визуализации, но два из них являются стандартом де-факто: **Matplotlib** и **Seaborn**.

### Matplotlib vs Seaborn

*   **`Matplotlib`** — это "дедушка" визуализации в Python. Это фундаментальная, низкоуровневая библиотека, которая предоставляет полный контроль над каждым элементом графика. На её основе построено большинство других библиотек, включая Seaborn.

*   **`Seaborn`** — это высокоуровневая библиотека, созданная поверх Matplotlib. Она разработана специально для статистической визуализации и отлично интегрируется с `Pandas`. Seaborn позволяет создавать сложные и красивые графики буквально в одну строку кода, избавляя от рутинных настроек. 

**Наш подход:** Мы начнем с краткого обзора Matplotlib, чтобы понять основные принципы построения графиков. Затем мы перейдем к Seaborn как к основному инструменту для быстрого и эффективного анализа данных. Важно помнить: **почти любая настройка графика Seaborn может быть выполнена с помощью команд Matplotlib.**

## Часть 1: Основы Matplotlib — Фундамент

Чтобы понять, как устроен Seaborn, нужно знать, что в основе любого графика лежит объект `Figure` (холст) и один или несколько объектов `Axes` (оси/область для рисования). Matplotlib позволяет работать с ними напрямую.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

In [None]:
# Команда для корректного отображения графиков в Jupyter Notebook
%matplotlib inline

### 1.1 Базовый график и его основные атрибуты

Давайте создадим простой график и настроим его внешний вид с помощью основных атрибутов Matplotlib.

In [None]:
x = np.arange(0,10)
y = 2*x

Создадим график с подписями осей и заголовком.

In [None]:
plt.plot(x, y)
plt.xlabel('Название оси X')
plt.ylabel('Название оси Y')
plt.title('Название графика');

#### `xlim` и `ylim`
Эти атрибуты устанавливают пределы (границы) для осей X и Y. Это полезно, чтобы сфокусироваться на определенном участке графика.

In [None]:
plt.plot(x, y)
plt.xlabel('Ось X')
plt.ylabel('Ось Y')
plt.title('График с измененными осями')

# Устанавливаем пределы: (нижняя_граница, верхняя_граница)
plt.xlim(0, 6)
plt.ylim(0, 12);

#### `label` и `legend`
Когда на одном графике несколько линий, нужна легенда. Атрибут `label` задает имя для линии, а функция `plt.legend()` отображает легенду.

In [None]:
plt.plot(x, x**2, label="x^2")
plt.plot(x, x**3, label="x^3")
plt.legend();

Легенду можно размещать в разных местах. `loc` принимает значения от 0 до 10 для стандартных позиций, или можно задать координаты вручную. Особенно полезно бывает вынести легенду за пределы графика.

In [None]:
plt.plot(x, x**2, label="x^2")
plt.plot(x, x**3, label="x^3")

# loc='best' (или 0) - Matplotlib сам выберет лучшее место
# bbox_to_anchor позволяет вынести легенду за пределы. (1.05, 1) - правее и выше области графика.
plt.legend(loc='best', bbox_to_anchor=(1.25, 1));

#### `figsize` и `linewidth`
Эти атрибуты управляют физическими размерами графика и толщиной линий. Они задаются при создании объекта `Figure`. Это **объектно-ориентированный подход (ООП) к созданию графиков**: мы явно создаем объекты Figure и Axes и работаем с их методами. **Именно этот подход лежит в основе Seaborn.** До этого мы использовали **функциональный подход (как в MATLAB)**: мы вызываем функции из `plt`, которые применяются к текущему активному графику.

In [None]:
# Создаем холст определенного размера
fig = plt.figure(figsize=(8, 5)) # (ширина, высота) в дюймах
ax = fig.add_axes([0, 0, 1, 1])

# Задаем толщину линий с помощью linewidth или lw
ax.plot(x, x, label='x', linewidth=1)
ax.plot(x, x*2, label='2x', lw=3)
ax.plot(x, x*3, label='3x', lw=5)
ax.legend();

## Часть 2: Seaborn — Визуализация для Анализа Данных

Seaborn упрощает работу, принимая на вход DataFrame и названия колонок, которые нужно отобразить.

In [None]:
# Загружаем данные для примеров
df = pd.read_csv('dm_office_sales.csv')
perf_df = pd.read_csv('StudentsPerformance.csv')

### 2.1 Изучение взаимосвязей: `scatterplot` (диаграмма рассеяния)

**Теория:** Диаграмма рассеяния — основной инструмент для визуализации связи между двумя **непрерывными (числовыми)** переменными. Она позволяет увидеть тип зависимости (линейная, нелинейная), её направление (положительная, отрицательная) и наличие выбросов.

In [None]:
sns.scatterplot(x='salary', y='sales', data=df);

**Атрибуты:** `scatterplot` позволяет добавить на график дополнительные измерения с помощью различных атрибутов.

#### `hue`
Атрибут `hue` (оттенок) позволяет раскрасить точки в зависимости от значения **категориальной** переменной. Это добавляет на график третье измерение.

In [None]:
# Раскрасим точки в зависимости от отдела (division)
sns.scatterplot(x='salary', y='sales', data=df, hue='division');

#### `size` и `s`
`size` изменяет размер точек в зависимости от **числовой** переменной. `s` задает **одинаковый** размер для всех точек.

In [None]:
# Размер точек зависит от опыта работы (work experience)
sns.scatterplot(x='salary', y='sales', data=df, size='work experience');

In [None]:
# Сделаем все точки крупнее
sns.scatterplot(x='salary', y='sales', data=df, s=100);

#### `alpha`
Задает прозрачность точек (от 0 до 1). Очень полезно, когда точек много и они накладываются друг на друга.

In [None]:
# Сделаем точки полупрозрачными, чтобы видеть скопления
sns.scatterplot(x='salary', y='sales', data=df, s=100, alpha=0.3);

#### `style` и `palette`
`style` изменяет стиль маркера в зависимости от категориальной переменной. `palette` позволяет выбрать цветовую палитру.

Полный список палитр можно найти в [документации Matplotlib](https://matplotlib.org/stable/tutorials/colors/colormaps.html).

In [None]:
# Комбинируем атрибуты
sns.scatterplot(x='salary', y='sales', data=df, hue='level of education', style='level of education', palette='viridis');

### 2.2 Изучение распределений

Чтобы понять характер одной **числовой** переменной, используются гистограммы, графики плотности и "ковровые" диаграммы.

#### `rugplot`
**Теория:** `rugplot` (ковровая диаграмма) — это самый простой способ визуализировать распределение. Она наносит небольшие вертикальные черточки на оси для каждой точки данных. Это полезно, чтобы увидеть, где именно находятся отдельные наблюдения, но при большом количестве данных черточки сливаются.

In [None]:
sns.rugplot(data=df, x='salary');

#### `histplot` и `kdeplot`

**Теория:** 
- **Гистограмма (`histplot`)** группирует данные в интервалы (bins) и показывает, сколько значений попало в каждый интервал.
- **График ядерной оценки плотности (`kdeplot`)** — это сглаженная версия гистограммы, которая показывает плотность вероятности для каждого значения. Он помогает увидеть форму распределения более четко.

In [None]:
# Построим гистограмму для зарплат
sns.histplot(data=df, x='salary');

**Атрибуты:**
#### `bins` и `kde`
`bins` — количество интервалов. `kde=True` добавляет на гистограмму график оценки плотности.

In [None]:
sns.histplot(data=df, x='salary', bins=20, kde=True);

Можно построить только график плотности (`kdeplot`).

In [None]:
sns.kdeplot(data=df, x='salary');

#### `bw_adjust` и `shade`/`fill` для `kdeplot`
`bw_adjust` (bandwidth adjustment) контролирует степень сглаживания кривой. Чем меньше значение, тем более "остро" кривая следует за данными; чем больше, тем она более гладкая.
`shade=True` (устаревший) или `fill=True` (современный) закрашивает область под кривой.

In [None]:
# Менее сглаженный график
sns.kdeplot(data=df, x='salary', bw_adjust=0.2);

In [None]:
# Более сглаженный график с заливкой
sns.kdeplot(data=df, x='salary', bw_adjust=2, fill=True);

### 2.3 Категориальные данные

**Теория:** Категориальная визуализация используется для сравнения числовых показателей между различными группами (категориями). Например, как различаются средние зарплаты по отделам или как распределены оценки студентов разных этнических групп. Это одна из самых сильных сторон Seaborn.

#### `countplot`
**Теория:** Считает количество записей для каждой категории.

In [None]:
sns.countplot(x='division', data=df);

#### `barplot`
**Теория:** Показывает среднее значение числовой переменной для каждой категории. Если задать разные столбцы для `x` и `hue`, получится **сгруппированная столбчатая диаграмма**.

In [None]:
# Сравним среднюю зарплату по уровню образования
plt.figure(figsize=(10,6))
sns.barplot(x='level of education', y='salary', data=df);

In [None]:
# Сравним среднюю зарплату по уровню образования, с разбивкой по отделам
plt.figure(figsize=(10,6))
sns.barplot(x='level of education', y='salary', data=df, hue='division');

#### `boxplot` (ящик с усами)

**Теория: Что такое перцентили и квартили?**
- **Перцентиль** — это значение, ниже которого лежит определенный процент наблюдений. Например, 25-й перцентиль — это значение, ниже которого находятся 25% всех данных.
- **Квартили** — это частный случай перцентилей, которые делят все данные на четыре равные части:
  - **Q1 (первый квартиль)** = 25-й перцентиль.
  - **Q2 (второй квартиль)** = 50-й перцентиль, это **медиана**.
  - **Q3 (третий квартиль)** = 75-й перцентиль.
- **Межквартильный размах (IQR)** = Q3 - Q1. Это диапазон, в котором лежат центральные 50% данных.

**Как читать Boxplot:**
1.  **Линия в центре ящика** — это медиана (Q2).
2.  **Границы ящика** — это Q1 и Q3. Высота ящика — это IQR.
3.  **"Усы"** — обычно простираются до 1.5 * IQR от границ ящика. Они показывают основной разброс данных.
4.  **Точки за усами** — это выбросы, то есть аномально высокие или низкие значения.

`boxplot` идеально подходит для сравнения распределений и поиска выбросов в разных категориях.

In [None]:
# Сравним распределение оценок по математике в зависимости от уровня образования родителей
plt.figure(figsize=(10, 6))
sns.boxplot(x='parental level of education', y='math score', data=perf_df);

**Ориентация:** График можно сделать горизонтальным, просто поменяв местами переменные для осей `x` и `y`. Категориальная переменная всегда определяет оси с группами, а числовая — оси со значениями.

In [None]:
# Горизонтальный boxplot
plt.figure(figsize=(8, 5))
sns.boxplot(y='parental level of education', x='math score', data=perf_df);

#### `violinplot`

**Теория:** Скрипичная диаграмма объединяет `boxplot` и `kdeplot`, показывая не только статистические сводки, но и форму распределения данных.

In [None]:
plt.figure(figsize=(12, 7))
sns.violinplot(x='parental level of education', y='math score', data=perf_df, hue='gender', split=True);

### 2.4 Комплексная визуализация: `pairplot`

**Теория:** `pairplot` строит диаграммы рассеяния для каждой пары числовых признаков, а на диагонали — гистограммы их распределений. Это позволяет одним взглядом оценить все парные зависимости и распределения.


In [None]:
# Раскрасим точки в зависимости от пола (gender)
sns.pairplot(data=perf_df, hue='gender', palette='viridis');

#### `diag_kind`
Этот атрибут позволяет изменить тип графика на диагонали. По умолчанию стоит `'auto'`, но можно явно указать `'hist'` (гистограмма) или `'kde'` (график плотности).

In [None]:
# На диагонали будут графики плотности
sns.pairplot(data=perf_df, hue='gender', diag_kind='kde');

## Часть 3: Кастомизация графиков Seaborn с помощью Matplotlib

Как мы уже говорили, Seaborn строит графики на "холсте" Matplotlib. Это значит, что после создания графика в Seaborn мы можем использовать функции из `plt` для его настройки.

**Рабочий процесс:**
1.  Используем `plt.figure(figsize=(...))` **до** вызова функции Seaborn, чтобы задать размер холста.
2.  Вызываем функцию Seaborn для построения графика.
3.  Используем функции `plt.title()`, `plt.xlabel()`, `plt.grid()` и др. **после** вызова Seaborn для дополнительной настройки.
4.  Используем `plt.savefig()` для сохранения результата в файл.

In [None]:
# 1. Задаем размер фигуры
plt.figure(figsize=(12, 8), dpi=100) # dpi - dots per inch, разрешение

# 2. Строим график Seaborn
sns.scatterplot(x='reading score', y='writing score', data=perf_df, hue='test preparation course')

# 3. Добавляем настройки Matplotlib
plt.title('Зависимость оценок по письму и чтению', fontsize=16)
plt.xlabel('Оценка по чтению', fontsize=12)
plt.ylabel('Оценка по письму', fontsize=12)
plt.grid(True) # Добавляем сетку
plt.legend(title='Подготовка к тесту')

# 4. Сохраняем график в файл (в той же ячейке!)
plt.savefig('reading_vs_writing_scores.png');

## Заключение

На этой лекции мы рассмотрели основные типы графиков, необходимые для анализа данных:
- **Диаграммы рассеяния (`scatterplot`, `pairplot`)** для поиска взаимосвязей между числовыми переменными.
- **Гистограммы и графики плотности (`histplot`, `kdeplot`)** для изучения распределения одной переменной.
- **Категориальные графики (`countplot`, `barplot`, `boxplot`, `violinplot`)** для сравнения показателей между группами.

Мы также научились использовать `Seaborn` для быстрого построения информативных графиков и `Matplotlib` для их последующей детальной настройки. Эти инструменты — основа для любого разведочного анализа данных и важный шаг в подготовке данных для моделей машинного обучения.