# Урок 4: Продвинутые возможности Matplotlib

В этом уроке мы рассмотрим более сложные возможности библиотеки Matplotlib для визуализации данных. Используем датасет **Titanic** (или другой, доступный в открытых источниках).

## Цели урока
1. Освоить создание нескольких графиков на одном рисунке с помощью `subplot`.
2. Научиться создавать **heatmap** для визуализации матриц данных.
3. Использовать аннотации и текст для улучшения читаемости графиков.
4. Создать более сложные визуализации (stacked bar, violin plot).

## Содержание
1. [Загрузка данных](#load_data)
2. [Subplot: несколько графиков на одном рисунке](#subplot)
3. [Heatmap: тепловая карта](#heatmap)
4. [Stacked Bar Plot: сложенные столбики](#stacked_bar)
5. [Violin Plot: распределение данных](#violin_plot)
6. [Упражнения](#exercises)


# 1. Загрузка данных <a name="load_data"></a>

Мы будем использовать датасет Titanic, который доступен в библиотеке **seaborn**. Если у вас есть локальный файл `titanic.csv`, его можно загрузить напрямую с помощью `pd.read_csv()`.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns  # для более сложной визуализации
import numpy as np

# Загружаем Titanic dataset из seaborn
df = sns.load_dataset('titanic')
print("Размер датасета:", df.shape)
df.head()

Посмотрим на основные статистики и информацию о данных:

In [None]:
df.info()

df.describe(include='all')

# 2. Subplot: несколько графиков на одном рисунке <a name="subplot"></a>

Создание нескольких графиков на одном рисунке (figure) полезно для сравнения различных визуализаций или аналитики разных аспектов данных.

Рассмотрим пример: мы создадим линейный график, гистограмму и scatter plot на одном рисунке с использованием `plt.subplot()`.

In [None]:
# Данные для графиков
ages = df['age'].dropna()
fare = df['fare'].dropna()

# Создаём область для 3 графиков (1 строка, 3 столбца)
plt.figure(figsize=(15, 5))

# Линейный график (пример: возраст)
plt.subplot(1, 3, 1)
plt.plot(sorted(ages), label='Возраст', color='blue')
plt.title('Линейный график возраста')
plt.xlabel('Пассажиры')
plt.ylabel('Возраст')
plt.legend()

# Гистограмма (распределение стоимости билетов)
plt.subplot(1, 3, 2)
plt.hist(fare, bins=20, color='green', edgecolor='black', alpha=0.7)
plt.title('Распределение стоимости билетов')
plt.xlabel('Стоимость билета')
plt.ylabel('Частота')

# Диаграмма рассеяния (возраст и стоимость билета)
plt.subplot(1, 3, 3)
plt.scatter(ages, fare[:len(ages)], color='purple', alpha=0.6)
plt.title('Диаграмма рассеяния: возраст vs. билет')
plt.xlabel('Возраст')
plt.ylabel('Стоимость билета')

# Отобразим все графики
plt.tight_layout()
plt.show()

### Упражнение 1
Создайте 2 строки и 2 столбца с 4 графиками:
1. Линейный график возраста.
2. Гистограмма количества родственников (sibsp).
3. Scatter plot выживаемости (survived) vs. возраст.
4. Box plot для распределения стоимости билетов.

In [None]:
# Ваш код здесь

# 3. Heatmap: тепловая карта <a name="heatmap"></a>

Тепловая карта — это способ визуализации матрицы данных. Рассмотрим пример корреляции между числовыми признаками в датасете Titanic.

In [None]:
df['sex'] = df['sex'].map({'male': 0, 'female': 1})

# Корреляционная матрица (включая преобразованный столбец 'sex')
correlation_matrix = df.select_dtypes(include=['float64', 'int64']).corr()

# Построение тепловой карты
plt.figure(figsize=(10, 8))
sns.heatmap(correlation_matrix, annot=True, fmt='.2f', cmap='coolwarm', linewidths=0.5)
plt.title('Корреляционная матрица')
plt.show()

### Упражнение 2
Создайте тепловую карту для любых других данных, например, для подмножества датасета с 4-5 числовыми признаками.
- Укажите формат без десятичных (`fmt='d'`).
- Измените цветовую схему (например, `cmap='viridis'`).

In [None]:
# Ваш код здесь

# 4. Stacked Bar Plot: сложенные столбики <a name="stacked_bar"></a>

Создадим сложенную столбиковую диаграмму для визуализации количества выживших и погибших пассажиров в каждом классе билетов.

In [None]:
# Группировка данных
survived_by_class = df.groupby(['pclass', 'survived'])['survived'].count().unstack()

# Построение сложенного столбикового графика
survived_by_class.plot(kind='bar', stacked=True, figsize=(10, 6), color=['red', 'green'], edgecolor='black')
plt.title('Количество выживших и погибших по классам')
plt.xlabel('Класс билета')
plt.ylabel('Количество пассажиров')
plt.legend(['Погибшие', 'Выжившие'])
plt.show()

### Упражнение 3
Создайте сложенную столбиковую диаграмму для отображения количества мужчин и женщин, разделённых по выживаемости (используйте столбцы `sex` и `survived`).

In [None]:
# Ваш код здесь

# 5. Violin Plot: распределение данных <a name="violin_plot"></a>

Violin plot используется для отображения распределения числовых данных по категориям. Построим его для возраста пассажиров, разделённых по полу.

In [None]:
# Violin plot
plt.figure(figsize=(8, 6))
sns.violinplot(x='sex', y='age', data=df, split=True, palette='muted')
plt.title('Распределение возраста по полу')
plt.xlabel('Пол')
plt.ylabel('Возраст')
plt.show()

### Упражнение 4
Создайте violin plot для распределения стоимости билетов (`fare`) в зависимости от порта посадки (`embarked`).

In [None]:
# Ваш код здесь

# 6. Упражнения <a name="exercises"></a>

1. Постройте scatter plot зависимости возраста и стоимости билета, разделив точки по полу (`hue='sex'`).
2. Создайте тепловую карту, показывающую пропуски (`df.isnull()`) в датасете Titanic.
3. Постройте boxplot, показывающий распределение возраста по классам билетов (`pclass`).
4. Создайте график, который показывает выживаемость пассажиров по портам посадки (stacked bar plot).

Удачи!