**Тема 2.3. Визуализация данных  
Лекция. Визуализация данных**

---

## Теория

**Визуализация данных** — это процесс отображения числовой или категориальной информации в виде графиков, диаграмм, карт и других наглядных форм. Визуализация помогает:

- Быстро понять структуру и закономерности в данных
- Демонстрировать результаты анализа другим
- Находить аномалии и выбросы
- Изучать распределения, корреляции, зависимости

---

## Основные библиотеки визуализации в Python

- **Matplotlib** — базовая и универсальная библиотека для построения графиков.
- **Seaborn** — более "стильные" и сложные статистические графики.
- **Pandas Plot** — быстрые графики прямо из DataFrame.
- **Plotly, Bokeh** — интерактивные визуализации для публикаций в web.
- **Plotly Express** — модуль Plotly для быстрого построения популярных графиков.

---

## Основные типы графиков

### 1. Линейный график (Line Plot)

Показывает зависимость переменной от другой переменной (время, числа, категории и тд).

```python
import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [3, 7, 2, 5, 9]

plt.plot(x, y)
plt.title("Линейный график")
plt.xlabel("X")
plt.ylabel("Y")
plt.show()
```

---

### 2. Гистограмма (Histogram)

Показывает распределение числовых данных по интервалам (bins).

```python
import numpy as np
import matplotlib.pyplot as plt

data = np.random.randn(1000)
plt.hist(data, bins=20, color='skyblue', edgecolor='black')
plt.title("Гистограмма")
plt.show()
```

---

### 3. Диаграмма рассеяния (Scatter plot)

Используется для поиска взаимосвязей между двумя числовыми переменными.

```python
x = np.random.rand(50)
y = x * 2 + np.random.normal(0, 0.2, 50)

plt.scatter(x, y)
plt.title("Диаграмма рассеяния")
plt.xlabel("X")
plt.ylabel("Y")
plt.show()
```

---

### 4. Столбчатая диаграмма (Bar Plot)

Визуализирует значения для категорий.

```python
categories = ['A', 'B', 'C']
values = [5, 7, 3]

plt.bar(categories, values)
plt.title("Столбчатая диаграмма")
plt.xlabel("Категории")
plt.ylabel("Значения")
plt.show()
```

---

### 5. Круговая диаграмма (Pie Chart)

Отображает доли категорий в общем объёме.

```python
labels = ['Apple', 'Banana', 'Cherry']
sizes = [45, 30, 25]

plt.pie(sizes, labels=labels, autopct='%1.1f%%')
plt.title("Круговая диаграмма")
plt.show()
```

---

## Оформление графиков

- **Заголовок:** plt.title("Название")
- **Подписи осей:** plt.xlabel("X"), plt.ylabel("Y")
- **Сетка:** plt.grid(True)
- **Легенда:** plt.legend(['Series1', 'Series2'])
- **Параметры цвета, маркеры, стиль:** plt.plot(x, y, color='red', linestyle='--', marker='o')

```python
plt.plot(x, y, color='red', linestyle='--', marker='o', label='Данные')
plt.legend()
plt.grid(True)
plt.show()
```

---

## Расширенная визуализация: Seaborn & Pandas

### Seaborn

```python
import seaborn as sns
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "x": np.random.rand(100),
    "y": np.random.rand(100),
    "category": np.random.choice(['A', 'B'], 100)
})

sns.scatterplot(data=df, x="x", y="y", hue="category")
plt.title("Диаграмма рассеяния с Seaborn")
plt.show()
```

### Pandas plot

```python
df['x'].plot(kind='hist')
plt.title("Гистограмма через Pandas")
plt.show()
```

---

## Тепловые карты (Heatmap)

Тепловая карта — способ визуализации матрицы или группы данных при помощи цвета.

### Тепловая карта с Seaborn

```python
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

data = pd.DataFrame(
    np.random.randn(10, 12),
    columns=[f'Month {i}' for i in range(1, 13)]
)

plt.figure(figsize=(10, 6))
sns.heatmap(data, cmap='YlGnBu', annot=True)
plt.title("Пример тепловой карты (Seaborn)")
plt.show()
```

### Корреляционная матрица с тепловой картой

```python
import seaborn as sns
import matplotlib.pyplot as plt
df = sns.load_dataset('iris')
corr = df.corr(numeric_only=True)

sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title("Корреляционная матрица (Iris)")
plt.show()
```

---

## Визуализация с помощью Plotly

Plotly — библиотека для создания интерактивных (двигаются, увеличиваются, показывают подсказки) графиков, которые отлично подходят для анализа данных и публикаций.

### 1. Линейный график

```python
import plotly.graph_objs as go

x = [1, 2, 3, 4, 5]
y = [3, 7, 2, 5, 9]

fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=y, mode='lines+markers', name='Y(X)'))
fig.update_layout(title='Линейный график (Plotly)', xaxis_title='X', yaxis_title='Y')
fig.show()
```

### 2. Тепловая карта

```python
import plotly.express as px
import numpy as np

z = np.random.randn(10, 10)
fig = px.imshow(z, color_continuous_scale='Viridis', title="Тепловая карта (Plotly)")
fig.show()
```

### 3. Интерактивная диаграмма рассеяния

```python
import plotly.express as px
import seaborn as sns

df_iris = sns.load_dataset('iris')
fig = px.scatter(df_iris, x='sepal_length', y='petal_length', color='species', title="Диаграмма рассеяния (Plotly)")
fig.show()
```

---

## Рекомендации по визуализации

- Не перегружайте графики количеством данных или подписей.
- Обязательно подписывайте оси, добавляйте заголовки, легенды.
- Не злоупотребляйте цветами — используйте их для выделения важных аспектов.
- Для сложных многомерных данных применяйте интерактивные инструменты: Plotly, Bokeh.
- Тепловые карты — удобны для отображения корреляций, числовых матриц, частот и т.д.

---


import numpy as np
import pandas as pd

np.random.seed(42)
n = 50  # строк

df = pd.DataFrame({
    'age': np.random.randint(18, 65, size=n),
    'salary': np.random.randint(28000, 120000, size=n),
    'experience': np.random.randint(0, 40, size=n),
    'city': np.random.choice(['Moscow', 'SPb', 'Kazan', 'Ekaterinburg'], size=n),
    'is_manager': np.random.choice([0, 1], size=n),
    'department': np.random.choice(['IT', 'HR', 'Finance', 'Marketing'], size=n)
})

df.head()