**Тема 2.3. Визуализация данных  
Лекция. Визуализация данных**

---

## Теория

**Визуализация данных** — это процесс отображения числовой или категориальной информации в виде графиков, диаграмм, карт и других наглядных форм. Визуализация помогает:

- Быстро понять структуру и закономерности в данных
- Демонстрировать результаты анализа другим
- Находить аномалии и выбросы
- Изучать распределения, корреляции, зависимости

---

## Основные библиотеки визуализации в Python

- **Matplotlib** — базовая и универсальная библиотека для построения графиков.
- **Seaborn** — более "стильные" и сложные статистические графики.
- **Pandas Plot** — быстрые графики прямо из DataFrame.
- **Plotly, Bokeh** — интерактивные визуализации для публикаций в web.
- **Plotly Express** — модуль Plotly для быстрого построения популярных графиков.

---

## Основные типы графиков

### 1. Линейный график (Line Plot)

Показывает зависимость переменной от другой переменной (время, числа, категории и тд).

```python
import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [3, 7, 2, 5, 9]

plt.plot(x, y)
plt.title("Линейный график")
plt.xlabel("X")
plt.ylabel("Y")
plt.show()
```

---

### 2. Гистограмма (Histogram)

Показывает распределение числовых данных по интервалам (bins).

```python
import numpy as np
import matplotlib.pyplot as plt

data = np.random.randn(1000)
plt.hist(data, bins=20, color='skyblue', edgecolor='black')
plt.title("Гистограмма")
plt.show()
```

---

### 3. Диаграмма рассеяния (Scatter plot)

Используется для поиска взаимосвязей между двумя числовыми переменными.

```python
x = np.random.rand(50)
y = x * 2 + np.random.normal(0, 0.2, 50)

plt.scatter(x, y)
plt.title("Диаграмма рассеяния")
plt.xlabel("X")
plt.ylabel("Y")
plt.show()
```

---

### 4. Столбчатая диаграмма (Bar Plot)

Визуализирует значения для категорий.

```python
categories = ['A', 'B', 'C']
values = [5, 7, 3]

plt.bar(categories, values)
plt.title("Столбчатая диаграмма")
plt.xlabel("Категории")
plt.ylabel("Значения")
plt.show()
```

---

### 5. Круговая диаграмма (Pie Chart)

Отображает доли категорий в общем объёме.

```python
labels = ['Apple', 'Banana', 'Cherry']
sizes = [45, 30, 25]

plt.pie(sizes, labels=labels, autopct='%1.1f%%')
plt.title("Круговая диаграмма")
plt.show()
```

---

## Оформление графиков

- **Заголовок:** plt.title("Название")
- **Подписи осей:** plt.xlabel("X"), plt.ylabel("Y")
- **Сетка:** plt.grid(True)
- **Легенда:** plt.legend(['Series1', 'Series2'])
- **Параметры цвета, маркеры, стиль:** plt.plot(x, y, color='red', linestyle='--', marker='o')

```python
plt.plot(x, y, color='red', linestyle='--', marker='o', label='Данные')
plt.legend()
plt.grid(True)
plt.show()
```

---

## Расширенная визуализация: Seaborn & Pandas

### Seaborn

```python
import seaborn as sns
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "x": np.random.rand(100),
    "y": np.random.rand(100),
    "category": np.random.choice(['A', 'B'], 100)
})

sns.scatterplot(data=df, x="x", y="y", hue="category")
plt.title("Диаграмма рассеяния с Seaborn")
plt.show()
```

### Pandas plot

```python
df['x'].plot(kind='hist')
plt.title("Гистограмма через Pandas")
plt.show()
```

---

## Тепловые карты (Heatmap)

Тепловая карта — способ визуализации матрицы или группы данных при помощи цвета.

### Тепловая карта с Seaborn

```python
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

data = pd.DataFrame(
    np.random.randn(10, 12),
    columns=[f'Month {i}' for i in range(1, 13)]
)

plt.figure(figsize=(10, 6))
sns.heatmap(data, cmap='YlGnBu', annot=True)
plt.title("Пример тепловой карты (Seaborn)")
plt.show()
```

### Корреляционная матрица с тепловой картой

```python
import seaborn as sns
import matplotlib.pyplot as plt
df = sns.load_dataset('iris')
corr = df.corr(numeric_only=True)

sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title("Корреляционная матрица (Iris)")
plt.show()
```

---

## Визуализация с помощью Plotly

Plotly — библиотека для создания интерактивных (двигаются, увеличиваются, показывают подсказки) графиков, которые отлично подходят для анализа данных и публикаций.

### 1. Линейный график

```python
import plotly.graph_objs as go

x = [1, 2, 3, 4, 5]
y = [3, 7, 2, 5, 9]

fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=y, mode='lines+markers', name='Y(X)'))
fig.update_layout(title='Линейный график (Plotly)', xaxis_title='X', yaxis_title='Y')
fig.show()
```

### 2. Тепловая карта

```python
import plotly.express as px
import numpy as np

z = np.random.randn(10, 10)
fig = px.imshow(z, color_continuous_scale='Viridis', title="Тепловая карта (Plotly)")
fig.show()
```

### 3. Интерактивная диаграмма рассеяния

```python
import plotly.express as px
import seaborn as sns

df_iris = sns.load_dataset('iris')
fig = px.scatter(df_iris, x='sepal_length', y='petal_length', color='species', title="Диаграмма рассеяния (Plotly)")
fig.show()
```

---

## Рекомендации по визуализации

- Не перегружайте графики количеством данных или подписей.
- Обязательно подписывайте оси, добавляйте заголовки, легенды.
- Не злоупотребляйте цветами — используйте их для выделения важных аспектов.
- Для сложных многомерных данных применяйте интерактивные инструменты: Plotly, Bokeh.
- Тепловые карты — удобны для отображения корреляций, числовых матриц, частот и т.д.

---


### Синтетический DataFrame

```python
import numpy as np
import pandas as pd

np.random.seed(42)
n = 50  # строк

df = pd.DataFrame({
    'age': np.random.randint(18, 65, size=n),
    'salary': np.random.randint(28000, 120000, size=n),
    'experience': np.random.randint(0, 40, size=n),
    'city': np.random.choice(['Moscow', 'SPb', 'Kazan', 'Ekaterinburg'], size=n),
    'is_manager': np.random.choice([0, 1], size=n),
    'department': np.random.choice(['IT', 'HR', 'Finance', 'Marketing'], size=n)
})

df.head()
```
---

## Задачи по возрастанию сложности

#### 1. Постройте линейный график зависимости зарплаты от возраста.

**Ответ**:
```python
import matplotlib.pyplot as plt
plt.plot(df['age'], df['salary'], 'o-')
plt.xlabel("Age")
plt.ylabel("Salary")
plt.title("Зависимость зарплаты от возраста")
plt.show()
```

---

#### 2. Постройте гистограмму распределения возраста.

**Ответ**:
```python
df['age'].hist(bins=10)
plt.xlabel("Age")
plt.title("Гистограмма возраста")
plt.show()
```

---

#### 3. Нарисуйте scatter plot "age" против "experience".

**Ответ**:
```python
plt.scatter(df['age'], df['experience'])
plt.xlabel("Age")
plt.ylabel("Experience")
plt.title("Опыт против возраста")
plt.show()
```

---

#### 4. Постройте столбчатую диаграмму количества сотрудников по каждому городу.

**Ответ**:
```python
df['city'].value_counts().plot(kind='bar')
plt.ylabel("Число сотрудников")
plt.title("Количество сотрудников по городам")
plt.show()
```

---

#### 5. Нарисуйте круговую диаграмму по отделам ("department").

**Ответ**:
```python
df['department'].value_counts().plot(kind='pie', autopct='%1.1f%%')
plt.title("Распределение по отделам")
plt.ylabel("")
plt.show()
```

---

#### 6. Нарисуйте boxplot зарплат.

**Ответ**:
```python
df['salary'].plot(kind='box')
plt.title("Boxplot зарплат")
plt.show()
```

---

#### 7. Нарисуйте гистограмму зарплат по городам на одном графике (разными цветами).

**Ответ**:
```python
for city in df['city'].unique():
    df[df['city'] == city]['salary'].hist(alpha=0.5, label=city)
plt.xlabel("Salary")
plt.legend()
plt.title("Гистограммы зарплаты по городам")
plt.show()
```

---

#### 8. Нарисуйте scatter plot "salary" против "experience", цвет по "is_manager".

**Ответ**:
```python
plt.scatter(df['experience'], df['salary'], c=df['is_manager'], cmap='coolwarm')
plt.xlabel("Experience")
plt.ylabel("Salary")
plt.title("Зарплата vs Опыт (цвет - manager)")
plt.show()
```

---

#### 9. Нарисуйте bar plot среднего возраста сотрудников по отделам.

**Ответ**:
```python
df.groupby('department')['age'].mean().plot(kind='bar')
plt.ylabel("Средний возраст")
plt.title("Средний возраст по отделам")
plt.show()
```

---

#### 10. Нарисуйте boxplot зарплат по каждому отделу на одном графике.

**Ответ**:
```python
df.boxplot(column='salary', by='department')
plt.title("Boxplot зарплат по отделам")
plt.suptitle("")
plt.show()
```

---

#### 11. Нарисуйте bar plot количества руководителей по каждому городу.

**Ответ**:
```python
df[df['is_manager']==1]['city'].value_counts().plot(kind='bar')
plt.title("Количество менеджеров по городам")
plt.ylabel("Менеджеры")
plt.show()
```

---

#### 12. Нарисуйте violin plot опыта сотрудников по отделам (Seaborn).

**Ответ**:
```python
import seaborn as sns
sns.violinplot(data=df, x='department', y='experience')
plt.title("Опыт по отделам")
plt.show()
```

---

#### 13. Нарисуйте корреляционную тепловую карту по числовым столбцам.

**Ответ**:
```python
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title("Корреляционная тепловая карта")
plt.show()
```

---

#### 14. Нарисуйте scatter plot возраст–зарплата, задайте размер точек по опыту.

**Ответ**:
```python
plt.scatter(df['age'], df['salary'], s=df['experience']*5)
plt.xlabel("Age")
plt.ylabel("Salary")
plt.title("Зарплата/возраст, размер по опыту")
plt.show()
```

---

#### 15. Нарисуйте countplot (Seaborn) для столбца "is_manager".

**Ответ**:
```python
sns.countplot(data=df, x='is_manager')
plt.title("Число менеджеров и неменеджеров")
plt.show()
```

---

#### 16. Нарисуйте bar plot средней зарплаты по каждому городу и отделу (группировка по городу, цвет — отдел).

**Ответ**:
```python
pivot = df.groupby(['city','department'])['salary'].mean().reset_index()
sns.barplot(data=pivot, x='city', y='salary', hue='department')
plt.title("Средняя зарплата по городу и отделу")
plt.show()
```

---

#### 17. Нарисуйте pairplot (Seaborn) по 3 числовым столбцам.

**Ответ**:
```python
sns.pairplot(df[['age','salary','experience']])
plt.show()
```

---

#### 18. Нарисуйте boxplot зарплат по отделам, отдельно для менеджеров и неменеджеров (hue).

**Ответ**:
```python
sns.boxplot(data=df, x='department', y='salary', hue='is_manager')
plt.title("Зарплаты по отделам, менеджеры/неменеджеры")
plt.show()
```

---

#### 19. Постройте тепловую карту средней зарплаты по отделам и городам.

**Ответ**:
```python
pivot2 = df.pivot_table(index='department', columns='city', values='salary', aggfunc='mean')
sns.heatmap(pivot2, annot=True, cmap="YlGnBu")
plt.title("Средняя зарплата по отделам и городам")
plt.show()
```

---

#### 20. Нарисуйте распределение опыта в каждом отделе на одной гистограмме (разные цвета).

**Ответ**:
```python
for dept in df['department'].unique():
    df[df['department']==dept]['experience'].hist(alpha=0.5, label=dept)
plt.xlabel("Experience")
plt.legend()
plt.title("Гистограмма опыта по отделам")
plt.show()
```

---

#### 21. Нарисуйте stripplot (Seaborn) зарплат по отделам.

**Ответ**:
```python
sns.stripplot(data=df, x='department', y='salary', jitter=True)
plt.title("Разброс зарплат по отделам")
plt.show()
```

---

#### 22. Используйте Plotly для интерактивного scatter plot “salary” vs “age” (цвет по “department”).

**Ответ**:
```python
import plotly.express as px
fig = px.scatter(df, x='age', y='salary', color='department')
fig.show()
```

---

#### 23. Нарисуйте интерактивную тепловую карту средней зарплаты по отделам и городам (Plotly).

**Ответ**:
```python
import plotly.express as px
fig = px.imshow(pivot2.values, 
                labels=dict(x="City", y="Department", color="Salary"),
                x=pivot2.columns, y=pivot2.index)
fig.show()
```

---

#### 24. Нарисуйте интерактивную гистограмму возраста в Plotly.

**Ответ**:
```python
fig = px.histogram(df, x='age')
fig.show()
```

---

#### 25. Нарисуйте интерактивный boxplot зарплат по отделам (Plotly).

**Ответ**:
```python
fig = px.box(df, x='department', y='salary')
fig.show()
```

---

#### 26. Постройте групповой barplot по количеству менеджеров/неменеджеров по отделам.

**Ответ**:
```python
tab = df.groupby(['department','is_manager']).size().unstack(fill_value=0)
tab.plot(kind='bar', stacked=False)
plt.ylabel("Количество")
plt.title("Менеджеры и неменеджеры по отделам")
plt.show()
```

---

#### 27. Нарисуйте KDE-плот распределения зарплат, среди “IT” отдела и всех остальных вместе.

**Ответ**:
```python
sns.kdeplot(df[df['department'] == 'IT']['salary'], label='IT')
sns.kdeplot(df[df['department'] != 'IT']['salary'], label='Другое')
plt.title("KDE зарплат: IT и остальные")
plt.legend()
plt.show()
```

---

#### 28. Постройте интерактивный 3D scatter plot: age, salary, experience.

**Ответ**:
```python
fig = px.scatter_3d(df, x='age', y='salary', z='experience', color='department')
fig.show()
```

---

#### 29. Нарисуйте swarmplot зарплаты по городам, цвет по отделам (Seaborn).

**Ответ**:
```python
sns.swarmplot(data=df, x='city', y='salary', hue='department')
plt.title("Swarmplot зарплат по городам и отделам")
plt.show()
```

---

#### 30. Нарисуйте facet grid: scatter plot (salary vs experience) отдельно для каждого отдела.

**Ответ**:
```python
g = sns.FacetGrid(df, col="department")
g.map_dataframe(sns.scatterplot, x="experience", y="salary")
g.set_axis_labels("Experience", "Salary")
plt.show()
```

---