**Тема 2.3. Визуализация данных  
Лекция. Визуализация данных**

---

## Теория

**Визуализация данных** — это процесс отображения числовой или категориальной информации в виде графиков, диаграмм, карт и других наглядных форм. Визуализация помогает:

- Быстро понять структуру и закономерности в данных
- Демонстрировать результаты анализа другим
- Находить аномалии и выбросы
- Изучать распределения, корреляции, зависимости

---

## Основные библиотеки визуализации в Python

- **Matplotlib** — базовая и универсальная библиотека для построения графиков.
- **Seaborn** — более "стильные" и сложные статистические графики.
- **Pandas Plot** — быстрые графики прямо из DataFrame.
- **Plotly, Bokeh** — интерактивные визуализации для публикаций в web.
- **Plotly Express** — модуль Plotly для быстрого построения популярных графиков.

---

## Основные типы графиков

### 1. Линейный график (Line Plot)

Показывает зависимость переменной от другой переменной (время, числа, категории и тд).

```python
import matplotlib.pyplot as plt

x = [1, 2, 3, 4, 5]
y = [3, 7, 2, 5, 9]

plt.plot(x, y)
plt.title("Линейный график")
plt.xlabel("X")
plt.ylabel("Y")
plt.show()
```

---

### 2. Гистограмма (Histogram)

Показывает распределение числовых данных по интервалам (bins).

```python
import numpy as np
import matplotlib.pyplot as plt

data = np.random.randn(1000)
plt.hist(data, bins=20, color='skyblue', edgecolor='black')
plt.title("Гистограмма")
plt.show()
```

---

### 3. Диаграмма рассеяния (Scatter plot)

Используется для поиска взаимосвязей между двумя числовыми переменными.

```python
x = np.random.rand(50)
y = x * 2 + np.random.normal(0, 0.2, 50)

plt.scatter(x, y)
plt.title("Диаграмма рассеяния")
plt.xlabel("X")
plt.ylabel("Y")
plt.show()
```

---

### 4. Столбчатая диаграмма (Bar Plot)

Визуализирует значения для категорий.

```python
categories = ['A', 'B', 'C']
values = [5, 7, 3]

plt.bar(categories, values)
plt.title("Столбчатая диаграмма")
plt.xlabel("Категории")
plt.ylabel("Значения")
plt.show()
```

---

### 5. Круговая диаграмма (Pie Chart)

Отображает доли категорий в общем объёме.

```python
labels = ['Apple', 'Banana', 'Cherry']
sizes = [45, 30, 25]

plt.pie(sizes, labels=labels, autopct='%1.1f%%')
plt.title("Круговая диаграмма")
plt.show()
```

---

## Оформление графиков

- **Заголовок:** plt.title("Название")
- **Подписи осей:** plt.xlabel("X"), plt.ylabel("Y")
- **Сетка:** plt.grid(True)
- **Легенда:** plt.legend(['Series1', 'Series2'])
- **Параметры цвета, маркеры, стиль:** plt.plot(x, y, color='red', linestyle='--', marker='o')

```python
plt.plot(x, y, color='red', linestyle='--', marker='o', label='Данные')
plt.legend()
plt.grid(True)
plt.show()
```

---

## Расширенная визуализация: Seaborn & Pandas

### Seaborn

```python
import seaborn as sns
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "x": np.random.rand(100),
    "y": np.random.rand(100),
    "category": np.random.choice(['A', 'B'], 100)
})

sns.scatterplot(data=df, x="x", y="y", hue="category")
plt.title("Диаграмма рассеяния с Seaborn")
plt.show()
```

### Pandas plot

```python
df['x'].plot(kind='hist')
plt.title("Гистограмма через Pandas")
plt.show()
```

---

## Тепловые карты (Heatmap)

Тепловая карта — способ визуализации матрицы или группы данных при помощи цвета.

### Тепловая карта с Seaborn

```python
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

data = pd.DataFrame(
    np.random.randn(10, 12),
    columns=[f'Month {i}' for i in range(1, 13)]
)

plt.figure(figsize=(10, 6))
sns.heatmap(data, cmap='YlGnBu', annot=True)
plt.title("Пример тепловой карты (Seaborn)")
plt.show()
```

### Корреляционная матрица с тепловой картой

```python
import seaborn as sns
import matplotlib.pyplot as plt
df = sns.load_dataset('iris')
corr = df.corr(numeric_only=True)

sns.heatmap(corr, annot=True, cmap='coolwarm')
plt.title("Корреляционная матрица (Iris)")
plt.show()
```

---

## Визуализация с помощью Plotly

Plotly — библиотека для создания интерактивных (двигаются, увеличиваются, показывают подсказки) графиков, которые отлично подходят для анализа данных и публикаций.

### 1. Линейный график

```python
import plotly.graph_objs as go

x = [1, 2, 3, 4, 5]
y = [3, 7, 2, 5, 9]

fig = go.Figure()
fig.add_trace(go.Scatter(x=x, y=y, mode='lines+markers', name='Y(X)'))
fig.update_layout(title='Линейный график (Plotly)', xaxis_title='X', yaxis_title='Y')
fig.show()
```

### 2. Тепловая карта

```python
import plotly.express as px
import numpy as np

z = np.random.randn(10, 10)
fig = px.imshow(z, color_continuous_scale='Viridis', title="Тепловая карта (Plotly)")
fig.show()
```

### 3. Интерактивная диаграмма рассеяния

```python
import plotly.express as px
import seaborn as sns

df_iris = sns.load_dataset('iris')
fig = px.scatter(df_iris, x='sepal_length', y='petal_length', color='species', title="Диаграмма рассеяния (Plotly)")
fig.show()
```

---

## Рекомендации по визуализации

- Не перегружайте графики количеством данных или подписей.
- Обязательно подписывайте оси, добавляйте заголовки, легенды.
- Не злоупотребляйте цветами — используйте их для выделения важных аспектов.
- Для сложных многомерных данных применяйте интерактивные инструменты: Plotly, Bokeh.
- Тепловые карты — удобны для отображения корреляций, числовых матриц, частот и т.д.

---


---

### 1. Постройте пустой график (line plot) с помощью `matplotlib.pyplot`.
**Ответ:**  
```python
import matplotlib.pyplot as plt
plt.plot([])
plt.show()
```

---

### 2. Нарисуйте прямую по точкам x=[0,1,2,3], y=[0,1,2,3].
**Ответ:**  
```python
import matplotlib.pyplot as plt
plt.plot([0,1,2,3], [0,1,2,3])
plt.show()
```

---

### 3. Добавьте заголовок к графику “My first plot”.
**Ответ:**  
```python
plt.plot([0,1,2], [1,2,3])
plt.title("My first plot")
plt.show()
```

---

### 4. Добавьте подписи осей “Time” (ось X) и “Value” (ось Y).
**Ответ:**  
```python
plt.plot([0,1], [1,2])
plt.xlabel("Time")
plt.ylabel("Value")
plt.show()
```

---

### 5. Нарисуйте гистограмму из 100 случайных чисел.
**Ответ:**  
```python
import numpy as np
plt.hist(np.random.randn(100))
plt.show()
```

---

### 6. Нарисуйте столбчатую диаграмму по значениям [2, 5, 9].
**Ответ:**  
```python
plt.bar(['A', 'B', 'C'], [2, 5, 9])
plt.show()
```

---

### 7. Постройте круговую диаграмму по значениям [10, 20, 30, 40].
**Ответ:**  
```python
plt.pie([10, 20, 30, 40])
plt.show()
```

---

### 8. Сохраните график в файл “plot.png”.
**Ответ:**  
```python
plt.plot([1,2,3])
plt.savefig("plot.png")
```

---

### 9. Включите отображение сетки на графике.
**Ответ:**  
```python
plt.plot([1,2,3])
plt.grid(True)
plt.show()
```

---

### 10. Нарисуйте scatter plot для точек x=[1,2,3], y=[4,5,6].
**Ответ:**  
```python
plt.scatter([1,2,3], [4,5,6])
plt.show()
```

---

### 11. Измените цвет линии на красный (“red”).
**Ответ:**  
```python
plt.plot([1,2,3], color='red')
plt.show()
```

---

### 12. Нарисуйте два графика на одном поле: y1=[1,2,3], y2=[3,2,1].
**Ответ:**  
```python
plt.plot([1,2,3], label='y1')
plt.plot([3,2,1], label='y2')
plt.legend()
plt.show()
```

---

### 13. Постройте тепловую карту (heatmap) для матрицы 3x3.
**Ответ:**  
```python
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

data = np.arange(9).reshape(3,3)
sns.heatmap(data, annot=True)
plt.show()
```

---

### 14. Для DataFrame Iris постройте корреляционную тепловую карту (Seaborn).
**Ответ:**  
```python
import seaborn as sns
df = sns.load_dataset('iris')
sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')
plt.show()
```

---

### 15. Нарисуйте line plot с маркерами в виде кружков.
**Ответ:**  
```python
plt.plot([1,2,3], marker='o')
plt.show()
```

---

### 16. Используйте Seaborn для построения гистограммы по колонке “sepal_length” из Iris.
**Ответ:**  
```python
sns.histplot(df['sepal_length'])
plt.show()
```

---

### 17. Нарисуйте boxplot для данных [7,8,5,9,12,15,7,8].
**Ответ:**  
```python
plt.boxplot([7,8,5,9,12,15,7,8])
plt.show()
```

---

### 18. Постройте scatter plot с раскраской по классам 'species' из Iris.
**Ответ:**  
```python
sns.scatterplot(data=df, x='sepal_length', y='petal_length', hue='species')
plt.show()
```

---

### 19. Нарисуйте barplot из словаря {'A':3, 'B':7, 'C':4}.
**Ответ:**  
```python
sns.barplot(x=['A','B','C'], y=[3,7,4])
plt.show()
```

---

### 20. Используя Pandas, постройте график для Series s = pd.Series([1,3,2]).
**Ответ:**  
```python
import pandas as pd
s = pd.Series([1,3,2])
s.plot()
plt.show()
```

---

### 21. Для DataFrame df с 2 столбцами нарисуйте оба столбца на одном графике.
**Ответ:**  
```python
df = pd.DataFrame({'y1':[1,2,3], 'y2':[2,3,1]})
df.plot()
plt.show()
```

---

### 22. В Plotly нарисуйте интерактивный line plot для x=[1,2,3,4], y=[4,3,2,1].
**Ответ:**  
```python
import plotly.graph_objs as go
fig = go.Figure()
fig.add_trace(go.Scatter(x=[1,2,3,4], y=[4,3,2,1]))
fig.show()
```

---

### 23. Постройте интерактивную гистограмму 2000 случайных чисел с помощью Plotly Express.
**Ответ:**  
```python
import plotly.express as px
import numpy as np
fig = px.histogram(np.random.randn(2000))
fig.show()
```

---

### 24. Сделайте интерактивную тепловую карту 5x5 матрицы в Plotly.
**Ответ:**  
```python
import plotly.express as px
import numpy as np
fig = px.imshow(np.random.rand(5,5))
fig.show()
```

---

### 25. Для датафрейма Iris постройте scatter plot petal_width vs petal_length, окраска по species, с помощью Plotly Express.
**Ответ:**  
```python
import seaborn as sns
import plotly.express as px
df = sns.load_dataset('iris')
fig = px.scatter(df, x='petal_width', y='petal_length', color='species')
fig.show()
```

---

### 26. Нарисуйте два подграфика (subplots) в одной строке: гистограмма и boxplot для 100 случайных чисел.
**Ответ:**  
```python
import numpy as np
fig, axs = plt.subplots(1,2, figsize=(10,4))
data = np.random.randn(100)
axs[0].hist(data)
axs[1].boxplot(data)
plt.show()
```

---

### 27. Добавьте к scatter plot размер маркера, зависящий от значений третьего массива.
**Ответ:**  
```python
x = [1,2,3,4]
y = [2,3,4,5]
s = [10,50,100,200]
plt.scatter(x, y, s=s)
plt.show()
```

---

### 28. Создайте сгруппированную гистограмму (seaborn) по двум категориям.
**Ответ:**  
```python
import pandas as pd
df = pd.DataFrame({'cat': ['A','B','A','B'], 'val':[3,4,5,2]})
sns.histplot(data=df, x='val', hue='cat', multiple='dodge')
plt.show()
```

---

### 29. Постройте интерактивную 3D scatter plot в Plotly по трем массивам x, y, z.
**Ответ:**  
```python
import plotly.express as px
import numpy as np
x, y, z = np.random.rand(100), np.random.rand(100), np.random.rand(100)
fig = px.scatter_3d(x=x, y=y, z=z)
fig.show()
```

---

### 30. Для матрицы корреляций больших размеров (10х10), используя seaborn, подпишите оси и добавьте цветовую шкалу (colorbar).
**Ответ:**  
```python
data = np.random.rand(100, 10)
corr = np.corrcoef(data, rowvar=False)
sns.heatmap(corr, annot=True, cmap="coolwarm")
plt.xlabel("Показатель")
plt.ylabel("Показатель")
plt.title("Корреляционная тепловая карта")
plt.show()
```
