# Визуализация многомерных отношений 

## Введение

Исследование многомерных связей - важный навык для аналитика данных или ученого. Возможно, вы знакомы с одномерным (одна переменная) и двумерным (две переменные) анализами. Однако наборы данных часто содержат более двух признаков, поэтому важно уметь исследовать и визуализировать несколько переменных одновременно.

В это статье вы узнаете, как визаулизировать многомерные связи, используя:
- Диаграммы рассчеяния с визуальными подсказками
- Сгруппированные диаграммы ящиков
- Многомерные сюжеты

## Диаграммы рассеяния с визуальными подсказками

Один из способов представления многомерных отношений - использование *`визуальны подсказок`*, таких как цвета, формы и размеры, в диаграмме рассеяния. Давайте продемонстрируем пример с использованием данных Всемирной организации здравоохранения о продолжительности жизни.

Сначала загрузим данные

```python
# import libraries
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt 

# load in health data
health_data = pd.read_csv('life_expectancy_data.csv')
```

Далее давайте создадим диграмму рассеяния, используя *`seaborn`* библиотеку Python, чтобы визуализировать связь между годами образования и продолжительностью жизни

```python
# create scatter plot
sns.scatterplot(x = 'Schooling', y = 'LifeExpectancy', data = health_data)
plt.show()
```

![](./img/3_1_1.png)

Из этой диаграммы видно, что существует положительная связь между продолжительностью обучения и продолжительностью жизни.

Давайте сделаем этот анализ более интересным, добавив третью переменную в диаграмму рассеивания, используя цвет в качестве визуальной подсказки. Мы можем сделать это, передав *`hue`* аргумент

```python
# scatter plot with a visual cue
sns.scatterplot(x = 'Schooling', y = 'LifeExpectancy', hue = 'Status', palette = 'bright', data = health_data)
plt.show()
```

![](./img/3_1_2.png)

Эта многомерная визуализация обеспечивает гораздо большей информацией, чем двумерная визуализация выше. Например, мы можем видеть, что:
- Годы обучения и продолжительность жизни имеют положительную связь
- Жители развитых стран тратят больше лет на обучение, чем жители развивающихся стран
- Ожидаемая продолжительность жизни в развитых странах больше, чем ожидаемая продолжительность жизни в развивающихся странах

Хотя можно добавить больше переменных, используя дополнительные визуальные подсказки, это не всегда хорошая идея. Например, давайте попробуем добавить четвертую переменную к этой визуализации, используя формы в качестве визуальной подсказки

```python
# scatter plot with four variables
sns.scatterplot(x = 'Schooling', y = 'LifeExpectancy', hue = 'Status', style = 'Year', data = health_data)
plt.show()
```

![](./img/3_1_3.png)

Эта диаграмма перегружена информацией и ее трудно читать. Вы всегда хотите убедиться, что ваши диаграммы читабельны и просты для интерпретации. Как правило, все, что превышает три переменных в диаграмме рассеяния, вероятно, слишком много для восприятия человеческим глазом.

## Сгруппированные диаграммы ящиков

Сгруппированные диаграммы ящиков можно использовать для визуализации двуз категориальных переменных и количественной переменной. Расположение диаграмм ящиком рядом может помочь вам получить полезные сведения.

Например, давайте взглянем на данные опроса разработчиков Stuck Overflow, чтобы узнать больше о том, как зарплата связана с уровнем образования и полом.

Сначала загрузим данные:

```python
# load in salary data
salary_data = pd.read_csv('survey_data.csv')
```

Далее давайте построим диаграмму, чтобы показать связь между образованием и компенсацией

```python
# box plot showing relationship between education and compenstation
sns.boxplot(x = "Education", y = "CompTotal", palette = "pastel", data = salary_data)
plt.show()
```

![](./img/3_1_4.png)

Эта диаграмма показывает нам связь между образованием и компенсацией, но давайте сделаем шаг вперед и посмотрим, получают ли мужчины и женщины одинаковую зарплату. Мы можем использовать аргумент *`hue`* для группировки по полу

```python
# side-by-side box plots grouped by gender
sns.boxplot(x = "Education", y = "CompTotal", hue = "Gender", palette = "pastel", data = salary_data)
plt.show()
```

![](./img/3_1_5.png)

Эта сгруппированная диаграмма позволяет нам сранивать заработные платы мужчин и женщин с одинаковым уровнем образования.

Мы видим, что среди взрослых в группах *`Less than bachelor's`*, *`Bachelor's Education`* и *`Master's`* мужчины, как правило, получают более высокую медианную зарплату, чем женщины с тем же уровнем обраования; однако эта закономерность обратная для мужчин и женщин с *`Professional`* дипломами.

## Многомерные сюжеты

Другой способ представления многомерных отношений - использование многомерных графиков. Например, если мы хоти представить три переменные в наборе данных, мы можем создать трехмерный график рассеяния.

Мы воспользуемся библиотекой построения графиков Python *`Plotly`* для загрузки набора данных и создания интерактивного трехмерного графика.

Давайте загрузим набор данных по ирисам и визуализируем связь между *`sepal_length`*, *`sepal_width`* и *`petal_width`* для трех различных видов ирисов

```python
# import library
import plotly.express as px

# load in iris data
df = px.data.iris()

# create 3D scatter plot
fig = px.scatter_3d(df, x='sepal_length', y='sepal_width', z='petal_width', color='species')
fig.show()
```

Этот код выводит трехмерную диаграмму рассеяния, которая выглядит следующим образом

![](https://static-assets.codecademy.com/Courses/EDA/Multivariate/3Dplot.gif)

Обратите внимание, что теперь вместо двух осей три, что позволяет вам видеть данные в номо измерении.

3D-графики позволяют вам видеть связи, которые могуть быть не видны в 2D, например, кластеры. Интерактивные библиотеки графиков, такие как *`Plotly`* позволяют вращать график, чтобы видеть точки с разных углов и увеличивать масштаб определенных интересующих областей.

Недостатком 3D-графиков является то, что их может быть трудно читать в двух измерениях. Это означает, что если вам нужно написать бумажный отчет, 3D-график может быть не лучшей идеей.

# Обзор

Наборы данных часто содержат много признаков, которые мы можем использовать в модели для прогнозирования или проведения анализа. Поэтому важно иметь возможность понимать и визуализировать несколько взаимосвязей одновременно.

В этой статье вы узнали, как представлять многомерные данные с помощью:
- Диаграммы рассеяния с визуальными подсказками
- Сгруппированные диаграммы ящиков
- Многомерные сюжеты

Теперь вы лучше подготовлены к создаию более содержательных визуализаций и мыслите не только простыми одномерными и двумерными терминами.

В то же время важно осознавать, что добавление слишком большого кол-ва информации к одной визуализации затрудняет понимание взаимосвязей, поэтому существует предел тому, что мы можем исследовать одновременно.