# 1. Введение
✍ До этого мы с вами много работали с таблицами и старались извлечь из них полезную информацию, чтобы сделать важные для нас выводы о данных, найти тенденции и оценить, как переменные связаны друг с другом.

Возникает вопрос: а что делать, если данных слишком много и взаимосвязи уже не так просто отследить, просто рассматривая ячейки таблицы? Как представить свои выводы и обосновать их коллегам? Как сделать работу по анализу данных проще и эффективнее?

Ответом на эти и многие другие вопросы является визуализация данных. Именно о ней мы и поговорим в этом модуле.

Цели данного модуля:
- Познакомиться с различными способами графического представления данных.
- Освоить основные методы визуализации библиотек Matplotlib и Pandas.
- Научиться настраивать диаграммы в Matplotlib для повышения их информативности.
- Освоить основные методы визуализации библиотеки Seaborn.
- Освоить базовые методы интерактивной визуализации и анимации библиотеки Plotly.
- Научиться выбирать правильные методы визуализации для конкретных задач.

## ЗАЧЕМ НУЖНА ВИЗУАЛИЗАЦИЯ?

Лучший способ отобразить информацию и донести её до других — использовать визуальные методы: графики, диаграммы, тепловые карты и другие приёмы визуализации данных.

Но в чём преимущество такого варианта представления информации? Не проще ли вставить в годовой отчёт о продажах компании большую таблицу, в которой и можно найти все показатели?

Приведём главные причины использования визуализации:
1. Визуальное восприятие физиологически является для человека основным.

По данным учёных (причём не только британских!), с помощью зрения человек получает около 80 % информации.

Что касается процессов запоминания, то из услышанного человек запоминает в среднем 10 %, из прочитанного — 20 %, а из увиденного — 80 %.

Пример

В школьном курсе геометрии часто даётся определение параллелепипеда.

Параллелепипед — многогранник с шестью гранями, каждая из которых является параллелограммом.

Согласитесь, что определение запоминается гораздо лучше, если мы видим и саму фигуру:

![](./img/dst3-u1-md13_1_1.png)

2. Доказано, что скорость восприятия увеличивается в 60 000 раз, если информация представлена в виде диаграмм.

Пример

Попробуйте определить, в каких ячейках таблицы ниже наблюдается максимум, а в каких — минимум. А после посмотрите на диаграмму и сделайте то же самое. В каком случае вам было проще?
![](./img/dst3-u1-md13_1_2.png)

3. Акцентирование внимания на важных деталях.

Выделив цветом главные показатели, вы легко сможете обратить на них внимание окружающих.

Пример

На приведённой ниже диаграмме без слов понятно, какой показатель нас интересует.

![](./img/dst3-u1-md13_1_3.png)

4. Такой способ представления информации не только делает ваш отчёт о проделанной работе эстетически привлекательным, но и помогает сделать результаты анализа понятными, интерпретируемыми, убедительными и удобными для восприятия вашими коллегами.

Пример

Предположим, вы построили модель, которая прогнозирует среднемесячную зарплату в России, и хотите убедить коллег в том, что ваша модель отлично справляется с поставленной задачей. Можете показать им вот такой график, который отражает разницу между истинным значением ЗП и значением, спрогнозированным вами:

![](./img/dst3-u1-md13_1_4.png)

5. Наконец, главное для нас с вами — это то, что визуализация помогает исследователю упростить анализ большого объёма данных со сложной структурой.

Визуализация является одним из основных инструментов разведывательного анализа данных — EDA (Exploratory Data Analysis) — который в больших проектах всегда предшествует построению моделей.

Благодаря графикам становится легче отслеживать взаимосвязи между переменными, проверять гипотезы, находить аномалии в данных, делать важные для бизнеса выводы и строить хорошие модели.

Пример

Перед вами тепловая карта, построенная на гигантском спутниковом снимке, сделанном в окрестностях Сиднея (Австралия). Эта карта отображает индекс вегетации растений и помогает находить участки с наиболее плодородными районами (чем ближе точка к синему цвету, тем плодороднее этот участок).

В рамках задач аграрного спутникового мониторинга, когда данные слишком большие (ширина и высота изображений примерно равна 7 000 пикселей) и сложные, визуализация является одним из главных способов поиска взаимосвязей и формулирования выводов. Например, можно увидеть, что самые плодородные участки находятся около водоёмов и рек.

![](./img/dst3-u1-md13_1_5.png)

✍ Ну как, уже интересно? ;) Хотите научиться представлять свои суждения в ещё более понятном и убедительном виде? Тогда этот модуль точно для вас!

### Задание 1.1
Выберите основные причины использования визуализации:
- A Увеличение скорости восприятия данных
- B Облегчение выявления зависимостей в данных 
- C Увеличение скорости работы алгоритмов
- D Создание благоприятного психологического климата в коллективе
- E Повышение убедительности суждений и выводов

верно

Ответ

Верно:
- A Визуальное представление информации увеличивает скорость восприятия данных.
- B Визуальное представление информации облегчает выявление зависимостей в данных.
- E Визуальное представление информации делает суждения и выводы более убедительными.

### Задание 1.2
С какими из перечисленных ниже задач вам могла бы помочь визуализация?
Отметьте все подходящие варианты ответов.
- A Выявление зависимостей в данных
- B Группировка и создание сводных таблиц
- C Выгрузка данных из базы
- D Составление ежемесячного отчёта об активности пользователей на вашем сайте
- E Оценка качества прогнозирования акций косметической компании

верно

Ответ

Верно:
- A Верно.
- D Верно.
- E Верно.

### Задание 1.3

Какие библиотеки в Python позволяют визуализировать данные?

Отметьте все подходящие варианты ответов.
- A NumPy
- B Matplotlib
- C re
- D Plotly

верно

Ответ

Верно:
- B Верно.
- D Верно.