# Лучшие практики для визуализации данных

## Введение

Как специалист по данным, неотъемлемой частью вашей роли является эффективное представление и сообщение ваших результатов как вашим коллегам, так и ключевым заинтересованным сторонам. Хотя некоторые заинтересованные стороны могут хорошо разбираться в новейших методах машинного обучения, большинство их них находятся вне сферы науки о данных. Во почему четка *`визуализация`* данных имеет важное значение для эффективного рассказа истории ваших данных.

При создании визуальных материалов важно помнить о своей исследовательском вопросе. В целом вам анализ должен рассказывать полную историю данных, а визуальные материалы должны помогать этому процессу. Подобно детским историям, изображения могут расскахать читателю огромное кол-во информации в небольшом объеме пространства. Аналогично, визуальные материалы, которые вы создаете, должны рассказывать читателю информацию, которую передаю данные.

## Что следует учитывать

В целом ваши визуальные элементы должны включать четко обозначенные оси, которые расположены равномерно. Легенды и цвета должны использоваться при постороении графиков данных по нескольким группам. Давайте разберемсяв этом.

## Цвет

При выборе цветом лучше избегать дополнительных цветов, таких как красный и зеленый. Такие сочетания не оставляют заметной разницы между оттенками для читателей, страдающих дальтонизмом. В библиотеках визуализации Python есть встроенные цветовые палитры, которые могут немного облегчить выбор используемой цветовой схемы.

## Гистограммы

Мы можем использовать столбчатые диаграммы, чтобы помочь читателю лучше понять и визуализировать относительные различия между группами. В примре ниже мы рассмотим гипотетиченские данные о влиятельной ценности различных типов медиа среди миллениалов и представителей поколения X.

Мы видим, что телевидение имеет наибольшую влиятельную ценность как для миллениалов, так и для поколения X, театральные СМИ оказывают большее влияние на миллениалов, чем на поколение Х, а печатные СМИ предпочитают представители поколения Х, чем миллениалы.

![](./img/3_4_1.png)

Если бы мы хотели использовать столбчатые диагрммы для просмотра средних значений по группам, мы могли бы добавить планки погрешностей, которые включают как верхние, так и нижние пределы. Однако средние значения по граппам могли бы быть лучше представлены с помощью диаграммы рассеяния с планками погрешностей, поскольку столбчатые диаграммы отображают агрегированную информаци. а не одно число.

## Линейные диаграммы

Линейные диаграммы полезны, когда ось Х отражает кол-ую переменную, например время. Они подчеркивают скорость изменения. Некоторые примеры линейных диаграмм - преступления, которые происходят в течении дня, ищменения стоимости доллара по годам и продажи конфет в течение года.

## Ось Y

Всегда важно помнить, что показывают данные, и переводить это в визуализацию. При работе с гистограммами и линейными диаграммами следует учитывать, включаем ли мы или исключаем ноль на оси Y. В примере ниже показаны две диаграммы данных, которые рассматривают набор на первый курс юридических школ с 1974 по 2013 года. График слева показывает, что более чем 30-летний прирост набора на первый курс юридических школ был устранен в течение года. График справа показывает теже данные, масштабированные по-другому, чтобы включить 0 на оси Y. Хотя вы можете видеть падение набора на юридический факультет и изменения в наборе на протяжении многих лет, информация не столь очевидна или поразительна. Вот почему контекст имеет значение, и данные должны быть направляющей силой в вашем процессе визуалиазции.

![](./img/3_4_2.png)

## Чего следует избегать

Хотя визуальные эффекты могут быть полезны для перевод ваших данных, не все визуальные эффекты информативны. Плохой дизайн может сбить с толку или дезинформировать читателя, а не напрять его по истории ваших данных. Вот некоторые распространенные типы диагрмм, которых следует избегать
- Круговые диаграммы
- Сложенные столбчатые диаграммы
- Диаграммы с накоплением областей

## Круговые диаграммы

Круговые диаграммы столкиваются с несколькими распространенными ошибками, такими как использование слишком большого кол-ва категорий, отсутствие порядка или то, что каждая часть круга не составляет в сумме 100%. Читатели вынуждены сравнивать площади или углы, а не относительные величины, как это было бы с гистограммами. В примре ниже мы не можем уверенно расположить части круга на основе величины. Мы видим, что крупнейшей партией Европейского парламента является EPP, но можем ли мы выделить самую маленькую партию ?

![](./img/3_4_3.png)

Это становится еще хуже, когда это делается в виде трехмерной кругой диаграммы. Когда круговые диаграммы делаются трехмерными это искажает то, какую площадь занимает категория, или в данном случае партия Европейского парламента. Это может ввести читателя в заблюждение, заставив его думать, что данные говорят нам что-то, чем они не являются.

![](./img/3_4_4.png)

## Сложенные столбчатые диаграммы

Хотя составные столбчатые диаграммы пытаются объединить информацию из разных групп в одну диаграмму, они затрудняют сравнение категорий между группами. Это изображение содержит информацию о гипотетических продажах книг по жанрам за три десятилетия. Тредно определить явные различия в продажах по жанрам, которые не являются фэнтези и научной фантастикой

![](./img/3_4_5.png)

Используя те же данные, мы могли бы вместо этого рассмотреть изменения в продажх книг за каждое десятилетие по жанрам. На линейной диаграмме ниже мы видим рост продаж книг каждое десятилетие для жанров фэнтези и научной фантастики, детектива и литературы и снижение продаж кадое десятилетие для жанров романтики и вестерна. Хотя в жанре "Общий" наблюдалось снижение продаж с 2010 по 2020 года, он по-прежнему превосходит все жанры с точки зрения продаж книг

![](./img/3_4_6.png)

## Диаграммы с накопление областей

Подобно штабелированным столбчатым диаграммам, штабелированные диаграммы областей также могут быть запутанными для интерпретации. В этом примере (каир, 2016), штабелированная диаграмма областей слева показывает вклад в мировой ВВП Азии, Африки, Америки и Европыс течением времени. Мы видим, что Азия в 1700 году внесла более 50% в мировой ВВП по сравнению с Европой, которая внесла чуть более 25%. Однако в 2012 году мы не можем четко увидетьЮ больше или меньше вклада Европы в мировой ВВП, чем Америки. Штабельная диаграмма областей не передает четко прирост ВВП в Азии или относительную стагнацию долей мирового ВВП в Африке. Вместо этого на диаграмме справа мы можем видеть относительные размеры ВВП для всех регионов и то, как они изменились с течением времени.

![](./img/3_4_7.png)

## Визуализация на Python

Большинство пользователей Python используют две основные библиотеки для построения графиков: *`Matplotlib`* и *`seaborn`*. Обе библиотеки могут создавать красивые визуальные эффекты - *`Matplotlib`* универсальна и настраиваема, тогда как *`seaborn`* построена на основе *`Matplotlib`*, и ее функции немного более удобны для пользователя. Давайте рассмотрим пример с использованием обеиз этих библиотек!

В 1973 году Калифорнийский университет в Беркли был привлечен к ответственности за гендерную дискриминацию при приеме в аспирантуру. Мы рассмотрим аргументы истца и ответчика с помощью *`Matplotlib`* и *`seaborn`*. Истец утверждал, что Калифорнийский университет в Беркли дискриминировал женщин при приеме в аспирантуру, поскольку мужчины принимались в 44% случаев по сравнению с 30% для женщин. Однако, когда мы смотрим на данные и фокусироуемся на показателях приема по факультетам, это уже не так. Мы видим, что на четырех из шести факультетов женщин имеют более высокий показатель приема, чем мужчины. Примечание: конкретные факультеты неизвесты, поэтому мы будем использовать общие обозначения AF

![](./img/3_4_8.png)

Мы можем лучше увидеть это визуально, используя столбчатые диаграммы. 

Теперь, когда мы рассмотрели многие аспекты визуализации данных и то, как реализовать ее в Python, у вас есть навыки создания красивых графиков. Вам нужно принять много решений при выборе и оптимизации вашего визуального представления, но если вы будете помнить о данных, визуализация данных может стать убедительным способом рассказать историю ваших данных.