**<h1>Доклад по библиотеке Vega-ALtair в Python**

Визуализация данных в Python - это крутой инструмент для того, чтобы разобраться в больших объёмах информации. Она помогает показать данные в ясном и понятном виде, что упрощает процесс принятия решений и позволяет заметить тенденции. Более того, визуализация данных помогает находить связи между разными переменными, что может быть полезно при поиске новых возможностей и улучшении процессов. В общем, это важный компонент в анализе данных, который помогает делать выводы на основе фактов, а не только на основе интуиции. Сегодня я расскажу о такой прекрасной Python библиотеке визуализации данных, как Altair.

<img src = "c.jpg" style = "width:600px; height: 480px">

**<h2>Введение: что такое Vega-Altair?**

Altair — это декларативная библиотека визуализации данных, разработанная на основе языка Vega и Vega-Lite. Она предоставляет высокоуровневый интерфейс для создания красочных, информативных, а главное, интерактивных графиков с минимальными усилиями. Основная философия Altair заключается в том, что пользователи должны описывать, ***что*** они хотят увидеть на графике, а не ***как*** это реализовать (по сути это и есть определение слова "декларативный", если вам интересно:)). Такой подход делает код более читаемым и интуитивно понятным, благодаря нему можно создать удивительный спектр сюжетов, от простых до сложных, используя лаконичную грамматику. Библиотека названа в честь самой яркой звезды в созвездии Орла. С неба Земли Альтаир кажется близким к Веге, звезде, от которой проект и получил своё название. Библиотека разработана Брайаном Грейнджером (Brian Granger) и Джейком Вандерпласом (Jake Vanderplas). Брайан является основным разработчиком проекта IPython и очень активен в научном сообществе Python. Джейк также активен в научном сообществе питонистов и написал прекрасную книгу "Python Data Science Handbook". Оба этих человека чрезвычайно опытны и хорошо осведомлены о Python и различных инструментах в его научной экосистеме. Так что было бы интересно посмотреть на их разработку, не правда ли? Давайте же сделаем это!

<img src = "a.png" style = "width:700px; height: 500px">

**<h2>Основные возможности: что умеет Vega-Altair?**
    
***1.Декларативный подход:*** Vega-Altair использует декларативный подход для создания визуализаций. Это означает, что нам не приходится задавать каждую деталь отдельно, стоит лишь описать, какие данные мы хотим визуализировать и какие атрибуты использовать, и Altair самостоятельно создаст нужный график. Декларативный синтаксис существенно упрощает процесс создания графиков и снижает вероятность ошибок в коде.

***2.Компактный и читаемый код:*** код у Altair обычно более компактный и читаемый, чем код для создания графиков в других библиотеках. Это делает его отличным выбором для тех, кто стремится к ясности и понятности кода.

***3.Интеграция с Pandas:*** Altair прекрасно интегрируется с другими популярными библиотеками для анализа данных в Python, например с Pandas. Поэтому мы можем использовать свои уже существующие знания, навыки работы с данными и знакомые инструменты в сочетании с мощными средствами визуализации Altair, что позволит нам (как ни странно) легко визуализировать и анализировать данные.

***4.Интерактивность:*** у Vega-Altair есть куча инструментов, которые обеспечивают возможность создания интерактивных графиков. То есть пользователи могут взаимодействовать с данными: выбирать элементы на графике, масштабировать части графика, создавать всплывающие подсказки, перемещать графики, а также добавлять инструменты для фильтрации данных в реальном времени. При создании дашбордов и интерактивных отчетов такое однозначно может пригодиться.

***5.Красивые и информативные графики:*** Altair уделяет большое внимание деталям и возможностям кастомизации графиков. Мы можем легко настраивать цвета, шрифты, размеры и стили, чтобы создать визуализации, которые соответствуют нашим требованиям.

***6.Интеграция с различными типами данных:*** Vega-Altair обрабатывает различные типы данных, такие как числа, строки, временные метки и категориальные данные, обеспечивая гибкость при создании разнообразных графиков.

***7.Агрегирование и анализ данных:*** с помощью Vega-Altair мы можем выполнять агрегирование данных, строить сложные графики с группировкой, фильтрацией и сортировкой данных для более глубокого анализа.

***8.Поддержка разных форматов данных:*** Altair позволяет работать с данными в разных форматах, включая CSV, Excel, JSON и даже базы данных. Это делает библиотеку мощным инструментом для анализа данных, не зависящим от источника данных.

***9.Открытость и активное сообщество:*** Altair — это open-source проект с активным сообществом разработчиков и пользователей. Это значит, что мы можем рассчитывать на поддержку и регулярные обновления.

**<h2>Знакомство с синтаксисом и примеры использования**
Что ж, давайте перейдём к делу. С чего мы начнём? Конечно же, с установки библиотеки:

In [3]:
pip install altair

Note: you may need to restart the kernel to use updated packages.


Как мы уже выяснили, Altair интегрируется с другими библиотеками, поэтому проверим, что у нас установлены Pandas и Numpy:

In [6]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


In [7]:
pip install numpy

Note: you may need to restart the kernel to use updated packages.


В Altair создание графика начинается с создания объекта класса Chart(). Этот объект представляет собой пустой холст, на котором мы будем рисовать нашу визуализацию. Вот как это делается:

In [9]:
# Создаём объект Chart

chart = alt.Chart()

Для того чтобы добавить данные на наш график, мы можем использовать метод .data(). Предположим, у нас есть набор данных в формате Pandas DataFrame:

In [23]:
import altair as alt

import pandas as pd

# Создаём DataFrame с данными

data = pd.DataFrame({'x': [1, 2, 4, 5, 6], 'y': [5, 2, 3, 7, 6]})

# Создаём объект Chart и указываем данные

chart = alt.Chart(data)

**<h4>Метки**
У Altair есть различные методы для выбора типа графика. Например, .mark_point() создает точечный график, а .mark_line() — линейный график. Всего доступно множество методов .mark_*(), каждый из которых создаёт разный тип графика. Вот некоторые из наиболее распространенных:

1.mark_point()

2.mark_circle()

3.mark_square()

4.mark_line()

5.mark_area()

6.mark_bar()

7.mark_tick()

**<h4>Кодировки**Altair предоставляет множество методов для описания данных и кодирования переменных на графике. Следующим шагом является добавление к диаграмме каналов визуального кодирования (или, для краткости, кодирования). Канал кодирования определяет, как данный столбец должен отображаться на визуальных свойствах визуализации. Некоторые из наиболее часто используемых визуальных кодировок:

1.x: значение оси x

2.y: значение оси y

3.color: цвет метки

4.opacity: прозрачность/непрозрачность метки

5.shape: форма метки

6.size: размер метки

7.row: строка в сетке фасетных графиков

8.column: столбец в сетке фасетных графиков

Визуальные кодировки могут быть созданы с помощью метода encode() объекта Chart.

**<h4>Типы кодирования**
Одна из центральных идей Altair заключается в том, что библиотека выбирает подходящие значения по умолчанию для нашего типа данных. Основные типы данных, поддерживаемые Altair, следующие:

<img src = "d.png" style = "width:450px; height: 250px">

Когда вы указываете данные в виде фрейма данных pandas, эти типы автоматически определяются Altair. Когда вы указываете данные как URL, вы должны вручную указать типы данных для каждого из столбцов.

**<h3>Точечные графики**

Начнём ***с точечных графиков***, или ***диаграмм рассеяния***. Диаграммы рассеяния полезны для выявления корреляций и взаимосвязей между двумя переменными. Диаграмма рассеяния отображает точки данных на плоскости, где по оси X — переменная 'x', а по оси Y — переменная 'y'. Это позволяет нам визуально оценить взаимосвязь между этими двумя переменными:

In [24]:
import altair as alt

import pandas as pd

# Создаем DataFrame с данными

data = pd.DataFrame({'x': [1, 2, 4, 5, 6], 'y': [5, 2, 3, 7, 6]})

# Создаем объект Chart и указываем данные

chart = alt.Chart(data)

# Описываем тип графика и кодируем данные

chart.mark_point().encode(x='x', y='y')

Добавим интерактивности нашему графику с помощью метода .interactive(). Он используется, чтобы включить различные интерактивные элементы, такие как всплывающие подсказки, масштабирование и перемещение графика.
Давайте добавим на график всплывающие подсказки:

In [25]:
import altair as alt

import pandas as pd

# Создаем DataFrame с данными

data = pd.DataFrame({'x': [1, 2, 4, 5, 6], 'y': [5, 2, 3, 7, 6], 'label': ['A', 'B', 'C', 'D', 'E']})

# Создаем объект Chart и указываем данные

chart = alt.Chart(data)

# Описываем тип графика (точечный) и кодируем данные

chart.mark_point().encode(

    x='x',

    y='y',

    tooltip='label'  # Добавляем всплывающие подсказки с метками

).interactive()  # Включаем интерактивность

Ура! Теперь мы можем взаимодействовать с графиком, масштабируя его, нажимая и перетаскивая, а также наводя курсор на его точки. В этом примере мы использовали tooltip='label', чтобы отобразить метки на точках графика.

Altair предоставляет множество возможностей для настройки внешнего вида графиков, включая изменение цветов, ширины линий, добавление подписей и многое другое. Мы можем использовать методы .configure_*(), чтобы настроить внешний вид нашего графика.

In [45]:
import altair as alt
import pandas as pd

# Создаем DataFrame с данными
data = pd.DataFrame({'x': [1, 2, 4, 5, 6], 'y': [5, 2, 3, 7, 6]})

# Создаем объект Chart и указываем данные
chart = alt.Chart(data)

# Описываем тип графика (точечный) и кодируем данные
chart.mark_point().encode(
    x='x',
    y='y'
).configure_mark(
    color='red',  # Изменяем цвет точек
    size=100  # Изменяем размер точек
).configure_axis(
    labelFontSize=14,  # Изменяем размер шрифта на осях
    titleFontSize=16  # Изменяем размер шрифта заголовка
).interactive()

Давайте рассмотрим несколько более сложных примерчиков на точечные графики. Воспользуемся пакетом vega_datasets, чтобы загрузить набор данных:

In [7]:
pip install vega_datasets

Collecting vega_datasets
  Downloading vega_datasets-0.9.0-py3-none-any.whl (210 kB)
     -------------------------------------- 210.8/210.8 kB 1.6 MB/s eta 0:00:00
Installing collected packages: vega_datasets
Successfully installed vega_datasets-0.9.0
Note: you may need to restart the kernel to use updated packages.


In [8]:
from vega_datasets import data

cars = data.cars()
cars.head()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


Закодируем мили на галлон (miles per gallon) по оси x, а Horsepower (мощность в лошадиных силах) по оси y с помощью метода encode() и включим интерактивность:

In [10]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower'
).interactive()

Двухмерный график (2D plot) позволяет кодировать два измерения данных. Давайте посмотрим, как использовать цвет (color) для кодирования третьего измерения (Origin):

In [12]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Origin'
).interactive()

Обратите внимание, что когда мы используем категориальное значение (categorical value) для цвета, Altair выбирает соответствующую цветовую карту для категориальных данных. Посмотрим, что происходит, когда мы используем непрерывное значение цвета (Acceleration):

In [14]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Acceleration'
).interactive()

Непрерывный цвет формирует цветовую шкалу, подходящую для непрерывных данных. А как насчет промежуточного случая: упорядоченные категории, например количество цилиндров (Cylinders)?

In [16]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Cylinders'
)

Altair по-прежнему выбирает непрерывное значение, потому что количество цилиндров числовое. Можем улучшить это, указав, что данные следует рассматривать как дискретное упорядоченное значение, добавив ":O" ("O" для "порядковых" или "упорядоченных категорий") после кодирования (encoding):

In [17]:
alt.Chart(cars).mark_point().encode(
    x='Miles_per_Gallon',
    y='Horsepower',
    color='Cylinders:O'
)

**<h3>Одномерные диаграммы**

Если мы хотим ***одномерную*** диаграмму, можем задать tick маркировку:

In [21]:
alt.Chart(cars).mark_tick().encode(
    x='Miles_per_Gallon'
).interactive()

**<h3>Линейные графики**

Теперь поработаем ***с линейными графиками***. Для этого мы используем метод .mark_line(), чтобы указать тип графика, и метод .encode(), чтобы описать данные (как и в случае с точечным графиком):

In [22]:
import altair as alt
import pandas as pd

# Создаем DataFrame с данными
data = pd.DataFrame({
    'year': [2010, 2011, 2012, 2013, 2014],
    'value': [10, 15, 13, 17, 20]
})

# Создаем объект Chart и указываем данные
chart = alt.Chart(data)

# Описываем тип графика (линейный) и кодируем данные
chart.mark_line().encode(
    x='year',
    y='value'
).interactive()

В этом примере переменная 'year' кодируется по оси X, а переменная value — по оси Y. Altair автоматически определит тип переменных (категориальная или количественная) и настроит график соответственно.

Вспомним, что мы знакомы с таким понятием, как ***агрегация***. Агрегация данных — это процесс вычисления сумм, средних значений, максимумов и других статистических показателей на основе группировки данных. Это позволяет получить общее представление о данных и выявить основные характеристики. Библиотека Altair обеспечивает удобный способ использования функций агрегации в нашем анализе данных и визуализации. Мы можем применять функции агрегации к данным, используя выражения в методе .encode() нашего объекта Chart.
Наиболее часто используемые функции агрегации:

1.**count()**: Вычисляет количество наблюдений в группе.

2.**sum()**: Вычисляет сумму значений в группе.

3.**mean()**: Вычисляет среднее значение в группе.

4.**median()**: Вычисляет медиану (среднее значение в середине) в группе.

5.**max()**: Находит максимальное значение в группе.

6.**min()**: Находит минимальное значение в группе.

Давайте взглянем на временной тренд, например, миль на галлон (воспользуемся столбцом date из нашего датасета):

In [23]:
alt.Chart(cars).mark_point().encode(
    x='Year',
    y='Miles_per_Gallon'
)

Тут мы использовали точечный график. Ежегодно есть несколько автомобилей, и данные во многом совпадают. Можем немного очистить их, построив среднее для каждого значения x, используя уже линейный график:

In [24]:
alt.Chart(cars).mark_line().encode(
    x='Year',
    y='mean(Miles_per_Gallon)',
)

Теперь можем изменить метку на area (площадь) и использовать метки ci0 и ci1 для построения доверительного интервала оценки среднего:

In [25]:
alt.Chart(cars).mark_area().encode(
    x='Year',
    y='ci0(Miles_per_Gallon)',
    y2='ci1(Miles_per_Gallon)'
)

Сделаем наш график более симпатичным: добавим непрозрачности (opacity), цвета по стране происхождения (Origin), увеличим ширину и добавим более понятный заголовок оси:

In [26]:
alt.Chart(cars).mark_area(opacity=0.3).encode(
    x=alt.X('Year', timeUnit='year'),
    y=alt.Y('ci0(Miles_per_Gallon)', axis=alt.Axis(title='Miles per Gallon')),
    y2='ci1(Miles_per_Gallon)',
    color='Origin'
).properties(
    width=800
)

Наконец, мы можем использовать API слоев Altair для наложения линейной диаграммы, представляющей среднее значение, поверх диаграммы с областями, представляющей доверительный интервал:

In [27]:
spread = alt.Chart(cars).mark_area(opacity=0.3).encode(
    x=alt.X('Year', timeUnit='year'),
    y=alt.Y('ci0(Miles_per_Gallon)', axis=alt.Axis(title='Miles per Gallon')),
    y2='ci1(Miles_per_Gallon)',
    color='Origin'
).properties(
    width=800
)

lines = alt.Chart(cars).mark_line().encode(
    x=alt.X('Year', timeUnit='year'),
    y='mean(Miles_per_Gallon)',
    color='Origin'
).properties(
    width=800
)

spread + lines

**<h3>Гистограммы**
Теперь перейдём к созданию ***гистограмм***. Для создания гистограмм в Altair используется метод .mark_bar(). Гистограммы отображают распределение данных по категориям. Стоит отметить, что во многих библиотеках гистограммы создаются с помощью специального метода hist(), в то время как в Altair объединение данных x (binning) и агрегация является частью декларативного API.

In [28]:
import altair as alt
import pandas as pd

# Создаем DataFrame с данными
data = pd.DataFrame({'value': [4, 5, 2, 7, 6, 8, 3, 5, 7, 4, 6, 5, 6, 7, 3, 4, 5, 6, 8, 9]})

# Создаем объект Chart и указываем данные
chart = alt.Chart(data)

# Описываем тип графика (гистограмма) и кодируем данные
chart.mark_bar().encode(
    alt.X('value:Q', bin=True),  # bin=True указывает, что данные следует разделить на интервалы
    alt.Y('count():Q')
)

В этом коде данные разбиваются на интервалы (столбцы). Высота каждого столбца показывает количество данных, попавших в данный интервал.

Если нам нужен больший контроль над ячейками (bins), мы можем использовать alt.Bin для настройки параметров ячейки:

In [38]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=30)),
    y='count()'
)

Если мы применим другое кодирование (например, color), данные будут автоматически сгруппированы в каждой ячейке:

In [39]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=30)),
    y='count()',
    color='Origin'
)

Если мы хотим отдельный график для каждой категории, то может помочь кодирование column:

In [40]:
alt.Chart(cars).mark_bar().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=30)),
    y='count()',
    color='Origin',
    column='Origin'
)

Биннинг и агрегация также работают в двух измерениях; мы можем использовать rect маркер и визуализировать количество (count) с помощью цвета (color):

In [41]:
alt.Chart(cars).mark_rect().encode(
    x=alt.X('Miles_per_Gallon', bin=True),
    y=alt.Y('Horsepower', bin=True),
    color='count()'
)

Агрегации могут быть не просто количеством (counts). Мы также можем агрегировать и вычислять среднее (mean) значение третьего измерения в каждой ячейке:

In [42]:
alt.Chart(cars).mark_rect().encode(
    x=alt.X('Miles_per_Gallon', bin=True),
    y=alt.Y('Horsepower', bin=True),
    color='mean(Weight_in_lbs)'
)

Посмотрели на использование функций агрегации mean() и count(), теперь давайте применим функцию sum(). Предположим, у нас есть набор данных о продажах разных продуктов в разных регионах за несколько лет. Мы хотим сравнить общий объем продаж для каждого продукта и региона. Для этого мы можем использовать группировку данных и создать график, который позволяет сравнивать продукты и регионы:

In [46]:
import altair as alt
import pandas as pd

# Создаем DataFrame с данными
data = pd.DataFrame({
    'Product': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Region': ['X', 'X', 'Y', 'Y', 'Z', 'Z'],
    'Sales': [100, 150, 120, 80, 200, 180]
})

# Создаем объект Chart и указываем данные
chart = alt.Chart(data)

# Группируем данные по продукту и региону, агрегируя сумму продаж
grouped_chart = chart.mark_bar().encode(
    x='Product:N',
    y='sum(Sales):Q',
    color='Region:N'
)

grouped_chart

В этом примере мы видим график, на котором по оси X отображаются продукты, по оси Y — суммарные продажи, а цветом обозначены разные регионы. Использовали функцию агрегации sum(Sales), чтобы вычислить общую сумму продаж для каждой категории (продукта) в каждом регионе. График позволяет сравнивать продажи продуктов A и B в разных регионах.

**<h3>Дашборды**
Наконец, мы дошли до создания такой мощной штуки, как дашборд. Он позволит нам исследовать и сравнивать продажи в разных категориях и регионах.

In [49]:
import altair as alt
import pandas as pd
import panel as pn

# Создаем DataFrame с данными о продажах
data = pd.DataFrame({
    'Category': ['Electronics', 'Books', 'Clothing', 'Electronics', 'Books', 'Clothing'],
    'Region': ['North', 'North', 'North', 'South', 'South', 'South'],
    'Sales': [1000, 800, 1200, 600, 750, 900]
})

# Создаем функцию для создания интерактивных графиков
def create_chart(category=None, region=None):
    filtered_data = data
    if category:
        filtered_data = filtered_data[filtered_data['Category'] == category]
    if region:
        filtered_data = filtered_data[filtered_data['Region'] == region]

    chart = alt.Chart(filtered_data).mark_bar().encode(
        x='Category',
        y='sum(Sales)',
        color='Region',
    ).properties(
        title=f'Sales by Category and Region'
    )
    return chart

# Создаем выпадающие списки для выбора категории и региона
categories = ['Electronics', 'Books', 'Clothing']
regions = ['North', 'South']

category_selector = pn.widgets.Select(name='Select Category', options=categories)
region_selector = pn.widgets.Select(name='Select Region', options=regions)

# Создаем интерактивный дашборд
@pn.depends(category_selector.param.value, region_selector.param.value)
def update_dashboard(category, region):
    chart = create_chart(category, region)
    return chart

# Создаем панель дашборда
dashboard = pn.Column(
    category_selector,
    region_selector,
    update_dashboard
)

# Запускаем дашборд
pn.extension('vega')
dashboard.servable()

Что делает этот код:

1.Мы создаем набор данных о продажах в разных категориях и регионах и сохраняем его в DataFrame.

2.Затем мы создаем функцию create_chart(), которая принимает параметры category и region и создает интерактивный график, отображающий продажи по выбранным категориям и регионам.

3.Мы создаем выпадающие списки для выбора категории и региона с помощью библиотеки panel.

4.И, наконец, мы создаем интерактивный дашборд, который зависит от выбора в выпадающих списках.

Пользователь может выбирать категорию и регион, и график будет автоматически обновляться.

**<h2>Заключение**

Библиотека Vega-Altair предоставляет мощные инструменты для визуализации данных в Python. Она позволяет создавать красочные и информативные графики с минимальными усилиями благодаря своему декларативному подходу и интеграции с Pandas. Эта библиотека - отличная возможность улучшить визуализацию данных и делиться результатами исследования с аудиторией. Надеюсь, данный доклад заинтересовал вас, научил немного ориентироваться в примерах Altair и помог понять, как применить этот мощный инструмент к вашим конкретным потребностям. Используйте Vega-Altair в своих проектах!

<img src = "g.jpg" style = "width:600px; height: 450px">