# Простые графики: основные концепции

В этой секции будут показаны основные концепции создания графиков в Altair:

- **Данные (Data)**, **Метки (Marks)**, and **Кодирование (Encodings)**: три ключевых составляющих графика Altair

- **Типы кодирования**: ``Q`` (количественное), ``N`` (nominal), ``O`` (ordinal), ``T`` (временное), которые определяют визуальное представление данных

- **Объединение данных**: позволяет контролировать различные аспекты представления данных с помощью Altair.

Начнём с подключения Altair:

In [3]:
import altair as alt

## Общий вид графиков в Altair

Ключевыми элементами графиков Altair являются **данные (data)**, **метки (mark)** и **кодирование (encoding)**.

Формат, в котором они задаются выглядит примерно так:

```python
alt.Chart(data).mark_point().encode(
    encoding_1='column_1',
    encoding_2='column_2',
    # etc.
)
```

Рассмотрим каждый элемент по отдельности.

### Данные (Data)

Данные в Altair основываются на [Pandas Dataframe](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html).
В этой секции будем использовать набор данных "Автомобили" (cars) из пакета [vega_datasets](https://github.com/altair-viz/vega_datasets):

In [6]:
from vega_datasets import data
cars = data.cars()

cars.head()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


Предполагается, что используемые с Altair данные представленны в упорядоченном формате [tidy format](http://vita.had.co.nz/papers/tidy-data.html); иными словами:

- каждая **строка** это наблюдение
- каждый **столбец** это переменная

Более подробно об этом можно узнать в [документации Altair](https://altair-viz.github.io/user_guide/data.html).

### Объект "график" (Chart)

При заданных данных можно создать фундаментальный объект Altair, график ``Chart``. В целом, ``Chart`` – это объект, который знает как вызвать словарь JSON, представляющий собой кодировщик данных и визуализации, который можно передать в notebook и визуализировать с помощью библиотеки Vega-Lite.
Посмотрим как выглядит такой JSON:

In [7]:
cars1 = cars.iloc[:1]
alt.Chart(cars1).mark_point().to_dict()

{'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}},
 'data': {'name': 'data-36a712fbaefa4d20aa0b32e160cfd83a'},
 'mark': 'point',
 '$schema': 'https://vega.github.io/schema/vega-lite/v4.17.0.json',
 'datasets': {'data-36a712fbaefa4d20aa0b32e160cfd83a': [{'Name': 'chevrolet chevelle malibu',
    'Miles_per_Gallon': 18.0,
    'Cylinders': 8,
    'Displacement': 307.0,
    'Horsepower': 130.0,
    'Weight_in_lbs': 3504,
    'Acceleration': 12.0,
    'Year': '1970-01-01T00:00:00',
    'Origin': 'USA'}]}}

График содержит представление датафрейма в форме JSON, а также вид меток (mark) для использования, и некоторую обязательную метаинформацию.

### Метка (Mark)

Можно определить, какой тип *меток (mark)* мы хотим использовать в наших данных.
В предыдущем примере был выбран тип точка (``point``) для представления каждого наблюдения в виде точки:

In [8]:
alt.Chart(cars).mark_point()

Результат визуализации с одной точкой для каждой строки. Он не очень показателен, поскольку все точки находятся в одном и том же месте.

Посмотрим ещё раз JSON:

In [9]:
alt.Chart(cars1).mark_point().to_dict()

{'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}},
 'data': {'name': 'data-36a712fbaefa4d20aa0b32e160cfd83a'},
 'mark': 'point',
 '$schema': 'https://vega.github.io/schema/vega-lite/v4.17.0.json',
 'datasets': {'data-36a712fbaefa4d20aa0b32e160cfd83a': [{'Name': 'chevrolet chevelle malibu',
    'Miles_per_Gallon': 18.0,
    'Cylinders': 8,
    'Displacement': 307.0,
    'Horsepower': 130.0,
    'Weight_in_lbs': 3504,
    'Acceleration': 12.0,
    'Year': '1970-01-01T00:00:00',
    'Origin': 'USA'}]}}

Обратим внимание, что в дополнение к данным задан тип меток.

Существует достаточно большой набор возможных видов меток для использования. Наиболее распространены следующие:

* ``mark_point()`` 
* ``mark_circle()``
* ``mark_square()``
* ``mark_line()``
* ``mark_area()``
* ``mark_bar()``
* ``mark_tick()``

### Кодирование

Ещё один важный шаг – добавление *каналов визуального кодирования* (или *кодировок(encodings)* для краткости) на график. Канал кодирования определяет, как именно будут преобразовываться данных из столбцов в визуальные свойства графика.
Некоторые наиболее часто используемые свойства указаны ниже:

* ``x``: значение оси x
* ``y``: значение оси y
* ``color``: цвет метки
* ``opacity``: прозрачность метки
* ``shape``: форма метки
* ``size``: прозрачность метки
* ``row``: строка в сетке панелей
* ``column``: столбец в сетке панелей


Полный список кодировок можно найти в [соответствующей секции](https://altair-viz.github.io/user_guide/encoding.html) документации.

Визуальное кодирование создаётся методом`encode()` объекта `Chart`. К примеру, мы начнём с отображения оси `y` на столбец `Origin`:

In [11]:
alt.Chart(cars).mark_point().encode(
    y='Origin'
)

Результатом будет являться одномерная визуализация, представляющая значения, взятые из столбца `Origin`, с точками из остальных категорий, нарисованными поверх друг друга.
Можем снова посмотреть JSON для этой визуализации:

In [12]:
alt.Chart(cars1).mark_point().encode(
    x='Origin'
).to_dict()

{'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}},
 'data': {'name': 'data-36a712fbaefa4d20aa0b32e160cfd83a'},
 'mark': 'point',
 'encoding': {'x': {'field': 'Origin', 'type': 'nominal'}},
 '$schema': 'https://vega.github.io/schema/vega-lite/v4.17.0.json',
 'datasets': {'data-36a712fbaefa4d20aa0b32e160cfd83a': [{'Name': 'chevrolet chevelle malibu',
    'Miles_per_Gallon': 18.0,
    'Cylinders': 8,
    'Displacement': 307.0,
    'Horsepower': 130.0,
    'Weight_in_lbs': 3504,
    'Acceleration': 12.0,
    'Year': '1970-01-01T00:00:00',
    'Origin': 'USA'}]}}

Результат совпадает с предыдущим за исключением добавленного ключа `'encoding'`, который определяет канал визуализации (`y`), заголовок столбца (`Origin`), и тип переменной (`nominal`).
Мы обсудим эти типы чуть позже.

Визуализация становится чуть более интересной посредством добавления другого канала кодирования, например, `Miles_per_Gallon` позиции по оси `x`:

In [13]:
alt.Chart(cars).mark_point().encode(
    y='Origin',
    x='Miles_per_Gallon'
)

Можно добавить много других кодировок по желанию и каждая будет соответствовать некоторому столбцу исходных данных.
Например, цвет отображается на основе *Origin*, а по осям y и x: *Miles_per_gallon* и *Year*:

In [14]:
alt.Chart(cars).mark_point().encode(
    color='Origin',
    y='Miles_per_Gallon',
    x='Year'
)

### Упражнение: Исследование данных

Попробуйте нарисовать новые или повторить старые графики с использованием Altair!

В частности, попробуйте разные (по желанию) комбинации следующих свойств:

- Marks: ``mark_point()``, ``mark_line()``, ``mark_bar()``, ``mark_text()``, ``mark_rect()``...
- Data Columns: ``'Acceleration'``, ``'Cylinders'``, ``'Displacement'``, ``'Horsepower'``, ``'Miles_per_Gallon'``, ``'Name'``, ``'Origin'``, ``'Weight_in_lbs'``, ``'Year'``
- Encodings: ``x``, ``y``, ``color``, ``shape``, ``row``, ``column``, ``opacity``, ``text``, ``tooltip``...

In [15]:
alt.Chart(cars).mark_point().encode(
    color='Acceleration',
    y='Miles_per_Gallon',
    x='Cylinders'
)

---

## Типы кодирования

Одной из центральный идей Altair является возможность задания **типов данных**.

Базовые типы данных, поддерживаемые Altair, следующие:

<table>
  <tr>
    <th>Тип данных</th>
    <th>Код</th>
    <th>Описание</th>
  </tr>
  <tr>
    <td>количественный</td>
    <td>Q</td>
    <td>Численное значение (вещественное)</td>
  </tr>
  <tr>
    <td>nominal</td>
    <td>N</td>
    <td>Имя / Неупорядоченная категория</td>
  </tr>
  <tr>
    <td>ordinal</td>
    <td>O</td>
    <td>Упорядоченная категория</td>
  </tr>
  <tr>
    <td>временной</td>
    <td>T</td>
    <td>Дата/Время</td>
  </tr>
</table>

Когда вы задаётее данные в датафрейме pandas, эти типы **автоматически присваиваются** Altair.

Когда вы задаёте данные как URL, необходимо **вручную задать** тип данных для каждого используемого столбца.

Рассмотрим простой график, содержащий три столбца данных из датафрейма cars:

In [16]:
alt.Chart(cars).mark_tick().encode(
    x='Miles_per_Gallon',
    y='Origin',
    color='Cylinders'
)

Вопросы:

- какой тип данных лучше подойдёт для ``Miles_per_Gallon``?
- какой тип данных лучше подойдёт для ``Origin``?
- какой тип данных лучше подойдёт для ``Cylinders``?

Зададим типы данных в спецификации с использованием кодов выше (например, заменим ``"Miles_per_Gallon"`` на ``"Miles_per_Gallon:Q"`` чтобы в явном виде обозначить количественный тип данных):

In [17]:
alt.Chart(cars).mark_tick().encode(
    x='Miles_per_Gallon:Q',
    y='Origin:N',
    color='Cylinders:O'
)

Заметим, как меняется график при замене типа данных для столбца ``'Cylinders'`` на упорядоченную категорию.

Если вы используете Altair, полезной привычкой будет всегда задавать типы вручную, поскольку это необходимо при загрузке данных из файла или по URL.

### Упражнение: Добавление явных типов

Следующие графики получены с использованием набора данных cars. Для каждого попробуйте задать типы данных так, чтобы графики не изменились.

Если среди этих графиков есть те, которые будут выглядеть лучше с другими типами данных, нарисуйте их отдельно.

In [18]:
# Определите типы данных
alt.Chart(cars).mark_bar().encode(
    y='Origin',
    x='mean(Horsepower)'
)

In [19]:
# Определите типы данных
alt.Chart(cars).mark_line().encode(
    x='Year',
    y='mean(Miles_per_Gallon)',
    color='Origin'
)

In [20]:
# Определите типы данных
alt.Chart(cars).mark_bar().encode(
    y='Cylinders',
    x='count()',
    color='Origin'
)

In [23]:
alt.Chart(cars).mark_bar().encode(
    y='Cylinders:O',
    x='count():Q',
    color='Origin:N'
)

In [21]:
# Определите типы данных
alt.Chart(cars).mark_rect().encode(
    x='Cylinders',
    y='Origin',
    color='count()'
)

In [22]:
alt.Chart(cars).mark_rect().encode(
    x='Cylinders:O',
    y='Origin:N',
    color='count():Q'
)