## Группировка данных

Мы изучили **данные (data)**, **метки (marks)**, **кодирования (encodings)** и **типы кодирования (encoding types)**.
Следующая ключевая часть API Altair'а – его подход к группировке данных

In [1]:
import altair as alt

In [2]:
from vega_datasets import data
cars = data.cars()

cars.head()

Unnamed: 0,Name,Miles_per_Gallon,Cylinders,Displacement,Horsepower,Weight_in_lbs,Acceleration,Year,Origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,1970-01-01,USA
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,1970-01-01,USA
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,1970-01-01,USA
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,1970-01-01,USA
4,ford torino,17.0,8,302.0,140.0,3449,10.5,1970-01-01,USA


### Group-By в Pandas

Одна из ключевых операций в исследовании данных это *group-by*, подробно разбираемая в [Главе 4](https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html) книги *Python Data Science Handbook*.
Если коротко, group-by разделяет данные на группы в соответствии с некоторым условием, применяет некоторую функцию объединения внутри этих групп, а затем объединяет данных обратно:

![Split Apply Combine figure](split-apply-combine.png)
[Оригинал изображения](https://jakevdp.github.io/PythonDataScienceHandbook/03.08-aggregation-and-grouping.html)

Для данных из набора cars, можно сгруппировать данные по признакоу Origin, вычислить среднее значение миль на галлон, а затем объединить результаты.
В Pandas эта операция будет выглядеть следующим образом:

In [3]:
cars.groupby('Origin')['Miles_per_Gallon'].mean()

Unnamed: 0_level_0,Miles_per_Gallon
Origin,Unnamed: 1_level_1
Europe,27.891429
Japan,30.450633
USA,20.083534


В Altair такая операция разделения-вычисления-объединения может быть выполнена посредством передачи оператора объединения в любую кодировку. Например, график представляющий описанную выше операцию формируется следующим образом:

In [7]:
alt.Chart(cars).mark_bar().encode(
    y='Origin',
    x='mean(Miles_per_Gallon)'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


Заметим, что группировка выполняется внутри кодировки неявно: мы группируем по Origin и вычисляем среднее по каждой группе.

### Одномерное накопление (binning): гистограммы

Наиболее распространённым использованием накопления данных является создание гистограмм. Например, визуализируем гистограмму миль за галлон.

In [None]:
alt.Chart(cars).mark_bar().encode(
    alt.X('Miles_per_Gallon', bin=True),
    alt.Y('count()'),
    alt.Color('Origin')
)

Интересным свойством декларативного подхода Altair является возможность присвоения этих значений различным кодированиям, позволяющая иначе визуализировать те же данные.

Например, если присвоить накапливаемые мили за галлон цвету, можно получить следующий график:

In [11]:
alt.Chart(cars).mark_bar().encode(
    color=alt.Color('Miles_per_Gallon'),
    x='count()',
    y='Origin'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


Добавил для сравнения без бина

In [10]:
alt.Chart(cars).mark_bar().encode(
    color=alt.Color('Miles_per_Gallon', bin=True),
    x='count()',
    y='Origin'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


Это позволяет лучше оценить пропорции значений внутри каждой страны.

Если мы хотим, можем нормализовать эти значения по оси x, чтобы напрямую сравнить пропорции:

In [13]:
alt.Chart(cars).mark_bar().encode(
    color=alt.Color('Miles_per_Gallon', bin=True),
    x=alt.X('count()', stack='normalize'),
    y='Origin'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


Как можно увидеть, больше половины автомобилей США относятся к категории высокого расхода топлива..

Снова изменим кодирование. Пусть теперь цвет соответствует количеству:

In [12]:
alt.Chart(cars).mark_rect().encode(
    x=alt.X('Miles_per_Gallon', bin=alt.Bin(maxbins=20)),
    color='count()',
    y='Origin',
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


Теперь этот же набор данных представлен в форме тепловой карты.

Altair позволяет ещё и показать связь между различными типами графиков!

### Другие функции группировки

Агрегаторы могут использованы с данными, которые были накоплены неявно. Например, посмотрим на график миль за галлон по времени:

In [15]:
alt.Chart(cars).mark_point().encode(
    x='Year:T',
    color='Origin',
    y='Miles_per_Gallon'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


Тот факт, что точки так сильно перекрывают друг друга, затрудняет чтение важных частей графика.

Можно сделать этот график понятнее, нарисовав среднее значение каждой группы:

In [16]:
alt.Chart(cars).mark_line().encode(
    x='Year:T',
    color='Origin',
    y='mean(Miles_per_Gallon)'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


Среднее показывает только часть информации, но Altair предоставляет инструмент для вычисления нижних и верхних границ доверительных интервалов.

Можно использовать ``mark_area()`` и задать нижнюю и верхнюю границы с использованием ``y`` and ``y2``:

In [19]:
alt.Chart(cars).mark_area(opacity=0.3).encode(
    x='Year:T',
    color='Origin',
    y='ci0(Miles_per_Gallon)',
    y2='ci1(Miles_per_Gallon)'
)

  col = df[col_name].apply(to_list_if_array, convert_dtype=False)
  col = df[col_name].apply(to_list_if_array, convert_dtype=False)


## Группировка по времени

Один из специфичных видов объединения – группировка по различным аспектам даты, по месяцу, году или дню.
Посмотрим на простой набор данных погоды в Сиэттле:

In [20]:
temps = data.seattle_temps()
temps.head()

Unnamed: 0,date,temp
0,2010-01-01 00:00:00,39.4
1,2010-01-01 01:00:00,39.2
2,2010-01-01 02:00:00,39.0
3,2010-01-01 03:00:00,38.9
4,2010-01-01 04:00:00,38.8


Если мы попытаемся визуализировать эти данные, то получим ``MaxRowsError``:

In [None]:
# alt.Chart(temps).mark_line().encode(
#     x='date:T',
#     y='temp:Q'
# )

MaxRowsError: The number of rows in your dataset is greater than the maximum allowed (5000). For information on how to plot larger datasets in Altair, see the documentation

alt.Chart(...)

In [21]:
len(temps)

8759

### Немного информации: Как Altair интерпретирует данные

Ошибка MaxRowsError для наборов данных больше, чем 5000 возникает, поскольку бездумное использование Altair без понимания, как в нём представляются данные, приводит к **очень** большим jupyter notebook'ам, что сильно влияет на производительность.

Когда датафрейм pandas передаётся в график Altair, все данные конвертируются в JSON и хранятся как спецификация графика. Эта спецификация встраивается в notebook и 20-30 графиков для достаточно большого набора данных приводит к резкому падению производительности.

Как избавиться от ошибки? Есть несколько способов:

1) Использовать меньший набор данных. Например, объединить данные температуры по дням:
   ```python
   import pandas as pd
   temps = temps.groupby(pd.DatetimeIndex(temps.date).date).mean().reset_index()
   ```

2) Отключить MaxRowsError с использованием
   ```python
   alt.data_transformers.enable('default', max_rows=None)
   ```
   Ещё раз, это может привести к *очень* большим блокнотам при отсутствии должного внимания.
   
3) Поместить данные на локальный сервер. Модуль [сервер данных Altair](https://github.com/altair-viz/altair_data_server) упростит процедуру.
   ```python
   alt.data_transformers.enable('data_server')
   ```
   Этот подход может не работать на некоторых облачных сервисах Jupyter notebook.
   
4) Использовать ссылку URL, указывающую на источник данных. Создание [gist](gist.github.com) – быстрый и простой способ хранения часто используемых данных.


Мы попробуем последний способ, поскольку он наиболее универсальный и обеспечивает наилучшую производительность. Для всех наборов данных из `vega_datasets` есть параметр `url`, однако в этой работе мы воспользуемся прямой ссылкой на `vega.github.io`.

In [22]:
temps = 'https://vega.github.io/vega-datasets/data/seattle-weather-hourly-normals.csv'

In [23]:
alt.Chart(temps).mark_line().to_dict()

{'config': {'view': {'continuousWidth': 400, 'continuousHeight': 300}},
 'data': {'url': 'https://vega.github.io/vega-datasets/data/seattle-weather-hourly-normals.csv'},
 'mark': 'line',
 '$schema': 'https://vega.github.io/schema/vega-lite/v4.17.0.json'}

Обратите внимание, что вместо использования всего набора данных используется только url.

Попробуем визуализировать график:

In [28]:
alt.Chart(temps).mark_line().encode(
    x='date:T',
    y='temperature:Q'
)

Здесь очень много данных. Объединим их по месяцам:

In [29]:
alt.Chart(temps).mark_point().encode(
    x=alt.X('month(date):T'),
    y='temperature:Q'
)

График станет понятнее, если объединить данные по температуре (среднее):

In [30]:
alt.Chart(temps).mark_bar().encode(
    x=alt.X('month(date):O'),
    y='mean(temperature):Q'
)

Также можно разделить даты разными способами для получения интересных визуализаций. Например, средняя температура по дням в течение месяца:

In [31]:
alt.Chart(temps).mark_rect().encode(
    x=alt.X('date(date):O'),
    y=alt.Y('month(date):O'),
    color='mean(temperature):Q'
)

Или средняя температура по часам в течение месяца:

In [32]:
alt.Chart(temps).mark_rect().encode(
    x=alt.X('hours(date):O'),
    y=alt.Y('month(date):O'),
    color='mean(temperature):Q'
)

Больше информации по ``TimeUnit Transform`` можно найти здесь: https://altair-viz.github.io/user_guide/transform/timeunit.html#user-guide-timeunit-transform