In [1]:
import pandas as pd

В этом руководстве используются данные о качестве воздуха $NO_2$, предоставляется [OpenAQ](https://openaq.org/) и с использованием пакета [py-openaq](http://dhhagan.github.io/py-openaq/index.html). Набор данных `air_quality_no2_long.csv` обеспечивает $NO_2$ значения для измерительных станций FR04014, BETR801 и London Westminster в Париже, Антверпене и Лондоне соответственно.

In [2]:
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv",
                              parse_dates=True)


air_quality_no2 = air_quality_no2[["date.utc", "location",
                                   "parameter", "value"]]


air_quality_no2.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-21 00:00:00+00:00,FR04014,no2,20.0
1,2019-06-20 23:00:00+00:00,FR04014,no2,21.8
2,2019-06-20 22:00:00+00:00,FR04014,no2,26.5
3,2019-06-20 21:00:00+00:00,FR04014,no2,24.9
4,2019-06-20 20:00:00+00:00,FR04014,no2,21.4


В этом руководстве используются данные о твердых частицах размером менее 2,5 микрометров, предоставляется [OpenAQ](https://openaq.org/) и с использованием пакета [py-openaq](http://dhhagan.github.io/py-openaq/index.html). Набор данных `air_quality_pm25_long.csv` обеспечивает $PM_{25}$ значения для измерительных станций FR04014, BETR801 и London Westminster в Париже, Антверпене и Лондоне соответственно.

In [3]:
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv",
                               parse_dates=True)


air_quality_pm25 = air_quality_pm25[["date.utc", "location",
                                     "parameter", "value"]]


air_quality_pm25.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


# Как объединить данные из нескольких таблиц

## Объединение объектов

![08_concat_row](https://pandas.pydata.org/docs/_images/08_concat_row.svg)

___

⸮ Я хочу объединить измерения $NO_2$ и $PM_{25}$, две таблицы с похожей структурой, в одну таблицу.

In [4]:
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

air_quality.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


Функция `concat()` выполняет операции конкатенации нескольких таблиц по одной из осей (по строкам или по столбцам).

По умолчанию конкатенация выполняется по оси 0, поэтому результирующая таблица объединяет строки входных таблиц. Давайте проверим форму исходной и объединенной таблиц, чтобы убедиться в правильности операции:

In [5]:
print('Shape of the ``air_quality_pm25`` table: ', air_quality_pm25.shape)

print('Shape of the ``air_quality_no2`` table: ', air_quality_no2.shape)

print('Shape of the resulting ``air_quality`` table: ', air_quality.shape)

Shape of the ``air_quality_pm25`` table:  (1110, 4)
Shape of the ``air_quality_no2`` table:  (2068, 4)
Shape of the resulting ``air_quality`` table:  (3178, 4)


*Примечание:* 
Аргумент оси будет возвращаться в ряде методов pandas, которые можно применять вдоль оси. `DataFrame` имеет две соответствующие оси: первая проходит вертикально вниз по строкам (ось `0`), а вторая проходит горизонтально по столбцам (ось `1`). Большинство операций, таких как конкатенация или сводная статистика, по умолчанию выполняются по строкам (ось 0), но могут применяться и по столбцам.

Сортировка таблицы по информации о дате и времени также иллюстрирует комбинацию обеих таблиц со столбцом `parameter`, определяющим происхождение таблицы (либо `no2` из таблицы `air_quality_no2`, либо `pm25` из таблицы `air_quality_pm25`):

In [6]:
air_quality = air_quality.sort_values("date.utc")

air_quality.head()

Unnamed: 0,date.utc,location,parameter,value
2067,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0
1003,2019-05-07 01:00:00+00:00,FR04014,no2,25.0
100,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5
1098,2019-05-07 01:00:00+00:00,BETR801,no2,50.5
1109,2019-05-07 01:00:00+00:00,London Westminster,pm25,8.0


В этом конкретном примере столбец `parameter`, предоставленный данными, гарантирует, что каждая из исходных таблиц может быть идентифицирована. Это не всегда так. Функция `concat` предоставляет удобное решение с аргументом `keys`, добавляя дополнительный (иерархический) индекс строки. Например:

In [7]:
air_quality_ = pd.concat([air_quality_pm25, air_quality_no2], keys=["PM25", "NO2"])

air_quality_.head()

Unnamed: 0,Unnamed: 1,date.utc,location,parameter,value
PM25,0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
PM25,1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
PM25,2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
PM25,3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
PM25,4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


*Примечание:*

Существование нескольких индексов строк/столбцов одновременно не упоминалось в этих руководствах. *Иерархическая индексация* или *MultiIndex* — это продвинутая и мощная функция pandas для анализа многомерных данных.

Мультииндексация выходит за рамки этого введения в pandas. На данный момент запомните, что функцию `reset_index` можно использовать для преобразования любого уровня индекса в столбец, например `air_quality.reset_index(level=0)`.