In [1]:
import pandas as pd

В этом руководстве используются данные о качестве воздуха $NO_2$, предоставляется [OpenAQ](https://openaq.org/) и с использованием пакета [py-openaq](http://dhhagan.github.io/py-openaq/index.html). Набор данных `air_quality_no2_long.csv` обеспечивает $NO_2$ значения для измерительных станций FR04014, BETR801 и London Westminster в Париже, Антверпене и Лондоне соответственно.

In [2]:
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv",
                              parse_dates=True)


air_quality_no2 = air_quality_no2[["date.utc", "location",
                                   "parameter", "value"]]


air_quality_no2.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-21 00:00:00+00:00,FR04014,no2,20.0
1,2019-06-20 23:00:00+00:00,FR04014,no2,21.8
2,2019-06-20 22:00:00+00:00,FR04014,no2,26.5
3,2019-06-20 21:00:00+00:00,FR04014,no2,24.9
4,2019-06-20 20:00:00+00:00,FR04014,no2,21.4


В этом руководстве используются данные о твердых частицах размером менее 2,5 микрометров, предоставляется [OpenAQ](https://openaq.org/) и с использованием пакета [py-openaq](http://dhhagan.github.io/py-openaq/index.html). Набор данных `air_quality_pm25_long.csv` обеспечивает $PM_{25}$ значения для измерительных станций FR04014, BETR801 и London Westminster в Париже, Антверпене и Лондоне соответственно.

In [3]:
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv",
                               parse_dates=True)


air_quality_pm25 = air_quality_pm25[["date.utc", "location",
                                     "parameter", "value"]]


air_quality_pm25.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


# Как объединить данные из нескольких таблиц

## Объединение объектов

![08_concat_row](https://pandas.pydata.org/docs/_images/08_concat_row.svg)

___

⸮ Я хочу объединить измерения $NO_2$ и $PM_{25}$, две таблицы с похожей структурой, в одну таблицу.

In [4]:
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

air_quality.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


Функция `concat()` выполняет операции конкатенации нескольких таблиц по одной из осей (по строкам или по столбцам).

По умолчанию конкатенация выполняется по оси 0, поэтому результирующая таблица объединяет строки входных таблиц. Давайте проверим форму исходной и объединенной таблиц, чтобы убедиться в правильности операции:

In [5]:
print('Shape of the ``air_quality_pm25`` table: ', air_quality_pm25.shape)

print('Shape of the ``air_quality_no2`` table: ', air_quality_no2.shape)

print('Shape of the resulting ``air_quality`` table: ', air_quality.shape)

Shape of the ``air_quality_pm25`` table:  (1110, 4)
Shape of the ``air_quality_no2`` table:  (2068, 4)
Shape of the resulting ``air_quality`` table:  (3178, 4)


*Примечание:* 
Аргумент оси будет возвращаться в ряде методов pandas, которые можно применять вдоль оси. `DataFrame` имеет две соответствующие оси: первая проходит вертикально вниз по строкам (ось `0`), а вторая проходит горизонтально по столбцам (ось `1`). Большинство операций, таких как конкатенация или сводная статистика, по умолчанию выполняются по строкам (ось 0), но могут применяться и по столбцам.

Сортировка таблицы по информации о дате и времени также иллюстрирует комбинацию обеих таблиц со столбцом `parameter`, определяющим происхождение таблицы (либо `no2` из таблицы `air_quality_no2`, либо `pm25` из таблицы `air_quality_pm25`):

In [6]:
air_quality = air_quality.sort_values("date.utc")

air_quality.head()

Unnamed: 0,date.utc,location,parameter,value
2067,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0
1003,2019-05-07 01:00:00+00:00,FR04014,no2,25.0
100,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5
1098,2019-05-07 01:00:00+00:00,BETR801,no2,50.5
1109,2019-05-07 01:00:00+00:00,London Westminster,pm25,8.0


В этом конкретном примере столбец `parameter`, предоставленный данными, гарантирует, что каждая из исходных таблиц может быть идентифицирована. Это не всегда так. Функция `concat` предоставляет удобное решение с аргументом `keys`, добавляя дополнительный (иерархический) индекс строки. Например:

In [7]:
air_quality_ = pd.concat([air_quality_pm25, air_quality_no2], keys=["PM25", "NO2"])

air_quality_.head()

Unnamed: 0,Unnamed: 1,date.utc,location,parameter,value
PM25,0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
PM25,1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
PM25,2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
PM25,3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
PM25,4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


*Примечание:*

Существование нескольких индексов строк/столбцов одновременно не упоминалось в этих руководствах. *Иерархическая индексация* или *MultiIndex* — это продвинутая и мощная функция pandas для анализа многомерных данных.

Мультииндексация выходит за рамки этого введения в pandas. На данный момент запомните, что функцию `reset_index` можно использовать для преобразования любого уровня индекса в столбец, например `air_quality.reset_index(level=0)`.

## Объединение таблиц с использованием общего идентификатора

![08_merge_left](https://pandas.pydata.org/docs/_images/08_merge_left.svg)

___

⸮ Добавьте координаты станций, предоставленные таблицей метаданных станций, в соответствующие строки в таблице измерений.

Метаданные параметров качества воздуха хранятся в файле данных `air_quality_parameters.csv`, загружаемом с помощью пакета [py-openaq](http://dhhagan.github.io/py-openaq/index.html).

In [8]:
stations_coord = pd.read_csv("data/air_quality_stations.csv")

stations_coord.head()

Unnamed: 0,location,coordinates.latitude,coordinates.longitude
0,BELAL01,51.23619,4.38522
1,BELHB23,51.1703,4.341
2,BELLD01,51.10998,5.00486
3,BELLD02,51.12038,5.02155
4,BELR833,51.32766,4.36226


*Примечание:*

Станции, использованные в этом примере (FR04014, BETR801 и London Westminster), — это всего лишь три записи в таблице метаданных. Мы только хотим добавить координаты этих трех в таблицу измерений, каждого в соответствующих строках таблицы `air_quality`.

In [9]:
air_quality.head()

Unnamed: 0,date.utc,location,parameter,value
2067,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0
1003,2019-05-07 01:00:00+00:00,FR04014,no2,25.0
100,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5
1098,2019-05-07 01:00:00+00:00,BETR801,no2,50.5
1109,2019-05-07 01:00:00+00:00,London Westminster,pm25,8.0


In [10]:
air_quality = pd.merge(air_quality, stations_coord, how="left", on="location")

air_quality.head()

Unnamed: 0,date.utc,location,parameter,value,coordinates.latitude,coordinates.longitude
0,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0,51.49467,-0.13193
1,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83724,2.3939
2,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83722,2.3939
3,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5,51.20966,4.43182
4,2019-05-07 01:00:00+00:00,BETR801,no2,50.5,51.20966,4.43182


С помощью функции `merge()` для каждой строки таблицы `air_quality` добавляются соответствующие координаты из таблицы `stations_coord`. Обе таблицы имеют общий столбец `location`, который используется в качестве ключа для объединения информации. При выборе `left` объединения в результирующую таблицу попадают только местоположения, доступные в таблице `air_quality` (слева), т. е. FR04014, BETR801 и London Westminster. Функция `merge` поддерживает несколько вариантов объединения, аналогичных операциям в стиле базы данных.

Дополнительные параметры конкатенации таблиц (по строкам и столбцам) и способы использования конкатенации для определения логики (объединения или пересечения) индексов на других осях приведены в разделе, посвященном конкатенации объектов.

___

⸮ Добавьте полное описание и название параметров, предоставленные таблицей метаданных параметров, в таблицу измерений.

Метаданные параметров качества воздуха хранятся в файле данных `air_quality_parameters.csv`, загружаемом с помощью пакета [py-openaq](http://dhhagan.github.io/py-openaq/index.html).

In [11]:
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")

air_quality_parameters.head()

Unnamed: 0,id,description,name
0,bc,Black Carbon,BC
1,co,Carbon Monoxide,CO
2,no2,Nitrogen Dioxide,NO2
3,o3,Ozone,O3
4,pm10,Particulate matter less than 10 micrometers in...,PM10


In [12]:
air_quality = pd.merge(air_quality, air_quality_parameters,
                       how='left', left_on='parameter', right_on='id')

air_quality.head()

Unnamed: 0,date.utc,location,parameter,value,coordinates.latitude,coordinates.longitude,id,description,name
0,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0,51.49467,-0.13193,no2,Nitrogen Dioxide,NO2
1,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83724,2.3939,no2,Nitrogen Dioxide,NO2
2,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83722,2.3939,no2,Nitrogen Dioxide,NO2
3,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5,51.20966,4.43182,pm25,Particulate matter less than 2.5 micrometers i...,PM2.5
4,2019-05-07 01:00:00+00:00,BETR801,no2,50.5,51.20966,4.43182,no2,Nitrogen Dioxide,NO2


По сравнению с предыдущим примером здесь нет общего имени столбца. Однако столбец `parameter` в таблице `air_quality` и столбец `id` в `air_quality_parameters` предоставляют измеренную переменную в общем формате. Аргументы `left_on` и `right_on` используются здесь (вместо `on`), чтобы установить связь между двумя таблицами.

pandas также поддерживает внутренние, внешние и правые соединения. Более подробная информация о соединении/объединении таблиц приведена в разделе руководства пользователя, посвященном объединению таблиц в стиле базы данных. Или посмотрите сравнение со страницей SQL.