In [1]:
import pandas as pd

Для этого урока, данные о качестве воздуха о NO2используется, предоставляется openaq и загружается с помощью пакета py-openaq .

Набор air_quality_no2_long.csvданных обеспечиваетNO2 значения для измерительных станций FR04014 , BETR801 и London Westminster соответственно в Париже, Антверпене и Лондоне.

In [2]:
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv",
                                parse_dates=True)

In [3]:
air_quality_no2 = air_quality_no2[["date.utc", "location",
                                    "parameter", "value"]]

In [4]:
air_quality_no2.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-21 00:00:00+00:00,FR04014,no2,20.0
1,2019-06-20 23:00:00+00:00,FR04014,no2,21.8
2,2019-06-20 22:00:00+00:00,FR04014,no2,26.5
3,2019-06-20 21:00:00+00:00,FR04014,no2,24.9
4,2019-06-20 20:00:00+00:00,FR04014,no2,21.4


Для этого урока используются данные о качестве воздуха для твердых частиц размером менее 2,5 микрометров, которые предоставляются openaq и загружаются с использованием пакета py-openaq .

Набор air_quality_pm25_long.csvданных обеспечиваетPM25 значения для измерительных станций FR04014 , BETR801 и London Westminster соответственно в Париже, Антверпене и Лондоне.

In [5]:
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv",
                                parse_dates=True)

In [6]:
air_quality_pm25 = air_quality_pm25[["date.utc", "location",
                                     "parameter", "value"]]

In [7]:
air_quality_pm25.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


### Как объединить данные из нескольких таблиц? 

https://pandas.pydata.org/pandas-docs/stable/_images/08_concat_row1.svg

Я хочу объединить измерения NO2 и PM25две таблицы с похожей структурой в одной таблице

In [8]:
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)

In [9]:
air_quality.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


В concat() функции выполняет операцию конкатенации нескольких таблиц вдоль одной оси ( по строкам или столбцы).

По умолчанию конкатенация происходит вдоль оси 0, поэтому результирующая таблица объединяет строки входных таблиц. Давайте проверим форму исходных и составных таблиц, чтобы проверить операцию:

In [10]:
print('Shape of the `air_quality_pm25` table: ', air_quality_pm25.shape)

Shape of the `air_quality_pm25` table:  (1110, 4)


In [11]:
print('Shape of the `air_quality_no2` table: ', air_quality_no2.shape)

Shape of the `air_quality_no2` table:  (2068, 4)


In [12]:
print('Shape of the resulting `air_quality` table: ', air_quality.shape)

Shape of the resulting `air_quality` table:  (3178, 4)


Следовательно, результирующая таблица имеет 3178 = 1110 + 2068 строк.

Ось аргумент будет возвращать в ряде методов панд , которые могут быть применены вдоль оси . A DataFrame имеет две соответствующие оси: первая, проходящая вертикально вниз по рядам (ось 0), и вторая, проходящая горизонтально по столбцам (ось 1). Большинство операций, таких как конкатенация или сводная статистика, по умолчанию выполняются по строкам (ось 0), но также могут применяться к столбцам.

Сортировка таблицы по информации о дате и времени иллюстрирует также комбинацию обеих таблиц со parameterстолбцом, определяющим происхождение таблицы ( no2из таблицы air_quality_no2или pm25из таблицы air_quality_pm25):

In [13]:
air_quality = air_quality.sort_values("date.utc")

In [14]:
air_quality.head()

Unnamed: 0,date.utc,location,parameter,value
2067,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0
1003,2019-05-07 01:00:00+00:00,FR04014,no2,25.0
100,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5
1098,2019-05-07 01:00:00+00:00,BETR801,no2,50.5
1109,2019-05-07 01:00:00+00:00,London Westminster,pm25,8.0


В этом конкретном примере parameterстолбец, представленный данными, позволяет идентифицировать каждую из исходных таблиц. Это не всегда так. concatфункция обеспечивает удобное решение с keysаргументом, добавляя дополнительный (иерархический) индекс строки. Например:

In [15]:
air_quality_ = pd.concat([air_quality_pm25, air_quality_no2],
                         keys=["PM25", "NO2"])

In [16]:
air_quality_.head()

Unnamed: 0,Unnamed: 1,date.utc,location,parameter,value
PM25,0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
PM25,1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
PM25,2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
PM25,3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
PM25,4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


Существование нескольких индексов строк / столбцов одновременно не упоминалось в этих руководствах. Иерархическая индексация или MultiIndex - это продвинутая и мощная функция панд для анализа многомерных данных.

Мультииндексирование выходит за рамки этого введения панд. На данный момент помните, что функцию reset_indexможно использовать для преобразования любого уровня индекса в столбец, например, air_quality.reset_index(level=0)

Не стесняйтесь погрузиться в мир мультииндексирования в разделе руководства пользователя по расширенной индексации .

Дополнительные параметры конкатенации таблиц (с точки зрения строк и столбцов) и того, как concatих можно использовать для определения логики (объединения или пересечения) индексов на других осях, представлены в разделе о конкатенации объектов .

### Объединяйте таблицы, используя общий идентификатор

https://pandas.pydata.org/pandas-docs/stable/_images/08_merge_left.svg

Добавьте координаты станции, предоставленные в таблице метаданных станций, в соответствующие строки таблицы измерений.

Координаты станции измерения качества воздуха хранятся в файле данных air_quality_stations.csv, загруженном с помощью пакета [py-openaq](http://dhhagan.github.io/py-openaq/installing.html).

In [27]:
stations_coord = pd.read_csv("data/air_quality_stations.csv")
stations_coord.head()

Unnamed: 0,location,coordinates.latitude,coordinates.longitude
0,BELAL01,51.23619,4.38522
1,BELHB23,51.1703,4.341
2,BELLD01,51.10998,5.00486
3,BELLD02,51.12038,5.02155
4,BELR833,51.32766,4.36226


Станции, используемые в этом примере (FR04014, BETR801 и London Westminster) - это всего лишь три записи в таблице метаданных. Мы только хотим добавить координаты этих трех в таблицу измерений, каждая из которых находится в соответствующих строках air_qualityтаблицы.

In [28]:
air_quality.head()

Unnamed: 0,date.utc,location,parameter,value
2067,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0
1003,2019-05-07 01:00:00+00:00,FR04014,no2,25.0
100,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5
1098,2019-05-07 01:00:00+00:00,BETR801,no2,50.5
1109,2019-05-07 01:00:00+00:00,London Westminster,pm25,8.0


In [30]:
air_quality = pd.merge(air_quality, stations_coord,
                        how='left', on='location')
air_quality.head()

Unnamed: 0,date.utc,location,parameter,value,coordinates.latitude_x,coordinates.longitude_x,coordinates.latitude_y,coordinates.longitude_y
0,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0,51.49467,-0.13193,51.49467,-0.13193
1,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83724,2.3939,48.83724,2.3939
2,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83724,2.3939,48.83722,2.3939
3,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83722,2.3939,48.83724,2.3939
4,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83722,2.3939,48.83722,2.3939


Используя merge()функцию, для каждой строки air_qualityтаблицы добавляются соответствующие координаты из air_quality_stations_coordтаблицы. Обе таблицы имеют locationобщий столбец, который используется в качестве ключа для объединения информации. Выбрав leftобъединение, air_qualityв результирующей таблице окажутся только местоположения, доступные в (левой) таблице, например FR04014, BETR801 и London Westminster. В mergeфункции поддерживает несколько присоединиться опции , подобные операции базы данных стиля.

Добавьте полное описание и имя параметра, предоставленные таблицей метаданных параметров, в таблицу измерений.

Метаданные параметров качества воздуха хранятся в файле данных air_quality_parameters.csv, загружаемом с помощью пакета py-openaq .

In [32]:
air_quality_parameters = pd.read_csv("data/air_quality_parameters.csv")
air_quality_parameters.head()

Unnamed: 0,id,description,name
0,bc,Black Carbon,BC
1,co,Carbon Monoxide,CO
2,no2,Nitrogen Dioxide,NO2
3,o3,Ozone,O3
4,pm10,Particulate matter less than 10 micrometers in...,PM10


In [34]:
air_quality = pd.merge(air_quality, air_quality_parameters,
                        how='left', left_on='parameter', right_on='id')
air_quality.head()

Unnamed: 0,date.utc,location,parameter,value,coordinates.latitude_x,coordinates.longitude_x,coordinates.latitude_y,coordinates.longitude_y,id_x,description_x,name_x,id_y,description_y,name_y
0,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0,51.49467,-0.13193,51.49467,-0.13193,no2,Nitrogen Dioxide,NO2,no2,Nitrogen Dioxide,NO2
1,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83724,2.3939,48.83724,2.3939,no2,Nitrogen Dioxide,NO2,no2,Nitrogen Dioxide,NO2
2,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83724,2.3939,48.83722,2.3939,no2,Nitrogen Dioxide,NO2,no2,Nitrogen Dioxide,NO2
3,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83722,2.3939,48.83724,2.3939,no2,Nitrogen Dioxide,NO2,no2,Nitrogen Dioxide,NO2
4,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,48.83722,2.3939,48.83722,2.3939,no2,Nitrogen Dioxide,NO2,no2,Nitrogen Dioxide,NO2


По сравнению с предыдущим примером, нет общего имени столбца. Однако parameterстолбец в air_qualityтаблице и idстолбец в air_quality_parameters_nameобоих представляют измеряемую переменную в общем формате. left_onИ right_on аргументы используются здесь (вместо того , чтобы просто on) , чтобы сделать связь между двумя таблицами.

Панды также поддерживают внутренние, внешние и правые соединения. Более подробная информация об объединении / объединении таблиц представлена ​​в разделе руководства пользователя по объединению таблиц в стиле базы данных . Или взгляните на страницу сравнения с SQL .

См. Руководство пользователя для полного описания различных средств для объединения таблиц данных .