In [40]:
import pandas as pd

# данные по нитратам 
df_no2 = pd.read_csv('https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_no2_long.csv',
parse_dates = True)


# данные по железу
df_pm25 = pd.read_csv('https://raw.githubusercontent.com/pandas-dev/pandas/main/doc/data/air_quality_pm25_long.csv',
parse_dates = True)

In [41]:
df_no2.head()

Unnamed: 0,city,country,date.utc,location,parameter,value,unit
0,Paris,FR,2019-06-21 00:00:00+00:00,FR04014,no2,20.0,µg/m³
1,Paris,FR,2019-06-20 23:00:00+00:00,FR04014,no2,21.8,µg/m³
2,Paris,FR,2019-06-20 22:00:00+00:00,FR04014,no2,26.5,µg/m³
3,Paris,FR,2019-06-20 21:00:00+00:00,FR04014,no2,24.9,µg/m³
4,Paris,FR,2019-06-20 20:00:00+00:00,FR04014,no2,21.4,µg/m³


In [42]:
df_pm25.head()

Unnamed: 0,city,country,date.utc,location,parameter,value,unit
0,Antwerpen,BE,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0,µg/m³
1,Antwerpen,BE,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5,µg/m³
2,Antwerpen,BE,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5,µg/m³
3,Antwerpen,BE,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0,µg/m³
4,Antwerpen,BE,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5,µg/m³


### Как объединить данные из нескольких таблиц?

In [43]:
# объединить измерения, две таблицы с похожей структурой, в одной таблице

df_no_pm = pd.concat([df_no2, df_pm25], axis=0)

df_no_pm.head()

Unnamed: 0,city,country,date.utc,location,parameter,value,unit
0,Paris,FR,2019-06-21 00:00:00+00:00,FR04014,no2,20.0,µg/m³
1,Paris,FR,2019-06-20 23:00:00+00:00,FR04014,no2,21.8,µg/m³
2,Paris,FR,2019-06-20 22:00:00+00:00,FR04014,no2,26.5,µg/m³
3,Paris,FR,2019-06-20 21:00:00+00:00,FR04014,no2,24.9,µg/m³
4,Paris,FR,2019-06-20 20:00:00+00:00,FR04014,no2,21.4,µg/m³


In [44]:
# на первый взгляд - разницы между таблицами нет
# + По умолчанию конкатенация выполняется по оси 0, поэтому результирующая таблица объединяет строки входных таблиц. 
# Давайте проверим форму исходной и объединенной таблиц, чтобы проверить операцию (т.е. общее содержание объектов в дф):
print(f'Схема 1 - {df_no2.shape}')
print(f'Схема 2 - {df_pm25.shape}')
print(f'Схема 3 - {df_no_pm.shape}')


Схема 1 - (2068, 7)
Схема 2 - (1110, 7)
Схема 3 - (3178, 7)


In [45]:
# посчитаем суммы двух дф, которые соединили: 
summary = df_no2.shape[0] + df_pm25.shape[0]
print(f'Объединено и получено: {summary}')

Объединено и получено: 3178


In [46]:
# Сортировка таблицы по информации о дате и времени иллюстрирует также комбинацию обеих таблиц 
#  по parameter столбцов, который определит происхождение таблицы 
# (либо no2 из таблицы, df_no2, либо pm25 из таблицы df_pm25):

df_3 = df_no_pm.sort_values('date.utc')
df_3.head()

Unnamed: 0,city,country,date.utc,location,parameter,value,unit
1109,London,GB,2019-05-07 01:00:00+00:00,London Westminster,pm25,8.0,µg/m³
2067,London,GB,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0,µg/m³
1098,Antwerpen,BE,2019-05-07 01:00:00+00:00,BETR801,no2,50.5,µg/m³
1003,Paris,FR,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,µg/m³
100,Antwerpen,BE,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5,µg/m³


В этом конкретном примере столбец <font color='green'>parameter</font> , предоставленный данными, гарантирует, что каждая из исходных таблиц может быть идентифицирована. Это не всегда так. функция <font color='yellow'>concat</font> предоставляет удобное решение с `keys` аргументом, добавляя дополнительный (иерархический) индекс строки. Например:

In [47]:
df_no_pm = pd.concat([df_no2, df_pm25], keys=('no2', 'pm25'))
df_no_pm.head()

# визуально - самый первый столбец больше не нумеруется pandas, но присвоен имя ключа, который был явно указан в данном коде

Unnamed: 0,Unnamed: 1,city,country,date.utc,location,parameter,value,unit
no2,0,Paris,FR,2019-06-21 00:00:00+00:00,FR04014,no2,20.0,µg/m³
no2,1,Paris,FR,2019-06-20 23:00:00+00:00,FR04014,no2,21.8,µg/m³
no2,2,Paris,FR,2019-06-20 22:00:00+00:00,FR04014,no2,26.5,µg/m³
no2,3,Paris,FR,2019-06-20 21:00:00+00:00,FR04014,no2,24.9,µg/m³
no2,4,Paris,FR,2019-06-20 20:00:00+00:00,FR04014,no2,21.4,µg/m³
