In [50]:
import pandas as pd

Data usada para este tutorial:

In [51]:
air_quality_no2 = pd.read_csv("data/air_quality_no2_long.csv", parse_dates=True)
air_quality_no2 = air_quality_no2[["date.utc", "location", "parameter", "value"]]
air_quality_no2.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-21 00:00:00+00:00,FR04014,no2,20.0
1,2019-06-20 23:00:00+00:00,FR04014,no2,21.8
2,2019-06-20 22:00:00+00:00,FR04014,no2,26.5
3,2019-06-20 21:00:00+00:00,FR04014,no2,24.9
4,2019-06-20 20:00:00+00:00,FR04014,no2,21.4


In [52]:
air_quality_pm25 = pd.read_csv("data/air_quality_pm25_long.csv", parse_dates=True)
air_quality_pm25 = air_quality_pm25[["date.utc", "location", "parameter", "value"]]
air_quality_pm25.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


# ¿Cómo combinar la data de multiples tablas?

## 1. Concatenando objetos

<img src="data/08_concat_row.svg">

### 1.1 Quiero combinar las mediciones de NO_2 y MP_2.5, dos tablas que poseen una estructura similar en una sola tabla

In [53]:
air_quality = pd.concat([air_quality_pm25, air_quality_no2], axis=0)
air_quality.head()

Unnamed: 0,date.utc,location,parameter,value
0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5


*Observaciones*

El método `concat()` realiza operaciones de concatenación de multiples tablas a lo largo de un eje (por filas o por columnas)

Por defecto la concatenación es a lo largo del eje 0, entonces ka tabla resultante combina las filas de las tablas de entrada. Comprobemos la forma de las tablas originales y las concatenada para verificar la operación.

In [54]:
print('Forma de la tabla `air_quality_pm25`: ', air_quality_pm25.shape)
print('Forma de la tabla `air_quality_no2`: ', air_quality_no2.shape)
print('Forma de la tabla `air_quality`: ', air_quality.shape)

Forma de la tabla `air_quality_pm25`:  (1110, 4)
Forma de la tabla `air_quality_no2`:  (2068, 4)
Forma de la tabla `air_quality`:  (3178, 4)


*Observaciones*

Por lo tanto, la tabla resultante tiene 3178 = 1110 + 2068 filas.

** Nota: El argumento **axis** retornará en un número de metodos pandas que pueden ser aplicados a lo largo del eje. Un Dataframe tiene ejes correspondientes: el primero corriendo verticalmente hacia abajo a través de las filas (eje 0), y el segundo corriendo horizontalmente a través de las columnas (eje 1). La mayoría de las operaciones, como la concatenación o las estadísticas de resumen, se realizan de forma predeterminada en filas (eje 0), pero también se pueden aplicar en columnas.

El ordenar la tabla por la columna de tiempos, ilustrará la combinación de ambas tablas, con la columna "parameter" revelando el origen de cada renglon, sea de una tabla o de la otra.

In [55]:
air_quality = air_quality.sort_values("date.utc")
air_quality.head()

Unnamed: 0,date.utc,location,parameter,value
2067,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0
1003,2019-05-07 01:00:00+00:00,FR04014,no2,25.0
100,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5
1098,2019-05-07 01:00:00+00:00,BETR801,no2,50.5
1109,2019-05-07 01:00:00+00:00,London Westminster,pm25,8.0


*Observaciones*

En este caso específico, la columna `parameter` garantiza que se pueda identificar cada una de las tablas originales. Este no es siempre el caso. La función concat proporciona una solución conveniente con el argumento de claves, agregando un índice de fila adicional (jerárquico). Por ejemplo:

In [56]:
air_quality_ = pd.concat([air_quality_pm25, air_quality_no2], keys=["PM25", "NO2"])
air_quality_

Unnamed: 0,Unnamed: 1,date.utc,location,parameter,value
PM25,0,2019-06-18 06:00:00+00:00,BETR801,pm25,18.0
PM25,1,2019-06-17 08:00:00+00:00,BETR801,pm25,6.5
PM25,2,2019-06-17 07:00:00+00:00,BETR801,pm25,18.5
PM25,3,2019-06-17 06:00:00+00:00,BETR801,pm25,16.0
PM25,4,2019-06-17 05:00:00+00:00,BETR801,pm25,7.5
...,...,...,...,...,...
NO2,2063,2019-05-07 06:00:00+00:00,London Westminster,no2,26.0
NO2,2064,2019-05-07 04:00:00+00:00,London Westminster,no2,16.0
NO2,2065,2019-05-07 03:00:00+00:00,London Westminster,no2,19.0
NO2,2066,2019-05-07 02:00:00+00:00,London Westminster,no2,19.0


In [57]:
air_quality_ = air_quality_.sort_values("date.utc")
air_quality_

Unnamed: 0,Unnamed: 1,date.utc,location,parameter,value
NO2,2067,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0
NO2,1003,2019-05-07 01:00:00+00:00,FR04014,no2,25.0
PM25,100,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5
NO2,1098,2019-05-07 01:00:00+00:00,BETR801,no2,50.5
PM25,1109,2019-05-07 01:00:00+00:00,London Westminster,pm25,8.0
...,...,...,...,...,...
NO2,2,2019-06-20 22:00:00+00:00,FR04014,no2,26.5
PM25,102,2019-06-20 23:00:00+00:00,London Westminster,pm25,7.0
NO2,1,2019-06-20 23:00:00+00:00,FR04014,no2,21.8
PM25,101,2019-06-21 00:00:00+00:00,London Westminster,pm25,7.0


> Nota: La existencia de múltiples índices de fila/columna al mismo tiempo no se ha mencionado en estos tutoriales. La indexación jerárquica o MultiIndex es una característica avanzada y poderosa de pandas para analizar datos de mayor dimensión.

La indexación múltiple está fuera del alcance de esta introducción de pandas. Por el momento, recuerda que la función `reset_index` se puede utilizar para convertir cualquier nivel de un índice en una columna, p. `calidad_aire.reset_index(level=0)`.

## 2. Unir tablas usando un identificador común

<img src="data/08_merge_left.svg">

### 2.1 Añadir coodenadas de estación, provistas por la station metadata table, para las filas correspondientes en la tabla de medidas

In [58]:
import openaq
api = openaq.OpenAQ()
resp = api.locations(df=True)
resp

  data = pd.io.json.json_normalize(resp)


Unnamed: 0,id,country,city,cities,location,locations,sourceName,sourceNames,sourceType,sourceTypes,firstUpdated,lastUpdated,parameters,countsByMeasurement,count,coordinates.latitude,coordinates.longitude
0,3960,HU,Budapest,"[Budapest, Hungarian Air Quality Network]",HU0022A,"[Budapest Gilice, HU0022A]",EEA Hungary,[EEA Hungary],government,[government],2016-12-12 14:00:00+00:00,2022-04-20 05:00:00+00:00,"[no2, co, so2, pm10, o3, pm25]","[{'parameter': 'no2', 'count': 98823}, {'param...",506658,47.430836,19.184174
1,3962,HU,Budapest,"[Budapest, Hungarian Air Quality Network]",HU0042A,"[Budapest Korakas, HU0042A]",EEA Hungary,[EEA Hungary],government,[government],2016-12-12 14:00:00+00:00,2022-04-20 05:00:00+00:00,"[no2, pm10, co, so2, o3]","[{'parameter': 'no2', 'count': 100663}, {'para...",475854,47.541944,19.146122
2,3963,HU,Budapest,"[Budapest, Hungarian Air Quality Network]",HU0036A,"[Budapest Pesthidegkut, HU0036A]",EEA Hungary,[EEA Hungary],government,[government],2016-12-12 14:00:00+00:00,2022-04-20 05:00:00+00:00,"[pm10, o3, so2, co, no2]","[{'parameter': 'pm10', 'count': 98640}, {'para...",459424,47.561943,18.960009
3,3964,HU,Budapest,"[Budapest, Hungarian Air Quality Network]",HU0041A,"[Budapest Szena, HU0041A]",EEA Hungary,[EEA Hungary],government,[government],2016-12-12 14:00:00+00:00,2022-04-20 05:00:00+00:00,"[co, pm10, no2, so2]","[{'parameter': 'co', 'count': 72824}, {'parame...",365728,47.508057,19.028067
4,5240,AR,Buenos Aires,[Buenos Aires],LA BOCA,[LA BOCA],Buenos Aires,[Buenos Aires],government,[government],2017-08-10 23:00:00+00:00,2022-04-20 05:00:00+00:00,"[pm10, co, no2]","[{'parameter': 'pm10', 'count': 15315}, {'para...",45954,-34.625270,-58.365550
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,146,GB,London,"[London, Southwark]",Southwark A2 Old Kent Road,"[Southwark - A2 Old Kent Road, Southwark A2 Ol...",DEFRA,"[DEFRA, Greater London, London Air Quality Net...",government,[government],2015-08-12 18:00:00+00:00,2022-04-20 04:00:00+00:00,"[pm25, pm10, no2]","[{'parameter': 'pm25', 'count': 17700}, {'para...",211994,51.480499,-0.059550
96,148,GB,Camden,"[Camden, London]",Camden - Bloomsbury,"[Camden - Bloomsbury, London Bloomsbury]",London Air Quality Network,"[DEFRA, Greater London, London Air Quality Net...",government,[government],2015-08-12 17:00:00+00:00,2022-04-20 04:00:00+00:00,"[o3, pm10, no2, pm25, so2]","[{'parameter': 'o3', 'count': 112807}, {'param...",546502,51.522287,-0.125848
97,149,GB,Ealing,"[Ealing, London]",Ealing - Horn Lane TEOM,"[Ealing - Horn Lane, Ealing Horn Lane, Ealing ...",London Air Quality Network,"[DEFRA, Greater London, London Air Quality Net...",government,[government],2015-08-12 18:00:00+00:00,2022-04-20 04:00:00+00:00,"[no2, pm10]","[{'parameter': 'no2', 'count': 22008}, {'param...",126710,51.518916,-0.265652
98,150,GB,London,[London],London Haringey Priory Park South,[London Haringey Priory Park South],DEFRA,"[DEFRA, Greater London]",government,[government],2015-08-12 18:00:00+00:00,2022-04-20 04:00:00+00:00,"[o3, no2]","[{'parameter': 'o3', 'count': 99409}, {'parame...",207387,51.584128,-0.125254


In [59]:
resp.to_csv("data/air_quality_stations.csv")
stations_coord = resp[["location", "coordinates.latitude", "coordinates.longitude"]]
stations_coord

Unnamed: 0,location,coordinates.latitude,coordinates.longitude
0,HU0022A,47.430836,19.184174
1,HU0042A,47.541944,19.146122
2,HU0036A,47.561943,18.960009
3,HU0041A,47.508057,19.028067
4,LA BOCA,-34.625270,-58.365550
...,...,...,...
95,Southwark A2 Old Kent Road,51.480499,-0.059550
96,Camden - Bloomsbury,51.522287,-0.125848
97,Ealing - Horn Lane TEOM,51.518916,-0.265652
98,London Haringey Priory Park South,51.584128,-0.125254


> Nota: Las estaciones utilizadas en este ejemplo (FR04014, BETR801 y London Westminster) son solo tres entradas registradas en la tabla de metadatos. Solo queremos agregar las coordenadas de estos tres a la tabla de medidas, cada uno en las filas correspondientes de la tabla air_quality.

In [60]:
air_quality_stations_coord = pd.merge(air_quality, stations_coord, how="left", on="location")
air_quality_stations_coord

Unnamed: 0,date.utc,location,parameter,value,coordinates.latitude,coordinates.longitude
0,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0,,
1,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,,
2,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5,,
3,2019-05-07 01:00:00+00:00,BETR801,no2,50.5,,
4,2019-05-07 01:00:00+00:00,London Westminster,pm25,8.0,,
...,...,...,...,...,...,...
3173,2019-06-20 22:00:00+00:00,FR04014,no2,26.5,,
3174,2019-06-20 23:00:00+00:00,London Westminster,pm25,7.0,,
3175,2019-06-20 23:00:00+00:00,FR04014,no2,21.8,,
3176,2019-06-21 00:00:00+00:00,London Westminster,pm25,7.0,,


> Nota: Con la función `merge()`, para cada una de las filas de la tabla `air_quality`, se agregan las coordenadas correspondientes de la tabla `stations_coord`. Ambas tablas tienen en común la ubicación de la columna que se utiliza como clave para combinar la información. Al elegir la combinación **Left**, solo las ubicaciones disponibles en la tabla `air_quality` (**Left**), es decir, FR04014, BETR801 y London Westminster, terminan en la tabla resultante. La función de combinación admite múltiples opciones de unión similares a las operaciones de estilo de base de datos.

### 2.2 Agregue la descripción completa y el nombre del parámetro, proporcionado por la tabla de metadatos de parámetros, a la tabla de mediciones

In [66]:
resp_1 = api.parameters(df=True)
resp_1.to_csv("data/air_quality_parameters.csv")
air_quality_parameters_name = resp_1[["id", "description", "name"]]
air_quality_parameters_name.head()

  data = pd.io.json.json_normalize(resp)


Unnamed: 0,id,description,name
0,1,Particulate matter less than 10 micrometers in...,pm10
1,2,Particulate matter less than 2.5 micrometers i...,pm25
2,3,Ozone mass concentration,o3
3,4,Carbon Monoxide mass concentration,co
4,5,Nitrogen Dioxide mass concentration,no2


In [69]:
air_quality_parameters_id = pd.merge(air_quality, air_quality_parameters_name, how='left', left_on='parameter', right_on='name')
air_quality_parameters_id.head()

Unnamed: 0,date.utc,location,parameter,value,id,description,name
0,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0,5,Nitrogen Dioxide mass concentration,no2
1,2019-05-07 01:00:00+00:00,London Westminster,no2,23.0,7,Nitrogen Dioxide concentration,no2
2,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,5,Nitrogen Dioxide mass concentration,no2
3,2019-05-07 01:00:00+00:00,FR04014,no2,25.0,7,Nitrogen Dioxide concentration,no2
4,2019-05-07 01:00:00+00:00,BETR801,pm25,12.5,2,Particulate matter less than 2.5 micrometers i...,pm25


*Observaciones*

En comparación con el ejemplo anterior, no hay un nombre de columna común. Sin embargo, la columna **parameter** en la tabla `air_quality` y la columna **name** en `air_quality_parameters_name` proporcionan la variable medida en un formato común. Los argumentos *left_on* y *right_on* se utilizan aquí (en lugar de solo on) para establecer el vínculo entre las dos tablas.

## RECORDAR

* Se pueden concatenar varias tablas tanto en columnas como en filas mediante la función `concat`.

* Para fusionar/unir tablas de forma similar a una base de datos, utilice la función de `merge`.