# Código para extraer identificadores de los datasets

### Barcelona

In [1]:
import requests
import json

- 1. Comenzamos por el dataset de *Calidad del Aire* de Barcelona, que se trata del dataset correspondiente al mes de Noviembre de 2018.

In [2]:
urlConsulta = "http://opendata-ajuntament.barcelona.cat/data/api/3/action/package_search?q=Aire"
consulta = requests.get(urlConsulta)
consulta

<Response [200]>

Lo cargamos como `json`:

In [3]:
datasetsAire = json.loads(consulta.text)

Consultamos un poco qué y cómo es:

In [4]:
type(datasetsAire)

dict

In [5]:
for key in datasetsAire:
    print(key)

help
success
result


In [6]:
type(datasetsAire["result"])

dict

In [7]:
for key in datasetsAire["result"]:
    print(key)

count
sort
facets
results
search_facets


In [8]:
type(datasetsAire["result"]["results"])

list

In [9]:
for item in datasetsAire["result"]["results"]:
    print(type(item))

<class 'dict'>
<class 'dict'>


Parece que los datasets relacionados con la *palabra clave* **Aire** están almacenados en listas dentro de un diccionario bajo las claves `result`, `results`. Ahora en estos buscamos el que tenga que ver con la calidad del aire de Barcelona.

Comenzamos por buscar por el título, si es posible. Para ello buscamos en los `metadatos` del datasets.

In [10]:
for key in datasetsAire["result"]["results"][0]:
    print(key)

notes_translated
geolocation
code
url_tornada
dataset_fields_description
fuente
private
num_tags
api
frequency
update_string
id
title_translated
metadata_modified
author
author_email
isopen
state
version
observations
relationships_as_object
department
creator_user_id
type
resources
num_resources
tags
fecha_publicacion
load_type
groups
license_id
relationships_as_subject
license_title
organization
name
url
notes
owner_org
tag
license_url
historical
title
revision_id
date_deactivation_informed
extras


In [11]:
for key in datasetsAire["result"]["results"][0]["title_translated"]:
    print(key)

ca
en
es


Parece que el título, en español, se encuentra en el diccionario bajo las `keys`: `title_transalted`, `es`. 

Pasamos a mirar cuál de los dos es el que nos interesa y obtenemos su `id`.

In [12]:
for i, item in enumerate(datasetsAire["result"]["results"]):
    if item["title_translated"]["es"] == "Calidad del aire de la ciudad de Barcelona":
        print(i)

1


In [13]:
datasetCalidadBcn = datasetsAire["result"]["results"][1]
datasetCalidadBcn["id"]

'0582a266-ea06-4cc5-a219-913b22484e40'

Tenemos ya el *id* de los recursos sobre la calidad del aire de Barcelona. Ahora estamos interesados en buscar el *id* correspondiente con el mes de Noviembre de $2018$.

In [14]:
for key in datasetCalidadBcn["resources"][0]:
    print(key)

cache_last_updated
package_id
datastore_active
id
size
state
api_access_number
api_access_number_absolute
hash
description
format
downloads
mimetype_inner
url_type
file_volum
mimetype
cache_url
name
created
url
downloads_absolute
map_visualization_res
qa
last_modified
position
revision_id
resource_type


In [15]:
for i, item in enumerate(datasetCalidadBcn["resources"]):
    print(i, item["name"])

0 qualitataire.xml
1 2018_06_Juny_qualitat_aire_BCN.csv
2 2018_06_Juny_qualitat_aire_BCN.7z
3 2018_07_Juliol_qualitat_aire_BCN.csv
4 2018_07_Juliol_qualitat_aire_BCN.7z
5 2018_08_Agost_qualitat_aire_BCN.csv
6 2018_08_Agost_qualitat_aire_BCN.7z
7 2018_09_Setembre_qualitat_aire_BCN.csv
8 2018_09_Setembre_qualitat_aire_BCN.7z
9 2018_10_Octubre_qualitat_aire_BCN.csv
10 2018_10_Octubre_qualitat_aire_BCN.7z
11 2018_11_Novembre_qualitat_aire_BCN.csv
12 2018_11_Novembre_qualitat_aire_BCN.7z
13 2018_12_Desembre_qualitat_aire_BCN.csv
14 2018_12_Desembre_qualitat_aire_BCN.7z


In [16]:
datasetCalidadBcnNov = datasetCalidadBcn["resources"][11]
datasetCalidadBcnNov["id"]

'cc993126-fb6f-4a63-a460-a2ffdb2b6886'

Ya está.

Veamos ahora las estaciones de medición de calidad del aire. Puede que sea el otro dataset que nos ha devuelto al filtrar por la *palabra clave* `aire`. Comprobemos:

In [17]:
for key in datasetCalidadBcnNov:
    print(key, datasetCalidadBcnNov[key])

cache_last_updated None
package_id 0582a266-ea06-4cc5-a219-913b22484e40
datastore_active True
id cc993126-fb6f-4a63-a460-a2ffdb2b6886
size None
state active
api_access_number 1
api_access_number_absolute 1
hash 
description 
format CSV
downloads 22
mimetype_inner None
url_type upload
column_types 
file_volum 
mimetype None
cache_url None
name 2018_11_Novembre_qualitat_aire_BCN.csv
created 2018-12-07T13:34:56.722605
url http://opendata-ajuntament.barcelona.cat/data/dataset/0582a266-ea06-4cc5-a219-913b22484e40/resource/cc993126-fb6f-4a63-a460-a2ffdb2b6886/download/2018_11_novembre_qualitat_aire_bcn.csv
downloads_absolute 27
map_visualization_res none
qa {'updated': '2019-01-09T02:07:56.902204', 'openness_score': 3, 'archival_timestamp': None, 'format': u'CSV', 'created': '2018-12-08T02:08:15.727657', 'resource_timestamp': None, 'openness_score_reason': u'This file had not been downloaded at the time of scoring it. URL extension "csv" relates to format "CSV" and receives score: 3.'}
last_

In [18]:
datasetOtro = datasetsAire["result"]["results"][0]
type(datasetOtro)

dict

In [19]:
for key in datasetOtro:
    print(key, datasetOtro[key])

notes_translated {'ca': "Llista de les estacions de mesura de la qualitat de l'aire de la ciutat de Barcelona. Es detallen les característiques principals de cada una d'elles.", 'en': 'Air quality measure stations of the city of Barcelona. Main characteristics of each one are detailed.', 'es': 'Lista de las estaciones de medida de la calidad del aire de la ciudad de Barcelona. Se detallan las características principales de cada una de ellas.'}
geolocation Yes_with_map_view
code qualitat_aire_estacions_BCN
url_tornada {'ca': 'http://mediambient.gencat.cat/ca/05_ambits_dactuacio/atmosfera/qualitat_de_laire/    ', 'en': 'http://mediambient.gencat.cat/es/05_ambits_dactuacio/atmosfera/qualitat_de_laire/index.html', 'es': 'http://mediambient.gencat.cat/es/05_ambits_dactuacio/atmosfera/qualitat_de_laire/index.html'}
dataset_fields_description 
fuente Direcció General de Qualitat Ambiental i Canvi Climàtic de la Generalitat de Catalunya
private False
num_tags 7
api Yes
frequency PETICIO_NEGOCI

In [20]:
datasetOtro["title_translated"]["es"]

'Estaciones de medida de la calidad del aire de la ciudad de Barcelona'

Efectivamente, se trata del portal del dataset con las estaciones de calidad del aire. Obtenemos su identificador.

In [21]:
datasetOtro["id"]

'4dff88b1-151b-48db-91c2-45007cd5d07a'

In [22]:
for key in datasetOtro["resources"][0]:
    print(key)

cache_last_updated
package_id
datastore_active
id
size
state
api_access_number
api_access_number_absolute
hash
description
format
downloads
mimetype_inner
url_type
file_volum
mimetype
cache_url
name
created
url
downloads_absolute
map_visualization_res
qa
last_modified
position
revision_id
resource_type


In [23]:
for item in datasetOtro["resources"]:
    print(item["name"])

qualitat_aire_estacions_bcn.csv


Tenemos el dataset que buscábamos. Extraemos su `id`:

In [24]:
datasetOtro["resources"][0]["id"]

'6c33f60b-2f52-4954-a5e6-cf879890551c'

Ya está.

2. Continuamos con el dataset de *Tráfico/Estado de tŕansito* de Barcelona, que se trata del dataset correspondiente al mes de Noviembre de 2018:

Realizamos la consulta, lo cargamos como `json` y vemos si la estructura de la respuesta es igual a la anterior.

In [25]:
urlConsulta = "http://opendata-ajuntament.barcelona.cat/data/api/3/action/package_search?q=Tramos"
consulta = requests.get(urlConsulta)
consulta

<Response [200]>

In [26]:
datasetsTrafico = json.loads(consulta.text)

In [27]:
type(datasetsTrafico)

dict

In [28]:
for key in datasetsTrafico:
    print(key)

help
success
result


In [29]:
type(datasetsTrafico["result"])

dict

In [30]:
for key in datasetsTrafico["result"]:
    print(key)

count
sort
facets
results
search_facets


In [31]:
type(datasetsTrafico["result"]["results"])

list

En efecto, parece que es la misma estructura, se procede a hacer la misma búsqueda que antes, pero esta vez para los datos de *Tráfico* y *Sensores de tráfico*.

In [32]:
for item in datasetsTrafico["result"]["results"]:
    print(type(item))

<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>
<class 'dict'>


In [33]:
for key in datasetsTrafico["result"]["results"][0]:
    print(key)

notes_translated
geolocation
code
url_tornada
dataset_fields_description
fuente
private
num_tags
api
frequency
update_string
id
title_translated
metadata_modified
author
author_email
isopen
state
version
observations
relationships_as_object
department
creator_user_id
type
resources
num_resources
tags
fecha_publicacion
load_type
groups
license_id
relationships_as_subject
license_title
organization
name
url
notes
owner_org
tag
license_url
historical
title
revision_id
date_deactivation_informed
extras


Previamente el título, en español, se encontraba en el diccionario bajo las `keys`: `title_transalted`, `es`. 

Comenzamos buscando el dataset de tráfico y obtenemos su `id`.

In [34]:
for i, item in enumerate(datasetsTrafico["result"]["results"]):
    if item["title_translated"]["es"] == "Información del estado del tránsito en los tramos de la ciudad de Barcelona":
        print(i)

6


In [35]:
datasetTramosBcn = datasetsTrafico["result"]["results"][6]
datasetTramosBcn["id"]

'8319c2b1-4c21-4962-9acd-6db4c5ff1148'

Tenemos ya el *id* de los recursos sobre los tramos de tránsito de Barcelona. Ahora estamos interesados en buscar el *id* del *dataset* que corresponde con el mes de Noviembre de $2018$.


In [36]:
for i, item in enumerate(datasetTramosBcn["resources"]):
    print(i, item["name"])

0 TRAMS_TRAMS
1 2019_01_Gener_TRAMS_TRAMS
2 2018_01_Gener_TRAMS_TRAMS
3 2018_02_Febrer_TRAMS_TRAMS
4 2018_03_Marc_TRAMS_TRAMS
5 2018_04_Abril_TRAMS_TRAMS
6 2018_05_Maig_TRAMS_TRAMS
7 2018_06_Juny_TRAMS_TRAMS
8 2018_07_Juliol_TRAMS_TRAMS
9 2018_08_Agost_TRAMS_TRAMS
10 2018_09_Setembre_TRAMS_TRAMS
11 2018_10_Octubre_TRAMS_TRAMS
12 2018_11_Novembre_TRAMS_TRAMS
13 2018_12_Desembre_TRAMS_TRAMS
14 2017_10_Octubre_TRAMS_TRAMS
15 2017_11_Novembre_TRAMS_TRAMS
16 2017_12_Desembre_TRAMS_TRAMS


In [37]:
type(datasetTramosBcn["resources"][12])

dict

In [38]:
for key in datasetTramosBcn["resources"][12]:
    print(key)

cache_last_updated
package_id
datastore_active
id
api_access_number_absolute
state
api_access_number
size
hash
description
format
downloads
last_modified
url_type
mimetype
cache_url
name
created
url
downloads_absolute
qa
mimetype_inner
position
revision_id
resource_type


In [39]:
datasetTramosBcn["resources"][12]["id"]

'690ad8d0-c83e-45d4-b412-29feb45a6963'

El identificador del dataset correspondiente al tráfico en el mes de Noviembre del año $2018$ es: `690ad8d0-c83e-45d4-b412-29feb45a6963`.

Del mismo modo que para el aire observamos si en los demás recursos se encuentra el *dataset* con los sensores del tráfico.

In [40]:
for i, item in enumerate(datasetsTrafico["result"]["results"]):
    if item["title_translated"]["es"] == "Relación de tramos de la vía pública de la ciudad de Barcelona":
        print(i)

5


In [41]:
datasetEstTramosBcn = datasetsTrafico["result"]["results"][5]
datasetEstTramosBcn["id"]

'1090983a-1c40-4609-8620-14ad49aae3ab'

En efecto se encuentra y el identificador el portal es `1090983a-1c40-4609-8620-14ad49aae3ab`. Ahora estamos interesados en el identificador del *dataset*.

In [42]:
for i, item in enumerate(datasetEstTramosBcn["resources"]):
    print(i, item["name"])

0 TRANSIT_RELACIO_TRAMS.xls


In [43]:
print(datasetEstTramosBcn["resources"][0]["id"])

036bfde0-b73e-4cb9-93db-5785f032ab68


Ese identificador que buscábamos sobre el *dataset* de los sensores es `036bfde0-b73e-4cb9-93db-5785f032ab68`.

## Madrid

In [71]:
url = "https://datos.madrid.es/egob/catalogo/title/Tr%C3%A1fico.%20Hist%C3%B3rico%20de%20datos%20del%20tr%C3%A1fico%20desde%202013.json"
headers = {'Accept': 'application/json', "Accept-Charset":"utf-8", "User-Agent":"curl/7.61.0"}
respuesta = requests.get(url , headers=headers)
respuesta

<Response [200]>

In [72]:
datasetMadrid = json.loads(respuesta.text)
print(type(datasetMadrid))

<class 'dict'>


In [73]:
for key in datasetMadrid:
    print(key)

format
version
result


In [74]:
print(type(datasetMadrid["result"]))

<class 'dict'>


In [75]:
for key in datasetMadrid["result"]:
    print(key)

first
items
itemsPerPage
page
startIndex
total
type


In [76]:
type(datasetMadrid["result"]["items"])

list

In [77]:
for key in datasetMadrid["result"]["items"][0]:
    print(key)

_about
description
identifier
issued
modified
publisher
theme
title
keyword
distribution
type


In [78]:
print(datasetMadrid["result"]["items"][0]["identifier"])

https://datos.madrid.es/egob/catalogo/208627-0-transporte-ptomedida-historico


In [79]:
print(datasetMadrid["result"]["items"][0]["keyword"])

['Movilidad y Transportes', 'Circulación']


In [62]:
url = "https://datos.madrid.es/egob/catalogo/title/Calidad%20del%20aire.%20Datos%20diarios%20a%C3%B1os%202001%20a%202018.json"
respuesta = requests.get(url, headers=headers)
respuesta

<Response [200]>

In [63]:
aireMadrid = json.loads(respuesta.text)
print(type(aireMadrid))

<class 'dict'>


In [64]:
for key in aireMadrid:
    print(key)

format
version
result


In [65]:
type(aireMadrid["result"])

dict

In [66]:
for key in aireMadrid["result"]:
    print(key)

first
items
itemsPerPage
page
startIndex
total
type


In [67]:
len(aireMadrid["result"]["items"])

1

In [69]:
for key in aireMadrid["result"]["items"][0]:
    print(key)

_about
description
identifier
issued
modified
publisher
theme
title
keyword
distribution
type


In [70]:
print(aireMadrid["result"]["items"][0]["identifier"])

https://datos.madrid.es/egob/catalogo/201410-0-calidad-aire-diario


In [80]:
url = "https://datos.madrid.es/egob/catalogo/title/Tr%C3%A1fico.%20Ubicaci%C3%B3n%20de%20los%20puntos%20de%20medida%20del%20tr%C3%A1fico"
respuesta = requests.get(url, headers=headers)
respuesta

<Response [200]>

In [83]:
ubcMadrid = json.loads(respuesta.text)
print(type(ubcMadrid))

<class 'dict'>


In [84]:
for key in ubcMadrid:
    print(key)

format
version
result


In [85]:
print(type(ubcMadrid["result"]))

<class 'dict'>


In [86]:
for key in ubcMadrid["result"]:
    print(key)

first
items
itemsPerPage
page
startIndex
total
type


In [88]:
for key in ubcMadrid["result"]["items"][0]:
    print(key)

_about
description
identifier
issued
modified
publisher
theme
title
distribution
type


In [89]:
len(ubcMadrid["result"]["items"])

33

In [90]:
for i, item in enumerate(ubcMadrid["result"]["items"]):
    if item["title"] == "Tráfico. Ubicación de los puntos de medida del tráfico":
        print(i)

29


In [92]:
ubcMadridInteresa = ubcMadrid["result"]["items"][29]
print(ubcMadridInteresa["title"])
print(ubcMadridInteresa["identifier"])

Tráfico. Ubicación de los puntos de medida del tráfico
https://datos.madrid.es/egob/catalogo/202468-0-intensidad-trafico


In [93]:
url = "https://datos.madrid.es/egob/catalogo/title/Calidad%20del%20aire.%20Estaciones%20de%20control"
respuesta = requests.get(url, headers=headers)
respuesta

<Response [200]>

In [95]:
airUbcMadrid = json.loads(respuesta.text)
type(airUbcMadrid)

dict

In [96]:
for key in airUbcMadrid:
    print(key)

format
version
result


In [97]:
print(type(airUbcMadrid["result"]))

<class 'dict'>


In [98]:
for key in airUbcMadrid["result"]:
    print(key)

first
items
itemsPerPage
page
startIndex
total
type


In [99]:
print(len(airUbcMadrid["result"]["items"]))
for key in airUbcMadrid["result"]["items"][0]:
    print(key)

4
_about
description
identifier
issued
modified
publisher
theme
title
keyword
distribution
type


In [102]:
for i, item in enumerate(airUbcMadrid["result"]["items"]):
    if "Estaciones de control" in item["title"]:
        print(i)

3


In [103]:
print(airUbcMadrid["result"]["items"][3]["identifier"])

https://datos.madrid.es/egob/catalogo/212629-0-estaciones-control-aire
