****
# **PROYECTO REFOMAD:**
##### SCRIPT PARA SUBIR EL CONJUNTO DE DATOS A ZENODO
****

Este script se utiliza para subir al repositorio Zenodo el conjunto de datos generado para el proyecto REFOMAD. Para ello, se hace uso de la nueva REST API de Zenodo (más información en https://developers.zenodo.org/).

In [1]:
import requests # para hacer peticiones HTTP
import json # para transformar JSON en diccionarios de Python

En primer lugar, definimos algunas variables que van a ser de utilidad a la hora de llamar a la REST API de Zenodo.

In [2]:
access_token = access_token = 'sz3OL7ZjAfXDk36WCtoi59y03VMBRGRfnsiUfPY7kbWPd6E0SUWQBporBira' # token personal para acceder a la API de Zenodo

metadata = {
    'metadata': {
        
        'title': 'Renta media por persona y nivel de formación en los 21 distritos del Ayuntamiento de Madrid (2016-2019)',

        'upload_type': 'dataset',

        'description': """ Este conjunto de datos ha sido utilizado en el proyecto REFOMAD. Incluye información sobre la renta media
                           por persona, el nivel de formación educativa de los residentes mayores de 25 años y el número de centros educativos
                           en cada uno de los 21 distritos del Ayuntamiento de Madrid durante los años 2016-2019. El nivel de formación tiene 6
                           niveles: no sabe leer ni escribir, bachiller elemental, formación profesional, titulados medios, estudios universitarios
                           y nivel de estudios no consta. Los centros educativos se clasifican también en 6 niveles: escuelas infantiles municipales,
                           escuelas infantiles públicas de la Comunidad Autónoma de Madrid, escuelas infantiles privadas, colegios públicos infantil/primaria,
                           institutos públicos de educación secundaria y colegios privados infantil/primaria. Los datos de renta fueron proporcionados
                           por el INE, los datos sobre la formación fueron obtenidos mediante encuestas propias realizadas por el equipo REFOMAD y los
                           datos de los centros educativos fueron solicitados al portal de datos abiertos del Ayuntamiento de Madrid. Los datos están
                           en formato XLSX y tienen un tamaño de 17 kB. Los datos fueron prepreocesados y curados utilizando herramientas de software
                           libre como NumPy y pandas en Python versión 3.10.6.             
                        """ ,

        'creators': [{'name': 'Sergio Bolívar Gómez', 'affiliation': 'Universidad de Cantabria'},
                     {'name': 'Juan José Velasco Horcajada', 'affiliation': 'Universidad de Cantabria'},
                     {'name': 'María Peña Fernández', 'affiliation': 'Universidad de Cantabria'},
                     {'name': 'Samuel Laso Saro', 'affiliation': 'Universidad de Cantabria'},
                     {'name': 'Ignacio de la Torre Cubillo', 'affiliation': 'Universidad Internacional Menénedez Pelayo'},
                     {'name': 'Mónica Alcantar Martínez', 'affiliation': 'Universidad de Cantabria'}],

        'version': '1.0.0',

        'language': 'spa',

        'access_right': 'open',

        'license': 'cc-by',

        'keywords': ["renta", "formación", "educación", "Madrid", "distrito", "datos", "análisis de datos", "política", "nivel de estudios", "estudios universitarios",
                     "bachillerato", "formación profesional", "ESO", "titulados medios", "escuelas infantiles", "colegios", "institutos", "colegios privados"],

        'locations': [{"lat": 40.4168, "lon": -3.7038, "place": "Centro"}, 
                      {"lat": 40.3964, "lon": -3.6922, "place": "Arganzuela"}, 
                      {"lat": 40.3719, "lon": -3.7167, "place": "Retiro"}, 
                      {"lat": 40.3818, "lon": -3.6167, "place": "Salamanca"},
                      {"lat": 40.4096, "lon": -3.6743, "place": "Chamartín"},
                      {"lat": 40.4313, "lon": -3.6856, "place": "Tetuán"},
                      {"lat": 40.4531, "lon": -3.6944, "place": "Chamberí"},
                      {"lat": 40.4168, "lon": -3.7167, "place": "Ciudad Lineal"},
                      {"lat": 40.4148, "lon": -3.7236, "place": "Fuencarral-El Pardo"},
                      {"lat": 40.5497, "lon": -3.6471, "place": "Moncloa-Aravaca"},
                      {"lat": 40.4386, "lon": -3.7245, "place": "Latina"},
                      {"lat": 40.3969, "lon": -3.6169, "place": "Carabanchel"},
                      {"lat": 40.3573, "lon": -3.7813, "place": "Usera"},
                      {"lat": 40.3538, "lon": -3.7155, "place": "Villaverde"},
                      {"lat": 40.3095, "lon": -3.7339, "place": "Villa de Vallecas"},
                      {"lat": 40.3322, "lon": -3.8667, "place": "Vicálvaro"},
                      {"lat": 40.3831, "lon": -3.5667, "place": "San Blas-Canillejas"},
                      {"lat": 40.4667, "lon": -3.5667, "place": "Barajas"},
                      {"lat": 40.3742, "lon": -3.8567, "place": "Hortaleza"},
                      {"lat": 40.4313, "lon": -3.7567, "place": "Moratalaz"},
                      {"lat": 40.4457, "lon": -3.6285, "place": "Puente de Vallecas"}],
                      
        'contributors': [{'name': 'Sergio Bolívar Gómez', 'affiliation': 'Proyecto REFOMAD', 'type': 'DataManager'},
                        {'name': 'Juan José Velasco Horcajada', 'affiliation': 'Proyecto REFOMAD', 'type': 'DataCurator'},
                        {'name': 'María Peña Fernández', 'affiliation': 'Proyecto REFOMAD', 'type': 'ProjectManager'},
                        {'name': 'Samuel Laso Saro', 'affiliation': 'Proyecto REFOMAD', 'type': 'ProjectMember'},
                        {'name': 'Ignacio de la Torre Cubillo', 'affiliation': 'Proyecto REFOMAD', 'type': 'ProjectMember'},
                        {'name': 'Mónica Alcantar Martínez', 'affiliation': 'Proyecto REFOMAD', 'type': 'ProjectMember'},
                        {'name': 'Datos Abiertos del INE', 'affiliation': 'INE', 'type': 'DataCollector'},
                        {'name': 'Portal de Datos Abiertos del Ayuntamiento de Madrid', 'affiliation': 'Ayuntamiento de Madrid', 'type': 'DataCollector'}],
    }
}

headers = {"Content-Type": "application/json"} # cabecera para la llamada a la API

params = {'access_token': access_token} # parámetros para la llamada a la API (sirve para autentificación)

filename = "refomad-data.xlsx" # archivo que se quiere depositar en el repositorio

path = "data/%s" % filename # ruta hasta el archivo anterior (la carpeta 'data' tiene que estar en el directorio de trabajo)

A continuación, hacemos un POST en la API de Zenodo para subir los metadatos.

In [3]:
response = requests.post('https://zenodo.org/api/deposit/depositions', params=params, json=metadata, headers=headers) # petición POST a la API

if response.status_code == 201:
    data = json.loads(response.text)
    deposition_id = data['id'] # número de depósito
    print(f'Los metadatos se han depositado correctamente en el repositorio de Zenodo. El ID del depósito es: {deposition_id}')

bucket_url = response.json()["links"]["bucket"]

Los metadatos se han depositado correctamente en el repositorio de Zenodo. El ID del depósito es: 7542519


Una vez subidos lo metadatos, subimos el fichero que contiene el dataset. Para ello, hacemos un PUT al bucket link (ver documentación de la nueva API: https://developers.zenodo.org/#quickstart-upload).

In [4]:
with open(path, "rb") as fp:
    response = requests.put("%s/%s" % (bucket_url, filename), data=fp, params=params,) # petición PUT al bucket link (según instrucciones de la nueva API)

    if response.status_code == 200:
        print(f'El dataset se ha depositado correctamente en el repositorio de Zenodo. El ID del depósito es: {deposition_id}')  

El dataset se ha depositado correctamente en el repositorio de Zenodo. El ID del depósito es: 7542519


Finalmente, hacemos un POST para publicar el recurso y hacer que sea visible.

In [6]:
response = requests.post('https://zenodo.org/api/deposit/depositions/%s/actions/publish' % deposition_id, params={'access_token': access_token})

if response.status_code == 202:
    data = json.loads(response.text)
    doi_url = data['doi_url'] # DOI del repositorio
    print(f'El recurso se ha publicado correctamente en Zenodo. El DOI con el que se ha registrado es: {doi_url}')

El recurso se ha publicado correctamente en Zenodo. El DOI con el que se ha registrado es: https://doi.org/10.5281/zenodo.7542519
