In [1]:
import requests
import os
import json

# URL de la API
url = "https://datos.gob.es/apidata/catalog/dataset/a10002983-mediciones-por-horas-de-contaminantes-atmosfericos-y-ozono-de-la-comunitat-valenciana-2020?_sort=title&_pageSize=10&_page=0"

# Carpeta donde se descargarán los CSV
download_folder = "csv_downloads"

# Asegúrate de que la carpeta exista o créala
if not os.path.exists(download_folder):
    os.makedirs(download_folder)

# Función para descargar un archivo CSV
def download_csv(csv_url, filename):
    try:
        response = requests.get(csv_url)
        response.raise_for_status()  # Lanza un error si la respuesta tiene un estado diferente a 200
        file_path = os.path.join(download_folder, filename)
        with open(file_path, 'wb') as file:
            file.write(response.content)
        print(f"Archivo descargado: {filename}")
    except requests.exceptions.RequestException as e:
        print(f"Error al descargar el archivo {filename}: {e}")

# Función para obtener y filtrar los archivos CSV
def get_csv_from_api(api_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        response = requests.get(api_url, headers=headers)
        response.raise_for_status()  # Lanza un error si la respuesta tiene un estado diferente a 200
        
        # Imprime la respuesta completa para verificar el contenido de manera legible
        print("Respuesta completa de la API:")
        print(json.dumps(response.json(), indent=4))  # Formatea y imprime la respuesta JSON
        
        data = response.json()  # Asume que la respuesta es JSON
        # Obtenemos el enlace para los recursos completos
        resources_url = data.get("result", {}).get("_about", "")
        
        if not resources_url:
            print("No se encontró la URL de los recursos.")
            return
        
        # Hacemos una solicitud a la URL de los recursos para obtener los detalles
        resources_response = requests.get(resources_url, headers=headers)
        resources_response.raise_for_status()  # Lanza un error si la respuesta tiene un estado diferente a 200
        resources_data = resources_response.json()
        
        # Imprimir la respuesta completa para entender su estructura
        print("Respuesta completa de los recursos:")
        print(json.dumps(resources_data, indent=4))  # Formatea y imprime la respuesta de los recursos
        
        if not resources_data.get("result", {}).get("items"):
            print("No se encontraron archivos en los recursos.")
            return
        
        # Filtramos los enlaces a los archivos CSV
        csv_urls = []
        for item in resources_data.get("result", {}).get("items", []):
            for resource in item.get("resources", []):
                if "accessURL" in resource and resource["accessURL"].endswith(".csv"):
                    csv_url = resource["accessURL"]
                    # Almacenamos la URL del CSV
                    csv_urls.append(csv_url)
                    # Imprime la URL del CSV
                    print(f"URL del CSV encontrado: {csv_url}")
        
        # Descargar los archivos CSV encontrados
        for csv_url in csv_urls:
            filename = csv_url.split("/")[-1]  # Extrae el nombre del archivo
            print(f"Intentando descargar el archivo: {filename}")
            download_csv(csv_url, filename)
    
    except requests.exceptions.RequestException as e:
        print(f"Error al obtener los datos de la API: {e}")

# Ejecutamos la función
get_csv_from_api(url)


Respuesta completa de la API:
{
    "format": "linked-data-api",
    "version": "0.2",
    "result": {
        "_about": "http://datos.gob.es/apidata/catalog/dataset/a10002983-mediciones-por-horas-de-contaminantes-atmosfericos-y-ozono-de-la-comunitat-valenciana-2020.json?_pageSize=10&_page=0&_sort=title",
        "definition": "http://datos.gob.es/apidata/catalog/meta/dataset/_id.json?_sort=title",
        "extendedMetadataVersion": "http://datos.gob.es/apidata/catalog/dataset/a10002983-mediciones-por-horas-de-contaminantes-atmosfericos-y-ozono-de-la-comunitat-valenciana-2020.json?_pageSize=10&_page=0&_metadata=all&_sort=title",
        "first": "http://datos.gob.es/apidata/catalog/dataset/a10002983-mediciones-por-horas-de-contaminantes-atmosfericos-y-ozono-de-la-comunitat-valenciana-2020.json?_page=0&_sort=title",
        "isPartOf": {
            "_about": "http://datos.gob.es/apidata/catalog/dataset/a10002983-mediciones-por-horas-de-contaminantes-atmosfericos-y-ozono-de-la-comunitat

In [2]:
import requests
import json

# URL de la API
url = "https://datos.gob.es/apidata/catalog/dataset/a10002983-mediciones-por-horas-de-contaminantes-atmosfericos-y-ozono-de-la-comunitat-valenciana-2020?_sort=title&_pageSize=10&_page=0"

# Función para obtener el contenido de la URL principal
def get_data_from_api(api_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        response = requests.get(api_url, headers=headers)
        response.raise_for_status()  # Lanza un error si la respuesta tiene un estado diferente a 200
        
        # Obtener los datos en formato JSON
        data = response.json()  # Asume que la respuesta es JSON
        
        # Imprimir el contenido completo de la respuesta para depuración
        print("Contenido completo de la respuesta de la API:")
        print(json.dumps(data, indent=4))  # Formatea la respuesta para hacerla legible
    
    except requests.exceptions.RequestException as e:
        print(f"Error al obtener los datos de la API: {e}")

# Ejecutamos la función
get_data_from_api(url)


KeyboardInterrupt: 

In [44]:
import requests
import json

# URL de la API
url = "https://datos.gob.es/apidata/catalog/dataset/a10002983-mediciones-por-horas-de-contaminantes-atmosfericos-y-ozono-de-la-comunitat-valenciana-2020?_sort=title&_pageSize=10&_page=0"

# Función para obtener el contenido de la URL y buscar las URLs de archivos CSV
def get_and_find_csv(api_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        response = requests.get(api_url, headers=headers)
        response.raise_for_status()  # Lanza un error si la respuesta tiene un estado diferente a 200
        
        # Obtener los datos en formato JSON
        data = response.json()  # Asume que la respuesta es JSON
        
        # Imprimir el contenido completo de la respuesta para depuración (esto se puede desactivar después)
        # print("Contenido completo de la respuesta de la API:")
        # print(json.dumps(data, indent=4))  # Formatea la respuesta para hacerla legible
        
        # Recorremos todo el contenido de la respuesta buscando las URLs que terminan en .csv
        def find_csv_urls(d):
            if isinstance(d, dict):
                for key, value in d.items():
                    find_csv_urls(value)
            elif isinstance(d, list):
                for item in d:
                    find_csv_urls(item)
            elif isinstance(d, str):
                if d.endswith(".csv"):
                    print(f"URL de archivo CSV encontrado: {d}")
        
        # Llamamos a la función para recorrer el contenido
        find_csv_urls(data)
    
    except requests.exceptions.RequestException as e:
        print(f"Error al obtener los datos de la API: {e}")

# Ejecutamos la función
get_and_find_csv(url)


URL de archivo CSV encontrado: https://dadesobertes.gva.es/dataset/494e0d3b-9334-4424-b5e7-e14825717779/resource/3513f085-9b3c-484e-9e0a-558d4a76ea9e/download/contaminacion-atmosferica-y-ozono-promedios-por-horas_202002.csv
URL de archivo CSV encontrado: https://dadesobertes.gva.es/dataset/494e0d3b-9334-4424-b5e7-e14825717779/resource/efb34fd8-6e68-4d52-8f4c-421d91f59158/download/contaminacion-atmosferica-y-ozono-promedios-por-horas_202005.csv
URL de archivo CSV encontrado: https://dadesobertes.gva.es/dataset/494e0d3b-9334-4424-b5e7-e14825717779/resource/d9c061fb-0e7e-4f26-8c6d-cb7eaafd5d5d/download/contaminacion-atmosferica-y-ozono-promedios-por-horas_202004.csv
URL de archivo CSV encontrado: https://dadesobertes.gva.es/dataset/494e0d3b-9334-4424-b5e7-e14825717779/resource/69dc4369-2abd-4694-b6b5-792c9ff42095/download/contaminacion-atmosferica-y-ozono-promedios-por-horas_202010.csv
URL de archivo CSV encontrado: https://dadesobertes.gva.es/dataset/494e0d3b-9334-4424-b5e7-e14825717779/

In [3]:
import requests
import os
import json

# Función para generar las URLs de cada año
def generate_urls():
    base_url = "https://datos.gob.es/apidata/catalog/dataset/a10002983-mediciones-por-horas-de-contaminantes-atmosfericos-y-ozono-de-la-comunitat-valenciana-"
    urls = []
    for year in range(2023, 2025):  # Recorrer de 1994 a 2024
        url = f"{base_url}{year}?_sort=title&_pageSize=10&_page=0"
        urls.append(url)
    return urls

# Función para obtener el año desde la URL principal
def get_year_from_url(api_url):
    # Extraemos el año de la URL (suponiendo que el año es siempre el número en la URL)
    year = api_url.split('-')[-1][:4]
    return year

# Función para obtener el contenido de la URL y descargar los archivos CSV
def get_and_download_csv(api_url, year):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }
    
    try:
        response = requests.get(api_url, headers=headers)
        response.raise_for_status()  # Lanza un error si la respuesta tiene un estado diferente a 200
        
        # Obtener los datos en formato JSON
        data = response.json()  # Asume que la respuesta es JSON
        
        # Definir la carpeta de descarga según el año
        download_folder = f"{year}_csv_files"
        
        # Asegurarse de que la carpeta exista, si no, crearla
        if not os.path.exists(download_folder):
            os.makedirs(download_folder)
        
        # Recorremos todo el contenido de la respuesta buscando las URLs que terminan en .csv
        def find_and_download_csv_urls(d):
            if isinstance(d, dict):
                for key, value in d.items():
                    find_and_download_csv_urls(value)
            elif isinstance(d, list):
                for item in d:
                    find_and_download_csv_urls(item)
            elif isinstance(d, str):
                if d.endswith(".csv"):
                    print(f"URL de archivo CSV encontrado: {d}")
                    download_csv(d, download_folder)
        
        # Llamamos a la función para recorrer el contenido
        find_and_download_csv_urls(data)
    
    except requests.exceptions.RequestException as e:
        print(f"Error al obtener los datos de la API: {e}")

# Función para descargar el archivo CSV
def download_csv(csv_url, download_folder):
    try:
        # Hacemos una solicitud GET para descargar el archivo CSV
        response = requests.get(csv_url, stream=True)
        response.raise_for_status()  # Lanza un error si la respuesta tiene un estado diferente a 200
        
        # Extraemos el nombre del archivo de la URL
        filename = csv_url.split("/")[-1]
        file_path = os.path.join(download_folder, filename)
        
        # Guardamos el archivo CSV
        with open(file_path, 'wb') as file:
            for chunk in response.iter_content(chunk_size=8192):
                file.write(chunk)
        
        print(f"Archivo CSV descargado: {filename} en la carpeta {download_folder}")
    
    except requests.exceptions.RequestException as e:
        print(f"Error al descargar el archivo CSV desde {csv_url}: {e}")

# Recorremos todas las URLs desde 1994 a 2024
def process_all_years():
    # Generar todas las URLs
    urls = generate_urls()
    
    # Procesamos cada URL
    for url in urls:
        year = get_year_from_url(url)
        print(f"Procesando datos para el año {year}...")
        get_and_download_csv(url, year)

# Ejecutamos el procesamiento para todas las URLs de 1994 a 2024
process_all_years()


Procesando datos para el año 2023...
URL de archivo CSV encontrado: https://dadesobertes.gva.es/dataset/cc91c6e4-cd97-4688-9663-b17f3db58f99/resource/019f8859-d0bb-4116-a1bb-eb7bae919f2e/download/contaminacion-atmosferica-y-ozono-promedios-por-horas_202312.csv
Archivo CSV descargado: contaminacion-atmosferica-y-ozono-promedios-por-horas_202312.csv en la carpeta 2023_csv_files
URL de archivo CSV encontrado: https://dadesobertes.gva.es/dataset/cc91c6e4-cd97-4688-9663-b17f3db58f99/resource/0c1d9611-54d4-462c-a68c-6136871e71bb/download/contaminacion-atmosferica-y-ozono-promedios-por-horas_202301.csv
Archivo CSV descargado: contaminacion-atmosferica-y-ozono-promedios-por-horas_202301.csv en la carpeta 2023_csv_files
URL de archivo CSV encontrado: https://dadesobertes.gva.es/dataset/cc91c6e4-cd97-4688-9663-b17f3db58f99/resource/7d7ba9dd-8f71-4282-9e71-6dcc3aa4c121/download/contaminacion-atmosferica-y-ozono-promedios-por-horas_202311.csv
Archivo CSV descargado: contaminacion-atmosferica-y-ozo