# Introducción
El objetivo es explorar la obtención de los datos del CKAN de Bizkaia. Ya que algunos datasets pueden ser farragosos de descargar. 

* Guía [API de Datos](https://www.opendatabizkaia.eus/es/info/api-de-datos)
* Guía [Parameteros API](https://www.opendatabizkaia.eus/es/info/api-de-datos-detalle#como-se-utiliza-la-API-para-hacer-consultas)

# Config


In [11]:
# Libraries
import requests
from bs4 import BeautifulSoup
import pandas as pd
from config import RAW_DATA_DIR
from ckan import fetch_catalog

In [13]:
API_URL = "https://www.opendatabizkaia.eus/api/3/action/current_package_list_with_resources"
BASE = "https://www.opendatabizkaia.eus"


In [None]:
https://www.opendatabizkaia.eus/es/catalogo?q=bizkaibus&page=&limit=15

# Load data

In [22]:
def search_bizkaibus_all():
    results = []
    page = 1

    while True:
        url = f"{BASE}/es/catalogo?q=bizkaibus&page={page}"
        html = requests.get(url).text
        soup = BeautifulSoup(html, "html.parser")

        # Seleccionamos resultados de la página actual
        items = soup.select("li.bloque-resultado")

        # Si no hay resultados → hemos llegado al final
        if not items:
            print(f"Página {page}: 0 resultados → FIN")
            break

        print(f"Página {page}: {len(items)} resultados")

        for li in items:
            # título y url
            a = li.select_one("h2 a")
            title = a.text.strip()
            dataset_url = BASE + a["href"]

            # descripción
            p_desc = li.select_one("p:not(.fuente):not(.actualizacion)")
            description = p_desc.text.strip() if p_desc else None

            # organización
            org = li.select_one("p.fuente")
            organization = org.text.strip() if org else None

            # fecha
            date = li.select_one("p.actualizacion")
            updated = (
                date.text.replace("Última modificación", "").strip()
                if date
                else None
            )

            # formatos disponibles
            formats = [fmt.text.strip() for fmt in li.select("ul.dataset-resources li")]

            results.append({
                "title": title,
                "dataset_url": dataset_url,
                "description": description,
                "organization": organization,
                "last_update": updated,
                "formats": formats
            })

        page += 1

    return pd.DataFrame(results)


df = search_bizkaibus_all()
df


Página 1: 5 resultados
Página 2: 5 resultados
Página 3: 5 resultados
Página 4: 5 resultados
Página 5: 5 resultados
Página 6: 5 resultados
Página 7: 5 resultados
Página 8: 5 resultados
Página 9: 5 resultados
Página 10: 5 resultados
Página 11: 5 resultados
Página 12: 5 resultados
Página 13: 5 resultados
Página 14: 5 resultados
Página 15: 5 resultados
Página 16: 5 resultados
Página 17: 5 resultados
Página 18: 5 resultados
Página 19: 5 resultados
Página 20: 5 resultados
Página 21: 5 resultados
Página 22: 5 resultados
Página 23: 5 resultados
Página 24: 5 resultados
Página 25: 5 resultados
Página 26: 5 resultados
Página 27: 5 resultados
Página 28: 5 resultados
Página 29: 5 resultados
Página 30: 5 resultados
Página 31: 5 resultados
Página 32: 5 resultados
Página 33: 5 resultados
Página 34: 5 resultados
Página 35: 5 resultados
Página 36: 5 resultados
Página 37: 5 resultados
Página 38: 5 resultados
Página 39: 5 resultados
Página 40: 5 resultados
Página 41: 5 resultados
Página 42: 5 resultados
P

Unnamed: 0,title,dataset_url,description,organization,last_update,formats
0,Bizkaibus - Expediciones y Refuerzos,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Diputación Foral de Bizkaia,25 octubre 2025,"[CSV, XML, JSON, TSV, XLSX]"
1,Bizkaibus - Expediciones y Refuerzos - Usansolo,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Usansolo,25 octubre 2025,"[CSV, XML, JSON, TSV, XLSX]"
2,Bizkaibus - Expediciones y Refuerzos - Ziortza...,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Ziortza-Bolibar,25 octubre 2025,"[CSV, XML, JSON, TSV, XLSX]"
3,Bizkaibus - Expediciones y Refuerzos - Arratzu,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Arratzu,25 octubre 2025,"[CSV, XML, JSON, TSV, XLSX]"
4,Bizkaibus - Expediciones y Refuerzos - Zierbena,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Zierbena,25 octubre 2025,"[CSV, XML, JSON, TSV, XLSX]"
...,...,...,...,...,...,...
222,BizkaiBus - Ubide,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Ubide,15 mayo 2021,[XML]
223,BizkaiBus - Berango,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Berango,15 mayo 2021,[XML]
224,BizkaiBus - Arratzu,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Arratzu,15 mayo 2021,[XML]
225,BizkaiBus - Berango,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Berango,15 mayo 2021,[XML]


# Data management (Code)

## Parse title

In [55]:
def parse_title(title):
    parts = [p.strip() for p in title.split(" - ")]

    main = parts[0] if len(parts) > 0 else None
    if main =="Bizkaibus":
        dtype = parts[1] if len(parts) > 1 else None
        scope = parts[2] if len(parts) > 2 else None  # may be municipality, line, area
    elif main =="BizkaiBus":
        dtype = None
        scope = parts[1] if len(parts) > 1 else None
    else:
        dtype = parts[1] if len(parts) > 1 else None
        scope = parts[2] if len(parts) > 2 else None        

    return pd.Series({
        "main_category": main,
        "dataset_type": dtype,
        "scope": scope
    })

#Parse title
df_parsed = df["title"].apply(parse_title)
#Add scope
df_parsed['granularity'] = df_parsed['scope'].apply(lambda x: 'global' if pd.isna(x) else 'local')
#Join back
df_full = df.join(df_parsed)

df_full.head()

Unnamed: 0,title,dataset_url,description,organization,last_update,formats,main_category,dataset_type,scope,granularity
0,Bizkaibus - Expediciones y Refuerzos,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Diputación Foral de Bizkaia,25 octubre 2025,"[CSV, XML, JSON, TSV, XLSX]",Bizkaibus,Expediciones y Refuerzos,,global
1,Bizkaibus - Expediciones y Refuerzos - Usansolo,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Usansolo,25 octubre 2025,"[CSV, XML, JSON, TSV, XLSX]",Bizkaibus,Expediciones y Refuerzos,Usansolo,local
2,Bizkaibus - Expediciones y Refuerzos - Ziortza...,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Ziortza-Bolibar,25 octubre 2025,"[CSV, XML, JSON, TSV, XLSX]",Bizkaibus,Expediciones y Refuerzos,Ziortza-Bolibar,local
3,Bizkaibus - Expediciones y Refuerzos - Arratzu,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Arratzu,25 octubre 2025,"[CSV, XML, JSON, TSV, XLSX]",Bizkaibus,Expediciones y Refuerzos,Arratzu,local
4,Bizkaibus - Expediciones y Refuerzos - Zierbena,https://www.opendatabizkaia.eus/es/catalogo/bi...,Transporte,Ayuntamiento de Zierbena,25 octubre 2025,"[CSV, XML, JSON, TSV, XLSX]",Bizkaibus,Expediciones y Refuerzos,Zierbena,local


In [None]:
explore = df_full[df_full["main_category"]=='BizkaiBus']
explore["last_update"].value_counts()

last_update
25 octubre 2025    113
Name: count, dtype: int64

In [58]:
# Queries
global_datasets = df_full[df_full["granularity"]=="global"]
global_datasets["dataset_url"].to_csv("here.csv")

# Plots

In [3]:
# Plots and visualizations

# Save results

In [5]:
#Save results and figures