In [1]:
import httpx
import polars as pl

In [2]:
INE_BASE_URL = "https://servicios.ine.es/wstempus/js/ES"

client = httpx.Client(
    base_url=INE_BASE_URL,
    limits=httpx.Limits(max_keepalive_connections=20),
    transport=httpx.HTTPTransport(retries=3),
)

In [3]:
def ine_request(client: httpx.Client, endpoint, paginate=True):
    page = 1
    data = []

    while True:
        params = {"det": 10}

        if paginate:
            params["page"] = page

        response = client.get(
            f"/{endpoint}", params=params, follow_redirects=True
        ).json()

        if not response:
            break

        data.extend(response)

        if len(response) < 500 or not paginate:
            break

        page += 1

    return data

In [4]:
# https://servicios.ine.es/wstempus/js/ES/OPERACIONES_DISPONIBLES

operaciones_disponibles = pl.DataFrame(ine_request(client, "OPERACIONES_DISPONIBLES"))
print(operaciones_disponibles.shape)
operaciones_disponibles.sample(5)

(108, 6)


Id,Cod_IOE,Nombre,Codigo,Referencia,Url
i64,str,str,str,list[struct[3]],str
44,"""30198""","""Encuesta sobre Comercio Intern…","""ICES""","[{89,""Encuesta de comercio internacional de servicios"",""/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736174702&idp=1254735576778""}]",
333,"""30456""","""Mujeres y Hombres en España""","""MYH""","[{159,""Mujeres y hombres en España"",""/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176984&idp=1254735576508""}]",
22,"""30245""","""Cifras Oficiales de Población …","""DPOP""","[{119,""Cifras oficiales de población de los municipios españoles: Revisión del Padrón Municipal"",""/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177011&idp=1254734710990""}]",
66,"""30463""","""Estadística de Nulidades, Sepa…","""ENSD""","[{166,""Estadística de nulidades, separaciones y divorcios"",""/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176798&idp=1254735573206""}]",
241,"""30238""","""Encuesta de Ocupación en Aloja…","""EOTR""","[{115,""Alojamientos de turismo rural: encuesta de ocupación e índice de precios"",""/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176963&idp=1254735576863""}]",


In [5]:
# https://servicios.ine.es/wstempus/js/ES/VARIABLES?det=10

variables = pl.DataFrame(ine_request(client, "VARIABLES"))
variables.sample(5)

Id,Nombre,Codigo
i64,str,str
101,"""Forma de organización del viaj…",""""""
233,"""Tiempo de trabajo""",""""""
615,"""Situación personal""",""""""
848,"""Distribución de la renta""",""""""
914,"""Certificación ecológica de las…",""""""


In [6]:
t = []

for row in operaciones_disponibles.rows(named=True):
    tablas_operacion_url = f"TABLAS_OPERACION/{row["Id"]}"
    tablas_operacion = ine_request(client, tablas_operacion_url)

    t.extend(tablas_operacion)

In [7]:
import os

os.makedirs("dataset", exist_ok=True)

tablas = pl.json_normalize(t)
print(tablas.shape)
tablas.write_ndjson("dataset/tablas.jsonl")
tablas.sample(5)

(4934, 50)


Id,Nombre,Codigo,Anyo_Periodo_ini,FechaRef_fin,Ultima_Modificacion,Periodicidad.Id,Periodicidad.Nombre,Periodicidad.Codigo,Publicacion.Id,Publicacion.Nombre,Publicacion.Periodicidad.Id,Publicacion.Periodicidad.Nombre,Publicacion.Periodicidad.Codigo,Publicacion.Operacion,Publicacion.PubFechaAct.Id,Publicacion.PubFechaAct.Nombre,Publicacion.PubFechaAct.Fecha,Publicacion.PubFechaAct.Periodo.Id,Publicacion.PubFechaAct.Periodo.Valor,Publicacion.PubFechaAct.Periodo.Periodicidad.Id,Publicacion.PubFechaAct.Periodo.Periodicidad.Nombre,Publicacion.PubFechaAct.Periodo.Periodicidad.Codigo,Publicacion.PubFechaAct.Periodo.Dia_inicio,Publicacion.PubFechaAct.Periodo.Mes_inicio,Publicacion.PubFechaAct.Periodo.Codigo,Publicacion.PubFechaAct.Periodo.Nombre,Publicacion.PubFechaAct.Periodo.Nombre_largo,Publicacion.PubFechaAct.Anyo,Periodo_ini.Id,Periodo_ini.Valor,Periodo_ini.Periodicidad.Id,Periodo_ini.Periodicidad.Nombre,Periodo_ini.Periodicidad.Codigo,Periodo_ini.Dia_inicio,Periodo_ini.Mes_inicio,Periodo_ini.Codigo,Periodo_ini.Nombre,Periodo_ini.Nombre_largo,Anyo_Periodo_fin,Periodo_fin.Id,Periodo_fin.Valor,Periodo_fin.Periodicidad.Id,Periodo_fin.Periodicidad.Nombre,Periodo_fin.Periodicidad.Codigo,Periodo_fin.Dia_inicio,Periodo_fin.Mes_inicio,Periodo_fin.Codigo,Periodo_fin.Nombre,Periodo_fin.Nombre_largo
i64,str,str,str,str,i64,i64,str,str,i64,str,i64,str,str,list[struct[5]],i64,str,i64,i64,i64,i64,str,str,str,str,str,str,str,i64,i64,i64,i64,str,str,str,str,str,str,str,str,i64,i64,i64,str,str,str,str,str,str,str
2056,"""Ingresos por habitación dispon…","""NAC""","""2008""","""null""",1727074800000,1,"""Mensual""","""M""",1,"""Coyuntura Turística Hotelera (…",1,"""Mensual""","""M""","[{132,""30179"",""Índice de Precios Hoteleros"",""IPH"",[{79,""Hoteles: encuesta de ocupación, índice de precios e indicadores de rentabilidad"",""/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177015&idp=1254735576863""}]}, {180,""30230"",""Indicadores de Rentabilidad del Sector Hotelero"",""IRSH"",[{107,""Hoteles: encuesta de ocupación, índice de precios e indicadores de rentabilidad"",""/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177015&idp=1254735576863""}]}, … {254,""30220"",""Índice de ingresos hoteleros"",""IIH"",null}]",10481,"""Coyuntura Turística Hotelera (…",1727074800000,8,8,1,"""Mensual""","""M""","""1""","""8""","""08""","""Agosto""","""Agosto""",2024,1,1,1,"""Mensual""","""M""","""1""","""1""","""01""","""Enero""","""Enero""",,,,,,,,,,,
1443,"""Tasa Global de Fecundidad por …","""CCAA""","""1975""","""null""",1700647200000,12,"""Anual""","""A""",38,"""Indicadores Demográficos Básic…",12,"""Anual""","""A""","[{33,""30264"",""Indicadores Demográficos Básicos"",""IDB"",[{126,""Indicadores demográficos básicos"",""/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736177003&idp=1254735573002""}]}]",10892,"""Indicadores Demográficos Básic…",1721811600000,28,1,12,"""Anual""","""A""","""1""","""1""","""01""","""A""","""Año""",2022,28,1,12,"""Anual""","""A""","""1""","""1""","""01""","""A""","""Año""",,,,,,,,,,,
13546,"""Ocupados por grandes grupos de…","""NAC""","""2010""",,1480500000000,12,"""Anual""","""A""",235,"""Estadística de Movilidad Labor…",12,"""Anual""","""A""","[{234,""30209"",""Estadística de Movilidad Laboral y Geográfica"",""EMLG"",[{93,""Estadística de movilidad laboral y geográfica"",""/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176909&idp=1254735976597""}]}]",10159,"""Estadística de Movilidad Labor…",1695373200000,28,1,12,"""Anual""","""A""","""1""","""1""","""01""","""A""","""Año""",2023,28,1,12,"""Anual""","""A""","""1""","""1""","""01""","""A""","""Año""","""2010""",28.0,1.0,12.0,"""Anual""","""A""","""1""","""1""","""01""","""A""","""Año"""
65899,"""Inactivos que han trabajado an…","""NAC""","""2006""","""null""",1400835600000,12,"""Anual""","""A""",347,"""Encuesta de Población Activa. …",12,"""Anual""","""A""","[{293,""30308"",""Encuesta de Población Activa (EPA)"",""EPA"",[{138,""Encuesta de población activa"",""/dyngs/INEbase/es/operacion.htm?c=Estadistica_C&cid=1254736176918&idp=1254735976595""}]}]",10632,"""Encuesta de Población Activa. …",1713517200000,28,1,12,"""Anual""","""A""","""1""","""1""","""01""","""A""","""Año""",2023,28,1,12,"""Anual""","""A""","""1""","""1""","""01""","""A""","""Año""",,,,,,,,,,,
56946,"""Población residente por fecha,…","""PROV_SDET""","""2002""",,1707984000000,3,"""Trimestral""","""Q""",610,"""Estadística Continua de Poblac…",3,"""Trimestral""","""Q""","[{450,""30282"",""Estadística Continua de Población"",""ECP"",null}]",10370,"""Estadística Continua de Poblac…",1723014000000,21,3,3,"""Trimestral""","""Q""","""1""","""7""","""III""","""T3""","""Trimestre 3/""",2024,19,1,3,"""Trimestral""","""Q""","""1""","""1""","""I""","""T1""","""Trimestre 1/""","""2023""",19.0,1.0,3.0,"""Trimestral""","""Q""","""1""","""1""","""I""","""T1""","""Trimestre 1/"""


In [8]:
def generate_readme_content(data):
    return f"""# {data['Nombre']}

- **ID:** [{data['Id']}](https://www.ine.es/jaxiT3/Tabla.htm?t={data['Id']})
- **Código:** {data['Codigo']}
- **Año de Inicio del Periodo:** {data['Anyo_Periodo_ini']}
- **Fecha de Referencia Final:** {data['FechaRef_fin']}
- **Última Modificación:** {data['Ultima_Modificacion']}
- **Periodicidad:** {data['Periodicidad.Nombre']} ({data['Periodicidad.Codigo']})

## Publicación

- **ID:** {data['Publicacion.Id']}
- **Nombre:** {data['Publicacion.Nombre']}
- **Periodicidad:** {data['Publicacion.Periodicidad.Nombre']} ({data['Publicacion.Periodicidad.Codigo']})

### Operación

- **ID:** {data['Publicacion.Operacion'][0]['Id']}
- **Código IOE:** {data['Publicacion.Operacion'][0]['Cod_IOE']}
- **Nombre:** {data['Publicacion.Operacion'][0]['Nombre']}
- **Referencia:** {data['Publicacion.Operacion'][0]['Referencia']}

### Última Publicación

- **ID:** {data['Publicacion.PubFechaAct.Id']}
- **Nombre:** {data['Publicacion.PubFechaAct.Nombre']}
- **Fecha:** {data['Publicacion.PubFechaAct.Fecha']}
- **Periodo ID:** {data['Publicacion.PubFechaAct.Periodo.Id']}
- **Periodo Valor:** {data['Publicacion.PubFechaAct.Periodo.Valor']}
- **Periodo Periodicidad:** {data['Publicacion.PubFechaAct.Periodo.Periodicidad.Nombre']} ({data['Publicacion.PubFechaAct.Periodo.Periodicidad.Codigo']})
- **Periodo Día de Inicio:** {data['Publicacion.PubFechaAct.Periodo.Dia_inicio']}
- **Periodo Mes de Inicio:** {data['Publicacion.PubFechaAct.Periodo.Mes_inicio']}
- **Periodo Código:** {data['Publicacion.PubFechaAct.Periodo.Codigo']}
- **Periodo Nombre:** {data['Publicacion.PubFechaAct.Periodo.Nombre']}
- **Periodo Nombre Largo:** {data['Publicacion.PubFechaAct.Periodo.Nombre_largo']}
- **Año:** {data['Publicacion.PubFechaAct.Anyo']}

## Periodo Inicial

- **ID:** {data['Periodo_ini.Id']}
- **Valor:** {data['Periodo_ini.Valor']}
- **Periodicidad:** {data['Periodo_ini.Periodicidad.Nombre']} ({data['Periodo_ini.Periodicidad.Codigo']})
- **Día de Inicio:** {data['Periodo_ini.Dia_inicio']}
- **Mes de Inicio:** {data['Periodo_ini.Mes_inicio']}
- **Código:** {data['Periodo_ini.Codigo']}
- **Nombre:** {data['Periodo_ini.Nombre']}
- **Nombre Largo:** {data['Periodo_ini.Nombre_largo']}

## Periodo Final

- **Año de Fin del Periodo:** {data['Anyo_Periodo_fin']}
- **ID:** {data['Periodo_fin.Id']}
- **Valor:** {data['Periodo_fin.Valor']}
- **Periodicidad:** {data['Periodo_fin.Periodicidad.Nombre']} ({data['Periodo_fin.Periodicidad.Codigo']})
- **Día de Inicio:** {data['Periodo_fin.Dia_inicio']}
- **Mes de Inicio:** {data['Periodo_fin.Mes_inicio']}
- **Código:** {data['Periodo_fin.Codigo']}
- **Nombre:** {data['Periodo_fin.Nombre']}
- **Nombre Largo:** {data['Periodo_fin.Nombre_largo']}

## JSON

```json
{data}
```
"""

In [9]:
def get_series_tabla_url(tabla_id):
    return (
        f"https://servicios.ine.es/wstempus/jsCache/ES/SERIES_TABLA/{tabla_id}?det=10"
    )


def get_tablas_download_url(tabla_id):
    return f"https://www.ine.es/jaxiT3/files/t/es/csv_bdsc/{tabla_id}.csv"


tablas = tablas.with_columns(
    pl.col("Id")
    .map_elements(get_series_tabla_url, return_dtype=pl.String)
    .alias("series_tabla_url"),
    pl.col("Id")
    .map_elements(get_tablas_download_url, return_dtype=pl.String)
    .alias("tablas_download_url"),
)

In [10]:
# tablas = tablas.sample(10)

In [10]:
with open("series.input.spec", "w") as f:
    for t in tablas.rows(named=True):
        f.write(f"{t['series_tabla_url']}\n")
        f.write("\tout=series_metadata.json\n")
        f.write(f"\tdir=dataset/tablas/{t['Id']}\n\n")

with open("tablas.input.spec", "w") as f:
    for t in tablas.rows(named=True):
        f.write(f"{t['tablas_download_url']}\n")
        f.write(f"\tout={t['Id']}.csv\n")
        f.write(f"\tdir=dataset/tablas/{t['Id']}\n\n")

In [11]:
import subprocess

series_result = subprocess.run(
    [
        "aria2c",
        "-i",
        "series.input.spec",
        "-j",
        "50",
        "-x",
        "16",
        "-s",
        "8",
        "-c",
        "--file-allocation=none",
        "--console-log-level=warn",
    ],
    capture_output=True,
    text=True,
)

In [None]:
print(series_result.stdout)

In [13]:
result = subprocess.run(
    ["grep", "-rl", "unos minutos", "dataset/tablas"],
    capture_output=True,
    text=True,
)

missing_metadata_files = result.stdout.splitlines()

print(f"Missing metadata files: {len(missing_metadata_files)}")

Missing metadata files: 3


In [14]:
with open("missing_series.input.spec", "w") as f:
    for file in missing_metadata_files:
        tabla_id = file.split("/")[-2]

        f.write(
            f"https://servicios.ine.es/wstempus/jsCache/ES/SERIES_TABLA/{tabla_id}?det=10\n"
        )
        f.write("\tout=metadata.json\n")
        f.write(f"\tdir=dataset/tablas/{tabla_id}\n\n")


In [15]:
missing_series_result = subprocess.run(
    [
        "aria2c",
        "-i",
        "missing_series.input.spec",
        "-j",
        "50",
        "-x",
        "16",
        "-s",
        "8",
        "-c",
        "--file-allocation=none",
        "--console-log-level=warn",
        "--allow-overwrite=true",
    ],
    capture_output=True,
    text=True,
)

In [None]:
print(missing_series_result.stdout)

In [17]:
tablas_result = subprocess.run(
    [
        "aria2c",
        "-i",
        "tablas.input.spec",
        "-j",
        "50",
        "-x",
        "16",
        "-s",
        "8",
        "-c",
        "--file-allocation=none",
        "--console-log-level=warn",
        "--allow-overwrite=true",
    ],
    capture_output=True,
    text=True,
)

In [None]:
print(tablas_result.stdout)

In [31]:
import glob

from tqdm import tqdm

csv_files = glob.glob("dataset/tablas/*/*.csv")

for file in tqdm(csv_files):
    filename = file.split(".")[-2].split("/")[-1]

    table_metadata = tablas.filter(pl.col("Id") == int(filename)).to_struct()

    if table_metadata.shape[0] > 0:
        with open(f"dataset/tablas/{filename}/README.md", "w") as f:
            table_metadata = table_metadata[0]
            f.write(generate_readme_content(table_metadata))

    (
        pl.scan_csv(
            file,
            separator=";",
            ignore_errors=True,
            truncate_ragged_lines=True,
        ).sink_parquet(
            f"dataset/tablas/{filename}/datos.parquet",
            compression="zstd",
            row_group_size=1024**2,
            type_coercion=True,
        )
    )


100%|██████████| 4843/4843 [03:41<00:00, 21.89it/s] 


In [32]:
import os

for file in csv_files:
    os.remove(file)

In [None]:
import os

from huggingface_hub import HfApi

api = HfApi(token=os.getenv("HUGGINGFACE_TOKEN"))

In [None]:
import shutil

shutil.copy("DATASET_README.md", "dataset/README.md")

api.upload_large_folder(
    folder_path="dataset", repo_id="davidgasquez/ine", repo_type="dataset"
)