In [2]:
"""
Código para poner la provincia dentro de cada distrito de la zonificación del MITMA
"""
import geopandas as gpd
import pandas as pd

# ----------------------------
# CONFIG: rutas y nombres de campos
# ----------------------------
PROVINCIAS_GEOJSON = r"D:\Datos\GeojsonZonas\provinciasEspana.geojson"
DISTRITOS_GEOJSON  = r"D:\Datos\GeojsonZonas\zonificacionDistritosMITMA\zonificacion_distritos.geojson"
SALIDA_GEOJSON     = r"D:\Datos\GeojsonZonas\zonificacionDistritosMITMA\zonificacion_distritos_provincia.geojson"

# Campo en el geojson de provincias que contiene el nombre de la provincia
CAMPO_NOMBRE_PROVINCIA = "Texto"   # <-- cámbialo por el tuyo (p.ej. "NAMEUNIT", "nombre", etc.)
NUEVO_CAMPO_EN_DISTRITOS = "provincia" # nombre del campo nuevo a crear en distritos

# Si tienes un id único en distritos úsalo (recomendado). Si no, el índice sirve.
CAMPO_ID_DISTRITO = None  # p.ej. "id_distrito"; si None, se usa el índice


def make_valid(gdf: gpd.GeoDataFrame) -> gpd.GeoDataFrame:
    """Arregla geometrías inválidas de forma robusta (buffer(0) como fallback)."""
    gdf = gdf.copy()
    # GeoPandas/Shapely modernos suelen tener .make_valid en algunas versiones; aquí vamos a lo compatible:
    gdf["geometry"] = gdf["geometry"].buffer(0)
    return gdf


def main():
    # 1) Leer datos
    prov = gpd.read_file(PROVINCIAS_GEOJSON)
    dist = gpd.read_file(DISTRITOS_GEOJSON)

    # 2) Asegurar geometrías válidas (evita muchos errores de overlay)
    prov = make_valid(prov)
    dist = make_valid(dist)

    # 3) Asegurar mismo CRS
    if prov.crs is None or dist.crs is None:
        raise ValueError("Alguno de los GeoJSON no tiene CRS definido. Define el CRS antes de continuar.")
    if prov.crs != dist.crs:
        dist = dist.to_crs(prov.crs)

    # 4) Para medir áreas correctamente, mejor proyectar a un CRS métrico (España: ETRS89 / UTM 30N)
    #    Si tus datos están en EPSG:4326 (lat/lon), esto evita áreas incorrectas.
    CRS_AREA = "EPSG:25830"
    prov_m = prov.to_crs(CRS_AREA)
    dist_m = dist.to_crs(CRS_AREA)

    # 5) Preparar ID de distrito
    if CAMPO_ID_DISTRITO and CAMPO_ID_DISTRITO in dist_m.columns:
        dist_m["_dist_id_"] = dist_m[CAMPO_ID_DISTRITO]
    else:
        dist_m["_dist_id_"] = dist_m.index.astype(str)

    # 6) Intersección: genera trozos (distrito ∩ provincia)
    #    Nos quedamos con el nombre de provincia y el id del distrito
    prov_cols = [CAMPO_NOMBRE_PROVINCIA, "geometry"]
    inter = gpd.overlay(
        dist_m[["_dist_id_", "geometry"]],
        prov_m[prov_cols],
        how="intersection",
        keep_geom_type=False
    )

    if inter.empty:
        raise RuntimeError("La intersección salió vacía. Revisa CRS, geometrías y que realmente solapen.")

    # 7) Calcular área de cada intersección y quedarnos con la provincia con mayor solape por distrito
    inter["_area_"] = inter.geometry.area

    # Para cada distrito, elegir la fila con área máxima
    idx_max = inter.groupby("_dist_id_")["_area_"].idxmax()
    best = inter.loc[idx_max, ["_dist_id_", CAMPO_NOMBRE_PROVINCIA]].copy()

    # 8) Unir de vuelta al GeoDataFrame original de distritos (en CRS original)
    #    (usamos dist, no dist_m, para conservar CRS original y atributos)
    dist_out = dist.copy()
    if CAMPO_ID_DISTRITO and CAMPO_ID_DISTRITO in dist_out.columns:
        dist_out["_dist_id_"] = dist_out[CAMPO_ID_DISTRITO].astype(str)
    else:
        dist_out["_dist_id_"] = dist_out.index.astype(str)

    dist_out = dist_out.merge(best, on="_dist_id_", how="left")

    # Renombrar/crear el campo final
    if CAMPO_NOMBRE_PROVINCIA != NUEVO_CAMPO_EN_DISTRITOS:
        dist_out.rename(columns={CAMPO_NOMBRE_PROVINCIA: NUEVO_CAMPO_EN_DISTRITOS}, inplace=True)

    # 9) Limpieza
    dist_out.drop(columns=["_dist_id_"], inplace=True, errors="ignore")

    # 10) Guardar salida
    dist_out.to_file(SALIDA_GEOJSON, driver="GeoJSON")

    # Resumen útil
    n_total = len(dist_out)
    n_null = dist_out[NUEVO_CAMPO_EN_DISTRITOS].isna().sum()
    print(f"OK. Guardado: {SALIDA_GEOJSON}")
    print(f"Distritos: {n_total} | sin provincia asignada: {n_null}")


if __name__ == "__main__":
    main()




OK. Guardado: D:\Datos\GeojsonZonas\zonificacionDistritosMITMA\zonificacion_distritos_provincia.geojson
Distritos: 3909 | sin provincia asignada: 101


In [4]:
import pandas as pd
import geopandas as gpd

# --- 1) Cargar pernoctaciones de los días clave (parquets) ---
df2022 = pd.read_parquet(r"D:\Datos\Movilidad\MinisteriodeTransportes\EstudiosBasicos\Pernoctaciones\20220604_Pernoctaciones_distritos.parquet")
df2023 = pd.read_parquet(r"D:\Datos\Movilidad\MinisteriodeTransportes\EstudiosBasicos\Pernoctaciones\20230218_Pernoctaciones_distritos.parquet")
df2024 = pd.read_parquet(r"D:\Datos\Movilidad\MinisteriodeTransportes\EstudiosBasicos\Pernoctaciones\20240210_Pernoctaciones_distritos.parquet")
df2025 = pd.read_parquet(r"D:\Datos\Movilidad\MinisteriodeTransportes\EstudiosBasicos\Pernoctaciones\20250301_Pernoctaciones_distritos.parquet")

df2022["año"] = 2022
df2023["año"] = 2023
df2024["año"] = 2024
df2025["año"] = 2025

df = pd.concat([df2022, df2023, df2024, df2025], ignore_index=True)

# --- 2) Filtrar pernoctaciones en los distritos objetivo (Cádiz en tu ejemplo) ---
zonas_distritos = ['1101201','1101202','1101203','1101204','1101205','1101206','1101207','1101208','1101209','1101210','1103106','1103105','1103104','1103103_AD','1103101','1103003','1103002','1103001','1102804','1102803','1102802','1102801','1102704','1102703','1102702','1102701','1101505','1101504','1101503','1101502','1101501','1101210']
dffiltrado = df[df["zona_pernoctacion"].isin(zonas_distritos)].copy()

dffiltrado["personas"] = pd.to_numeric(dffiltrado["personas"], errors="coerce").fillna(0)

# --- 3) Cargar el geojson y construir el mapping zona -> provincia ---
geo_path = r"D:\Datos\GeojsonZonas\zonificacionDistritosMITMA\zonificacion_distritos_provincia.geojson"
gdf_zonas = gpd.read_file(geo_path)

# Nos quedamos con el diccionario ID -> provincia
map_zona_a_prov = (
    gdf_zonas[["ID", "provincia"]]
    .drop_duplicates()
    .set_index("ID")["provincia"]
)

# --- 4) Enriquecer con provincia de residencia ---
dffiltrado["provincia_residencia"] = dffiltrado["zona_residencia"].map(map_zona_a_prov)

# (Opcional) revisar si hay zonas sin provincia asociada
# print("Zonas sin provincia:", dffiltrado[dffiltrado["provincia_residencia"].isna()]["zona_residencia"].unique()[:20])

# Si quieres excluir las que no tienen match:
dffiltrado = dffiltrado.dropna(subset=["provincia_residencia"])

# --- 5) Agrupar por provincia y año (en vez de zona_residencia y año) ---
df_prov_anual = (
    dffiltrado
    .groupby(["provincia_residencia", "año"])["personas"]
    .sum()
    .reset_index()
)

# --- 6) Pivot para tener una columna por año ---
df_pivot_prov = (
    df_prov_anual
    .pivot(index="provincia_residencia", columns="año", values="personas")
    .fillna(0)
)

# Asegurar orden de columnas
df_pivot_prov = df_pivot_prov[[2022, 2023, 2024, 2025]]

# --- 7) Top provincias por total ---
df_pivot_prov["total"] = df_pivot_prov.sum(axis=1)
df_top_prov = df_pivot_prov.sort_values("total", ascending=False).drop(columns="total")

print(df_top_prov.head(30))


año                           2022        2023        2024        2025
provincia_residencia                                                  
Cádiz                   441256.460  442413.043  441557.775  431874.194
Sevilla                  15081.695    9937.634    8480.902   20066.621
Madrid                    5470.136    5889.082    6056.342    8417.563
Málaga                    2552.985    3171.968    2825.243    5432.460
Granada                    729.690    1787.210    1426.628    3421.734
Córdoba                   1268.238    1402.142    1378.671    3148.521
Barcelona                  905.219    1070.428    1334.502    1474.001
Huelva                     966.521    1056.373    1095.361    1542.643
Jaén                       521.846     766.181     927.929    1881.300
Badajoz                   1121.266     776.396     729.871    1027.943
Murcia                     356.157     801.838     730.497     935.386
Islas Baleares             344.770     617.070     958.276     839.111
Valenc