## Preprocesado de delimitaciones municipales y comarcales

Este notebook se centra en la **carga y preprocesado de las delimitaciones territoriales** de los municipios y comarcas de la Comunitat Valenciana.

El objetivo es preparar las geometrías y la información territorial asociada para su uso en análisis espaciales y representación cartográfica, así como para su integración con los datos demográficos y sanitarios del proyecto.


- Datos abiertos de la Generalitat Valenciana – Delimitaciones municipales y comarcales


In [1]:
import pandas as pd

### Carga de datos y exploración inicial

In [2]:
# Crear dataframe de municipios
municipios_raw = pd.read_csv('../data/raw/GVA-municipios-delimitaciones.csv', sep=',')

In [3]:
# Dimensión del dataset
municipios_raw.shape

(542, 15)

In [4]:
# Tipos de datos
municipios_raw.dtypes

WKT               object
id                 int64
cod_ine_mun        int64
cod_ine_mun_d      int64
cod_catastro       int64
nom_mun           object
nom_mun_cas       object
nom_mun_cas_a     object
nom_mun_val       object
nom_mun_val_a     object
noms_mun          object
comarca           object
provincia         object
perimetro        float64
area_ha          float64
dtype: object

In [5]:
# Valores nulos por columna
municipios_raw.isna().sum()

WKT              0
id               0
cod_ine_mun      0
cod_ine_mun_d    0
cod_catastro     0
nom_mun          0
nom_mun_cas      0
nom_mun_cas_a    0
nom_mun_val      0
nom_mun_val_a    0
noms_mun         0
comarca          0
provincia        0
perimetro        0
area_ha          0
dtype: int64

In [6]:
# Valores únicos por columna
municipios_raw.nunique()

WKT              542
id               542
cod_ine_mun      542
cod_ine_mun_d    542
cod_catastro     542
nom_mun          542
nom_mun_cas      542
nom_mun_cas_a    542
nom_mun_val      542
nom_mun_val_a    542
noms_mun         542
comarca           33
provincia          3
perimetro        542
area_ha          542
dtype: int64

In [7]:
# Descripción estadística del dataset
municipios_raw.describe(include='all')

Unnamed: 0,WKT,id,cod_ine_mun,cod_ine_mun_d,cod_catastro,nom_mun,nom_mun_cas,nom_mun_cas_a,nom_mun_val,nom_mun_val_a,noms_mun,comarca,provincia,perimetro,area_ha
count,542,542.0,542.0,542.0,542.0,542,542,542,542,542,542,542,542,542.0,542.0
unique,542,,,,,542,542,542,542,542,542,33,3,,
top,MULTIPOLYGON (((713525.146941122 4419313.16997...,,,,,Navajas,Navajas,Navajas,Navajas,Navajas,Navajas,la Ribera Alta,València/Valencia,,
freq,1,,,,,1,1,1,1,1,1,35,266,,
mean,,270.5,26459.627306,264600.787823,26452.817343,,,,,,,,,30996.783395,4293.768284
std,,156.606194,19604.145835,196041.456565,19608.04073,,,,,,,,,23909.008833,6267.368726
min,,0.0,3001.0,30015.0,3001.0,,,,,,,,,460.7,1.26
25%,,135.25,3139.25,31398.5,3139.25,,,,,,,,,16422.825,913.26
50%,,270.5,12139.5,121399.0,12140.5,,,,,,,,,26086.45,2197.355
75%,,405.75,46130.75,461309.25,46132.75,,,,,,,,,38880.075,5553.02


In [8]:
# Vista previa del dataframe
municipios_raw.sample(5)

Unnamed: 0,WKT,id,cod_ine_mun,cod_ine_mun_d,cod_catastro,nom_mun,nom_mun_cas,nom_mun_cas_a,nom_mun_val,nom_mun_val_a,noms_mun,comarca,provincia,perimetro,area_ha
266,"MULTIPOLYGON (((713614.259 4379914.971,713425....",266,46214,462140,46216,Riba-roja de Túria,Riba-roja de Túria,Riba-roja de Túria,Riba-roja de Túria,Riba-roja de Túria,Riba-roja de Túria,el Camp de Túria,València/Valencia,43721.1,5768.56
308,MULTIPOLYGON (((737458.028601563 4311457.52271...,308,46023,460235,46023,Alfauir,Alfauir,Alfauir,Alfauir,Alfauir,Alfauir,la Safor,València/Valencia,13768.7,622.43
193,MULTIPOLYGON (((691557.159397425 4215111.09209...,193,3012,30128,3012,Algorfa,Algorfa,Algorfa,Algorfa,Algorfa,Algorfa,el Baix Segura/La Vega Baja,Alacant/Alicante,29364.1,1847.33
330,MULTIPOLYGON (((745834.169150805 4457746.58509...,330,12122,121227,12122,les Useres,Useras,Useras,les Useres,"Useres, les",les Useres/Useras,l'Alcalatén,Castelló/Castellón,44064.0,8073.87
119,MULTIPOLYGON (((731098.550024443 4379055.67997...,119,46009,460095,46009,Albalat dels Sorells,Albalat dels Sorells,Albalat dels Sorells,Albalat dels Sorells,Albalat dels Sorells,Albalat dels Sorells,l'Horta Nord,València/Valencia,22157.8,465.95


### Análisis exploratorio y preparación de variables

#### Selección de variables

Tras el análisis exploratorio del dataset de delimitaciones municipales, se decide conservar únicamente las siguientes variables:

- `WKT`: geometría del municipio, necesaria para la visualización cartográfica y el análisis espacial.
- `cod_ine_mun`: código oficial del municipio según el INE, que se utilizará como identificador principal para la integración de datasets.
- `area_ha`: superficie del municipio en hectáreas, útil para el cálculo de indicadores territoriales como densidad de población o número de centros sanitarios por unidad de superficie.

El resto de variables (nombre del municipio, provincia, comarca y variantes lingüísticas) se descartan en este dataset, ya que esta información se encuentra disponible y será gestionada desde otros conjuntos de datos del proyecto, evitando así redundancias y posibles inconsistencias durante el proceso de integración.

In [9]:
municipios_clean = municipios_raw[['WKT', 'cod_ine_mun', 'area_ha']]
municipios_clean.describe(include='all')

Unnamed: 0,WKT,cod_ine_mun,area_ha
count,542,542.0,542.0
unique,542,,
top,MULTIPOLYGON (((713525.146941122 4419313.16997...,,
freq,1,,
mean,,26459.627306,4293.768284
std,,19604.145835,6267.368726
min,,3001.0,1.26
25%,,3139.25,913.26
50%,,12139.5,2197.355
75%,,46130.75,5553.02


#### Variable `WKT`

La variable `WKT` contiene la **geometría del municipio** en formato *Well-Known Text (WKT)*.

En este dataset, la geometría corresponde a un **polígono o multipolígono** que define el contorno territorial de cada municipio de la Comunitat Valenciana.

Este campo es fundamental para:

- Representar los municipios sobre un mapa.
- Realizar análisis espaciales y visualizaciones geográficas.
- Integrar el dataset con librerías GIS como `geopandas`.
- Relacionar variables demográficas y sanitarias con su dimensión territorial.

Se conserva la variable `WKT` ya que será necesaria en fases posteriores del proyecto para la visualización cartográfica y el análisis espacial.

#### Variable `cod_ine_mun`

La variable `cod_ine_mun` corresponde al **código oficial del municipio según el Instituto Nacional de Estadística (INE)**. Este identificador es único para cada municipio dentro del territorio nacional y se utiliza de forma consistente en múltiples fuentes de datos oficiales.

Por lo tanto, `cod_ine_mun` se conserva como **variable principal de unión** entre los distintos datasets y no se aplica ningún tratamiento adicional sobre ella.

In [10]:
# Comprobación de valores nulos
municipios_clean['cod_ine_mun'].isna().sum()

# Comprobación de unicidad
municipios_clean['cod_ine_mun'].nunique() == len(municipios_clean)

# Asegurar tipo entero
municipios_clean.loc[:, 'cod_ine_mun'] = municipios_clean['cod_ine_mun'].astype(int)
municipios_clean['cod_ine_mun'].describe()

count      542.000000
mean     26459.627306
std      19604.145835
min       3001.000000
25%       3139.250000
50%      12139.500000
75%      46130.750000
max      46904.000000
Name: cod_ine_mun, dtype: float64

#### Variable `area_ha`

La variable `area_ha` representa la **superficie del municipio**, medida en **hectáreas (ha)**.

Se conserva la variable `area_ha` en su forma original y sin transformaciones adicionales, ya que será utilizada en fases posteriores del proyecto para la construcción de indicadores derivados.

In [11]:
# Asegurar que la variable area_ha tiene el tipo numérico correcto
municipios_clean.loc[:, 'area_ha'] = municipios_clean['area_ha'].astype(float)
municipios_clean['area_ha'].describe()

count      542.000000
mean      4293.768284
std       6267.368726
min          1.260000
25%        913.260000
50%       2197.355000
75%       5553.020000
max      81426.900000
Name: area_ha, dtype: float64

### Normalización de nombres de columnas

Con el objetivo de facilitar la integración con otros datasets, mejorar la legibilidad del código y evitar problemas derivados del uso de espacios, acentos o caracteres especiales, se procede a normalizar los nombres de las columnas del dataset de población.

In [None]:
municipios_clean = municipios_clean.rename(columns={
    'cod_ine_mun': 'cod_municipio',
    'WKT': 'geometry_municipio',
    'area_ha': 'area_ha'
})

municipios_clean.columns

Index(['geometry_municipio', 'cod_municipio', 'area_ha'], dtype='object')

### Exportación del dataset de municipios

Una vez finalizado el proceso de limpieza, transformación y filtrado del conjunto de datos de delimitaciones de municipios, se procede a guardar el dataset resultante en la carpeta `data/processed`. Este conjunto de datos limpio y estructurado será utilizado posteriormente en la fase de integración con las demás fuentes de información del proyecto.

El archivo se almacena en formato CSV para facilitar su reutilización en futuros análisis o proyectos.

In [13]:
municipios_clean.sample(5)

Unnamed: 0,geometry_municipio,cod_municipio,area_ha
502,MULTIPOLYGON (((727147.986286036 4390432.46687...,46205,1811.5
40,MULTIPOLYGON (((751082.428447684 4442094.25201...,12031,6160.17
484,MULTIPOLYGON (((684014.500027493 4221373.39997...,3049,2491.98
211,MULTIPOLYGON (((705997.100001186 4357592.79999...,46172,4592.03
320,MULTIPOLYGON (((674464.133013762 4339112.61334...,46142,9476.33


In [14]:
municipios_clean.to_csv('../data/processed/GVA-municipios-delimitaciones-clean.csv', index=False)