## Integración de datasets

Este notebook se encarga de la **integración de los distintos datasets del proyecto** a nivel municipal para la Comunitat Valenciana.

El objetivo es construir un **dataset final coherente y homogéneo** que combine:
- Datos de población por grupos de edad
- Delimitaciones geográficas de los municipios
- Información de centros sanitarios

Este dataset integrado servirá como base para los análisis estadísticos, espaciales y de accesibilidad a centros sanitarios.

In [1]:
import pandas as pd

In [2]:
# Crear dataframes
poblacion_df = pd.read_csv('../data/processed/INE-poblacion-grupo-edad-clean.csv', sep=',')
municipios_df = pd.read_csv('../data/processed/GVA-municipios-delimitaciones-clean.csv', sep=',')
centros_df = pd.read_csv('../data/processed/GVA-centros-sanitarios-clean.csv', sep=',')

### Integración con delimitaciones municipales

El dataset de población procesado se une con el dataset de delimitaciones municipales mediante el código INE del municipio.

El resultado de esta integración es un dataframe que contiene:
- Información demográfica por grupos de edad
- Geometría del municipio
- Superficie municipal en hectáreas

Dado que ambos datasets contienen exactamente **542 municipios**, la unión es directa y sin pérdida de información.


In [3]:
poblacion_df.describe(include='all')

Unnamed: 0,cod_provincia,provincia,cod_municipio,municipio,pob_100_mas,pob_0_4,pob_10_14,pob_15_19,pob_20_24,pob_25_29,...,pob_55_59,pob_60_64,pob_65_69,pob_70_74,pob_75_79,pob_80_84,pob_85_89,pob_90_94,pob_95_99,poblacion_total
count,542.0,542,542.0,542,542.0,542.0,542.0,542.0,542.0,542.0,...,542.0,542.0,542.0,542.0,542.0,542.0,542.0,542.0,542.0,542.0
unique,,3,,542,,,,,,,...,,,,,,,,,,
top,,Valencia/València,,"Atzúbia, l'",,,,,,,...,,,,,,,,,,
freq,,266,,1,,,,,,,...,,,,,,,,,,
mean,26.345018,,26459.627306,,2.413284,354.931734,516.734317,562.162362,551.269373,543.101476,...,744.994465,674.153137,582.151292,476.407749,408.208487,295.754613,167.658672,86.95941,21.619926,10009.560886
std,19.578954,,19604.145835,,12.69589,1498.760716,2058.244925,2300.419467,2483.479662,2674.789191,...,3130.386362,2841.301131,2463.809427,2075.738705,1833.932374,1336.866457,778.643578,410.751696,107.716508,43098.380733
min,3.0,,3001.0,,0.0,0.0,0.0,0.0,0.0,0.0,...,3.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,21.0
25%,3.0,,3139.25,,0.0,12.0,17.0,18.25,21.0,21.0,...,40.0,40.0,36.0,28.0,24.25,21.0,13.0,6.0,1.0,504.0
50%,12.0,,12139.5,,0.0,50.0,69.0,75.0,72.0,73.5,...,126.5,123.0,100.0,82.5,71.5,60.0,34.0,19.0,4.0,1571.5
75%,46.0,,46130.75,,2.0,264.0,397.5,417.5,371.0,383.5,...,571.75,483.75,421.25,341.75,272.75,205.5,116.5,65.0,14.0,7698.5


In [4]:
municipios_df.describe(include='all')

Unnamed: 0,geometry_municipio,cod_municipio,area_ha
count,542,542.0,542.0
unique,542,,
top,MULTIPOLYGON (((713525.146941122 4419313.16997...,,
freq,1,,
mean,,26459.627306,4293.768284
std,,19604.145835,6267.368726
min,,3001.0,1.26
25%,,3139.25,913.26
50%,,12139.5,2197.355
75%,,46130.75,5553.02


In [None]:
# Unir población con delimitaciones municipales
merged_df = poblacion_df.merge(
    municipios_df,
    on='cod_municipio',
    how='inner'
)

merged_df.describe(include='all')

Unnamed: 0,cod_provincia,provincia,cod_municipio,municipio,pob_100_mas,pob_0_4,pob_10_14,pob_15_19,pob_20_24,pob_25_29,...,pob_65_69,pob_70_74,pob_75_79,pob_80_84,pob_85_89,pob_90_94,pob_95_99,poblacion_total,geometry_municipio,area_ha
count,542.0,542,542.0,542,542.0,542.0,542.0,542.0,542.0,542.0,...,542.0,542.0,542.0,542.0,542.0,542.0,542.0,542.0,542,542.0
unique,,3,,542,,,,,,,...,,,,,,,,,542,
top,,Valencia/València,,"Atzúbia, l'",,,,,,,...,,,,,,,,,MULTIPOLYGON (((743276.308117251 4304914.60798...,
freq,,266,,1,,,,,,,...,,,,,,,,,1,
mean,26.345018,,26459.627306,,2.413284,354.931734,516.734317,562.162362,551.269373,543.101476,...,582.151292,476.407749,408.208487,295.754613,167.658672,86.95941,21.619926,10009.560886,,4293.768284
std,19.578954,,19604.145835,,12.69589,1498.760716,2058.244925,2300.419467,2483.479662,2674.789191,...,2463.809427,2075.738705,1833.932374,1336.866457,778.643578,410.751696,107.716508,43098.380733,,6267.368726
min,3.0,,3001.0,,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,21.0,,1.26
25%,3.0,,3139.25,,0.0,12.0,17.0,18.25,21.0,21.0,...,36.0,28.0,24.25,21.0,13.0,6.0,1.0,504.0,,913.26
50%,12.0,,12139.5,,0.0,50.0,69.0,75.0,72.0,73.5,...,100.0,82.5,71.5,60.0,34.0,19.0,4.0,1571.5,,2197.355
75%,46.0,,46130.75,,2.0,264.0,397.5,417.5,371.0,383.5,...,421.25,341.75,272.75,205.5,116.5,65.0,14.0,7698.5,,5553.02


In [7]:
merged_df.isna().sum()

cod_provincia         0
provincia             0
cod_municipio         0
municipio             0
pob_100_mas           0
pob_0_4               0
pob_10_14             0
pob_15_19             0
pob_20_24             0
pob_25_29             0
pob_30_34             0
pob_35_39             0
pob_40_44             0
pob_45_49             0
pob_5_9               0
pob_50_54             0
pob_55_59             0
pob_60_64             0
pob_65_69             0
pob_70_74             0
pob_75_79             0
pob_80_84             0
pob_85_89             0
pob_90_94             0
pob_95_99             0
poblacion_total       0
geometry_municipio    0
area_ha               0
dtype: int64

### Integración con centros sanitarios

El siguiente paso consiste en integrar la información de los centros sanitarios.

A diferencia de las integraciones anteriores:
- Cada **centro sanitario** genera una fila en el dataset final
- Los datos demográficos y territoriales del municipio se replican para cada centro

Además:
- Los municipios **sin centros sanitarios** se mantienen en el dataset
- Estos municipios presentan valores nulos en las variables asociadas a centros

Este enfoque permite:
- Analizar la distribución y tipología de centros
- Identificar municipios sin cobertura sanitaria directa

Como mejora, se considera la creación de una variable indicadora (`tiene_centro_sanitario`) que señale explícitamente la presencia o ausencia de centros sanitarios en cada municipio.

In [8]:
centros_df.describe(include='all')

Unnamed: 0,cen_cod,cen_desclar,cod_municipio,tipo,wkt_centro
count,308.0,308,308.0,308,308
unique,,308,,3,308
top,,HOSPITAL PSIQUIATRICO PROVINCIAL,,Centros de salud,POINT (719542.884 4383884.783)
freq,,1,,248,1
mean,1096.37013,,26555.993506,,
std,5201.916044,,20253.208298,,
min,2.0,,3002.0,,
25%,232.75,,3101.75,,
50%,456.5,,46009.0,,
75%,958.25,,46184.0,,


In [9]:
# Unir con centros sanitarios
df_final = merged_df.merge(
    centros_df,
    on='cod_municipio',
    how='left'
)

# Crear columna indicadora de presencia de centro sanitario
df_final['tiene_centro_sanitario'] = df_final['cen_cod'].notna().astype(int)

### Dataset integrado final

El resultado final es un dataset a nivel de centro sanitario que combina:

- Información demográfica municipal
- Delimitaciones geográficas
- Características de los centros sanitarios

In [10]:
# Número total de filas
df_final.shape

(682, 33)

In [11]:
# Municipios sin centros
df_final[df_final['tiene_centro_sanitario'] == 0]['municipio'].nunique()

374

In [12]:
# Centros por municipio
df_final.groupby('municipio')['cen_cod'].count().sort_values(ascending=False).head()

municipio
València                42
Alacant/Alicante        16
Castelló de la Plana    16
Elx/Elche               12
Sagunt/Sagunto           5
Name: cen_cod, dtype: int64

### Exportación del dataset combinado

Una vez finalizado el proceso de integración de los tres datasets, se procede a guardar el dataset resultante en la carpeta `data/combined`.

Este conjunto de datos, ya limpio y estructurado, será utilizado en las fases posteriores de análisis, tanto a nivel estadístico como espacial.

El archivo se almacena en formato CSV para facilitar su reutilización en análisis posteriores o en otros proyectos.

In [13]:
df_final.sample(5)

Unnamed: 0,cod_provincia,provincia,cod_municipio,municipio,pob_100_mas,pob_0_4,pob_10_14,pob_15_19,pob_20_24,pob_25_29,...,pob_90_94,pob_95_99,poblacion_total,geometry_municipio,area_ha,cen_cod,cen_desclar,tipo,wkt_centro,tiene_centro_sanitario
461,46,Valencia/València,46109,Cheste,1.0,320.0,513.0,501.0,535.0,448.0,...,83.0,15.0,9099.0,"MULTIPOLYGON (((689430.33 4380666.57,689884.01...",7148.28,230.0,CS CHESTE,Centros de salud,POINT (699028.46889 4374590.95713),1
156,3,Alicante/Alacant,3116,Salinas,1.0,53.0,101.0,75.0,90.0,76.0,...,20.0,5.0,1822.0,"MULTIPOLYGON (((686000.853 4267747.277,685563....",6202.18,,,,,0
561,46,Valencia/València,46195,Piles,0.0,129.0,164.0,172.0,192.0,152.0,...,28.0,3.0,3202.0,MULTIPOLYGON (((749656.040406542 4315619.17665...,390.94,,,,,0
530,46,Valencia/València,46169,Mislata,8.0,1561.0,2284.0,2686.0,2577.0,2719.0,...,357.0,66.0,47003.0,MULTIPOLYGON (((722097.869039084 4371999.91018...,229.27,233.0,CENTRO DE SALUD DE MISLATA,Centros de salud,POINT (722352.94668 4373058.39324),1
243,12,Castellón/Castelló,12041,Castillo de Villamalefa,0.0,0.0,1.0,1.0,6.0,9.0,...,1.0,0.0,113.0,MULTIPOLYGON (((721306.411527467 4448511.81910...,3775.56,,,,,0


In [14]:
df_final.to_csv('../data/combined/centros_sanitarios_poblacion_municipios.csv', index=False)