## Preprocesado de datos de centros sanitarios

Este notebook se dedica a la **carga y preprocesado de los datos de centros sanitarios** de la Comunitat Valenciana.

El objetivo es limpiar, estructurar y preparar la información de localización y características básicas de los centros sanitarios (nombre, municipio, carácter público o privado y coordenadas geográficas) para su posterior integración con los datos demográficos y territoriales del proyecto.


- Datos abiertos de la Generalitat Valenciana – Centros sanitarios


In [1]:
import pandas as pd

### Carga de datos y exploración inicial

#### Carga de los datasets de centros sanitarios

Se cargan de forma independiente los tres conjuntos de datos del Sistema Valenciano de Salud 
(hospitales, centros de salud y centros de especialidades), que posteriormente se integrarán 
en un único dataset.

In [2]:
# Crear 3 dataframes de centros sanitarios
hospitales_raw = pd.read_csv('../data/raw/GVA-hospitales.csv', sep=',')
centros_salud_raw = pd.read_csv('../data/raw/GVA-centros-de-salud.csv', sep=',')
centros_especialidades_raw = pd.read_csv('../data/raw/GVA-centros-de-especialidades.csv', sep=',')

#### Comprobaciones iniciales

Antes de integrar los datasets, se revisan sus dimensiones y la coherencia de sus estructuras, 
verificando que todos comparten el mismo esquema de variables.

In [3]:
# Dimensión de datasets
print(hospitales_raw.shape)
print(centros_salud_raw.shape)
print(centros_especialidades_raw.shape)

(35, 21)
(248, 21)
(26, 21)


In [4]:
# Comprobar que las columnas son las mismas en los 3 datasets
print(all(hospitales_raw.columns == centros_salud_raw.columns) and all(hospitales_raw.columns == centros_especialidades_raw.columns))
print(hospitales_raw.columns)

True
Index(['WKT', 'id', 'id_interno', 'cen_cod', 'cen_desclar', 'cod_ine_mun',
       'municipio', 'provincia', 'cen_nombcall', 'cen_numcall', 'cen_codpos',
       'tce_codi', 'codigo_departamento', 'nombre_departamento', 'codigo_zona',
       'nombre_zona', 'cen_feci', 'x_coord', 'y_coord', 'tipo', 'tipo_val'],
      dtype='object')


#### Integración y exploración inicial

Una vez verificada la compatibilidad de los tres datasets, se concatenan en un único dataframe 
que recoge la totalidad de centros sanitarios del Sistema Valenciano de Salud.  
Sobre este conjunto integrado se realiza una primera exploración descriptiva.

In [6]:
# Concatenar los 3 dataframes en uno solo
centros_raw = pd.concat([hospitales_raw, centros_salud_raw, centros_especialidades_raw], ignore_index=True)

In [None]:
# Dimension del dataframe combinado
centros_raw.shape

(309, 21)

In [12]:
# Valores nulos por columna
centros_raw.isna().sum()

WKT                      0
id                       0
id_interno               0
cen_cod                  0
cen_desclar              0
cod_ine_mun              0
municipio                0
provincia                0
cen_nombcall             0
cen_numcall              8
cen_codpos               0
tce_codi                 0
codigo_departamento      0
nombre_departamento      6
codigo_zona              0
nombre_zona             61
cen_feci               309
x_coord                  0
y_coord                  0
tipo                     0
tipo_val                 0
dtype: int64

In [13]:
# Número de centros por tipo
centros_raw['tipo'].value_counts()

tipo
Centros de salud             248
Hospitales                    35
Centros de especialidades     26
Name: count, dtype: int64

In [14]:
# Número de municipios distintos
centros_raw['cod_ine_mun'].nunique()

168

In [None]:
# Descripción estadística del dataset
centros_raw.describe(include='all')

Unnamed: 0,WKT,id,id_interno,cen_cod,cen_desclar,cod_ine_mun,municipio,provincia,cen_nombcall,cen_numcall,...,tce_codi,codigo_departamento,nombre_departamento,codigo_zona,nombre_zona,cen_feci,x_coord,y_coord,tipo,tipo_val
count,309,309.0,309.0,309.0,309,309.0,309,309,309,301,...,309.0,309.0,303,309.0,248,0.0,309.0,309.0,309,309
unique,308,,,,309,,168,3,294,77,...,,,24,,226,,,,3,3
top,POINT (715662.76062 4253467.08584),,,,HOSPITAL PSIQUIATRICO PROVINCIAL,,València,València/Valencia,AUSIAS MARCH,S/N,...,,,CASTELLON,,SANT AGUSTI (CASTELLO),,,,Centros de salud,Centres de salut
freq,2,,,,1,,42,157,3,116,...,,,27,,3,,,,248,248
mean,,155.0,186700.268608,1101.731392,,26480.15534,,,,,...,3.650485,10.951456,,1100.864078,,,723065.939569,4469957.0,,
std,,89.344838,76988.9407,5194.319517,,20264.201041,,,,,...,5.357436,6.806288,,679.854153,,,23752.249734,2281538.0,,
min,,1.0,26157.0,2.0,,3002.0,,,,,...,1.0,0.0,,0.0,,,646247.848321,4198385.0,,
25%,,78.0,224699.0,233.0,,3102.0,,,,,...,1.0,5.0,,509.0,,,709674.948963,4278917.0,,
50%,,155.0,224776.0,457.0,,46007.0,,,,,...,1.0,11.0,,1100.0,,,722937.129818,4365239.0,,
75%,,232.0,224853.0,959.0,,46184.0,,,,,...,1.0,17.0,,1700.0,,,734766.74209,4382127.0,,


Se observa que el dataset final incluye centros sanitarios distribuidos en un número amplio 
de municipios de la Comunitat Valenciana, lo que permite un análisis territorial consistente.

In [16]:
# Vista previa del dataframe
centros_raw.sample(5)

Unnamed: 0,WKT,id,id_interno,cen_cod,cen_desclar,cod_ine_mun,municipio,provincia,cen_nombcall,cen_numcall,...,tce_codi,codigo_departamento,nombre_departamento,codigo_zona,nombre_zona,cen_feci,x_coord,y_coord,tipo,tipo_val
132,POINT (706773.40004 4359323.4039),98,224780,277,CENTRO DE SALUD DE MONTSERRAT,46172,Montserrat,València/Valencia,BON AIRE,18,...,1,9,VALENCIA HOSPITAL GENERAL,903,MONTSERRAT,,706773.400042,4359323.0,Centros de salud,Centres de salut
130,POINT (715761.42382 4341907.56194),96,224778,327,CS L ALCUDIA,46019,l'Alcúdia,València/Valencia,ESQ. BOLLENE CON MAGUNCIA,S/N,...,1,11,LA RIBERA,1104,L'ALCUDIA,,715761.423822,4341908.0,Centros de salud,Centres de salut
300,POINT (717882.61492 4371178.2728),301,26176,965,CENTRO DE ESPECIALIDADES DE ALDAIA,46021,Aldaia,València/Valencia,3 D'ABRIL,1,...,15,23,MANISES,2300,,,717882.614921,4371178.0,Centros de especialidades,Centres d'especialitats
219,POINT (680812.17785 4217351.22822),185,224867,567,CS ORIHUELA ALVAREZ,3099,Orihuela,Alacant/Alicante,AVDA. PRINCIPE DE ASTURIAS,S/N,...,1,21,ORIHUELA,2107,ORIHUELA 2 DR ALVAREZ DE LA RIVA,,680812.177846,4217351.0,Centros de salud,Centres de salut
268,POINT (736736.90402 4339424.6766),234,224916,2731,C.S. CULLERA RAVAL,46105,Cullera,València/Valencia,VALENCIA,119,...,1,11,LA RIBERA,1110,CULLERA,,736736.904019,4339425.0,Centros de salud,Centres de salut


### Análisis exploratorio y preparación de variables

In [11]:
# Ver filas con wkt duplicados
centros_raw[centros_raw.duplicated(subset=['WKT'], keep=False)]

Unnamed: 0,WKT,id,id_interno,cen_cod,cen_desclar,cod_ine_mun,municipio,provincia,cen_nombcall,cen_numcall,...,tce_codi,codigo_departamento,nombre_departamento,codigo_zona,nombre_zona,cen_feci,x_coord,y_coord,tipo,tipo_val
284,POINT (715662.76062 4253467.08584),285,26158,4138,CENTRO DE ESPECIALIDADES SANT VICENT DEL RASPE...,3122,Sant Vicent del Raspeig/San Vicente del Raspeig,Alacant/Alicante,LILLO JUAN,137,...,15,19,ALICANTE,1900,,,715662.760623,4253467.0,Centros de especialidades,Centres d'especialitats
305,POINT (715662.76062 4253467.08584),306,26181,2753,C.E. DE SAN VTE. RASPEIG,3122,Sant Vicent del Raspeig/San Vicente del Raspeig,Alacant/Alicante,LILLO JUAN,137,...,15,19,ALICANTE,1900,,,715662.760623,4253467.0,Centros de especialidades,Centres d'especialitats
