In [1]:
import pandas as pd

# Cargar CSV original
df = pd.read_csv("../dataset/processed_data/df_clean.csv")

# Columnas de referencia
cols_ref = ["cod_municipio", "municipio"]

# Variables de calidad de aire a añadir en bienestar
calidad_aire = [
    "aq_aqi", "aq_co_value", "aq_no2_value",
    "aq_o3_value", "aq_pm10_value", "aq_pm25_value", "aq_so2_value"
]

# Mapeo de categorías y variables de conteo
count_columns_mapping = {
    # Sanidad
    "g_hospitales_clinicas_count": "sanidad_hospitales_clinicas",
    "g_medicos_familia_count": "sanidad_medicos_familia",
    "g_farmacias_count": "sanidad_farmacias",
    
    # Educación
    "g_escuelas_infantiles_count": "educacion_escuelas_infantiles",
    "g_colegios_institutos_count": "educacion_colegios_institutos",
    "g_universidad_fp_count": "educacion_universidad_fp",
    
    # Transporte y Conectividad
    "g_paradas_bus_count": "transporte_conectividad_paradas_bus",
    "g_estaciones_principales_count": "transporte_conectividad_estaciones",
    
    # Economía y Empleo
    "afiliados_agricultura_y_ganadería": "economia_empleo_agricultura_ganaderia",
    "afiliados_construcción": "economia_empleo_construccion",
    "afiliados_minería_industria_y_energía": "economia_empleo_mineria_industria_energia",
    "afiliados_otros_servicios": "economia_empleo_otros_servicios",
    "afiliados_servicios_a_empresas_y_financieros": "economia_empleo_servicios_empresas_financieros",
    "afiliados_servicios_de_distribución_y_hostelería": "economia_empleo_distribucion_hosteleria",
    "afiliados_total": "economia_empleo_total",
    "paro_total": "economia_empleo_paro",
    
    # Bienestar
    "g_gimnasios_count": "bienestar_gimnasios",
    "g_parques_count": "bienestar_parques",
    **{col: f"bienestar_{col}" for col in calidad_aire},  
    
    # Ocio y Cultura
    "g_restaurantes_count": "ocio_cultura_restaurantes",
    "g_cafeterias_count": "ocio_cultura_cafeterias",
    "g_bares_count": "ocio_cultura_bares",
    "g_cines_count": "ocio_cultura_cines",
    
    # Servicios
    "g_bancos_count": "servicios_bancos",
    "g_cajeros_count": "servicios_cajeros",
    "g_centros_comerciales_count": "servicios_centros_comerciales",
    "g_conveniencia_count": "servicios_conveniencia",
    "g_supermercados_count": "servicios_supermercados",
    "g_gasolineras_count": "servicios_gasolineras",
    "g_ayuntamientos_count": "servicios_ayuntamientos",
    "g_juzgados_count": "servicios_juzgados",
    "g_bomberos_count": "servicios_bomberos",
    "g_comisarias_count": "servicios_comisarias"
}

# Filtrar solo columnas de referencia + counts disponibles
cols_to_keep = cols_ref + [col for col in count_columns_mapping if col in df.columns]

df_counts = df[cols_to_keep].copy()

# Renombrar columnas según mapeo
df_counts.rename(columns=count_columns_mapping, inplace=True)

# Verificación
print(df_counts.head())

   cod_municipio          municipio  sanidad_hospitales_clinicas  \
0             14       Acebeda (La)                           21   
1             29            Ajalvir                           26   
2             35  Alameda del Valle                           20   
3             40         Álamo (El)                           26   
4             88   Aldea del Fresno                           22   

   sanidad_medicos_familia  sanidad_farmacias  educacion_escuelas_infantiles  \
0                        1                  1                             20   
1                       20                 16                             20   
2                        0                  3                             20   
3                       20                 13                             20   
4                        4                  4                             20   

   educacion_colegios_institutos  educacion_universidad_fp  \
0                              3                

In [None]:
# Guardar dataframe en CSV
df_counts.to_csv("../website_data/df_counts_categorias.csv", index=False)