In [None]:
from ipywidgets import IntProgress
from IPython.display import display
import time

import os
import sys
module_path = os.path.abspath(os.path.join('./covid_vulnerabilidad_mex'))
if module_path not in sys.path:
    sys.path.append(module_path)

from covid19_vulnerabilidad_mex.datos import *
from covid19_vulnerabilidad_mex.vulnerabilidad import *

import pandas as pd
import geopandas as gpd

import glob
import os
import matplotlib.pyplot as plt
import numpy as np

from datetime import timedelta
import datetime
from datetime import timedelta, date, datetime

from sklearn.feature_selection import SelectKBest, chi2
from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
from sklearn.feature_selection import SelectFromModel
from sklearn.cross_decomposition import PLSRegression

from pygifsicle import optimize
from pathlib import Path


In [None]:
%load_ext autoreload
%autoreload 2

## Nuevos datos de comorbilidades

Del trabajo de INEGI de estimación en áreas pequeñas

In [None]:
comorbilidades = pd.read_excel("datos/municipios/a_peq_prev_2018.xlsx",
                               engine='openpyxl',
                               skiprows=2,
                               nrows=12450,
                               usecols='A:I',
                               dtype={'Identificador único del municipio':str,
                                      'Clave de entidad federativa':str,
                                      'Clave de municipio o delegación':str}
                            ).rename({'Identificador único del municipio': 'cvegeo',
                                      'Porcentaje de población de 20 años y más con obesidad.':'pct_obesidad', 
                                      'Porcentaje de población de 20 años y más con diagnóstico previo de hipertensión.':'pct_hipertension',
                                      'Porcentaje de población de 20 años y más con diagnóstico previo de diabetes.':'pct_diabetes',
                                      'Clave de entidad federativa': 'cve_ent'},
                                      axis=1)
comorbilidades = comorbilidades[comorbilidades['Municipio o delegación'] != 'Total']
comorbilidades = comorbilidades[comorbilidades['Estimador'] == 'Valor']
comorbilidades = comorbilidades[['cve_ent', 'cvegeo', 'pct_obesidad', 'pct_hipertension', 'pct_diabetes']]
comorbilidades


Unnamed: 0,cve_ent,cvegeo,pct_obesidad,pct_hipertension,pct_diabetes
10,01,01001,31.486541,14.942242,7.495861
15,01,01002,32.282284,15.320425,7.953634
20,01,01003,40.004293,13.751906,9.172624
25,01,01004,32.596450,16.431493,7.383116
30,01,01005,34.731715,12.356755,6.745819
...,...,...,...,...,...
12425,32,32054,31.075955,16.920279,9.895491
12430,32,32055,30.526273,21.746589,12.050064
12435,32,32056,36.822130,20.010453,11.814172
12440,32,32057,32.477646,15.941678,8.089966


In [None]:
comorbilidades['cve_ent'].unique()

array(['01', '02', '03', '04', '05', '06', '07', '08', '09', '10', '11',
       '12', '13', '14', '15', '16', '17', '18', '19', '20', '21', '22',
       '23', '24', '25', '26', '27', '28', '29', '30', '31', '32'],
      dtype=object)

In [None]:
variables_municipales = pd.read_csv('datos/municipios/indicadores_original.csv', index_col=False,
                                    dtype={'cvegeo': str, 'entidad_cv': str,
                                            'municipio_cvegeo': str, 'entidad_cvegeo': str},
                                    encoding='iso8859_2')
arregla_cvegeo(variables_municipales)
variables_municipales.head()

Unnamed: 0,cvegeo,nom_ent,pt_2015,an_2015,ne614_015,bi_2015,sins_15,vpt_2015,vns_2015,vna_2015,...,hospitales_sme,hospitales_semar,hospitales_sedena,hospitales_pemex,total_hospitales_publicos,total_camas_publicos,hospitales_privados,total_de_camas_privados,total_camas,pob2020
0,1001,Aguascalientes,877190,2.057,3.4786,25.6873,14.156,0.5478,0.5543,0.6627,...,0,0,0,0,8,1228,17,43,1271,961977
1,1002,Aguascalientes,46464,4.4207,2.5959,41.8921,5.5355,1.6779,5.6457,1.2979,...,0,0,0,0,0,0,0,0,0,50864
2,1003,Aguascalientes,56048,4.7805,4.3906,49.1856,9.7524,1.0577,0.7756,0.9519,...,0,0,0,0,1,46,1,0,46,60760
3,1004,Aguascalientes,15577,4.3233,2.6265,33.0597,5.1165,1.5629,2.8986,0.5968,...,0,0,0,0,0,0,0,0,0,16918
4,1005,Aguascalientes,120405,3.2445,4.1297,33.7271,13.8341,0.9201,1.0273,0.9443,...,0,0,0,0,1,297,0,0,297,130184


In [None]:
variables_municipales.columns

Index(['cvegeo', 'nom_ent', 'pt_2015', 'an_2015', 'ne614_015', 'bi_2015',
       'sins_15', 'vpt_2015', 'vns_2015', 'vna_2015', 'vnd_2015', 'vne_2015',
       'vnl_2015', 'vnr_2015', 'irs_2015', 'grs_2015', 'lmex_2015',
       'poblacion', 'pobreza', 'pobreza_pob', 'pobreza_e', 'pobreza_e_pob',
       'pobreza_m', 'pobreza_m_pob', 'vul_car', 'vul_car_pob', 'vul_ing',
       'vul_ing_pob', 'npnv', 'npnv_pob', 'ic_rezedu', 'ic_rezedu_pob',
       'ic_asalud', 'ic_asalud_pob', 'ic_segsoc', 'ic_segsoc_pob', 'ic_cv',
       'ic_cv_pob', 'ic_sbv', 'ic_sbv_pob', 'ic_ali', 'ic_ali_pob',
       'carencias', 'carencias_pob', 'carencias3', 'carencias3_pob', 'plb',
       'plb_pob', 'plbm', 'plbm_pob', 'pob_total', 'mayores_65', 'pob_menore',
       'sin_derech', 'sin_dere_1', 'entidad_cv', 'consultori', 'consulto_1',
       'farmacias', 'id', 'municipio_cvegeo', 'nom_mun', 'porc_carencia_salud',
       'entidad_cvegeo', 'pob01', 'tasa_diabetes', 'tasa_cardiacas',
       'tasa_cancer', 'tasa_pulmo

In [None]:
variables_nuevas = variables_municipales.merge(comorbilidades, on='cvegeo')
variables_nuevas.drop(columns=[c for c in variables_nuevas.columns if (c.startswith('grado') or c.startswith('tasa'))], inplace=True)
variables_nuevas

Unnamed: 0,cvegeo,nom_ent,pt_2015,an_2015,ne614_015,bi_2015,sins_15,vpt_2015,vns_2015,vna_2015,...,total_hospitales_publicos,total_camas_publicos,hospitales_privados,total_de_camas_privados,total_camas,pob2020,cve_ent,pct_obesidad,pct_hipertension,pct_diabetes
0,01001,Aguascalientes,877190,2.0570,3.4786,25.6873,14.1560,0.5478,0.5543,0.6627,...,8,1228,17,43,1271,961977,01,31.486541,14.942242,7.495861
1,01002,Aguascalientes,46464,4.4207,2.5959,41.8921,5.5355,1.6779,5.6457,1.2979,...,0,0,0,0,0,50864,01,32.282284,15.320425,7.953634
2,01003,Aguascalientes,56048,4.7805,4.3906,49.1856,9.7524,1.0577,0.7756,0.9519,...,1,46,1,0,46,60760,01,40.004293,13.751906,9.172624
3,01004,Aguascalientes,15577,4.3233,2.6265,33.0597,5.1165,1.5629,2.8986,0.5968,...,0,0,0,0,0,16918,01,32.596450,16.431493,7.383116
4,01005,Aguascalientes,120405,3.2445,4.1297,33.7271,13.8341,0.9201,1.0273,0.9443,...,1,297,0,0,297,130184,01,34.731715,12.356755,6.745819
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2452,32054,Zacatecas,19155,8.1332,3.6565,42.1699,8.8384,2.5438,8.9568,3.8478,...,0,0,0,0,0,20177,32,31.075955,16.920279,9.895491
2453,32055,Zacatecas,30240,4.7985,3.4198,53.7212,13.5516,0.9201,4.8484,1.7459,...,1,22,1,0,22,31804,32,30.526273,21.746589,12.050064
2454,32056,Zacatecas,146147,1.2432,2.1746,23.0304,14.0968,0.2485,1.2004,1.6826,...,3,337,5,0,337,155533,32,36.822130,20.010453,11.814172
2455,32057,Zacatecas,19413,5.6122,2.5997,42.0488,9.0609,1.1950,6.9448,3.0891,...,1,12,0,0,12,20285,32,32.477646,15.941678,8.089966


In [None]:
variables_nuevas.columns

Index(['cvegeo', 'nom_ent', 'pt_2015', 'an_2015', 'ne614_015', 'bi_2015',
       'sins_15', 'vpt_2015', 'vns_2015', 'vna_2015', 'vnd_2015', 'vne_2015',
       'vnl_2015', 'vnr_2015', 'irs_2015', 'grs_2015', 'lmex_2015',
       'poblacion', 'pobreza', 'pobreza_pob', 'pobreza_e', 'pobreza_e_pob',
       'pobreza_m', 'pobreza_m_pob', 'vul_car', 'vul_car_pob', 'vul_ing',
       'vul_ing_pob', 'npnv', 'npnv_pob', 'ic_rezedu', 'ic_rezedu_pob',
       'ic_asalud', 'ic_asalud_pob', 'ic_segsoc', 'ic_segsoc_pob', 'ic_cv',
       'ic_cv_pob', 'ic_sbv', 'ic_sbv_pob', 'ic_ali', 'ic_ali_pob',
       'carencias', 'carencias_pob', 'carencias3', 'carencias3_pob', 'plb',
       'plb_pob', 'plbm', 'plbm_pob', 'pob_total', 'mayores_65', 'pob_menore',
       'sin_derech', 'sin_dere_1', 'entidad_cv', 'consultori', 'consulto_1',
       'farmacias', 'id', 'municipio_cvegeo', 'nom_mun', 'porc_carencia_salud',
       'entidad_cvegeo', 'pob01', 'hospitales_imss', 'hospitales_issste',
       'hospitales_ssa', 'ho

## Nuevas variables de hospitales

* Eliminar división por sector (isste, imss, etc)
* Sólo: total_hospitales_publicos y privados y los respectivos números de camas
* Agregados por estado porque no tiene mucho sentido por municipio
* Las camas de hospitales privados creo que tienen mucho error, las voy a eliminar

In [None]:
variables_nuevas.drop(columns=['hospitales_imss',
                               'hospitales_issste', 'hospitales_ssa', 'hospitales_sme',
                               'hospitales_semar', 'hospitales_sedena', 'hospitales_pemex', 'total_camas'], inplace=True)
variables_nuevas["total_camas_publicos_estatal"] = (variables_nuevas[['nom_ent', 'total_camas_publicos']]
                                                    .groupby('nom_ent')
                                                    .transform('sum'))
variables_nuevas["total_camas_privados_estatal"] = (variables_nuevas[['nom_ent', 'total_de_camas_privados']]
                                                    .groupby('nom_ent')
                                                    .transform('sum'))
variables_nuevas["total_hospitales_publicos_estatal"] = (variables_nuevas[['nom_ent', 'total_hospitales_publicos']]
                                                    .groupby('nom_ent')
                                                    .transform('sum'))
variables_nuevas["total_hospitales_privados_estatal"] = (variables_nuevas[['nom_ent', 'hospitales_privados']]
                                                    .groupby('nom_ent')
                                                    .transform('sum'))                                                 
variables_nuevas.drop(columns=['total_camas_publicos', 'total_de_camas_privados',
                               'total_hospitales_publicos', 'hospitales_privados'], inplace=True)
variables_nuevas.rename({"total_camas_publicos_estatal": "total_camas_publicos",
                         "total_camas_privados_estatal": "total_camas_privados",
                         "total_hospitales_publicos_estatal": "total_hospitales_publicos",
                         "total_hospitales_privados_estatal": "total_hospitales_privados"}, axis=1, inplace=True)
variables_nuevas.drop(columns="total_camas_privados")
variables_nuevas

Unnamed: 0,cvegeo,nom_ent,pt_2015,an_2015,ne614_015,bi_2015,sins_15,vpt_2015,vns_2015,vna_2015,...,pob01,pob2020,cve_ent,pct_obesidad,pct_hipertension,pct_diabetes,total_camas_publicos,total_camas_privados,total_hospitales_publicos,total_hospitales_privados
0,01001,Aguascalientes,877190,2.0570,3.4786,25.6873,14.1560,0.5478,0.5543,0.6627,...,797010,961977,01,31.486541,14.942242,7.495861,1656,43,12,20
1,01002,Aguascalientes,46464,4.4207,2.5959,41.8921,5.5355,1.6779,5.6457,1.2979,...,45492,50864,01,32.282284,15.320425,7.953634,1656,43,12,20
2,01003,Aguascalientes,56048,4.7805,4.3906,49.1856,9.7524,1.0577,0.7756,0.9519,...,54136,60760,01,40.004293,13.751906,9.172624,1656,43,12,20
3,01004,Aguascalientes,15577,4.3233,2.6265,33.0597,5.1165,1.5629,2.8986,0.5968,...,15042,16918,01,32.596450,16.431493,7.383116,1656,43,12,20
4,01005,Aguascalientes,120405,3.2445,4.1297,33.7271,13.8341,0.9201,1.0273,0.9443,...,99590,130184,01,34.731715,12.356755,6.745819,1656,43,12,20
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2452,32054,Zacatecas,19155,8.1332,3.6565,42.1699,8.8384,2.5438,8.9568,3.8478,...,18490,20177,32,31.075955,16.920279,9.895491,1122,0,29,49
2453,32055,Zacatecas,30240,4.7985,3.4198,53.7212,13.5516,0.9201,4.8484,1.7459,...,29395,31804,32,30.526273,21.746589,12.050064,1122,0,29,49
2454,32056,Zacatecas,146147,1.2432,2.1746,23.0304,14.0968,0.2485,1.2004,1.6826,...,138176,155533,32,36.822130,20.010453,11.814172,1122,0,29,49
2455,32057,Zacatecas,19413,5.6122,2.5997,42.0488,9.0609,1.1950,6.9448,3.0891,...,16934,20285,32,32.477646,15.941678,8.089966,1122,0,29,49


In [None]:
variables_nuevas.columns

Index(['cvegeo', 'nom_ent', 'pt_2015', 'an_2015', 'ne614_015', 'bi_2015',
       'sins_15', 'vpt_2015', 'vns_2015', 'vna_2015', 'vnd_2015', 'vne_2015',
       'vnl_2015', 'vnr_2015', 'irs_2015', 'grs_2015', 'lmex_2015',
       'poblacion', 'pobreza', 'pobreza_pob', 'pobreza_e', 'pobreza_e_pob',
       'pobreza_m', 'pobreza_m_pob', 'vul_car', 'vul_car_pob', 'vul_ing',
       'vul_ing_pob', 'npnv', 'npnv_pob', 'ic_rezedu', 'ic_rezedu_pob',
       'ic_asalud', 'ic_asalud_pob', 'ic_segsoc', 'ic_segsoc_pob', 'ic_cv',
       'ic_cv_pob', 'ic_sbv', 'ic_sbv_pob', 'ic_ali', 'ic_ali_pob',
       'carencias', 'carencias_pob', 'carencias3', 'carencias3_pob', 'plb',
       'plb_pob', 'plbm', 'plbm_pob', 'pob_total', 'mayores_65', 'pob_menore',
       'sin_derech', 'sin_dere_1', 'entidad_cv', 'consultori', 'consulto_1',
       'farmacias', 'id', 'municipio_cvegeo', 'nom_mun', 'porc_carencia_salud',
       'entidad_cvegeo', 'pob01', 'pob2020', 'pct_obesidad',
       'pct_hipertension', 'pct_diabetes'

In [None]:
variables_nuevas.to_csv("datos/municipios/indicadores.csv", index=False)