## Datos DSE-CONACyT para el Estado de Veracruz

## Descripción

Análisis de los datos de acceso público de la Dirección de Seguimiento Epidemiológico (DSE) en los que se basa el sitio web del Consejo Nacional de Ciencia y Tecnología (CONACyT) recortados para el Estado de Veracruz. La fecha de actualización de los datos es del 9 de noviembre del 2021. Datos disponibles en:

> https://www.gob.mx/salud/documentos/datos-abiertos-152127

## Librerias

In [2]:
import pandas as pd 
import numpy as np
import datetime as dt
import matplotlib.pyplot as plt
import matplotlib.gridspec as gridspec
import matplotlib.ticker as ticker
import random as rnd
import os


from matplotlib.patches import FancyBboxPatch

## Cargar archivo(s)

In [3]:
# Imprimir informacion de proceso
verbose = True

estatal = None
municipal = None

In [4]:

# Localización del archivo

dir_datos = 'C:/Users/Usuario1/Documents/Datos/'               # Directorio donde se encuentran los datos
sub_dir = 'DSE'                                                # Sub-directorio del archivo 
nom_archivo = '2021_11_09_DSE_Ver.csv'                         # Nombre del archivo

archivo = os.path.join(dir_datos, sub_dir, nom_archivo)        # Ruta del archivo

# Información del archivo

tamano_archivo = os.path.getsize(archivo)                      # Tamaño del archivo en bytes
archivos_dir = os.listdir(os.path.join(dir_datos, sub_dir))    # Lista de archivos en directorio 
datos_covid = pd.read_csv(archivo)
if verbose:
    
    print("Archivos en carpeta: ", archivos_dir, sep= '\n', end = '\n\n')
    print(f"El tamaño de {nom_archivo} es de : {tamano_archivo/1000000} megabytes")
    print('Archivo cargado.')

Archivos en carpeta: 
['2021_11_08_DSE_Nal.csv', '2021_11_08_DSE_Ver.csv', '2021_11_09_DSE_Nal.csv', '2021_11_09_DSE_Ver.csv', '2021_11_09_DSE_Ver.csvt', 'Comprimidos', 'Diccionario_de_datos', 'Leeme.txt']

El tamaño de 2021_11_09_DSE_Ver.csv es de : 36.984746 megabytes
Archivo cargado.


  exec(code_obj, self.user_global_ns, self.user_ns)


In [5]:
# Catalogo de datos

dir_datos = 'C:/Users/Usuario1/Documents/Datos'  # Directorio donde se encuentran los datos
sub_dir = 'DSE/Diccionario_de_datos'             # Sub-directorio del archivo 
nom_archivo = 'DSE_Catalogos_Trabajo.xlsx'       # Nombre del archivo de datos

ruta_datos = os.path.join(dir_datos, sub_dir, nom_archivo)       # Ruta al archivo de datos

archivo_diccionario = pd.ExcelFile(ruta_datos)
hojas_catalogos = archivo_diccionario.sheet_names

#tamano_archivo = os.path.getsize(archivo)                       # Tamaño del archivo en bytes
#archivos_dir = os.listdir(os.path.join(dir_datos, sub_dir))     # Lista de archivos en directorio 

catalogos = {}

for catalogo in ['TIPO_PACIENTE', 'SEXO', 'SI_NO']:
    df = archivo_diccionario.parse(catalogo)
    diccionario = {}
    for _, row in df.iterrows():
        diccionario[row['CLAVE']] = row['DESCRIPCION']
    catalogos[catalogo] = diccionario

if verbose:
    #print("Archivos en carpeta: ", archivos_dir, sep= '\n', end = '\n\n')
    #print(f"El tamaño de {nom_archivo} es de : {tamano_archivo} bytes")
    print(f'Hojas en en la libreta de excel: {hojas_catalogos}', end = '\n\n')
    
    print(f'Catalogos cargados...')
    for catalogo in catalogos:
        print(f'Diccionario {catalogo} cargado:')
        print(catalogos[catalogo])


Hojas en en la libreta de excel: ['ORIGEN', 'SECTOR', 'SEXO', 'TIPO_PACIENTE', 'SI_NO', 'NACIONALIDAD', 'RESULTADO_LAB', 'RESULTADO_ANTIGENO', 'CLASIFICACION_FINAL', 'ENTIDADES', 'MUNICIPIOS']

Catalogos cargados...
Diccionario TIPO_PACIENTE cargado:
{1: 'AMBULATORIO', 2: 'HOSPITALIZADO', 99: 'NO ESPECIFICADO'}
Diccionario SEXO cargado:
{1: 'MUJER', 2: 'HOMBRE', 99: 'NO ESPECIFICADO'}
Diccionario SI_NO cargado:
{1: 'SI ', 2: 'NO ', 97: 'NO APLICA', 98: 'SE IGNORA', 99: 'NO ESPECIFICADO'}


## Observaciones Generales

El análisis realizado se intentó con los datos del todo el país, pero debido a la poca memoria que tiene la computadora de trabajo se tuvo que limitar el análisis solo al Estado de Veracruz. Cargar el archivo a nivel nacional tarda 10 minutos sin ningun otro proceso en marcha. El tiempo para recortar corte a los datos de interés para el Estado de Veracruz fue de 3 minutos.

No existen valores nulos (nan) en ninguna de las columnas pero existen valores que representan la ausencia de valor. En las columnas de fecha, el valor utilizado para representar datos nulos en campos de fecha es '99-99-9999'. Las columnas que contienen datos de claves geoestadisticas del INEGI tienen formato numerico, el valor utilizado para representar un no dato es el 99 y solo se presenta en ENTIDAD_NAC.

FECHA_ACTUALIZACION tiene un solo valor que representa la fecha de actualización de la tabla y la columna ID_REGISTRO es la unica con valores unicos. Siete de las columnas son de tipo objeto y el resto son de tipo int64. Los datos fueron cargados como data frame de pandas y ocupan un 81.3 megabytes en la memoria.


In [6]:
####### Análisis Inicial #####

# Información general

#datos_covid.info()             # Valores nulos y tipo de datos por columna
#datos_covid.describe()         # Estadisticas por columna
#datos_covid.columns.tolist())  # Columnas originales del archivo


# Columna FECHA_ACTUALIZACION

#datos_covid.FECHA_ACTUALIZACION.nunique()          # Solo hay un valor en la columna.
#datos_covid.FECHA_ACTUALIZACION.value_counts()     # Cuenta de valores unicos del campo


# Columnas que representan claves geográficas ('ENTIDAD_UM', 'ENTIDAD_NAC', 'ENTIDAD_RES')

#columnas_claves = ['ENTIDAD_UM', 'ENTIDAD_NAC', 'ENTIDAD_RES']
#datos_covid[['ENTIDAD_UM', 'ENTIDAD_NAC', 'ENTIDAD_RES', 'MUNICIPIO_RES']].dtypes 
                                                                    # Tipos de datos en columnas seleccionadas.
#np.unique(datos_covid.ENTIDAD_UM.unique() <= 32 )                  # Todos los valores estan dentro de los rangos 
                                                                    # de claves de Estado ( 1 a 32).
#datos_covid[datos_covid['ENTIDAD_NAC'] > 32].ENTIDAD_NAC.unique()  # Solo un valor sale de los rangos de clave de 
                                                                    # estado (esto significa que nació en otro pais 
                                                                    # o no se sabe donde nació).
#np.unique(datos_covid.ENTIDAD_RES.unique() <= 32)                  # Todos los valores estan dentro de los rangos
                                                                    # de clave de estado.


# Columna ID_REGISTRO

#datos_covid.ID_REGISTRO.is_unique                      # Todos los valores de la columna son únicos.
#type(datos_covid.ID_REGISTRO.iloc[5])                  # El tipo de dato de cada elemento es String
#datos_covid.ID_REGISTRO.str.len().value_counts()       # Hay 266297 elementos con una cadena de 
                                                        # longitud 6 y 7 de longitud 7.


# Columnas con fechas ('FECHA_INGRESO', 'FECHA_SINTOMAS', 'FECHA_DEF')

#datos_covid.FECHA_INGRESO.isna().sum()                             # Columna sin valores nulos
#(datos_covid['FECHA_INGRESO'] == '9999-99-99').value_counts()      # Columna sin clave de fecha nula

#datos_covid.FECHA_SINTOMAS.isna().sum()                            # Columna sin valores nulos
#(datos_covid['FECHA_SINTOMAS'] == '9999-99-99').value_counts()     # Cuenta en ceros de clave que 
                                                                    # representa valores nulos
#datos_covid['FECHA_SINTOMAS'].sort_values(ascending = False)       # Comprobación de que no hay claves 
                                                                    # de valores nulos

#datos_covid.FECHA_DEF.isna().sum() # Columna sin valores nulos
#(datos_covid['FECHA_DEF'] == '9999-99-99').value_counts()          # Cuenta de claves que representan 
                                                                    # valores nulos (247,969)
#datos_covid['FECHA_DEF'].sort_values(ascending = False)            # Comprobación de que no hay claves 
                                                                    # de valores nulos


# Columna EDAD

#datos_covid['EDAD'].dtypes                                 # Es un numero integro
#datos_covid['EDAD'].isna().value_counts()                  # No tiene valores nulos
#datos_covid['EDAD'].value_counts()                         # Valores únicos
#datos_covid['EDAD'].max()                                  # Valor máximo es de 121
#datos_covid['EDAD'].min()                                  # Valor mínimo es de 0


# Valores únicos en columnas

#col_sin_clave = ['ID_REGISTRO', 'FECHA_INGRESO', 'FECHA_SINTOMAS', 'FECHA_DEF', 'MUNICIPIO_RES', 'EDAD']
                                                            # Columnas sin valores categorizados
#for col in datos_covid.columns:                            # Imprimir claves de columna
#    if col not in col_sin_clave:                           # si no aparece en la lista de columnas
#        print(col, ':', sep='')                            # con valores continuos
#        print(datos_covid[col].unique().tolist())


## Limpieza de datos

Se eliminó la columna FECHA_ACTUALIZACION y se guardo el valor unico que contiene (2021-11-09) en una variable. Las columnas con fechas en formato de string fueron coercionadas a convertirse a formato fecha. Los string sin un formato valido de fecha ('99-99-9999') fueron convertidos a valores nulos (nat - not a time). Las columnas con formato de fecha son:

    * FECHA_ACTUALIZACION
    * FECHA_INGRESO
    * FECHA_SINTOMAS
    * FECHA_DEF
    

Las columnas que representan claves de entidades geográficas fueron convertidas a formato string y se estandarizó la longitud en su formato a 2 caracteres en las columnas con clave de entidad, y a 3 caracteres en el caso de la columnas con claves municipales. Las columnas con claves geo-estadísticas son:

    * ENTIDAD_NAC
    * ENTIDAD_RES
    * MUNICIPIO_RES


Todas las columnas necesitan de catálogo de datos para interpretar su contenido. Solo la columna ID_REGISTRO (que es un identificador único de registro) y las columnas con formato de fecha no lo necesitan. El catalogo está disponible en formato Excel dentro de la carpeta con el nombre 'DSE/Diccionario_de_datos', en el archivo 'DSE_Catalogos_Trabajo.xlsx'. La tabla cuenta con Diccionario de Datos en la misma carpeta con el nombre '201128 Descriptores.

Se agregaron dos columnas para facilitar el analisis. La primera tiene el nombre RANGOS_EDAD y contiene rangos de cinco años para la edad establecida en la columna EDAD. La segunda columna tiene el nombre de FECHA_RECUPERACION y agrega 14 dias a fecha de inicio de sintomas (FECHA_SINTOMAS).




In [7]:
######## LIMPIEZA DE DATOS #########

if 'FECHA_ACTUALIZACION' in datos_covid.columns:

    # Se eliminó la columna FECHA_ACTUALIZACION porque solo tiene un valor que representa la fecha de corte (2021-11-09).

    fecha_corte = dt.datetime.strptime(datos_covid['FECHA_ACTUALIZACION'].iloc[0], '%Y-%m-%d') 
                                                                            # Guardar fecha de corte en variable

    datos_covid.drop(columns = 'FECHA_ACTUALIZACION', inplace = True)       # Eliminar columna


    # Cambiar los datos que son fecha a tipo a fecha

    datos_covid['FECHA_INGRESO'] = pd.to_datetime(datos_covid['FECHA_INGRESO'], errors='coerce')
    datos_covid['FECHA_SINTOMAS'] = pd.to_datetime(datos_covid['FECHA_SINTOMAS'], errors='coerce')
    datos_covid['FECHA_DEF'] = pd.to_datetime(datos_covid['FECHA_DEF'], errors='coerce')


    # Cambiar las claves de áreas estadísticas municipales y nacionales a string

    datos_covid['ENTIDAD_UM'] = datos_covid['ENTIDAD_UM'].apply('{:0>2}'.format)
    datos_covid['ENTIDAD_NAC'] = datos_covid['ENTIDAD_NAC'].apply('{:0>2}'.format)
    datos_covid['ENTIDAD_RES'] = datos_covid['ENTIDAD_RES'].apply('{:0>2}'.format)
    datos_covid['MUNICIPIO_RES'] = datos_covid['MUNICIPIO_RES'].apply('{:0>3}'.format)


else:
    print('Probablemente ya se limpiaron los datos, porfavor revisar.')


In [8]:
######## AGREGAR COLUMNAS #########

rangos = list(range(0,135,5)) # Crear lista de rangos

# Agregar columna de rango de edad
datos_covid['RANGOS_EDAD'] = pd.cut(x = datos_covid['EDAD'], bins = rangos, right = False) 

# Agregar 14 dias a fecha de inicio de sintomas (FECHA_SINTOMAS)
datos_covid['FECHA_RECUPERACION'] = datos_covid['FECHA_SINTOMAS'] + dt.timedelta(days = 14) 


In [9]:
######## COMPROBACIONES #########


# Comprobaciones columnas de fechas

#datos_covid.FECHA_INGRESO.isna().sum()  # Suma de valores nulos es igual a 0
#datos_covid.FECHA_SINTOMAS.isna().sum() # Suma de valores nulos es igual a 0
#datos_covid.FECHA_DEF.isna().sum()      # Suma de valores nulos es igual a 247,969 
                                         # que es igual al número de claves nulas en el análisis anterior

    
# Comprobaciones columnas de claves ('ENTIDAD_UM', 'ENTIDAD_NAC', 'ENTIDAD_RES', 'MUNICIPIO_RES')

#datos_covid.ENTIDAD_UM.unique()              # Valores únicos
#datos_covid.ENTIDAD_UM.nunique()             # Numero de valores únicos coincide con cantidad de estados
#datos_covid.ENTIDAD_UM.str.len().unique()    # Todas las claves tienen una longitud de dos

#datos_covid.ENTIDAD_NAC.unique()             # Valores únicos
#datos_covid.ENTIDAD_NAC.nunique()            # Numero de valores únicos con uno más de la cantidad 
                                              # de estados (Clave 99)
#datos_covid.ENTIDAD_NAC.str.len().unique()   # Todas las claves tienen una longitud de dos

#datos_covid.ENTIDAD_RES.unique()             # Valores únicos
#datos_covid.ENTIDAD_RES.nunique()            # Numero de valores únicos coincide con cantidad de estados
#datos_covid.ENTIDAD_RES.str.len().unique()   # Todas las claves tienen una longitud de dos

#np.sort(datos_covid.MUNICIPIO_RES.unique())  # Valores únicos con valores de todos los estados
#datos_covid.MUNICIPIO_RES.str.len().unique() # Todas las claves tienen una longitud de tres
#np.sort(datos_covid[datos_covid['ENTIDAD_RES'] == '30'].MUNICIPIO_RES.unique()) 
                                              # Valores unicos de claves municipales
                                              # de residentes de Veracruz con valores
                                              # correctos ('001'-'212' y '999')
    


## Información contenida en el sitio COVID-CONACyT

Cada registro individual se contabiliza según el lugar de residencia, no el lugar donde se toma la muestra. Esta forma de contabilizar los datos implica que los turistas internacionales que entran al sistema no son contabilizados en las estadisticas.

La muestra de datos extraída de la base de datos nacional toma los casos de residentes veracruzanos y los casos de los que fueron diagnosticados en el Estado de Veracruz aunque sean de otros estados. Para replicar las gráficas a nivel estatal, se redujeron las entradas a solamente a los registros con el valor '30' en ENTIDAD_RES (Entidad de residencia). 

El nombre de cada una de las gráficas está definido según la división realizada en un análisis previo plasmando en el documento Contenido del sitio web COVID-CONACyT (AnalisisPaginaConacyt). En esta seccion se replican los datos en los que se basan las gráficas. 



In [151]:
# Reducir la muestra solo a los habitantes del estado de Veracruz y separar los casos según clasificación final.

residentes_ver = datos_covid[datos_covid.ENTIDAD_RES == '30']  # cambiar despues**********
                                                # Reducir la muestra solo a los residentes del estado de Veracruz

registros_covid = {
'POSITIVOS' : residentes_ver[residentes_ver.CLASIFICACION_FINAL.isin([1,2,3])], 
                                                # Casos confirmados (valores 1,2,3 en RESULTADO_FINAL)
'NEGATIVOS' : residentes_ver[residentes_ver.CLASIFICACION_FINAL.isin([7])],
                                                # Casos negativos (valor 7 en RESULTADO_FINAL)
'SOSPECHOSOS' : residentes_ver[residentes_ver.CLASIFICACION_FINAL.isin([4,5,6])]
                                                # Casos sospechosos (valores 4,5,6 en RESULTADO_FINAL)
}

### Funciones para el procesamiento de datos

Se codificaron dos funciones y una Lambda (en la Sección 2) para procesar información:
* ***clave_x_descripcion***: Función que regresa una lista que sustituye claves por descripciones. Toma como entrada un array o lista de claves y un diccionario que tiene como llave la clave y como valor la descripción.


* ***por_condicion***: Función que reorganiza la información del diccionario de porcentajes según condición del paciente. Toma como entradaun diccionario de porcentajes, un diccionario de claves, la condicion a extraer y un boleano para imprimir o no información. Regresa un diccionario de porcentajes divididos por condición del paciente.


* ***porcentaje_valores (lambda)***: Función que cuenta los valores de una columna especifica, divide los agregados entre el total de la casos. Usa como entrada una columna de dataframe y un numero entero. Regresa una serie de pandas.


In [11]:
def clave_x_descripcion(claves, diccionario):
    '''
    Función que regresa una lista donde las claves son sustituidas 
    descripciones. Toma como entrada:
    - claves: Un array o lista de claves.
    - diccionario: un diccionario que tiene como llave la clave y 
      como valor la descripción.
    
    Regresa lista de descripciones unicas en el orden que estan las claves
    en la lista de claves.
    '''
    lista = []
    for clave in claves:
        lista.append(diccionario[clave])
    return lista

In [12]:
def por_condicion(porcentajes, catalogo, condiciones, verbose):
    '''
    Función que reorganiza la informacion de diccionarios segun
    una lista de tipos de condiciones. Necesita los siguientes
    valores de entrada:
    - Diccionario de porcentajes
    - Diccionario de catalogo de claves
    - Condiciones a extraer
    - Booleano para imprimir (o no) información del proceso
    Regresa:
    - Diccionario de datos segun condiciones
    '''
    diccionario = {}
    set_catalogo = set(catalogo.keys())
        
    for condicion in condiciones:
        diccionario[condicion] = {}
        valores_presentes = list(porcentajes[condicion].keys())
        diferencia_sets = set_catalogo.difference(valores_presentes)
        
        for llave, valor in catalogo.items():
            #diccionario[condicion][valor] = {}
            if llave in valores_presentes:
                diccionario[condicion][valor] = porcentajes[condicion].loc[llave]
        if verbose:
            if len(diferencia_sets) > 0:
                print(f'Claves faltantes en {condicion}: {diferencia_sets}')

    return diccionario

### Información Sección 1 (S1): Acumulados y Casos activos

La Sección esta compuesta de la suma de casos:
* positivos
* negativos
* sospechosos
* defunciones
* recuperados
* activos

In [163]:
# Agregar valores segun condición...

fecha_activos = fecha_corte - dt.timedelta(days = 14) # Fecha límite de los casos considerados activos

lista_condiciones = ['POSITIVOS', 'NEGATIVOS', 'SOSPECHOSOS']

# Diccionario de acumulados desplegados en el encabezado
acumulado_casos = {}



# Agregar cumulado de casos positivos, negativos y sospechosos a diccionario numero_casos
for condicion in lista_condiciones:
    
    acumulado_casos[condicion] = registros_covid[condicion][['ENTIDAD_RES','MUNICIPIO_RES', 'ID_REGISTRO']]\
                                .groupby(['ENTIDAD_RES', 'MUNICIPIO_RES']).count() 

In [161]:
# Acumulado de defunciones

registros_defuncion = {}

for llave, valor in registros_covid.items():
    registros_defuncion[llave] = registros_covid[llave][registros_covid[llave]['FECHA_DEF'].notna()]
    
    
acumulado_defunciones = {}

for condicion in lista_condiciones:
    numero_defunciones[condicion] = registros_covid[condicion][['ENTIDAD_RES','MUNICIPIO_RES', 'ID_REGISTRO']]\
                                .groupby(['ENTIDAD_RES', 'MUNICIPIO_RES']).count()

acumulado_recuperados = {}

lambda x:  x[(x['TIPO_PACIENTE'] == 1) &  # Paciente no ambulatorio
             (x['FECHA_DEF'].isna()) &      # que no haya muerto
             (x['FECHA_SINTOMAS']  +        # cuya fecha de incio de sintomas
             dt.timedelta(days = 14) <=    # + 14 días sea menor o igual 
             fecha_corte)]                 # a la fecha de corte

#'activos' : registros_covid['positivos'][(registros_covid['positivos']['FECHA_SINTOMAS'] > 
                                                            # Paciente cuya fecha de incio de sintomas sea mayor 
#                                          fecha_activos)].shape[0]              
                                                            # a la fecha límite de casos activos
#}





#'recuperados' : registros_covid['positivos'][(registros_covid['positivos']['TIPO_PACIENTE'] == 1) &      
                                                            # Paciente no ambulatorio
#                                             (registros_covid['positivos']['FECHA_DEF'].isna()) & 
                                                            # que no haya muerto
#                                             (registros_covid['positivos']['FECHA_SINTOMAS']  + 
                                                            # cuya fecha de inicio de sintomas
#                                              dt.timedelta(days = 14) <= fecha_corte)].shape[0],   
                                                            # + 14 días sea menor o igual a la fecha de corte
#'activos' : registros_covid['positivos'][(registros_covid['positivos']['FECHA_SINTOMAS'] > 
                                                            # Paciente cuya fecha de incio de sintomas sea mayor 
#                                          fecha_activos)].shape[0]              
                                                            # a la fecha límite de casos activos
#}

#                                .groupby(['ENTIDAD_RES', 'MUNICIPIO_RES']).count()

### Información Seccion 2 (S2): Porcentajes por sexo, tipo de paciente y comorbilidades según tipo de caso

In [None]:
# Agregar y contar los cados de las columnas por valor y convertirlos en porcentaje

porcentaje_valores = lambda x, y: (x.value_counts() / y) * 100 
'''
Lambda que cuenta los valores de una columna especifica, divide los 
agregados entre el total de la casos. Usa como entrada una columna 
de dataframe y un numero entero. Regresa: Serie de pandas.
'''

# Grupos de datos que se despliegan en la pagina CONACyT-COVID
lista_condiciones = ['positivos', 'negativos', 'sospechosos']

# Lista de nombres de columnas de comorbilidades
lista_comorbilidades = ['DIABETES', 'EPOC', 'ASMA', 'INMUSUPR', 'HIPERTENSION', 'OTRA_COM', 
                        'CARDIOVASCULAR', 'OBESIDAD', 'RENAL_CRONICA', 'TABAQUISMO']

# Diccionario de diccionarios de porcentajes de sexo, tipo_paciente y comorbilidades, 
# segun los valores del catalogo de cada columna
porcentajes = {
    'sexo' : {},
    'tipo_paciente': {},
    'comorbilidades': {}
}

for condicion in lista_condiciones:             # Para los valores desplegables (positivos, negativos y sospechosos)
    porcentajes['sexo'][condicion] = porcentaje_valores(registros_covid[condicion]['SEXO'], 
                                                # Columna SEXO del diccionario de registros segun desplegable
                                                          numero_casos[condicion])
                                                # Valor del diccionario de numero de casos para el desplegable
    
    porcentajes['tipo_paciente'][condicion] = porcentaje_valores(registros_covid[condicion]['TIPO_PACIENTE'],
                                                # Columna TIPO_PACIENTE del diccionario de registros segun desplegable
                                                                   numero_casos[condicion])
                                                # Valor del diccionario de numero de casos para el desplegable
    
    for comorbilidad in lista_comorbilidades:   # Para cada comorbilidad en la lista de comorbiliddes
        try:
            porcentajes['comorbilidades'][comorbilidad][condicion] = porcentaje_valores(
                                                                        registros_covid[condicion][comorbilidad], 
                                                    # Columna del valor COMORBILIDAD del diccionario de registros 
                                                    # segun desplegable
                                                                        numero_casos[condicion])
                                                    # Valor del diccionario de numero de casos para la condicion
        except:    
            porcentajes['comorbilidades'][comorbilidad] = {}   # Crear diccionario de comorbilidad

            porcentajes['comorbilidades'][comorbilidad][condicion] = porcentaje_valores(
                                                                        registros_covid[condicion][comorbilidad], 
                                                    # Columna del valor COMORBILIDAD del diccionario de registros 
                                                    # segun desplegable
                                                                        numero_casos[condicion])
                                                    # Valor del diccionario de numero de casos para la condicion


In [None]:
# Agregar los porcentajes por condición del paciente al diccionario condiciones.
verbose = False

# Diccionario de diccionarios de sexo, tipo_paciente y comorbilidades, 
# por condición del paciente
condiciones = {
    'sexo' : {},
    'tipo_paciente': {},
    'comorbilidades': {}
}

# Aplicación de la funcion por condicion
if verbose: print('En porcentajes sexo:')
condiciones['sexo'] = por_condicion(porcentajes['sexo'], 
                                    catalogos['SEXO'], 
                                    lista_condiciones, 
                                    verbose)

if verbose: print('\nEn porcentajes tipo_paciente:')
condiciones['tipo_paciente'] = por_condicion(porcentajes['tipo_paciente'], 
                                             catalogos['TIPO_PACIENTE'], 
                                             lista_condiciones, 
                                             verbose)

for comorbilidad in lista_comorbilidades:
    if verbose: print(f'\nEn porcentajes comorbilidades {comorbilidad}:')
    condiciones['comorbilidades'][comorbilidad] = por_condicion(
                                porcentajes['comorbilidades'][comorbilidad], 
                                catalogos['SI_NO'], 
                                lista_condiciones, 
                                verbose)
verbose = True

In [None]:
######## COMPROBACIONES #########

#registros_covid.keys()                                                 # Llaves en el diccionario registros
#set(porcentajes.keys()) == set(condiciones.keys())                     # Las llaves de los diccionarios porcentajes
                                                                        # y condiciones son las mismas

#set(porcentajes['comorbilidades'].keys()) == \                         # Las llaves de porcentajes['comorbilidades'],
#set(condiciones['comorbilidades'].keys()) == \                         # las llaves de condiciones['comorbilidades'],
#set(lista_comorbilidades)                                              # y los elementos delista_comorbilidades son 
                                                                        # iguales

#porcentajes.keys()     # Llaves en el diccionario porcentajes
#condiciones.keys()     # Llaves en el diccionario condiciones

#[f'{llave}: {valor.keys()}' for llave, valor in porcentajes.items()]   # Llaves de los elementos del diccionaro
                                                                        # porcentajes
#[f'{llave}: {valor.keys()}' for llave, valor in porcentajes['comorbilidades'].items()]  
                                                                        # Llaves de los elementos del diccionaro
                                                                        # porcentajes

### Comprobacion de los diccionarios calculados (Descomentar toda la sección) ###

'''
lista_columnas = ['SEXO', 'TIPO_PACIENTE'] + lista_comorbilidades          # Lista de columnas usadas en la seccion 
# Comprobación de los diccionarios
for i in range(100):
    condicion_random = lista_condiciones[rnd.randint(0, len(lista_condiciones)-1)]
                                                                               # Condicion aleatoria.
    columna_random = lista_columnas[rnd.randint(0, len(lista_columnas)-1)]     # dos columna aleatoria.

    if columna_random in ['SEXO', 'TIPO_PACIENTE']:                       # Caso diccionarios sin sub-diccionarios
        llave_random, valor_random = rnd.choice(list(catalogos[columna_random].items()))
                                                                               # Llave-valor extraida de manera 
                                                                               # aleatoria del catalogo de 
                                                                               # la columna aleatoria.
        desde_creado = porcentajes[columna_random.lower()][condicion_random]   # Extraer serie del diccionario de 
                                                                               # porcentajes creado de columna aleatoria
                                                                               # y condición aleatoria.

    else:                                                                 # Caso diccionario con subdiccionarios de
                                                                               # comorbilidades.
        llave_random, valor_random = rnd.choice(list(catalogos['SI_NO'].items()))
                                                                               # Llave-valor del catalogo
                                                                               # SI_NO extraida de manera aleatoria (este 
                                                                               # catalogo es el que utilizan todas las 
                                                                               # comorbilidades).                        
        desde_creado = porcentajes['comorbilidades'][columna_random][condicion_random]
                                                                               # Extrer serie del diccionario de
                                                                               # porcentajes comorbilidades creado de columna 
                                                                               # aleatoria y condición aleatoria.

    desde_registros = (registros_covid[condicion_random][columna_random].value_counts() / \
                       registros_covid[condicion_random].shape[0]) * 100       # Serie calclada desde la tabla divida de 
                                                                               # columna aleatoria, dividida entre el total
                                                                               # entre el total de registros segun condición
                                                                               # y multiplicada por 100.

    if desde_registros.equals(desde_creado):        # Comprobación del diccionario de porcentajes donde se compara la serie
                                                    # creada desde registros con valores random de columna, y condición
                                                    # con la serie del diccionario porcentajes creado anteriormente.

        if llave_random in desde_registros.index:   # If que revisa que la llave del catalogo esté presente en la serie de
                                                    # porcentajes creadas desde registros y desde el diccionario creado. A
                                                    # nivel nacional aparecen todos los registros, pero existen valores
                                                    # ausentes a nivel estatal.
            desde_registros_con_llave = desde_registros.loc[llave_random]       # Valor extraido con llave aleatoria de
                                                                                # catalogo de la serie calulada desde
                                                                                # desde registros.

            if columna_random in ['SEXO', 'TIPO_PACIENTE']:               # Caso diccionarios sin diccionarios
                desde_condiciones_con_valor = condiciones[columna_random.lower()][condicion_random][valor_random]
                                                                                # Valor extraido del diccionario 
                                                                                # con valores dividios por condiciones
                                                                                # para la columna aleatoria, condicion
                                                                                # aleatoria y valor random del catalogo.
            else:                                                         # Caso diccionario con diccionarios de
                                                                          # comorbilidades.
                desde_condiciones_con_valor = condiciones['comorbilidades'][columna_random][condicion_random][valor_random]
                                                                                # Valor extraido del diccionario 
                                                                                # con valores dividios por condiciones
                                                                                # para la columna aleatoria, condicion
                                                                                # aleatoria y valor random del catalogo.
        else:                                        # En caso de ausencia de llave en la serie
            print(f'Valor {llave_random}: {valor_random} no presente en serie de {columna_random} - {condicion_random}')
                                                                                # Imprimir llave ausente.
            #print(desde_registros)                                             # Imprimir serie.

        if desde_registros_con_llave == desde_condiciones_con_valor:
            print(f'Coinciden valores de {llave_random}: {valor_random}', 
                  f'calculados y extraidos para {columna_random} - {condicion_random}')
        else:
            print(f'Valor {desde_registros_con_llave} no coincide con',
                  f'{desde_condiciones_con_valor} en calculados y extraidos',
                  f' de {columna_random} - {condicion_random}')
    else:
        print('Las series no son iguales.')          # Si las serie creada desde registros y extraida del diccionario
                                                     # porcentajes no son iguales imprime advertencia.
'''
mostrar_multilinea = False

In [None]:
registros_covid['positivos'].groupby(['ENTIDAD_RES', 'MUNICIPIO_RES'])

# Graficas

In [None]:
def cuadro_informacion(fila, columna, nombre, dato, color, acumulado = False):
    '''
    Función que formatea y despliega cuadros con información. Modifica valores 
    globales. Si la información es acumulada agrega una leyenda al final indicando 
    el tipo de información. 
    Toma como entrada: 
    - fila: El numero de fila para posicionar el elemento en el gridspec.
    - columna: El numero de columna para posicionar el elemento en el gridspec. 
    - nombre: Nombre del dato que esta desplegando.
    - valor: El valor del dato que se esta desplegando.
    - color: El color que se le va a asignar al titulo
    - acumulado: Valor boleano que define si el dato es acumulado o no.
    
    '''
    ax = fig.add_subplot(gs[fila, columna])                 # Agregar figura
    # Formatear texto
    ax.text(.07, .72, nombre.upper(), color = color)
    ax.text(.07, .37, f"{dato:,}", fontsize = 'xx-large')
    # formatear grafica
    if acumulado:
        ax.text(.07, .12, "Acumulados", color = 'gray', fontsize = 'small')
    ax.set_xticks([])
    ax.set_xticklabels([])
    ax.set_yticks([])
    ax.set_yticklabels([])
    ax.spines[['top', 'bottom', 'left', 'right']].set_visible(False)
    # Redondear bordes de axes
    p_bbox = FancyBboxPatch((0,0), 
                            1, 1, 
                            facecolor = 'white',
                            edgecolor = 'gray',
                            linewidth = 1,
                            clip_on = True,
                            boxstyle = "round,pad= -0.005, rounding_size = .05", )
    
    ax.add_patch(p_bbox)

In [None]:
def barra_horizontal(titulo, x_valor, ax):
    '''
    Función que formatea y desplega gráficas horizontales de una sola barra.
    Toma como entrada:
    - titulo: Titulo de la grafica
    - x_valor: Valor a graficar
    - ax: Gráfica a formatear
    
    '''
    # formatear figura
    ax.set_title(titulo.capitalize())  # agregar titulo
    ax.spines[['top', 'left', 'right']].set_visible(False)
    ax.set_yticks([])
    ax.set_yticklabels([])
    ax.set_xlim(0, 100)
    ax.set_xticks([0, 25, 50, 75, 100])
    ax.set_xticklabels([f'{etiqueta}%'for etiqueta in [0, 25, 50, 75, 100]], 
                   size = 'small')
    # formatear barra
    barra = ax.barh([0], x_valor, color = color, align = 'edge')   # agregar barra
    ax.bar_label(barra, labels=[f'{x_valor:.2f}%'], label_type = 'center', size = 'xx-large', color = 'white')
    ax.barh([0], 100 - x_valor, color = 'lightgray', left = x_valor, height = .1, align = 'edge')

In [None]:
def insertar_axes(titulo, subtitulos, desplegar, pad, datos, funcion):
    
    ax.set_title(titulo)
    ax.set_xticks([]), ax.set_yticks([])
    ax.set_xticklabels([]), ax.set_yticklabels([])
    ax.spines[['top', 'bottom', 'right', 'left']].set_visible(False)

    num_barras = len(subtitulos)
    insertar_en = np.linspace(0, 1 - pad, num_barras + 1)[:-1]
    indice = 0
    
    for subtitulo in subtitulos:
        if indice == 0:
            ax_sub = ax.inset_axes([insertar_en[indice], 0, (1 - pad)/num_barras, .8])
        else:
            ax_sub = ax.inset_axes([insertar_en[indice] + pad/(num_barras-1), 0, (1- pad)/num_barras , .8])

        barra_horizontal(subtitulo, datos[subtitulo][desplegar], ax_sub)
        indice += 1

In [None]:
fig = plt.figure(figsize = (14, 3))
gs = gridspec.GridSpec(3, 6, figure = fig)

fila, columna = 0, 0
for item, color in zip(acumulados.items(), colores_acumulados):
    llave, valor = item[0], item[1] 
    ax = cuadro_informacion(fila, columna, llave, valor, color, acumulado = True)
    columna += 1
    
fila, columna = 0, 5
ax = cuadro_informacion(fila, columna, 'Activos', num_casos_activos, 'green', acumulado = False)



fila, columna = 1, 3
ax = fig.add_subplot(gs[fila, :columna])

desplegar = 'positivos'

titulo =f'{desplegar.capitalize()} por sexo'
subtitulos = list(sexo.keys())[:-1]
pad = .05

insertar_axes(titulo, subtitulos, desplegar, pad, sexo, barra_horizontal)
    
fila, columna = 1, 3
ax = fig.add_subplot(gs[fila, columna:])

titulo =f'{desplegar.capitalize()} por tipo de paciente'
subtitulos = list(tipo_paciente.keys())[:-1]
pad = .05

insertar_axes(titulo, subtitulos, desplegar, pad, tipo_paciente, barra_horizontal)

fila, columna = 2, 6
ax = fig.add_subplot(gs[fila, :columna])


titulo =f'{desplegar.capitalize()} por comorbilidad'
subtitulos = lista_comorbilidades
pad = .05

insertar_axes(titulo, subtitulos, desplegar, pad, subtitulos, barra_horizontal)


plt.tight_layout()

In [None]:
df = pd.DataFrame(casos_positivos.SEXO.groupby(by = casos_positivos.MUNICIPIO_RES).value_counts())

In [None]:
len(comorbilidades)
plt.figure(figsize=(9,3))
plt.subplot(1,1,1)
plt.barh(list(comorbilidades_positivos.keys()), comorbilidades_positivos.values())

## Gráficas del sitio COVID-CONACyT

# Información Sección 3 (S3)

In [None]:
### Datos de la primera gráfica seccion tres - Casos por municipio

casos_positivos_municipio = casos_positivos.groupby(['MUNICIPIO_RES']).size()
casos_negativos_municipio = casos_negativos.groupby(['MUNICIPIO_RES']).size()
casos_sospechosos_municipio = casos_sospechosos.groupby(['MUNICIPIO_RES']).size()

In [None]:
### Datos de la segunda gráfica sección tres - Casos por rango y sexo ###

casos_positivos_rango_y_sexo = casos_positivos.groupby(['RANGOS_EDAD', 'SEXO']).size()
casos_negativos_rango_y_sexo = casos_negativos.groupby(['RANGOS_EDAD', 'SEXO']).size()
casos_sospechosos_rango_y_sexo = casos_sospechosos.groupby(['RANGOS_EDAD', 'SEXO']).size()


In [None]:
### Datos de la tercera gráfica sección tres - Casos por rango y tipo de paciente ###

casos_positivos_rango_y_tipo = casos_positivos.groupby(['RANGOS_EDAD', 'TIPO_PACIENTE']).size()
casos_negativos_rango_y_tipo = casos_negativos.groupby(['RANGOS_EDAD', 'TIPO_PACIENTE']).size()
casos_sospechosos_rango_y_tipo = casos_sospechosos.groupby(['RANGOS_EDAD', 'TIPO_PACIENTE']).size()


In [None]:
### Datos de la cuarta gráfica sección tres - Casos por fecha y sexo ###

casos_positivos_fecha_y_sexo = casos_positivos.groupby(['FECHA_INGRESO', 'SEXO']).size()
casos_negativos_fecha_y_sexo = casos_negativos.groupby(['FECHA_INGRESO', 'SEXO']).size()
casos_sospechosos_fecha_y_sexo = casos_sospechosos.groupby(['FECHA_INGRESO', 'SEXO']).size()

## Funciones

En esta sección se replican las graficas de la pagina sección CONACyT y se hacen propuestas alternativas.

### Cuadros Sección 1 (S1 - Encabezado)

In [None]:
sexo_casos_positivos

### Gráficas Sección 2 (S2)

In [None]:
### Primera grafica Sección 2 - Por sexo ###
# Figura compuesta de varias graficas utilizando gridspec

# Datos a graficar
y = sexo_casos_positivos.index              # Las categorias estan en el eje y por ser barras horizontales
catalogo_sexo = clave_x_descripcion(y, catalogos['SEXO'])  # Categorias son las mismas para las 3 graficas

# Valores
x_positivos = sexo_casos_positivos.values
x_negativos = sexo_casos_negativos.values                     
x_sospechosos = sexo_casos_sospechosos.values

# Figura
figura_sexo = plt.figure(figsize = (9,3))               # Crear fogira
spec =  gridspec.GridSpec(ncols = 3, nrows = 2)         # Agregar cuadricula

# Definir posición de las graficas en la cuadricula
ax1 = figura_sexo.add_subplot(spec[:,0])                # Ocupa los primeros cuadros de la columna 0
ax2 = figura_sexo.add_subplot(spec[0,1:])               # Ocupa desde la segunda hasta la ultima columna en la primera fila
ax3 = figura_sexo.add_subplot(spec[1,1])                # Ocupa el espacio de la segunda fila y la segunda columna
ax4 = figura_sexo.add_subplot(spec[1,2])                # Ocupa el espacio en la segunda fila y la tercera columna

figura_sexo.suptitle('Porcentaje de casos por sexo')    # Titulo de figura
figura_sexo.tight_layout(h_pad = 2.4)                   # Tipo de layout con separación horizontal de 1.2


## Positivos por sexo ##

ax1.set_title('Confirmados')                            # Titulo de gráfica 1                              
ax1.barh(catalogo_sexo, x_positivos, color = [ 'lavender','plum'])
                                                        # Gráfica de tipo barra horizontal
                                                        # Las categorias van el el eje de las y
                                                        # Los valores numericos en el eje de las x
                                                        # Las barras son paralelas en el eje y          
x_max = int(x_positivos.max())                          # Valor maximo en x
ax1.set_xlim(left = 0, right = x_max + 5)               # Limites del eje x
ax1.axvline(50, ymin = 0, ymax = 1, color = 'black', linestyle = '--') 
                                                        # Linea en el 50%
ax1.set_xticks([50])                                    # Definir un solo marcador en 50
ax1.set_xticklabels(['50%'])                            # Definir la etiqueta del marcador
ax1.tick_params(axis = 'x', length = 0, labelsize =13)  # Desaparecer los marcadores

for bar in ax1.containers:           # Agregar etiquetas a cada columna
    ax1.bar_label(bar, label_type = 'center', fmt = '%.2f%%' )    # Formato de etiquetas


## Negativos por sexo ##

ax2.set_title('Negativos')                               # Titulo de gráfica 2
ax2.set_xticks([0,25,50,75,100])                         # Posición de marcadores
ax2.set_xticklabels(['0%','25%','50%','25%','0%'])       # Etiquetas de marcadores
ax2.set_yticks([])                                       # Eliminar etiquetas en y
ax2.set_frame_on(False)                                  # Quitar marco

mujeres = ax2.barh(0, x_negativos[0], color = 'mediumslateblue')                   # Gráfica en formato de barras
hombres = ax2.barh(0,x_negativos[1], left = x_negativos[0], color = 'lavender')    # horizontales apiladas

ax2.bar_label(mujeres, labels = ['Mujeres'], label_type='center', padding = -120)  # Añadir etiquetas antes y despues
ax2.bar_label(hombres, labels = ['Hombres'], label_type='edge')                    # de las barras

ax2.axvline(50, ymin = 0, ymax = 1, color = 'black', linestyle = '--')             # Linea a la mitad de la gráfica


## Sospechosos por sexo ##

ax3.set_title('Sospechosos', loc = 'right', position=(1.35,0))     # Titulo de gráfica 3

ax3.xaxis.set_label_position('top')                                # Poner etiqueta de las x en la parte superior
ax3.set_xlabel('Mujeres')                                          # Definir etiqueta del eje x

ax3.barh([0], x_sospechosos[0], align = 'edge', color = 'mediumslateblue')   # Definir barras horizontales 
                                                                             # independientes apiladas en 
                                                                             # gráficas independientes
ax3.barh([0], x_sospechosos[1], height=0.05, align = 'edge', left = x_sospechosos[0], color = 'lightgray')
                                                                             # Completando a 100 con una barra
                                                                             # menor mas delgada
ax3.set_yticks([])                                                 # Eliminar marcadores en y
ax3.spines[['top', 'right', 'left']].set_visible(False)            # Invisibilizar algunos bordes


ax4.xaxis.set_label_position('top')                                # Poner etiqueta de las x en la parte superior
ax4.set_xlabel('Hombres')                                          # Definir etiqueta del eje x
ax4.barh([0], x_sospechosos[1], align = 'edge',color = 'lavender')           # Definir barras horizontales 
                                                                             # independientes apiladas en 
                                                                             # gráficas independientes
ax4.barh([0], x_sospechosos[0], height=0.05, align = 'edge', label = 'Hombres', 
         left = x_sospechosos[1], color = 'lightgray')                       # Completando a 100 con una barra                                                               
                                                                             # menor mas delgada
ax4.set_yticks([])                                                 # Remover marcadores en y
ax4.spines[['top', 'right', 'left']].set_visible(False)            # Invisibilizar algunos bordes

posicion_marcadores = np.linspace(0, 100, num=5, endpoint=True, retstep=False, dtype='int', axis=0)
                                                               # Posición de los marcadores en los ejes
etiquetas = [f'{texto}%' for texto in posicion_marcadores]     # Etiquetas de los marcadores

ax3.set_xticks(posicion_marcadores)                       # Definir posición de marcadores
ax3.set_xticklabels(etiquetas)                            # Definir etiquetas
ax4.set_xticks(posicion_marcadores)                       # Definir posiciópn de marcadores
ax4.set_xticklabels(etiquetas)                            # Definir etiquetas

plt.show()





In [None]:
### Segunda grafica Sección 2 - Por sexo ###
# Gráfica con información por tipo de paciente

# Composición de imagenes utilizando subfiguras
labels = tpaciente_casos_positivos.index
labels = clave_x_descripcion(labels,catalogos['TIPO_PACIENTE'])

val_tp_pos = tpaciente_casos_positivos.values
val_tp_neg = tpaciente_casos_negativos.values
val_tp_sos = tpaciente_casos_sospechosos.values

# Asignar nombres a subfiguras

fig = plt.figure(figsize = (10,4))
subfigs = fig.subfigures(nrows= 3)
fig_cp = subfigs[0].subplots(1,2)
fig_cn = subfigs[1].subplots(1,2)
fig_cs = subfigs[2].subplots(1,1)

fig.subplots_adjust(bottom = .4)

fig.suptitle('Casos de pacientes hospitalizados y ambulatorios', y = 1.15)

subfigs[0].suptitle('Confirmados', y = 1.2)

fig_cp[0].set_title('Ambulatorios')
fig_cp[1].set_title('Hospitalizados')

fig_cp[0].barh([0], val_tp_pos[0], align = 'edge', label = 'Ambulatorios')
fig_cp[0].barh([0], val_tp_pos[1], height=0.05, align = 'edge', label = 'Hospitalizados', left = val_tp_pos[0], color = 'lightgray')
fig_cp[0].set_yticks([])

fig_cp[1].barh([0], val_tp_pos[1], align = 'edge', label = 'Ambulatorios')
fig_cp[1].barh([0], val_tp_neg[0], height=0.05, align = 'edge', label = 'Hospitalizados', left = val_tp_pos[1], color = 'lightgray')
fig_cp[1].set_yticks([])



subfigs[1].suptitle('Negativos', y = 1.2)
fig_cn[0].set_title('Ambulatorios')
fig_cn[1].set_title('Hospitalizados')


p1 = fig_cn[0].barh([0], val_tp_neg[0], align = 'edge', label = 'Ambulatorios')
p2 = fig_cn[0].barh([0], val_tp_neg[1], align = 'edge', label = 'Hospitalizados', left = val_tp_neg[0], color = 'lightgray')
fig_amb_neg = fig_cn[0]
fig_cn[0].set_yticks([])
fig_cn[0].set_xticks([])
fig_cn[0].set_frame_on(False)
fig_amb_neg.text(5,.1,f'{val_tp_neg[0]:.2f}%',fontdict = {'size': 28})


fig_cn[1].barh([0], val_tp_neg[1], align = 'edge', label = 'Ambulatorios')
fig_cn[1].barh([0], val_tp_neg[0], align = 'edge', label = 'Hospitalizados', left = val_tp_neg[1], color = 'lightgray')
fig_cn[1].set_yticks([])
fig_cn[1].set_xticks([])
fig_cn[1].set_frame_on(False)

fig_cn[1].text(5,.1,f'{val_tp_neg[1]:.2f}%',fontdict = {'size': 28})


subfigs[2].suptitle('Sospechosos', y = 1.2)
fig_cs.set_yticks([])
a = ['a','b','c']
fig_cs.set_xticks([25,50,75])

fig_cs.set_frame_on(False)
fig_cs.set_title('Ambulatorios    |         Hospitalizados', loc = 'center')
fig_cs.barh([0], val_tp_sos[0], align = 'center', label = 'Ambulatorios', height =.7)
fig_cs.barh([0], val_tp_sos[1], align = 'center', label = 'Hospitalizados',
            left = val_tp_sos[0], color = 'lightgray', height =.7)
fig_cs.barh([0], 0)
fig_cs.axvline(50, ymin = 0, ymax = 1, color = 'black')
fig_cs.axvline(25, ymin = 0, ymax = 1, color = 'black')
fig_cs.axvline(75, ymin = 0, ymax = 1, color = 'black')
fig_cs.tick_params(axis = 'x', length = 0, labelsize =18)



In [None]:
### Tercera grafica Sección 2 - Comorbilidades ###

In [None]:
(casos_positivos[comorbilidades] == 1).sum(axis = 1).value_counts().sort_index()


In [None]:
catalogos['SI_NO']

In [None]:
nss_comorbilidades.iloc[:,20:]

In [None]:
len(datos_covid) -len(sin_comorbilidades)

In [None]:
len(con_comorbilidades)

comorbilidades_positivos

In [None]:
datos_covid.ORIGEN.value_counts()

In [None]:
unicos_CLASIFICACION_FINAL = datos_covid['CLASIFICACION_FINAL'].unique().tolist()
unicos_CLASIFICACION_FINAL.sort()
unicos_CLASIFICACION_FINAL
clave_positivos = [1, 2, 3]

In [None]:
positivos = datos_covid[datos_covid['CLASIFICACION_FINAL'].isin(clave_positivos)]

In [None]:
clave_estados

In [None]:
ent_toma = pd.DataFrame(positivos.ENTIDAD_UM.value_counts().reset_index().values, columns = ['Ent', 'Cuenta'])
ent_toma['Ent'].replace(clave_estados, inplace = True)
fig, ax = plt.subplots(figsize = (9,8))

estados = ent_toma[ent_toma['Ent'] != 'VERACRUZ']['Ent']
valores = ent_toma[ent_toma['Ent'] != 'VERACRUZ']['Cuenta']
plt.title('Residentes veracruzanos con resultado positivo COVID por Estado donde se tomó la muestra')
ax.barh(estados, valores)
plt.show()
ent_toma

In [None]:
#crime_year = pd.DataFrame(df.Year.value_counts().reset_index().values, columns=["Year", "AggregateCrime"])
ent_res = pd.DataFrame(positivos[positivos['ENTIDAD_UM'] == 30]['ENTIDAD_RES'].value_counts().reset_index().values, columns = ['Ent', 'Cuenta'])

print('Residencia de los pacientes con resultado positivo a COVID cuya muestra fue tomada en el Estado de Veracruz: ')
ent_res

In [None]:
#crime_year = pd.DataFrame(df.Year.value_counts().reset_index().values, columns=["Year", "AggregateCrime"])
ent_res = datos_covid['ENTIDAD_UM'].groupby(datos_covid['ENTIDAD_UM']).count()




* Llama la atención que a pesar de haber asintomáticos todos los campos de fecha de comienzo de síntomas tienen valores válidos. 

In [None]:
sin_todas_comorb = residentes_ver[(residentes_ver[comorbilidades] == 2).all(True)]
con_todas_comorb = residentes_ver[(residentes_ver[comorbilidades] == 1).all(True)]

con_algunas_comorb = residentes_ver[(residentes_ver[comorbilidades] == 1).any(True)]


nss_todas_comorb = residentes_ver[(residentes_ver[comorbilidades].isin([97,98,99])).all(True)]
nss_algunas_comorb = residentes_ver[(residentes_ver[comorbilidades].isin([97,98,99])).any(True)]


pos_sin_todas_comorb = (len(sin_todas_comorb[sin_todas_comorb.CLASIFICACION_FINAL.isin([1,2,3])]) 
                        / num_casos_positivos) * 100
pos_con_todas_comorb = (len(con_todas_comorb[con_todas_comorb.CLASIFICACION_FINAL.isin([1,2,3])]) 
                        / num_casos_positivos) * 100
pos_nss_todas_comorb = (len(nss_todas_comorb[nss_todas_comorb.CLASIFICACION_FINAL.isin([1,2,3])]) 
                        / num_casos_positivos) * 100


In [None]:



# Ejercicio de imprimir los acumulados y dar formato solo con texto

#if True:
    #print(f'Casos activos: \033[1;31m{numero_casos['activos']:>12}\033[0m')  # \033 Escape code ; separador 1 Estilo 
                                                                       # (https://en.wikipedia.org/wiki/ANSI_escape_code)
    #print(f'Casos Recuperados: \033[1;92m{num_casos_recuperados:>8}\033[0m', end = '\n\n') # Fin escape code \033[0m

    #print('Casos acumulados:')
    #print(f'      Positivos: {num_casos_positivos:10}')
    #print(f'      Negativos: {num_casos_negativos:>10}')
    #print(f'      Sospechosos: {num_casos_sospechosos:>8}')
    #print(f'      Defunciones: {num_casos_defunciones:>8}')