<a href="https://colab.research.google.com/github/cabreratr/hacking-civico/blob/master/tareas/03-exploracion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="http://codeandomexico.org/resources/img/codeandomexico.png" width="500" alt="Codeando México"><br>
<a href="http://www.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/website-CodeandoMexico-00D88E.svg"></a>
<a href="http://slack.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/slack-CodeandoMexico-EC0E4F.svg"></a>
</p>
<!-- __ -->

# Curso de Datos Abiertos y Hacking Cívico

Este curso tiene como objetivo habilitar las capacidades de la ciudadanía y los servidores públicos en el uso y generación de datos abiertos para el bien común. Puedes encontrar más información [aquí](https://github.com/CodeandoMexico/hacking-civico).

# Exploración de datos: COVID-19 en México

En este cuaderno aprenderemos algunas bases de exploración de datos. Los datos a utilizar son los datos abiertos sobre COVID-19 en México, los cuales pueden ser accedidos directamente desde el portal: https://www.gob.mx/salud/documentos/datos-abiertos-152127

Del portal de datos abiertos podemos encontrar dos enlaces, uno para descargar el conjunto de datos y otro para descargar el diccionario; así que podemos automatizar el proceso de descarga y descompresión de la información.

Para obtener los datos, sólo basta que ejecutes la siguiente línea de código, que contiene el comando de descarga de la información.

In [None]:
# Para descargar el conjunto de datos
!wget http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip

# Para descargar el diccionario de los datos
!wget http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip

# Descomprimimos ambas carpetas y movemos archivos
!unzip datos_abiertos_covid19.zip
!unzip diccionario_datos_covid19.zip
!mv ./diccionario_datos_covid19/*.xlsx .
!mv *COVID19MEXICO.csv COVID19MEXICO.csv

# Eliminamos las carpetas comprimidas
!rm -rf diccionario_datos_covid19
!rm datos_abiertos_covid19.zip
!rm diccionario_datos_covid19.zip

--2020-10-06 02:22:00--  http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip
Resolving datosabiertos.salud.gob.mx (datosabiertos.salud.gob.mx)... 187.210.186.146
Connecting to datosabiertos.salud.gob.mx (datosabiertos.salud.gob.mx)|187.210.186.146|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 37469377 (36M) [application/x-zip-compressed]
Saving to: ‘datos_abiertos_covid19.zip’


2020-10-06 02:22:05 (7.58 MB/s) - ‘datos_abiertos_covid19.zip’ saved [37469377/37469377]

--2020-10-06 02:22:05--  http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip
Resolving datosabiertos.salud.gob.mx (datosabiertos.salud.gob.mx)... 187.210.186.146
Connecting to datosabiertos.salud.gob.mx (datosabiertos.salud.gob.mx)|187.210.186.146|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 81416 (80K) [application/x-zip-compressed]
Saving to: ‘diccionario_datos_covid19.zip’


2020-10-06 02:22:

Hasta este punto, si abres la barra lateral izaquiera, deberías ser capaz de encontrar los datos:

- `COVID19MEXICO.csv`
- `Catalogos_0412.xlsx`
- `Descriptores_0419.xlsx`

👈🏼

## Carga

Ahora que tenemos los datos, procederemos a cargarlos. Para cargar los datos, primero importaremos algunos paquetes de Python, pues su funcionalidad nos será muy util.

In [5]:
import statistics

import pandas as pd
import numpy as np

In [6]:
# Especificamos el nombre del archivo por abrir
nombre_archivo = 'COVID19MEXICO.csv'

# Utilizamos la función de Pandas para cargar un archivo CSV
data = pd.read_csv(nombre_archivo, encoding='latin-1')

Mostramos la cabeza (primeros elementos del archivo).

In [None]:
data.head()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,FECHA_INGRESO,FECHA_SINTOMAS,FECHA_DEF,INTUBADO,NEUMONIA,EDAD,NACIONALIDAD,EMBARAZO,HABLA_LENGUA_INDIG,DIABETES,EPOC,ASMA,INMUSUPR,HIPERTENSION,OTRA_COM,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2020-09-03,097d14,2,3,2,2,2,2,2,1,2020-06-10,2020-06-10,9999-99-99,97,2,27,1,97,2,2,2,2,2,2,2,2,2,2,2,1,1,99,MÃ©xico,99,97
1,2020-09-03,1b7adb,2,4,2,2,12,2,4,2,2020-04-29,2020-04-15,2020-04-30,2,1,64,1,97,2,1,2,2,2,1,2,2,2,2,2,99,1,99,MÃ©xico,99,2
2,2020-09-03,11daaa,2,3,27,1,27,27,15,1,2020-05-26,2020-05-26,9999-99-99,97,2,32,1,2,99,2,2,2,2,2,2,2,2,2,2,1,1,99,MÃ©xico,99,97
3,2020-09-03,17c9eb,2,3,27,1,27,27,13,1,2020-06-05,2020-05-31,9999-99-99,97,2,54,1,2,2,1,2,2,2,1,2,2,2,2,2,1,1,99,MÃ©xico,99,97
4,2020-09-03,14f12c,2,4,17,1,3,17,7,1,2020-04-02,2020-04-01,9999-99-99,97,2,44,1,2,2,2,2,2,2,2,1,2,2,2,2,1,1,99,MÃ©xico,99,97


Ahora procedemos a cargar el archivo con los descriptores.

In [7]:
nombre_diccionario = 'Descriptores_0419.xlsx'
diccionario = pd.read_excel(nombre_diccionario)

In [None]:
diccionario

Unnamed: 0,Nº,NOMBRE DE VARIABLE,DESCRIPCIÓN DE VARIABLE,FORMATO O FUENTE
0,1,FECHA_ACTUALIZACION,"La base de datos se alimenta diariamente, esta...",AAAA-MM-DD
1,2,ID_REGISTRO,Número identificador del caso,TEXTO
2,3,ORIGEN,La vigilancia centinela se realiza a través de...,CATÁLOGO: ORIGEN ...
3,4,SECTOR,Identifica el tipo de institución del Sistema ...,CATÁLOGO: SECTOR ...
4,5,ENTIDAD_UM,Identifica la entidad donde se ubica la unidad...,CATALÓGO: ENTIDADES
5,6,SEXO,Identifica al sexo del paciente.,CATÁLOGO: SEXO
6,7,ENTIDAD_NAC,Identifica la entidad de nacimiento del paciente.,CATALÓGO: ENTIDADES
7,8,ENTIDAD_RES,Identifica la entidad de residencia del paciente.,CATALÓGO: ENTIDADES
8,9,MUNICIPIO_RES,Identifica el municipio de residencia del paci...,CATALÓGO: MUNICIPIOS
9,10,TIPO_PACIENTE,Identifica el tipo de atención que recibió el ...,CATÁLOGO: TIPO_PACIENTE


Finalmente, cargamos el rachivo de catálogos.

In [8]:
nombre_cat = 'Catalogos_0412.xlsx'
sheets = ['ORIGEN', 'SECTOR', 'SEXO', 'TIPO_PACIENTE', 'SI_NO', 'NACIONALIDAD', 'RESULTADO', 'de ENTIDADES', 'MUNICIPIOS']
catalogues = {}
for sheet in sheets:
  catalogue = pd.read_excel(nombre_cat, sheet_name='Catálogo ' + sheet)
  catalogue.columns = catalogue.columns.str.replace(' ', '_')
  catalogue.columns = catalogue.columns.str.replace('.', '')
  catalogue.columns = catalogue.columns.str.lower()
  new_catalogue = {sheet: catalogue}
  catalogues.update(new_catalogue)

In [9]:
catalogues

{'MUNICIPIOS':       clave_municipio        municipio  clave_entidad
 0                   1   AGUASCALIENTES              1
 1                   2         ASIENTOS              1
 2                   3         CALVILLO              1
 3                   4            COSÍO              1
 4                   5      JESÚS MARÍA              1
 ...               ...              ...            ...
 2496              999  NO ESPECIFICADO             32
 2497              999  NO ESPECIFICADO             36
 2498              997        NO APLICA             97
 2499              998        SE IGNORA             98
 2500              999  NO ESPECIFICADO             99
 
 [2501 rows x 3 columns], 'NACIONALIDAD':    clave      descripción
 0      1         MEXICANA
 1      2       EXTRANJERA
 2     99  NO ESPECIFICADO, 'ORIGEN':    clave      descripción
 0      1            USMER
 1      2   FUERA DE USMER
 2     99  NO ESPECIFICADO, 'RESULTADO':   unnamed:_0              unnamed:_1
 0    

In [10]:
catalogues['SEXO']

Unnamed: 0,clave,descripción
0,1,MUJER
1,2,HOMBRE
2,99,NO ESPECIFICADO


##Perfilamiento

###Descripción General

In [11]:
# dimensión de los datos
print('Número de filas: {}'.format(data.shape[0]))
print('Número de columnas: {}'.format(data.shape[1]))

Número de filas: 1758582
Número de columnas: 35


In [12]:
# columnas (variables)
data.columns

Index(['FECHA_ACTUALIZACION', 'ID_REGISTRO', 'ORIGEN', 'SECTOR', 'ENTIDAD_UM',
       'SEXO', 'ENTIDAD_NAC', 'ENTIDAD_RES', 'MUNICIPIO_RES', 'TIPO_PACIENTE',
       'FECHA_INGRESO', 'FECHA_SINTOMAS', 'FECHA_DEF', 'INTUBADO', 'NEUMONIA',
       'EDAD', 'NACIONALIDAD', 'EMBARAZO', 'HABLA_LENGUA_INDIG', 'DIABETES',
       'EPOC', 'ASMA', 'INMUSUPR', 'HIPERTENSION', 'OTRA_COM',
       'CARDIOVASCULAR', 'OBESIDAD', 'RENAL_CRONICA', 'TABAQUISMO',
       'OTRO_CASO', 'RESULTADO', 'MIGRANTE', 'PAIS_NACIONALIDAD',
       'PAIS_ORIGEN', 'UCI'],
      dtype='object')

In [13]:
# limpieza del nombre de las columnas, remover espacios, carácteres especiales y pasar a minúsculas
data.columns = data.columns.str.replace(' ', '_')
data.columns = data.columns.str.replace('.', '')
data.columns = data.columns.str.lower()

In [14]:
# calcular número de valores nulos por columna
for col in data.columns:
  print('Valores nulos en "{}": {}'.format(col,data[col].isna().sum()))

Valores nulos en "fecha_actualizacion": 0
Valores nulos en "id_registro": 0
Valores nulos en "origen": 0
Valores nulos en "sector": 0
Valores nulos en "entidad_um": 0
Valores nulos en "sexo": 0
Valores nulos en "entidad_nac": 0
Valores nulos en "entidad_res": 0
Valores nulos en "municipio_res": 0
Valores nulos en "tipo_paciente": 0
Valores nulos en "fecha_ingreso": 0
Valores nulos en "fecha_sintomas": 0
Valores nulos en "fecha_def": 0
Valores nulos en "intubado": 0
Valores nulos en "neumonia": 0
Valores nulos en "edad": 0
Valores nulos en "nacionalidad": 0
Valores nulos en "embarazo": 0
Valores nulos en "habla_lengua_indig": 0
Valores nulos en "diabetes": 0
Valores nulos en "epoc": 0
Valores nulos en "asma": 0
Valores nulos en "inmusupr": 0
Valores nulos en "hipertension": 0
Valores nulos en "otra_com": 0
Valores nulos en "cardiovascular": 0
Valores nulos en "obesidad": 0
Valores nulos en "renal_cronica": 0
Valores nulos en "tabaquismo": 0
Valores nulos en "otro_caso": 0
Valores nulos 

In [15]:
# tipos de datos
data.dtypes

fecha_actualizacion    object
id_registro            object
origen                  int64
sector                  int64
entidad_um              int64
sexo                    int64
entidad_nac             int64
entidad_res             int64
municipio_res           int64
tipo_paciente           int64
fecha_ingreso          object
fecha_sintomas         object
fecha_def              object
intubado                int64
neumonia                int64
edad                    int64
nacionalidad            int64
embarazo                int64
habla_lengua_indig      int64
diabetes                int64
epoc                    int64
asma                    int64
inmusupr                int64
hipertension            int64
otra_com                int64
cardiovascular          int64
obesidad                int64
renal_cronica           int64
tabaquismo              int64
otro_caso               int64
resultado               int64
migrante                int64
pais_nacionalidad      object
pais_orige

###Limpieza

In [16]:
# convertimos a fecha algunas columnas
def cast_datetime_cols(df):
    timestamp_cols = [col for col in df.columns if "fecha" in col]
    df[timestamp_cols] = df[timestamp_cols].apply(lambda date_col: pd.to_datetime(date_col, errors="coerce"), axis=0)
    return df

data = cast_datetime_cols(data)

In [17]:
data.head()

Unnamed: 0,fecha_actualizacion,id_registro,origen,sector,entidad_um,sexo,entidad_nac,entidad_res,municipio_res,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,intubado,neumonia,edad,nacionalidad,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,resultado,migrante,pais_nacionalidad,pais_origen,uci
0,2020-10-05,1c4b18,1,4,9,1,9,9,5,2,2020-04-25,2020-04-25,NaT,2,2,38,1,2,2,2,2,2,2,2,1,2,2,2,2,99,1,99,MÃ©xico,99,2
1,2020-10-05,081838,2,12,9,2,9,9,13,1,2020-04-28,2020-04-28,NaT,97,2,56,1,97,2,1,2,2,2,2,2,2,2,2,2,2,1,99,MÃ©xico,99,97
2,2020-10-05,0fefb1,2,12,9,2,9,15,58,1,2020-05-13,2020-05-05,NaT,97,2,47,1,97,2,2,2,2,2,2,2,2,2,2,2,2,1,99,MÃ©xico,99,97
3,2020-10-05,11ed05,2,9,9,1,9,15,81,2,2020-05-11,2020-05-11,NaT,2,2,43,1,2,2,2,2,2,2,2,2,2,2,2,2,2,1,99,MÃ©xico,99,1
4,2020-10-05,0ef3ff,1,6,31,1,31,31,41,1,2020-05-13,2020-05-12,NaT,97,2,63,1,2,2,1,2,1,2,2,2,2,2,1,2,1,1,99,MÃ©xico,99,97


In [18]:
# unimos los datos con los catalogos para tener mejor entendimiento de ellos
data = (
    # unimos con el catálogo MUNICIPIOS y ENTIDADES
    data.merge(catalogues['de ENTIDADES'], how='left', left_on='entidad_res', right_on='clave_entidad').
    drop(columns=['entidad_res', 'abreviatura']).
    rename(columns={'entidad_federativa':'entidad_res'}).
    merge(catalogues['MUNICIPIOS'], how='left', left_on=['clave_entidad','municipio_res'], right_on=['clave_entidad','clave_municipio']).
    drop(columns=['municipio_res', 'clave_entidad', 'clave_municipio']).
    rename(columns={'municipio':'municipio_res'})
)

In [19]:
# unimos con el catálogo de ENTIDADES
entidades_cols = [col for col in data.columns if "entidad" in col and col != 'entidad_res']
for col in entidades_cols:
    data = (
        data.merge(catalogues['de ENTIDADES'], how='left', left_on=col, right_on='clave_entidad').
        drop(columns=[col, 'abreviatura', 'clave_entidad']).
        rename(columns={'entidad_federativa':col})
    )

In [20]:
# unimos con el catálogo SI_NO
sino_cols = ['intubado', 'neumonia', 'embarazo', 'habla_lengua_indig', 'diabetes', 'epoc', 'asma', 'inmusupr',
             'hipertension', 'otra_com', 'cardiovascular', 'obesidad', 'renal_cronica', 'tabaquismo', 
             'otro_caso', 'migrante', 'uci']
for col in sino_cols:
    data = (
        data.merge(catalogues['SI_NO'], how='left', left_on=col, right_on='clave').
        drop(columns=[col, 'clave']).
        rename(columns={'descripción':col})
    )

> **Nota:**
>
> Si ejecutaste una versión previa del cuaderno, notarás que en la siguiente sección aparecía un error. A continuación dejamos como un pequeño paréntesis un poco más de limpieza sobre el cuaderno.

1. Corregimos el nombre de las columnas:

In [21]:
catalogues['RESULTADO'].columns

Index(['unnamed:_0', 'unnamed:_1'], dtype='object')

In [22]:
catalogues['RESULTADO'].columns = ['clave', 'descripción']
catalogues['RESULTADO'].columns

Index(['clave', 'descripción'], dtype='object')

2. Removemos la (primera) fila que no nos es útil.

In [23]:
catalogues['RESULTADO'] = catalogues['RESULTADO'].drop(index=0)

3. Convertimos el tipo de dato.

In [24]:
catalogues['RESULTADO']['clave'] = catalogues['RESULTADO']['clave'].astype(int)

> Fin del paréntesis. Hasta esta sección, esta parte de limpieza permite continuar con el proceso de manera normal.

In [25]:
# unimos otras columnnas que comparten lógica
other_cols = ['origen', 'sector', 'sexo', 'tipo_paciente', 'nacionalidad', 'resultado']
for col, cat in zip(other_cols, [x.upper() for x in other_cols]):
    data = (
        data.merge(catalogues[cat], how='left', left_on=col, right_on='clave').
        drop(columns=[col, 'clave']).
        rename(columns={'descripción':col})
    )

In [26]:
# creamos algunas variables que podrían ser útiles después
data['defuncion'] = ~data.fecha_def.isna()
data['mes_def'] = data.fecha_def.dt.month
data['año_def'] = data.fecha_def.dt.year
data['mes_ingreso'] = data.fecha_ingreso.dt.month
data['año_ingreso'] = data.fecha_ingreso.dt.year

In [27]:
data.head()

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-10-05,1c4b18,2020-04-25,2020-04-25,NaT,38,MÃ©xico,99,CIUDAD DE MÉXICO,GUSTAVO A. MADERO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
1,2020-10-05,081838,2020-04-28,2020-04-28,NaT,56,MÃ©xico,99,CIUDAD DE MÉXICO,XOCHIMILCO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO APLICA,NO,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,SSA,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
2,2020-10-05,0fefb1,2020-05-13,2020-05-05,NaT,47,MÃ©xico,99,MÉXICO,NEZAHUALCÓYOTL,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,SSA,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,5,2020
3,2020-10-05,11ed05,2020-05-11,2020-05-11,NaT,43,MÃ©xico,99,MÉXICO,TECÁMAC,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,SI,FUERA DE USMER,PRIVADA,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False,,,5,2020
4,2020-10-05,0ef3ff,2020-05-13,2020-05-12,NaT,63,MÃ©xico,99,YUCATÁN,KANASÍN,YUCATÁN,YUCATÁN,NO APLICA,NO,NO,NO,SI,NO,SI,NO,NO,NO,NO,NO,SI,NO,SI,NO ESPECIFICADO,NO APLICA,USMER,ISSSTE,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,5,2020


###Filtros

**Distintas formas de filtrar lo mismo**

In [28]:
# usando query
data.query('nacionalidad == "MEXICANA"').head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-10-05,1c4b18,2020-04-25,2020-04-25,NaT,38,MÃ©xico,99,CIUDAD DE MÉXICO,GUSTAVO A. MADERO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
1,2020-10-05,081838,2020-04-28,2020-04-28,NaT,56,MÃ©xico,99,CIUDAD DE MÉXICO,XOCHIMILCO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO APLICA,NO,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,SSA,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020


In [29]:
# haciendo referencia a la columna como índice
data[data['nacionalidad'] == 'MEXICANA'].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-10-05,1c4b18,2020-04-25,2020-04-25,NaT,38,MÃ©xico,99,CIUDAD DE MÉXICO,GUSTAVO A. MADERO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
1,2020-10-05,081838,2020-04-28,2020-04-28,NaT,56,MÃ©xico,99,CIUDAD DE MÉXICO,XOCHIMILCO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO APLICA,NO,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,SSA,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020


In [30]:
# seleccionando directamente la columna que queremos filtrar
data[data.nacionalidad == 'MEXICANA'].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-10-05,1c4b18,2020-04-25,2020-04-25,NaT,38,MÃ©xico,99,CIUDAD DE MÉXICO,GUSTAVO A. MADERO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
1,2020-10-05,081838,2020-04-28,2020-04-28,NaT,56,MÃ©xico,99,CIUDAD DE MÉXICO,XOCHIMILCO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO APLICA,NO,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,SSA,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020


**Filtrado múltiple**

In [31]:
# usando query podemos poner en el string del query todas las condiciones que queramos
data.query('nacionalidad == "MEXICANA" & entidad_res == "CIUDAD DE MÉXICO"').head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-10-05,1c4b18,2020-04-25,2020-04-25,NaT,38,MÃ©xico,99,CIUDAD DE MÉXICO,GUSTAVO A. MADERO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
1,2020-10-05,081838,2020-04-28,2020-04-28,NaT,56,MÃ©xico,99,CIUDAD DE MÉXICO,XOCHIMILCO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO APLICA,NO,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,SSA,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020


In [32]:
# usando el filtrado tradicional debemos encerrar en paréntesis cada condición que queremos que cumpla nuestro filtro
data[(data['nacionalidad'] == "MEXICANA") & (data.entidad_res == "CIUDAD DE MÉXICO")].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-10-05,1c4b18,2020-04-25,2020-04-25,NaT,38,MÃ©xico,99,CIUDAD DE MÉXICO,GUSTAVO A. MADERO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
1,2020-10-05,081838,2020-04-28,2020-04-28,NaT,56,MÃ©xico,99,CIUDAD DE MÉXICO,XOCHIMILCO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO APLICA,NO,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,SSA,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020


###Resúmenes

In [33]:
# una columna, una métrica
data.groupby('sexo').edad.mean()

sexo
HOMBRE    42.388726
MUJER     41.450503
Name: edad, dtype: float64

In [34]:
# una columna, varias métricas
data.groupby('sexo').agg({'edad': ['min','mean','max']})

Unnamed: 0_level_0,edad,edad,edad
Unnamed: 0_level_1,min,mean,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
HOMBRE,0,42.388726,120
MUJER,0,41.450503,120


In [35]:
# varias columnas, una métrica
data.groupby('sexo').agg({'edad': 'mean', 'mes_ingreso': 'mean', 'mes_def': 'mean'})

Unnamed: 0_level_0,edad,mes_ingreso,mes_def
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
HOMBRE,42.388726,7.056022,6.746797
MUJER,41.450503,7.143418,6.832873


In [36]:
# varias columnas, varias métricas
data.groupby('sexo').agg({'edad': ['min','mean','max'], 'mes_ingreso': ['min','mean','max'], 'mes_def': ['min','mean','max']})

Unnamed: 0_level_0,edad,edad,edad,mes_ingreso,mes_ingreso,mes_ingreso,mes_def,mes_def,mes_def
Unnamed: 0_level_1,min,mean,max,min,mean,max,min,mean,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
HOMBRE,0,42.388726,120,1,7.056022,10,1.0,6.746797,10.0
MUJER,0,41.450503,120,1,7.143418,10,1.0,6.832873,10.0


###Descripción por Tipo

In [37]:
# Filtrar por tipos generales (categóricas y numéricas)
numerical = data.select_dtypes(include='number')
categorical = data.select_dtypes(include=['object', 'bool', 'category', 'datetime64[ns]'])

In [38]:
numerical.head()

Unnamed: 0,edad,mes_def,año_def,mes_ingreso,año_ingreso
0,38,,,4,2020
1,56,,,4,2020
2,47,,,5,2020
3,43,,,5,2020
4,63,,,5,2020


In [39]:
categorical.head()

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion
0,2020-10-05,1c4b18,2020-04-25,2020-04-25,NaT,MÃ©xico,99,CIUDAD DE MÉXICO,GUSTAVO A. MADERO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False
1,2020-10-05,081838,2020-04-28,2020-04-28,NaT,MÃ©xico,99,CIUDAD DE MÉXICO,XOCHIMILCO,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO APLICA,NO,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,SSA,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False
2,2020-10-05,0fefb1,2020-05-13,2020-05-05,NaT,MÃ©xico,99,MÉXICO,NEZAHUALCÓYOTL,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,SSA,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False
3,2020-10-05,11ed05,2020-05-11,2020-05-11,NaT,MÃ©xico,99,MÉXICO,TECÁMAC,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,SI,FUERA DE USMER,PRIVADA,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False
4,2020-10-05,0ef3ff,2020-05-13,2020-05-12,NaT,MÃ©xico,99,YUCATÁN,KANASÍN,YUCATÁN,YUCATÁN,NO APLICA,NO,NO,NO,SI,NO,SI,NO,NO,NO,NO,NO,SI,NO,SI,NO ESPECIFICADO,NO APLICA,USMER,ISSSTE,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False


In [41]:
# para conocer todos los tipo de datos
?data.select_dtypes

####Categóricas

In [42]:
# Cardinalidad - Valores únicos por columna
for col in categorical.columns:
  print('Valores únicos en "{}": {}'.format(col,categorical[col].nunique()))

Valores únicos en "fecha_actualizacion": 1
Valores únicos en "id_registro": 1758582
Valores únicos en "fecha_ingreso": 279
Valores únicos en "fecha_sintomas": 279
Valores únicos en "fecha_def": 224
Valores únicos en "pais_nacionalidad": 122
Valores únicos en "pais_origen": 81
Valores únicos en "entidad_res": 32
Valores únicos en "municipio_res": 2185
Valores únicos en "entidad_um": 32
Valores únicos en "entidad_nac": 33
Valores únicos en "intubado": 4
Valores únicos en "neumonia": 3
Valores únicos en "embarazo": 4
Valores únicos en "habla_lengua_indig": 3
Valores únicos en "diabetes": 3
Valores únicos en "epoc": 3
Valores únicos en "asma": 3
Valores únicos en "inmusupr": 3
Valores únicos en "hipertension": 3
Valores únicos en "otra_com": 3
Valores únicos en "cardiovascular": 3
Valores únicos en "obesidad": 3
Valores únicos en "renal_cronica": 3
Valores únicos en "tabaquismo": 3
Valores únicos en "otro_caso": 3
Valores únicos en "migrante": 3
Valores únicos en "uci": 4
Valores únicos en

In [43]:
# Unicidad - proporción de valores únicos por columna
total = data.shape[0]
for col in categorical.columns:
  print('Porcentaje de valores únicos en "{}": {}%'.format(col,round(categorical[col].nunique()/total*100,2)))

Porcentaje de valores únicos en "fecha_actualizacion": 0.0%
Porcentaje de valores únicos en "id_registro": 100.0%
Porcentaje de valores únicos en "fecha_ingreso": 0.02%
Porcentaje de valores únicos en "fecha_sintomas": 0.02%
Porcentaje de valores únicos en "fecha_def": 0.01%
Porcentaje de valores únicos en "pais_nacionalidad": 0.01%
Porcentaje de valores únicos en "pais_origen": 0.0%
Porcentaje de valores únicos en "entidad_res": 0.0%
Porcentaje de valores únicos en "municipio_res": 0.12%
Porcentaje de valores únicos en "entidad_um": 0.0%
Porcentaje de valores únicos en "entidad_nac": 0.0%
Porcentaje de valores únicos en "intubado": 0.0%
Porcentaje de valores únicos en "neumonia": 0.0%
Porcentaje de valores únicos en "embarazo": 0.0%
Porcentaje de valores únicos en "habla_lengua_indig": 0.0%
Porcentaje de valores únicos en "diabetes": 0.0%
Porcentaje de valores únicos en "epoc": 0.0%
Porcentaje de valores únicos en "asma": 0.0%
Porcentaje de valores únicos en "inmusupr": 0.0%
Porcentaj

In [44]:
# Moda - valor que más se repite en cada columna excepto los indicadores únicos
for col in categorical.drop(columns='id_registro').columns:
  print('Valor más popular en "{}": {}'.format(col, statistics.mode(categorical[col])))

Valor más popular en "fecha_actualizacion": 2020-10-05 00:00:00
Valor más popular en "fecha_ingreso": 2020-07-20 00:00:00
Valor más popular en "fecha_sintomas": 2020-07-20 00:00:00
Valor más popular en "fecha_def": NaT
Valor más popular en "pais_nacionalidad": MÃ©xico
Valor más popular en "pais_origen": 99
Valor más popular en "entidad_res": CIUDAD DE MÉXICO
Valor más popular en "municipio_res": IZTAPALAPA
Valor más popular en "entidad_um": CIUDAD DE MÉXICO
Valor más popular en "entidad_nac": CIUDAD DE MÉXICO
Valor más popular en "intubado": NO APLICA
Valor más popular en "neumonia": NO 
Valor más popular en "embarazo": NO 
Valor más popular en "habla_lengua_indig": NO 
Valor más popular en "diabetes": NO 
Valor más popular en "epoc": NO 
Valor más popular en "asma": NO 
Valor más popular en "inmusupr": NO 
Valor más popular en "hipertension": NO 
Valor más popular en "otra_com": NO 
Valor más popular en "cardiovascular": NO 
Valor más popular en "obesidad": NO 
Valor más popular en "r

####Numéricas

In [45]:
numerical.describe()

Unnamed: 0,edad,mes_def,año_def,mes_ingreso,año_ingreso
count,1758582.0,101593.0,101593.0,1758582.0,1758582.0
mean,41.90893,6.77838,2020.0,7.100715,2020.0
std,16.858,1.446684,0.0,1.536859,0.0
min,0.0,1.0,2020.0,1.0,2020.0
25%,30.0,6.0,2020.0,6.0,2020.0
50%,40.0,7.0,2020.0,7.0,2020.0
75%,53.0,8.0,2020.0,8.0,2020.0
max,120.0,10.0,2020.0,10.0,2020.0


##Análisis Exploratorio

En esta sección responderemos algunas preguntas sobre el set de datos usando las herramientas que hemos visto hasta ahora

In [46]:
# ¿Cuántas pruebas por origen se realizan?
data.groupby('origen').id_registro.count()

origen
FUERA DE USMER    1184574
USMER              574008
Name: id_registro, dtype: int64

In [47]:
data.origen.value_counts()

FUERA DE USMER    1184574
USMER              574008
Name: origen, dtype: int64

In [48]:
# ¿Cuántas pruebas por sector se realizan?
data.sector.value_counts()

SSA                1102218
IMSS                450200
ISSSTE               65651
PRIVADA              63312
ESTATAL              30190
PEMEX                14376
IMSS-BIENESTAR       11286
SEDENA                8760
SEMAR                 8603
MUNICIPAL             1457
UNIVERSITARIO         1330
DIF                    943
CRUZ ROJA              246
NO ESPECIFICADO         10
Name: sector, dtype: int64

In [49]:
# ¿Cuántos pacientes por sexo tenemos?
data.sexo.value_counts()

MUJER     899323
HOMBRE    859259
Name: sexo, dtype: int64

In [50]:
# ¿Cuál es la proporción de los pacientes por sexo?
data.sexo.value_counts(normalize=True)

MUJER     0.511391
HOMBRE    0.488609
Name: sexo, dtype: float64

In [51]:
# ¿Cuál es la proporción de resultados de las pruebas?
data.resultado.value_counts(normalize=True)

No positivo SARS-CoV-2    0.519256
Positivo SARS-CoV-2       0.435056
Resultado pendiente       0.045687
Name: resultado, dtype: float64

In [52]:
# ¿Cuántas pruebas positivas tenemos en el set?
data[data.resultado == 'Positivo SARS-CoV-2'].id_registro.count()

765082

In [53]:
# ¿Cuántos casos positivos tenemos por mes?
data[data.resultado == 'Positivo SARS-CoV-2'].mes_ingreso.value_counts().sort_index()

1          2
2          8
3       2538
4      26639
5      86928
6     153396
7     200504
8     158212
9     131675
10      5180
Name: mes_ingreso, dtype: int64

In [54]:
# ¿Cuál es el resultado de las pruebas por sexo?
data.groupby(['sexo','resultado'])['id_registro'].count()

sexo    resultado             
HOMBRE  No positivo SARS-CoV-2    423206
        Positivo SARS-CoV-2       396242
        Resultado pendiente        39811
MUJER   No positivo SARS-CoV-2    489949
        Positivo SARS-CoV-2       368840
        Resultado pendiente        40534
Name: id_registro, dtype: int64

In [55]:
data.groupby('sexo').resultado.value_counts()

sexo    resultado             
HOMBRE  No positivo SARS-CoV-2    423206
        Positivo SARS-CoV-2       396242
        Resultado pendiente        39811
MUJER   No positivo SARS-CoV-2    489949
        Positivo SARS-CoV-2       368840
        Resultado pendiente        40534
Name: resultado, dtype: int64

In [56]:
# ¿Qué proporción de resultados de pruebas tenemos por sexo?
data.groupby('sexo').resultado.value_counts(normalize=True)

sexo    resultado             
HOMBRE  No positivo SARS-CoV-2    0.492524
        Positivo SARS-CoV-2       0.461144
        Resultado pendiente       0.046332
MUJER   No positivo SARS-CoV-2    0.544798
        Positivo SARS-CoV-2       0.410131
        Resultado pendiente       0.045072
Name: resultado, dtype: float64

In [57]:
# ¿Cuál es la edad de los pacientes por sexo?
data.groupby('sexo').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
HOMBRE,859259.0,42.388726,17.192459,0.0,30.0,41.0,54.0,120.0
MUJER,899323.0,41.450503,16.51912,0.0,29.0,40.0,52.0,120.0


In [58]:
def q25(x):
  return x.quantile(0.25)

def q75(x):
  return x.quantile(0.75)

data.groupby('sexo').agg({'edad': ['min', q25, 'median', q75, 'max']})

Unnamed: 0_level_0,edad,edad,edad,edad,edad
Unnamed: 0_level_1,min,q25,median,q75,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
HOMBRE,0,30,41,54,120
MUJER,0,29,40,52,120


In [59]:
# ¿Cuál es la edad de los pacientes dependiendo de si son intubados o no?
data.groupby('intubado').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
intubado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
NO,248792.0,53.377793,19.836354,0.0,42.0,55.0,68.0,118.0
NO APLICA,1467235.0,39.52714,15.161776,0.0,29.0,38.0,49.0,120.0
NO ESPECIFICADO,199.0,54.648241,17.662861,0.0,44.0,57.0,67.0,92.0
SI,42356.0,56.989305,18.062616,0.0,48.0,59.0,69.0,109.0


In [60]:
data.groupby('intubado').agg({'edad': ['min', q25, 'median', q75, 'max']})

Unnamed: 0_level_0,edad,edad,edad,edad,edad
Unnamed: 0_level_1,min,q25,median,q75,max
intubado,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
NO,0,42,55,68,118
NO APLICA,0,29,38,49,120
NO ESPECIFICADO,0,44,57,67,92
SI,0,48,59,69,109


In [61]:
# ¿Cuál es la edad máxima y cuál es la mínima de los pacientes fallecidos?
edad_def_max = data[data.defuncion].edad.max()
data[data.defuncion & (data.edad == edad_def_max)]

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
595521,2020-10-05,1b7b20,2020-05-21,2020-05-20,2020-05-26,109,MÃ©xico,99,MICHOACÁN DE OCAMPO,APATZINGÁN,MICHOACÁN DE OCAMPO,MICHOACÁN DE OCAMPO,NO,SI,NO APLICA,NO,NO,NO,NO,SI,NO,NO,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO,FUERA DE USMER,ISSSTE,HOMBRE,HOSPITALIZADO,MEXICANA,No positivo SARS-CoV-2,True,5.0,2020.0,5,2020


In [62]:
edad_def_min = data[data.defuncion].edad.min()
data[data.defuncion & (data.edad == edad_def_min)]

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
9277,2020-10-05,02f8e2,2020-05-08,2020-05-01,2020-05-10,0,MÃ©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,BAJA CALIFORNIA,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO,USMER,SSA,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,5,2020
12174,2020-10-05,083c34,2020-05-25,2020-05-25,2020-06-01,0,MÃ©xico,99,MÉXICO,CHIMALHUACÁN,MÉXICO,MÉXICO,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,SI,USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,6.0,2020.0,5,2020
21651,2020-10-05,1b82ee,2020-05-13,2020-05-13,2020-05-22,0,MÃ©xico,99,MÉXICO,ECATEPEC DE MORELOS,CIUDAD DE MÉXICO,MÉXICO,SI,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO ESPECIFICADO,SI,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,5,2020
37736,2020-10-05,053398,2020-06-11,2020-06-11,2020-06-17,0,MÃ©xico,99,AGUASCALIENTES,AGUASCALIENTES,AGUASCALIENTES,AGUASCALIENTES,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,6.0,2020.0,6,2020
41919,2020-10-05,014b5d,2020-05-18,2020-05-17,2020-05-18,0,MÃ©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,BAJA CALIFORNIA,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO,FUERA DE USMER,ISSSTE,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,5,2020
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1680860,2020-10-05,1d807b,2020-08-11,2020-08-10,2020-08-11,0,MÃ©xico,99,GUERRERO,TLAPA DE COMONFORT,GUERRERO,GUERRERO,NO,SI,NO APLICA,NO ESPECIFICADO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO,FUERA DE USMER,SSA,HOMBRE,HOSPITALIZADO,MEXICANA,No positivo SARS-CoV-2,True,8.0,2020.0,8,2020
1713642,2020-10-05,1e94e4,2020-08-14,2020-08-06,2020-08-20,0,MÃ©xico,99,SAN LUIS POTOSÍ,SAN LUIS POTOSÍ,SAN LUIS POTOSÍ,SAN LUIS POTOSÍ,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,SI,FUERA DE USMER,PRIVADA,HOMBRE,HOSPITALIZADO,MEXICANA,Resultado pendiente,True,8.0,2020.0,8,2020
1722238,2020-10-05,00f39c,2020-07-06,2020-07-03,2020-07-08,0,MÃ©xico,99,JALISCO,ZAPOTILTIC,JALISCO,JALISCO,NO,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,SI,USMER,SSA,HOMBRE,HOSPITALIZADO,MEXICANA,Resultado pendiente,True,7.0,2020.0,7,2020
1726202,2020-10-05,320231,2020-10-04,2020-09-28,2020-10-04,0,MÃ©xico,99,ZACATECAS,ZACATECAS,ZACATECAS,ZACATECAS,NO APLICA,SI,NO,NO,NO,NO,NO,NO,SI,NO,NO,SI,NO,NO,SI,NO ESPECIFICADO,NO APLICA,USMER,SSA,MUJER,AMBULATORIO,MEXICANA,Resultado pendiente,True,10.0,2020.0,10,2020


In [63]:
# ¿Cuál es la edad de los pacientes que fallecen?
data.groupby('defuncion').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
defuncion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
False,1656989.0,40.672703,16.154277,0.0,29.0,39.0,51.0,120.0
True,101593.0,62.071826,15.219535,0.0,53.0,63.0,73.0,109.0


In [64]:
# ¿Cuántas defunciones tenemos por mes?
data[data.defuncion].mes_def.value_counts().sort_index()

1.0         6
2.0        12
3.0       232
4.0      5301
5.0     16162
6.0     21663
7.0     24557
8.0     19664
9.0     13253
10.0      743
Name: mes_def, dtype: int64

In [65]:
# ¿Cuál es la proporción de diábeticos para las defunciones?
data.groupby('diabetes').defuncion.value_counts(normalize=True)

diabetes   defuncion
NO         False        0.959752
           True         0.040248
SE IGNORA  False        0.881769
           True         0.118231
SI         False        0.814988
           True         0.185012
Name: defuncion, dtype: float64

In [66]:
# ¿Cuál es la proporción de asmáticos para las defunciones?
data.groupby('asma').defuncion.value_counts(normalize=True)

asma       defuncion
NO         False        0.941919
           True         0.058081
SE IGNORA  False        0.879195
           True         0.120805
SI         False        0.958975
           True         0.041025
Name: defuncion, dtype: float64

In [67]:
# ¿Cuál es la proporción de hipertensos para las defunciones?
data.groupby('hipertension').defuncion.value_counts(normalize=True)

hipertension  defuncion
NO            False        0.962312
              True         0.037688
SE IGNORA     False        0.881891
              True         0.118109
SI            False        0.836635
              True         0.163365
Name: defuncion, dtype: float64

In [74]:
# ¿Cuantos positivos tenemos por estado?
data[data.resultado == 'Positivo SARS-CoV-2'].entidad_res.value_counts()

CIUDAD DE MÉXICO                   130964
MÉXICO                              82804
GUANAJUATO                          41955
NUEVO LEÓN                          41843
VERACRUZ DE IGNACIO DE LA LLAVE     33972
TABASCO                             32246
PUEBLA                              31706
TAMAULIPAS                          29437
JALISCO                             28128
COAHUILA DE ZARAGOZA                27331
SONORA                              25004
SAN LUIS POTOSÍ                     23717
MICHOACÁN DE OCAMPO                 21378
BAJA CALIFORNIA                     19824
GUERRERO                            19709
SINALOA                             19122
YUCATÁN                             18811
OAXACA                              17513
HIDALGO                             13094
QUINTANA ROO                        12156
CHIHUAHUA                           11785
BAJA CALIFORNIA SUR                 10655
QUERÉTARO                            9558
DURANGO                           

In [76]:
# ¿Cuántas defunciones tenemos por estado?
data[data.defuncion].entidad_res.value_counts()

MÉXICO                             15152
CIUDAD DE MÉXICO                   13241
VERACRUZ DE IGNACIO DE LA LLAVE     5398
PUEBLA                              5062
JALISCO                             4680
BAJA CALIFORNIA                     4407
NUEVO LEÓN                          4240
SINALOA                             4148
GUANAJUATO                          3698
TAMAULIPAS                          3497
SONORA                              3482
TABASCO                             3117
COAHUILA DE ZARAGOZA                2604
GUERRERO                            2518
HIDALGO                             2411
MICHOACÁN DE OCAMPO                 2325
CHIHUAHUA                           2306
SAN LUIS POTOSÍ                     2180
QUINTANA ROO                        2120
YUCATÁN                             2068
OAXACA                              1778
TLAXCALA                            1414
MORELOS                             1366
CHIAPAS                             1251
QUERÉTARO       

In [78]:
# ¿Cuántas defunciones tenemos por tipo de paciente?
data[data.defuncion].tipo_paciente.value_counts()

HOSPITALIZADO    90918
AMBULATORIO      10675
Name: tipo_paciente, dtype: int64