<a href="https://colab.research.google.com/github/jose-gomezm/hacking-civico/blob/master/notebooks/05_Exploracion_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="http://codeandomexico.org/resources/img/codeandomexico.png" width="500" alt="Codeando México"><br>
<a href="http://www.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/website-CodeandoMexico-00D88E.svg"></a>
<a href="http://slack.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/slack-CodeandoMexico-EC0E4F.svg"></a>
</p>
<!-- __ -->

# Curso de Datos Abiertos y Hacking Cívico

Este curso tiene como objetivo habilitar las capacidades de la ciudadanía y los servidores públicos en el uso y generación de datos abiertos para el bien común. Puedes encontrar más información [aquí](https://github.com/CodeandoMexico/hacking-civico).

# Exploración de datos: COVID-19 en México

En este cuaderno aprenderemos algunas bases de exploración de datos. Los datos a utilizar son los datos abiertos sobre COVID-19 en México, los cuales pueden ser accedidos directamente desde el portal: https://www.gob.mx/salud/documentos/datos-abiertos-152127

Del portal de datos abiertos podemos encontrar dos enlaces, uno para descargar el conjunto de datos y otro para descargar el diccionario; así que podemos automatizar el proceso de descarga y descompresión de la información.

Para obtener los datos, sólo basta que ejecutes la siguiente línea de código, que contiene el comando de descarga de la información.

In [None]:
# Para descargar el conjunto de datos
!wget http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip

# Para descargar el diccionario de los datos
!wget http://epidemiologia.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip

# Descomprimimos ambas carpetas y movemos archivos
!unzip datos_abiertos_covid19.zip
!unzip diccionario_datos_covid19.zip
!mv ./diccionario_datos_covid19/*.xlsx .
!mv *COVID19MEXICO.csv COVID19MEXICO.csv

# Eliminamos las carpetas comprimidas
!rm -rf diccionario_datos_covid19
!rm datos_abiertos_covid19.zip
!rm diccionario_datos_covid19.zip

--2020-09-02 21:46:03--  http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip
Resolving datosabiertos.salud.gob.mx (datosabiertos.salud.gob.mx)... 187.210.186.146
Connecting to datosabiertos.salud.gob.mx (datosabiertos.salud.gob.mx)|187.210.186.146|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 28812370 (27M) [application/x-zip-compressed]
Saving to: ‘datos_abiertos_covid19.zip’


2020-09-02 21:46:05 (17.8 MB/s) - ‘datos_abiertos_covid19.zip’ saved [28812370/28812370]

--2020-09-02 21:46:05--  http://epidemiologia.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip
Resolving epidemiologia.salud.gob.mx (epidemiologia.salud.gob.mx)... 187.191.75.207
Connecting to epidemiologia.salud.gob.mx (epidemiologia.salud.gob.mx)|187.191.75.207|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://epidemiologia.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zi

Hasta este punto, si abres la barra lateral izaquiera, deberías ser capaz de encontrar los datos:

- `COVID19MEXICO.csv`
- `Catalogos_0412.xlsx`
- `Descriptores_0419.xlsx`

👈🏼

## Carga

Ahora que tenemos los datos, procederemos a cargarlos. Para cargar los datos, primero importaremos algunos paquetes de Python, pues su funcionalidad nos será muy util.

In [None]:
import statistics

import pandas as pd
import numpy as np

In [None]:
# Especificamos el nombre del archivo por abrir
nombre_archivo = 'COVID19MEXICO.csv'

# Utilizamos la función de Pandas para cargar un archivo CSV
data = pd.read_csv(nombre_archivo, encoding='latin-1')

  interactivity=interactivity, compiler=compiler, result=result)


Mostramos la cabeza (primeros elementos del archivo).

In [None]:
data.head()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,FECHA_INGRESO,FECHA_SINTOMAS,FECHA_DEF,INTUBADO,NEUMONIA,EDAD,NACIONALIDAD,EMBARAZO,HABLA_LENGUA_INDIG,DIABETES,EPOC,ASMA,INMUSUPR,HIPERTENSION,OTRA_COM,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2020-09-01,0b79a6,2,3,15,1,9,15,106,1,2020-07-01,2020-06-28,9999-99-99,97,2,30,1,2,2,2,2,2,2,2,2,2,1,2,2,1,1,99,MÃ©xico,99,97
1,2020-09-01,1b0c85,2,4,5,1,24,5,30,1,2020-04-03,2020-03-30,9999-99-99,97,2,64,1,2,2,2,2,2,2,2,2,2,2,2,2,1,1,99,MÃ©xico,99,97
2,2020-09-01,17ae86,2,4,2,1,30,2,3,2,2020-04-14,2020-04-14,2020-04-24,2,1,50,1,2,2,1,2,2,2,1,2,2,1,2,2,99,1,99,MÃ©xico,99,2
3,2020-09-01,14df1c,2,4,31,2,31,31,101,1,2020-04-23,2020-04-22,9999-99-99,97,2,27,1,97,2,2,2,2,2,2,2,2,2,2,2,99,1,99,MÃ©xico,99,97
4,2020-09-01,0f3272,2,4,1,2,1,1,5,1,2020-04-26,2020-04-23,9999-99-99,97,2,53,1,97,2,2,2,2,2,2,2,2,2,2,2,99,1,99,MÃ©xico,99,97


Ahora procedemos a cargar el archivo con los descriptores.

In [None]:
nombre_diccionario = 'Descriptores_0419.xlsx'
diccionario = pd.read_excel(nombre_diccionario)

In [None]:
diccionario

Unnamed: 0,Nº,NOMBRE DE VARIABLE,DESCRIPCIÓN DE VARIABLE,FORMATO O FUENTE
0,1,FECHA_ACTUALIZACION,"La base de datos se alimenta diariamente, esta...",AAAA-MM-DD
1,2,ID_REGISTRO,Número identificador del caso,TEXTO
2,3,ORIGEN,La vigilancia centinela se realiza a través de...,CATÁLOGO: ORIGEN ...
3,4,SECTOR,Identifica el tipo de institución del Sistema ...,CATÁLOGO: SECTOR ...
4,5,ENTIDAD_UM,Identifica la entidad donde se ubica la unidad...,CATALÓGO: ENTIDADES
5,6,SEXO,Identifica al sexo del paciente.,CATÁLOGO: SEXO
6,7,ENTIDAD_NAC,Identifica la entidad de nacimiento del paciente.,CATALÓGO: ENTIDADES
7,8,ENTIDAD_RES,Identifica la entidad de residencia del paciente.,CATALÓGO: ENTIDADES
8,9,MUNICIPIO_RES,Identifica el municipio de residencia del paci...,CATALÓGO: MUNICIPIOS
9,10,TIPO_PACIENTE,Identifica el tipo de atención que recibió el ...,CATÁLOGO: TIPO_PACIENTE


Finalmente, cargamos el archivo de catálogos.

In [None]:
nombre_cat = 'Catalogos_0412.xlsx'
sheets = ['ORIGEN', 'SECTOR', 'SEXO', 'TIPO_PACIENTE', 'SI_NO', 'NACIONALIDAD', 'RESULTADO', 'de ENTIDADES', 'MUNICIPIOS']
catalogues = {}
for sheet in sheets:
  catalogue = pd.read_excel(nombre_cat, sheet_name='Catálogo ' + sheet)
  catalogue.columns = catalogue.columns.str.replace(' ', '_')
  catalogue.columns = catalogue.columns.str.replace('.', '')
  catalogue.columns = catalogue.columns.str.lower()
  new_catalogue = {sheet: catalogue}
  catalogues.update(new_catalogue)

In [None]:
catalogues

{'MUNICIPIOS':       clave_municipio        municipio  clave_entidad
 0                   1   AGUASCALIENTES              1
 1                   2         ASIENTOS              1
 2                   3         CALVILLO              1
 3                   4            COSÍO              1
 4                   5      JESÚS MARÍA              1
 ...               ...              ...            ...
 2496              999  NO ESPECIFICADO             32
 2497              999  NO ESPECIFICADO             36
 2498              997        NO APLICA             97
 2499              998        SE IGNORA             98
 2500              999  NO ESPECIFICADO             99
 
 [2501 rows x 3 columns], 'NACIONALIDAD':    clave      descripción
 0      1         MEXICANA
 1      2       EXTRANJERA
 2     99  NO ESPECIFICADO, 'ORIGEN':    clave      descripción
 0      1            USMER
 1      2   FUERA DE USMER
 2     99  NO ESPECIFICADO, 'RESULTADO':    clave             descripción
 0      1 

In [None]:
catalogues['RESULTADO']

Unnamed: 0,clave,descripción
0,1,Positivo SARS-CoV-2
1,2,No positivo SARS-CoV-2
2,3,Resultado pendiente


##Perfilamiento

###Descripción General

In [None]:
# dimensión de los datos
print('Número de filas: {}'.format(data.shape[0]))
print('Número de columnas: {}'.format(data.shape[1]))

Número de filas: 1360123
Número de columnas: 35


In [None]:
# columnas (variables)
data.columns

Index(['FECHA_ACTUALIZACION', 'ID_REGISTRO', 'ORIGEN', 'SECTOR', 'ENTIDAD_UM',
       'SEXO', 'ENTIDAD_NAC', 'ENTIDAD_RES', 'MUNICIPIO_RES', 'TIPO_PACIENTE',
       'FECHA_INGRESO', 'FECHA_SINTOMAS', 'FECHA_DEF', 'INTUBADO', 'NEUMONIA',
       'EDAD', 'NACIONALIDAD', 'EMBARAZO', 'HABLA_LENGUA_INDIG', 'DIABETES',
       'EPOC', 'ASMA', 'INMUSUPR', 'HIPERTENSION', 'OTRA_COM',
       'CARDIOVASCULAR', 'OBESIDAD', 'RENAL_CRONICA', 'TABAQUISMO',
       'OTRO_CASO', 'RESULTADO', 'MIGRANTE', 'PAIS_NACIONALIDAD',
       'PAIS_ORIGEN', 'UCI'],
      dtype='object')

In [None]:
# limpieza del nombre de las columnas, remover espacios, carácteres especiales y pasar a minúsculas
data.columns = data.columns.str.replace(' ', '_')
data.columns = data.columns.str.replace('.', '')
data.columns = data.columns.str.lower()

In [None]:
# calcular número de valores nulos por columna
for col in data.columns:
  print('Valores nulos en "{}": {}'.format(col,data[col].isna().sum()))

Valores nulos en "fecha_actualizacion": 0
Valores nulos en "id_registro": 0
Valores nulos en "origen": 0
Valores nulos en "sector": 0
Valores nulos en "entidad_um": 0
Valores nulos en "sexo": 0
Valores nulos en "entidad_nac": 0
Valores nulos en "entidad_res": 0
Valores nulos en "municipio_res": 0
Valores nulos en "tipo_paciente": 0
Valores nulos en "fecha_ingreso": 0
Valores nulos en "fecha_sintomas": 0
Valores nulos en "fecha_def": 0
Valores nulos en "intubado": 0
Valores nulos en "neumonia": 0
Valores nulos en "edad": 0
Valores nulos en "nacionalidad": 0
Valores nulos en "embarazo": 0
Valores nulos en "habla_lengua_indig": 0
Valores nulos en "diabetes": 0
Valores nulos en "epoc": 0
Valores nulos en "asma": 0
Valores nulos en "inmusupr": 0
Valores nulos en "hipertension": 0
Valores nulos en "otra_com": 0
Valores nulos en "cardiovascular": 0
Valores nulos en "obesidad": 0
Valores nulos en "renal_cronica": 0
Valores nulos en "tabaquismo": 0
Valores nulos en "otro_caso": 0
Valores nulos 

In [None]:
# tipos de datos
data.dtypes

fecha_actualizacion    object
id_registro            object
origen                  int64
sector                  int64
entidad_um              int64
sexo                    int64
entidad_nac             int64
entidad_res             int64
municipio_res           int64
tipo_paciente           int64
fecha_ingreso          object
fecha_sintomas         object
fecha_def              object
intubado                int64
neumonia                int64
edad                    int64
nacionalidad            int64
embarazo                int64
habla_lengua_indig      int64
diabetes                int64
epoc                    int64
asma                    int64
inmusupr                int64
hipertension            int64
otra_com                int64
cardiovascular          int64
obesidad                int64
renal_cronica           int64
tabaquismo              int64
otro_caso               int64
resultado               int64
migrante                int64
pais_nacionalidad      object
pais_orige

###Limpieza

In [None]:
# convertimos a fecha algunas columnas
def cast_datetime_cols(df):
    timestamp_cols = [col for col in df.columns if "fecha" in col]
    df[timestamp_cols] = df[timestamp_cols].apply(lambda date_col: pd.to_datetime(date_col, errors="coerce"), axis=0)
    return df

data = cast_datetime_cols(data)

In [None]:
data.head()

Unnamed: 0,fecha_actualizacion,id_registro,origen,sector,entidad_um,sexo,entidad_nac,entidad_res,municipio_res,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,intubado,neumonia,edad,nacionalidad,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,resultado,migrante,pais_nacionalidad,pais_origen,uci
0,2020-09-01,0b79a6,2,3,15,1,9,15,106,1,2020-07-01,2020-06-28,NaT,97,2,30,1,2,2,2,2,2,2,2,2,2,1,2,2,1,1,99,MÃ©xico,99,97
1,2020-09-01,1b0c85,2,4,5,1,24,5,30,1,2020-04-03,2020-03-30,NaT,97,2,64,1,2,2,2,2,2,2,2,2,2,2,2,2,1,1,99,MÃ©xico,99,97
2,2020-09-01,17ae86,2,4,2,1,30,2,3,2,2020-04-14,2020-04-14,2020-04-24,2,1,50,1,2,2,1,2,2,2,1,2,2,1,2,2,99,1,99,MÃ©xico,99,2
3,2020-09-01,14df1c,2,4,31,2,31,31,101,1,2020-04-23,2020-04-22,NaT,97,2,27,1,97,2,2,2,2,2,2,2,2,2,2,2,99,1,99,MÃ©xico,99,97
4,2020-09-01,0f3272,2,4,1,2,1,1,5,1,2020-04-26,2020-04-23,NaT,97,2,53,1,97,2,2,2,2,2,2,2,2,2,2,2,99,1,99,MÃ©xico,99,97


In [None]:
data.dtypes

fecha_actualizacion    datetime64[ns]
id_registro                    object
origen                          int64
sector                          int64
entidad_um                      int64
sexo                            int64
entidad_nac                     int64
entidad_res                     int64
municipio_res                   int64
tipo_paciente                   int64
fecha_ingreso          datetime64[ns]
fecha_sintomas         datetime64[ns]
fecha_def              datetime64[ns]
intubado                        int64
neumonia                        int64
edad                            int64
nacionalidad                    int64
embarazo                        int64
habla_lengua_indig              int64
diabetes                        int64
epoc                            int64
asma                            int64
inmusupr                        int64
hipertension                    int64
otra_com                        int64
cardiovascular                  int64
obesidad    

In [None]:
# unimos los datos con los catalogos para tener mejor entendimiento de ellos
data = (
    # unimos con el catálogo MUNICIPIOS y ENTIDADES
    data.merge(catalogues['de ENTIDADES'], how='left', left_on='entidad_res', right_on='clave_entidad').
    drop(columns=['entidad_res', 'abreviatura']).
    rename(columns={'entidad_federativa':'entidad_res'}).
    merge(catalogues['MUNICIPIOS'], how='left', left_on=['clave_entidad','municipio_res'], right_on=['clave_entidad','clave_municipio']).
    drop(columns=['municipio_res', 'clave_entidad', 'clave_municipio']).
    rename(columns={'municipio':'municipio_res'})
)

In [None]:
# unimos con el catálogo de ENTIDADES
entidades_cols = [col for col in data.columns if "entidad" in col and col != 'entidad_res']
for col in entidades_cols:
    data = (
        data.merge(catalogues['de ENTIDADES'], how='left', left_on=col, right_on='clave_entidad').
        drop(columns=[col, 'abreviatura', 'clave_entidad']).
        rename(columns={'entidad_federativa':col})
    )

In [None]:
# unimos con el catálogo SI_NO
sino_cols = ['intubado', 'neumonia', 'embarazo', 'habla_lengua_indig', 'diabetes', 'epoc', 'asma', 'inmusupr',
             'hipertension', 'otra_com', 'cardiovascular', 'obesidad', 'renal_cronica', 'tabaquismo', 
             'otro_caso', 'migrante', 'uci']
for col in sino_cols:
    data = (
        data.merge(catalogues['SI_NO'], how='left', left_on=col, right_on='clave').
        drop(columns=[col, 'clave']).
        rename(columns={'descripción':col})
    )

In [None]:
# unimos otras columnnas que comparten lógica
other_cols = ['origen', 'sector', 'sexo', 'tipo_paciente', 'nacionalidad', 'resultado']
for col, cat in zip(other_cols, [x.upper() for x in other_cols]):
    data = (
        data.merge(catalogues[cat], how='left', left_on=col, right_on='clave').
        drop(columns=[col, 'clave']).
        rename(columns={'descripción':col})
    )
data.head()

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado
0,2020-09-01,0b79a6,2020-07-01,2020-06-28,NaT,30,MÃ©xico,99,MÉXICO,TOLUCA,MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2
1,2020-09-01,1b0c85,2020-04-03,2020-03-30,NaT,64,MÃ©xico,99,COAHUILA DE ZARAGOZA,SALTILLO,COAHUILA DE ZARAGOZA,SAN LUIS POTOSÍ,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2
2,2020-09-01,17ae86,2020-04-14,2020-04-14,2020-04-24,50,MÃ©xico,99,BAJA CALIFORNIA,TECATE,BAJA CALIFORNIA,VERACRUZ DE IGNACIO DE LA LLAVE,NO,SI,NO,NO,SI,NO,NO,NO,SI,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2
3,2020-09-01,14df1c,2020-04-23,2020-04-22,NaT,27,MÃ©xico,99,YUCATÁN,UMÁN,YUCATÁN,YUCATÁN,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2
4,2020-09-01,0f3272,2020-04-26,2020-04-23,NaT,53,MÃ©xico,99,AGUASCALIENTES,JESÚS MARÍA,AGUASCALIENTES,AGUASCALIENTES,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2


In [None]:
# creamos algunas variables que podrían ser útiles después
data['defuncion'] = ~data.fecha_def.isna()
data['mes_def'] = data.fecha_def.dt.month
data['año_def'] = data.fecha_def.dt.year
data['mes_ingreso'] = data.fecha_ingreso.dt.month
data['año_ingreso'] = data.fecha_ingreso.dt.year

In [None]:
data.head()

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-09-01,0b79a6,2020-07-01,2020-06-28,NaT,30,MÃ©xico,99,MÉXICO,TOLUCA,MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,7,2020
1,2020-09-01,1b0c85,2020-04-03,2020-03-30,NaT,64,MÃ©xico,99,COAHUILA DE ZARAGOZA,SALTILLO,COAHUILA DE ZARAGOZA,SAN LUIS POTOSÍ,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
2,2020-09-01,17ae86,2020-04-14,2020-04-14,2020-04-24,50,MÃ©xico,99,BAJA CALIFORNIA,TECATE,BAJA CALIFORNIA,VERACRUZ DE IGNACIO DE LA LLAVE,NO,SI,NO,NO,SI,NO,NO,NO,SI,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,4.0,2020.0,4,2020
3,2020-09-01,14df1c,2020-04-23,2020-04-22,NaT,27,MÃ©xico,99,YUCATÁN,UMÁN,YUCATÁN,YUCATÁN,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
4,2020-09-01,0f3272,2020-04-26,2020-04-23,NaT,53,MÃ©xico,99,AGUASCALIENTES,JESÚS MARÍA,AGUASCALIENTES,AGUASCALIENTES,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020


###Filtros

**Distintas formas de filtrar lo mismo**

In [None]:
# usando query
data.query('nacionalidad == "MEXICANA"').head()

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-09-01,0b79a6,2020-07-01,2020-06-28,NaT,30,MÃ©xico,99,MÉXICO,TOLUCA,MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,7,2020
1,2020-09-01,1b0c85,2020-04-03,2020-03-30,NaT,64,MÃ©xico,99,COAHUILA DE ZARAGOZA,SALTILLO,COAHUILA DE ZARAGOZA,SAN LUIS POTOSÍ,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
2,2020-09-01,17ae86,2020-04-14,2020-04-14,2020-04-24,50,MÃ©xico,99,BAJA CALIFORNIA,TECATE,BAJA CALIFORNIA,VERACRUZ DE IGNACIO DE LA LLAVE,NO,SI,NO,NO,SI,NO,NO,NO,SI,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,4.0,2020.0,4,2020
3,2020-09-01,14df1c,2020-04-23,2020-04-22,NaT,27,MÃ©xico,99,YUCATÁN,UMÁN,YUCATÁN,YUCATÁN,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
4,2020-09-01,0f3272,2020-04-26,2020-04-23,NaT,53,MÃ©xico,99,AGUASCALIENTES,JESÚS MARÍA,AGUASCALIENTES,AGUASCALIENTES,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020


In [None]:
# haciendo referencia a la columna como índice
data[data['nacionalidad'] == 'MEXICANA'].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-09-01,0b79a6,2020-07-01,2020-06-28,NaT,30,MÃ©xico,99,MÉXICO,TOLUCA,MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,7,2020
1,2020-09-01,1b0c85,2020-04-03,2020-03-30,NaT,64,MÃ©xico,99,COAHUILA DE ZARAGOZA,SALTILLO,COAHUILA DE ZARAGOZA,SAN LUIS POTOSÍ,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020


In [None]:
# seleccionando directamente la columna que queremos filtrar
data[data.nacionalidad == 'MEXICANA'].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-09-01,0b79a6,2020-07-01,2020-06-28,NaT,30,MÃ©xico,99,MÉXICO,TOLUCA,MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,7,2020
1,2020-09-01,1b0c85,2020-04-03,2020-03-30,NaT,64,MÃ©xico,99,COAHUILA DE ZARAGOZA,SALTILLO,COAHUILA DE ZARAGOZA,SAN LUIS POTOSÍ,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020


**Filtrado múltiple**

In [None]:
# usando query podemos poner en el string del query todas las condiciones que queramos
data.query('nacionalidad == "MEXICANA" & entidad_res == "CIUDAD DE MÉXICO"').head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
12,2020-09-01,1239f8,2020-04-13,2020-04-10,NaT,34,MÃ©xico,99,CIUDAD DE MÉXICO,TLALPAN,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,SI,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
13,2020-09-01,0c7084,2020-05-06,2020-04-25,NaT,56,MÃ©xico,99,CIUDAD DE MÉXICO,IZTAPALAPA,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False,,,5,2020


In [None]:
# usando el filtrado tradicional debemos encerrar en paréntesis cada condición que queremos que cumpla nuestro filtro
data[(data['nacionalidad'] == "MEXICANA") & (data.entidad_res == "CIUDAD DE MÉXICO")].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
12,2020-09-01,1239f8,2020-04-13,2020-04-10,NaT,34,MÃ©xico,99,CIUDAD DE MÉXICO,TLALPAN,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,SI,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
13,2020-09-01,0c7084,2020-05-06,2020-04-25,NaT,56,MÃ©xico,99,CIUDAD DE MÉXICO,IZTAPALAPA,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False,,,5,2020


###Resúmenes

In [None]:
# una columna, una métrica
data.groupby('sexo').edad.mean()

sexo
HOMBRE    42.850075
MUJER     41.761757
Name: edad, dtype: float64

In [None]:
# una columna, varias métricas
data.groupby('sexo').agg({'edad': ['min','mean','max']})

Unnamed: 0_level_0,edad,edad,edad
Unnamed: 0_level_1,min,mean,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
HOMBRE,0,42.850075,120
MUJER,0,41.761757,120


In [None]:
# varias columnas, una métrica
data.groupby('sexo').agg({'edad': 'mean', 'mes_ingreso': 'mean', 'mes_def': 'mean'})

Unnamed: 0_level_0,edad,mes_ingreso,mes_def
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
HOMBRE,42.850075,6.494979,6.340483
MUJER,41.761757,6.555789,6.398543


In [None]:
# varias columnas, varias métricas
data.groupby('sexo').agg({'edad': ['min','mean','max'], 'mes_ingreso': ['min','mean','max'], 'mes_def': ['min','mean','max']})

Unnamed: 0_level_0,edad,edad,edad,mes_ingreso,mes_ingreso,mes_ingreso,mes_def,mes_def,mes_def
Unnamed: 0_level_1,min,mean,max,min,mean,max,min,mean,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
HOMBRE,0,42.850075,120,1,6.494979,9,1.0,6.340483,9.0
MUJER,0,41.761757,120,1,6.555789,9,1.0,6.398543,9.0


###Descripción por Tipo

In [None]:
# Filtrar por tipos generales (categóricas y numéricas)
numerical = data.select_dtypes(include='number')
categorical = data.select_dtypes(include=['object', 'bool', 'category', 'datetime64[ns]'])

In [None]:
numerical.head()

Unnamed: 0,edad,mes_def,año_def,mes_ingreso,año_ingreso
0,30,,,7,2020
1,64,,,4,2020
2,50,4.0,2020.0,4,2020
3,27,,,4,2020
4,53,,,4,2020


In [None]:
categorical.head()

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion
0,2020-09-01,0b79a6,2020-07-01,2020-06-28,NaT,MÃ©xico,99,MÉXICO,TOLUCA,MÉXICO,CIUDAD DE MÉXICO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False
1,2020-09-01,1b0c85,2020-04-03,2020-03-30,NaT,MÃ©xico,99,COAHUILA DE ZARAGOZA,SALTILLO,COAHUILA DE ZARAGOZA,SAN LUIS POTOSÍ,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False
2,2020-09-01,17ae86,2020-04-14,2020-04-14,2020-04-24,MÃ©xico,99,BAJA CALIFORNIA,TECATE,BAJA CALIFORNIA,VERACRUZ DE IGNACIO DE LA LLAVE,NO,SI,NO,NO,SI,NO,NO,NO,SI,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True
3,2020-09-01,14df1c,2020-04-23,2020-04-22,NaT,MÃ©xico,99,YUCATÁN,UMÁN,YUCATÁN,YUCATÁN,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False
4,2020-09-01,0f3272,2020-04-26,2020-04-23,NaT,MÃ©xico,99,AGUASCALIENTES,JESÚS MARÍA,AGUASCALIENTES,AGUASCALIENTES,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False


In [None]:
# para conocer todos los tipo de datos
?data.select_dtypes

####Categóricas

In [None]:
# Cardinalidad - Valores únicos por columna
for col in categorical.columns:
  print('Valores únicos en "{}": {}'.format(col,categorical[col].nunique()))

Valores únicos en "fecha_actualizacion": 1
Valores únicos en "id_registro": 1360123
Valores únicos en "fecha_ingreso": 245
Valores únicos en "fecha_sintomas": 245
Valores únicos en "fecha_def": 190
Valores únicos en "pais_nacionalidad": 119
Valores únicos en "pais_origen": 78
Valores únicos en "entidad_res": 32
Valores únicos en "municipio_res": 2153
Valores únicos en "entidad_um": 32
Valores únicos en "entidad_nac": 33
Valores únicos en "intubado": 4
Valores únicos en "neumonia": 3
Valores únicos en "embarazo": 4
Valores únicos en "habla_lengua_indig": 3
Valores únicos en "diabetes": 3
Valores únicos en "epoc": 3
Valores únicos en "asma": 3
Valores únicos en "inmusupr": 3
Valores únicos en "hipertension": 3
Valores únicos en "otra_com": 3
Valores únicos en "cardiovascular": 3
Valores únicos en "obesidad": 3
Valores únicos en "renal_cronica": 3
Valores únicos en "tabaquismo": 3
Valores únicos en "otro_caso": 3
Valores únicos en "migrante": 3
Valores únicos en "uci": 4
Valores únicos en

In [None]:
# Unicidad - proporción de valores únicos por columna
total = data.shape[0]
for col in categorical.columns:
  print('Porcentaje de valores únicos en "{}": {}%'.format(col,round(categorical[col].nunique()/total*100,2)))

Porcentaje de valores únicos en "fecha_actualizacion": 0.0%
Porcentaje de valores únicos en "id_registro": 100.0%
Porcentaje de valores únicos en "fecha_ingreso": 0.02%
Porcentaje de valores únicos en "fecha_sintomas": 0.02%
Porcentaje de valores únicos en "fecha_def": 0.01%
Porcentaje de valores únicos en "pais_nacionalidad": 0.01%
Porcentaje de valores únicos en "pais_origen": 0.01%
Porcentaje de valores únicos en "entidad_res": 0.0%
Porcentaje de valores únicos en "municipio_res": 0.16%
Porcentaje de valores únicos en "entidad_um": 0.0%
Porcentaje de valores únicos en "entidad_nac": 0.0%
Porcentaje de valores únicos en "intubado": 0.0%
Porcentaje de valores únicos en "neumonia": 0.0%
Porcentaje de valores únicos en "embarazo": 0.0%
Porcentaje de valores únicos en "habla_lengua_indig": 0.0%
Porcentaje de valores únicos en "diabetes": 0.0%
Porcentaje de valores únicos en "epoc": 0.0%
Porcentaje de valores únicos en "asma": 0.0%
Porcentaje de valores únicos en "inmusupr": 0.0%
Porcenta

In [None]:
# Moda - valor que más se repite en cada columna excepto los indicadores únicos
for col in categorical.drop(columns='id_registro').columns:
  print('Valor más popular en "{}": {}'.format(col, statistics.mode(categorical[col])))

Valor más popular en "fecha_actualizacion": 2020-09-01 00:00:00
Valor más popular en "fecha_ingreso": 2020-07-20 00:00:00
Valor más popular en "fecha_sintomas": 2020-07-20 00:00:00
Valor más popular en "fecha_def": NaT
Valor más popular en "pais_nacionalidad": MÃ©xico
Valor más popular en "pais_origen": 99
Valor más popular en "entidad_res": CIUDAD DE MÉXICO
Valor más popular en "municipio_res": IZTAPALAPA
Valor más popular en "entidad_um": CIUDAD DE MÉXICO
Valor más popular en "entidad_nac": CIUDAD DE MÉXICO
Valor más popular en "intubado": NO APLICA
Valor más popular en "neumonia": NO 
Valor más popular en "embarazo": NO 
Valor más popular en "habla_lengua_indig": NO 
Valor más popular en "diabetes": NO 
Valor más popular en "epoc": NO 
Valor más popular en "asma": NO 
Valor más popular en "inmusupr": NO 
Valor más popular en "hipertension": NO 
Valor más popular en "otra_com": NO 
Valor más popular en "cardiovascular": NO 
Valor más popular en "obesidad": NO 
Valor más popular en "r

####Numéricas

In [None]:
numerical.describe()

Unnamed: 0,edad,mes_def,año_def,mes_ingreso,año_ingreso
count,1360123.0,83202.0,83202.0,1360123.0,1360123.0
mean,42.29901,6.361554,2020.0,6.52577,2020.0
std,16.77507,1.200983,0.0,1.25351,0.0
min,0.0,1.0,2020.0,1.0,2020.0
25%,30.0,5.0,2020.0,6.0,2020.0
50%,41.0,6.0,2020.0,7.0,2020.0
75%,53.0,7.0,2020.0,8.0,2020.0
max,120.0,9.0,2020.0,9.0,2020.0


##Análisis Exploratorio

En esta sección responderemos algunas preguntas sobre el set de datos usando las herramientas que hemos visto hasta ahora

In [None]:
# ¿Cuántas pruebas por origen se realizan?
data.groupby('origen').id_registro.count()

origen
FUERA DE USMER    904981
USMER             455142
Name: id_registro, dtype: int64

In [None]:
data.origen.value_counts()

FUERA DE USMER    904981
USMER             455142
Name: origen, dtype: int64

In [None]:
# ¿Cuántas pruebas por sector se realizan?
data.sector.value_counts()

SSA                841546
IMSS               351832
ISSSTE              51833
PRIVADA             51036
ESTATAL             25356
PEMEX               12028
IMSS-BIENESTAR       9567
SEMAR                7222
SEDENA               6735
MUNICIPAL            1114
UNIVERSITARIO         878
DIF                   769
CRUZ ROJA             199
NO ESPECIFICADO         8
Name: sector, dtype: int64

In [None]:
# ¿Cuántos pacientes por sexo tenemos?
data.sexo.value_counts()

MUJER     688689
HOMBRE    671434
Name: sexo, dtype: int64

In [None]:
# ¿Cuál es la proporción de los pacientes por sexo?
data.sexo.value_counts(normalize=True)

MUJER     0.506343
HOMBRE    0.493657
Name: sexo, dtype: float64

In [None]:
# ¿Cuál es la proporción de resultados de las pruebas?
data.resultado.value_counts(normalize=True)

No positivo SARS-CoV-2    0.497718
Positivo SARS-CoV-2       0.445574
Resultado pendiente       0.056707
Name: resultado, dtype: float64

In [None]:
# ¿Cuántas pruebas positivas tenemos en el set?
data[data.resultado == 'Positivo SARS-CoV-2'].id_registro.count()

606036

In [None]:
# ¿Cuántos casos positivos tenemos por mes?
data[data.resultado == 'Positivo SARS-CoV-2'].mes_ingreso.value_counts().sort_index()

1         2
2         8
3      2530
4     26553
5     86407
6    152701
7    198483
8    139345
9         7
Name: mes_ingreso, dtype: int64

In [None]:
# ¿Cuál es el resultado de las pruebas por sexo?
data.groupby(['sexo','resultado'])['id_registro'].count()

sexo    resultado             
HOMBRE  No positivo SARS-CoV-2    315398
        Positivo SARS-CoV-2       317859
        Resultado pendiente        38177
MUJER   No positivo SARS-CoV-2    361560
        Positivo SARS-CoV-2       288177
        Resultado pendiente        38952
Name: id_registro, dtype: int64

In [None]:
data.groupby('sexo').resultado.value_counts()

sexo    resultado             
HOMBRE  Positivo SARS-CoV-2       317859
        No positivo SARS-CoV-2    315398
        Resultado pendiente        38177
MUJER   No positivo SARS-CoV-2    361560
        Positivo SARS-CoV-2       288177
        Resultado pendiente        38952
Name: resultado, dtype: int64

In [None]:
# ¿Qué proporción de resultados de pruebas tenemos por sexo?
data.groupby('sexo').resultado.value_counts(normalize=True)

sexo    resultado             
HOMBRE  Positivo SARS-CoV-2       0.473403
        No positivo SARS-CoV-2    0.469738
        Resultado pendiente       0.056859
MUJER   No positivo SARS-CoV-2    0.524997
        Positivo SARS-CoV-2       0.418443
        Resultado pendiente       0.056560
Name: resultado, dtype: float64

In [None]:
# ¿Cuál es la edad de los pacientes por sexo?
data.groupby('sexo').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
HOMBRE,671434.0,42.850075,17.082438,0.0,30.0,41.0,54.0,120.0
MUJER,688689.0,41.761757,16.45214,0.0,30.0,40.0,52.0,120.0


In [None]:
def q25(x):
  return x.quantile(0.25)

def q75(x):
  return x.quantile(0.75)

data.groupby('sexo').agg({'edad': ['min', q25, 'median', q75, 'max']})

Unnamed: 0_level_0,edad,edad,edad,edad,edad
Unnamed: 0_level_1,min,q25,median,q75,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
HOMBRE,0,30,41,54,120
MUJER,0,30,40,52,120


In [None]:
# ¿Cuál es la edad de los pacientes dependiendo de si son intubados o no?
data.groupby('intubado').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
intubado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
NO,216254.0,53.623318,19.415348,0.0,42.0,55.0,67.0,120.0
NO APLICA,1115393.0,39.760982,15.004159,0.0,29.0,38.0,49.0,120.0
NO ESPECIFICADO,162.0,52.938272,17.939059,0.0,42.0,54.0,65.0,92.0
SI,28314.0,55.728827,18.819916,0.0,47.0,58.0,68.0,108.0


In [None]:
data.groupby('intubado').agg({'edad': ['min', q25, 'median', q75, 'max']})

Unnamed: 0_level_0,edad,edad,edad,edad,edad
Unnamed: 0_level_1,min,q25,median,q75,max
intubado,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
NO,0,42,55,67,120
NO APLICA,0,29,38,49,120
NO ESPECIFICADO,0,42,54,65,92
SI,0,47,58,68,108


In [None]:
# ¿Cuál es la edad máxima y cuál es la mínima de los pacientes fallecidos?
edad_def_max = data[data.defuncion].edad.max()
data[data.defuncion & (data.edad == edad_def_max)]

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
553359,2020-09-01,1b7b20,2020-05-21,2020-05-20,2020-05-26,109,MÃ©xico,99,MICHOACÁN DE OCAMPO,APATZINGÁN,MICHOACÁN DE OCAMPO,MICHOACÁN DE OCAMPO,NO,SI,NO APLICA,NO,NO,NO,NO,SI,NO,NO,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO,FUERA DE USMER,ISSSTE,HOMBRE,HOSPITALIZADO,MEXICANA,No positivo SARS-CoV-2,True,5.0,2020.0,5,2020


In [None]:
edad_def_min = data[data.defuncion].edad.min()
data[data.defuncion & (data.edad == edad_def_min)]

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
13916,2020-09-01,02f8e2,2020-05-08,2020-05-01,2020-05-10,0,MÃ©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,BAJA CALIFORNIA,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO,USMER,SSA,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,5,2020
18866,2020-09-01,083c34,2020-05-25,2020-05-25,2020-06-01,0,MÃ©xico,99,MÉXICO,CHIMALHUACÁN,MÉXICO,MÉXICO,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,SI,USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,6.0,2020.0,5,2020
40469,2020-09-01,1cc0ea,2020-04-24,2020-04-21,2020-04-29,0,MÃ©xico,99,MÉXICO,ECATEPEC DE MORELOS,MÉXICO,MÉXICO,NO,SI,NO,NO,SI,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,SSA,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,4.0,2020.0,4,2020
41771,2020-09-01,1b82ee,2020-05-13,2020-05-13,2020-05-22,0,MÃ©xico,99,MÉXICO,ECATEPEC DE MORELOS,CIUDAD DE MÉXICO,MÉXICO,SI,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO ESPECIFICADO,SI,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,5,2020
42295,2020-09-01,014b5d,2020-05-18,2020-05-17,2020-05-18,0,MÃ©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,BAJA CALIFORNIA,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO,FUERA DE USMER,ISSSTE,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,5,2020
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1287531,2020-09-01,093d8f,2020-07-07,2020-07-05,2020-07-10,0,MÃ©xico,99,PUEBLA,PUEBLA,PUEBLA,PUEBLA,NO,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO,USMER,SSA,HOMBRE,HOSPITALIZADO,MEXICANA,No positivo SARS-CoV-2,True,7.0,2020.0,7,2020
1289734,2020-09-01,128a4d,2020-07-25,2020-07-24,2020-08-05,0,MÃ©xico,99,TLAXCALA,CALPULALPAN,TLAXCALA,TLAXCALA,SI,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO ESPECIFICADO,SI,USMER,SSA,MUJER,HOSPITALIZADO,MEXICANA,No positivo SARS-CoV-2,True,8.0,2020.0,7,2020
1292236,2020-09-01,1d807b,2020-08-11,2020-08-10,2020-08-11,0,MÃ©xico,99,GUERRERO,TLAPA DE COMONFORT,GUERRERO,GUERRERO,NO,SI,NO APLICA,NO ESPECIFICADO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO,FUERA DE USMER,SSA,HOMBRE,HOSPITALIZADO,MEXICANA,No positivo SARS-CoV-2,True,8.0,2020.0,8,2020
1298812,2020-09-01,0860f4,2020-06-30,2020-06-30,2020-07-13,0,MÃ©xico,99,PUEBLA,TEHUACÁN,PUEBLA,PUEBLA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Resultado pendiente,True,7.0,2020.0,6,2020


In [None]:
# ¿Cuál es la edad de los pacientes que fallecen?
data.groupby('defuncion').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
defuncion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
False,1276921.0,41.02873,16.071713,0.0,30.0,40.0,51.0,120.0
True,83202.0,61.794344,15.203356,0.0,53.0,63.0,72.0,109.0


In [None]:
# ¿Cuántas defunciones tenemos por mes?
data[data.defuncion].mes_def.value_counts().sort_index()

1.0        6
2.0       12
3.0      232
4.0     5262
5.0    16007
6.0    21298
7.0    23386
8.0    16996
9.0        3
Name: mes_def, dtype: int64

In [None]:
# ¿Cuál es la proporción de diábeticos para las defunciones?
data.groupby('diabetes').defuncion.value_counts(normalize=True)

diabetes   defuncion
NO         False        0.956977
           True         0.043023
SE IGNORA  False        0.873052
           True         0.126948
SI         False        0.811706
           True         0.188294
Name: defuncion, dtype: float64

In [None]:
# ¿Cuál es la proporción de asmáticos para las defunciones?
data.groupby('asma').defuncion.value_counts(normalize=True)

asma       defuncion
NO         False        0.938479
           True         0.061521
SE IGNORA  False        0.864047
           True         0.135953
SI         False        0.956997
           True         0.043003
Name: defuncion, dtype: float64

# Tarea 3

**¿Tienen los pacientes con hipertensión un riesgo más alto de defunción?**

In [None]:
data.groupby('hipertension').defuncion.value_counts(normalize=True)

hipertension  defuncion
NO            False        0.959563
              True         0.040437
SE IGNORA     False        0.874212
              True         0.125788
SI            False        0.832883
              True         0.167117
Name: defuncion, dtype: float64

De acuerdo con los resultados, la proporción de personas con hipertensión que fallecieron a causa de COVID es de 0.1671, comparada con el 0.0404 de aquellos que no presentaban esta condición. Por ello, se puede concluir que los pacientes con hipertensión sí tienen un riesgo mayor.


**¿Cuántos casos confirmados se tienen por Estado?**

In [None]:
positivo_covid = data.query('resultado == "Positivo SARS-CoV-2"')
positivo_covid.groupby("resultado").entidad_res.value_counts().reset_index(name='confirmados').drop(columns="resultado")

Unnamed: 0,entidad_res,confirmados
0,CIUDAD DE MÉXICO,99564
1,MÉXICO,68516
2,GUANAJUATO,31998
3,NUEVO LEÓN,29524
4,VERACRUZ DE IGNACIO DE LA LLAVE,28581
5,TABASCO,28471
6,PUEBLA,27070
7,TAMAULIPAS,24793
8,COAHUILA DE ZARAGOZA,21919
9,SONORA,21659


**¿Cuántas defunciones se tienen por Estado?**

In [None]:
data.query('defuncion == True').groupby("defuncion").entidad_res.value_counts().reset_index(name='defunciones').drop(columns="defuncion")

Unnamed: 0,entidad_res,defunciones
0,MÉXICO,12780
1,CIUDAD DE MÉXICO,11394
2,VERACRUZ DE IGNACIO DE LA LLAVE,4553
3,PUEBLA,4342
4,BAJA CALIFORNIA,3896
5,SINALOA,3503
6,JALISCO,3498
7,SONORA,3113
8,NUEVO LEÓN,3088
9,TABASCO,2802


**¿Cuántos fallecimientos han ocurrido en el Estado con mayor número de casos confirmados?**

In [None]:
query = 'defuncion == True and resultado == "Positivo SARS-CoV-2"'
data.query(query).groupby("defuncion").entidad_res.value_counts().reset_index(name='defunciones').drop(columns="defuncion").iloc[0]

entidad_res    MÉXICO
defunciones     10135
Name: 0, dtype: object

| **Estado** | **Defunciones** |
|:----------:|:---------------:|
|   MEXICO   |      10135      |

**¿Cuántos fallecimientos han ocurrido en los pacientes Ambulatorios?**

In [None]:
query = 'defuncion == True and tipo_paciente == "AMBULATORIO"'
data.query(query).defuncion.value_counts().iloc[0]

8809