<a href="https://colab.research.google.com/github/MadriD2ev/hacking-civico/blob/master/notebooks/ejerciciosResueltos_05_Exploracion_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="http://codeandomexico.org/resources/img/codeandomexico.png" width="500" alt="Codeando México"><br>
<a href="http://www.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/website-CodeandoMexico-00D88E.svg"></a>
<a href="http://slack.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/slack-CodeandoMexico-EC0E4F.svg"></a>
</p>
<!-- __ -->

# Curso de Datos Abiertos y Hacking Cívico

Este curso tiene como objetivo habilitar las capacidades de la ciudadanía y los servidores públicos en el uso y generación de datos abiertos para el bien común. Puedes encontrar más información [aquí](https://github.com/CodeandoMexico/hacking-civico).

# Exploración de datos: COVID-19 en México

En este cuaderno aprenderemos algunas bases de exploración de datos. Los datos a utilizar son los datos abiertos sobre COVID-19 en México, los cuales pueden ser accedidos directamente desde el portal: https://www.gob.mx/salud/documentos/datos-abiertos-152127

Del portal de datos abiertos podemos encontrar dos enlaces, uno para descargar el conjunto de datos y otro para descargar el diccionario; así que podemos automatizar el proceso de descarga y descompresión de la información.

Para obtener los datos, sólo basta que ejecutes la siguiente línea de código, que contiene el comando de descarga de la información.

In [None]:
# Para descargar el conjunto de datos
!wget http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip

# Para descargar el diccionario de los datos
!wget http://epidemiologia.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip

# Descomprimimos ambas carpetas y movemos archivos
!unzip datos_abiertos_covid19.zip
!unzip diccionario_datos_covid19.zip
!mv ./diccionario_datos_covid19/*.xlsx .
!mv *COVID19MEXICO.csv COVID19MEXICO.csv

# Eliminamos las carpetas comprimidas
!rm -rf diccionario_datos_covid19
!rm datos_abiertos_covid19.zip
!rm diccionario_datos_covid19.zip

--2020-09-03 17:42:55--  http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip
Resolving datosabiertos.salud.gob.mx (datosabiertos.salud.gob.mx)... 187.210.186.146
Connecting to datosabiertos.salud.gob.mx (datosabiertos.salud.gob.mx)|187.210.186.146|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 29108289 (28M) [application/x-zip-compressed]
Saving to: ‘datos_abiertos_covid19.zip’


2020-09-03 17:42:57 (17.1 MB/s) - ‘datos_abiertos_covid19.zip’ saved [29108289/29108289]

--2020-09-03 17:42:57--  http://epidemiologia.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip
Resolving epidemiologia.salud.gob.mx (epidemiologia.salud.gob.mx)... 187.191.75.207
Connecting to epidemiologia.salud.gob.mx (epidemiologia.salud.gob.mx)|187.191.75.207|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://epidemiologia.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zi

Hasta este punto, si abres la barra lateral izaquiera, deberías ser capaz de encontrar los datos:

- `COVID19MEXICO.csv`
- `Catalogos_0412.xlsx`
- `Descriptores_0419.xlsx`

👈🏼

## Carga

Ahora que tenemos los datos, procederemos a cargarlos. Para cargar los datos, primero importaremos algunos paquetes de Python, pues su funcionalidad nos será muy util.

In [None]:
import statistics

import pandas as pd
import numpy as np

In [None]:
# Especificamos el nombre del archivo por abrir
nombre_archivo = 'COVID19MEXICO.csv'

# Utilizamos la función de Pandas para cargar un archivo CSV
data = pd.read_csv(nombre_archivo, encoding='latin-1')

Mostramos la cabeza (primeros elementos del archivo).

In [None]:
data.head()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,FECHA_INGRESO,FECHA_SINTOMAS,FECHA_DEF,INTUBADO,NEUMONIA,EDAD,NACIONALIDAD,EMBARAZO,HABLA_LENGUA_INDIG,DIABETES,EPOC,ASMA,INMUSUPR,HIPERTENSION,OTRA_COM,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2020-09-02,194e4a,2,3,27,1,7,27,4,2,2020-06-29,2020-06-20,9999-99-99,2,2,35,1,2,2,2,2,2,2,2,2,2,2,2,2,1,1,99,MÃ©xico,99,2
1,2020-09-02,099786,2,4,25,2,25,25,6,1,2020-03-30,2020-03-12,9999-99-99,97,2,35,1,97,2,2,2,2,2,2,2,2,2,2,2,1,1,99,MÃ©xico,99,97
2,2020-09-02,097d14,2,3,2,2,2,2,2,1,2020-06-10,2020-06-10,9999-99-99,97,2,27,1,97,2,2,2,2,2,2,2,2,2,2,2,1,1,99,MÃ©xico,99,97
3,2020-09-02,18eb28,2,4,28,1,28,28,27,1,2020-04-22,2020-04-20,9999-99-99,97,2,38,1,2,2,2,2,2,2,2,2,2,1,2,2,1,1,99,MÃ©xico,99,97
4,2020-09-02,1b7adb,2,4,2,2,12,2,4,2,2020-04-29,2020-04-15,2020-04-30,2,1,64,1,97,2,1,2,2,2,1,2,2,2,2,2,99,1,99,MÃ©xico,99,2


Ahora procedemos a cargar el archivo con los descriptores.

In [None]:
nombre_diccionario = 'Descriptores_0419.xlsx'
diccionario = pd.read_excel(nombre_diccionario)

In [None]:
diccionario

Unnamed: 0,Nº,NOMBRE DE VARIABLE,DESCRIPCIÓN DE VARIABLE,FORMATO O FUENTE
0,1,FECHA_ACTUALIZACION,"La base de datos se alimenta diariamente, esta...",AAAA-MM-DD
1,2,ID_REGISTRO,Número identificador del caso,TEXTO
2,3,ORIGEN,La vigilancia centinela se realiza a través de...,CATÁLOGO: ORIGEN ...
3,4,SECTOR,Identifica el tipo de institución del Sistema ...,CATÁLOGO: SECTOR ...
4,5,ENTIDAD_UM,Identifica la entidad donde se ubica la unidad...,CATALÓGO: ENTIDADES
5,6,SEXO,Identifica al sexo del paciente.,CATÁLOGO: SEXO
6,7,ENTIDAD_NAC,Identifica la entidad de nacimiento del paciente.,CATALÓGO: ENTIDADES
7,8,ENTIDAD_RES,Identifica la entidad de residencia del paciente.,CATALÓGO: ENTIDADES
8,9,MUNICIPIO_RES,Identifica el municipio de residencia del paci...,CATALÓGO: MUNICIPIOS
9,10,TIPO_PACIENTE,Identifica el tipo de atención que recibió el ...,CATÁLOGO: TIPO_PACIENTE


Finalmente, cargamos el rachivo de catálogos.

In [None]:
nombre_cat = 'Catalogos_0412.xlsx'
sheets = ['ORIGEN', 'SECTOR', 'SEXO', 'TIPO_PACIENTE', 'SI_NO', 'NACIONALIDAD', 'RESULTADO', 'de ENTIDADES', 'MUNICIPIOS']
catalogues = {}
for sheet in sheets:
  catalogue = pd.read_excel(nombre_cat, sheet_name='Catálogo ' + sheet)
  catalogue.columns = catalogue.columns.str.replace(' ', '_')
  catalogue.columns = catalogue.columns.str.replace('.', '')
  catalogue.columns = catalogue.columns.str.lower()
  new_catalogue = {sheet: catalogue}
  catalogues.update(new_catalogue)

In [None]:
catalogues

{'MUNICIPIOS':       clave_municipio        municipio  clave_entidad
 0                   1   AGUASCALIENTES              1
 1                   2         ASIENTOS              1
 2                   3         CALVILLO              1
 3                   4            COSÍO              1
 4                   5      JESÚS MARÍA              1
 ...               ...              ...            ...
 2496              999  NO ESPECIFICADO             32
 2497              999  NO ESPECIFICADO             36
 2498              997        NO APLICA             97
 2499              998        SE IGNORA             98
 2500              999  NO ESPECIFICADO             99
 
 [2501 rows x 3 columns], 'NACIONALIDAD':    clave      descripción
 0      1         MEXICANA
 1      2       EXTRANJERA
 2     99  NO ESPECIFICADO, 'ORIGEN':    clave      descripción
 0      1            USMER
 1      2   FUERA DE USMER
 2     99  NO ESPECIFICADO, 'RESULTADO':   unnamed:_0              unnamed:_1
 0    

In [None]:
catalogues['SEXO']

Unnamed: 0,clave,descripción
0,1,MUJER
1,2,HOMBRE
2,99,NO ESPECIFICADO


##Perfilamiento

###Descripción General

In [None]:
# dimensión de los datos
print('Número de filas: {}'.format(data.shape[0]))
print('Número de columnas: {}'.format(data.shape[1]))

Número de filas: 1376170
Número de columnas: 35


In [None]:
# columnas (variables)
data.columns

Index(['FECHA_ACTUALIZACION', 'ID_REGISTRO', 'ORIGEN', 'SECTOR', 'ENTIDAD_UM',
       'SEXO', 'ENTIDAD_NAC', 'ENTIDAD_RES', 'MUNICIPIO_RES', 'TIPO_PACIENTE',
       'FECHA_INGRESO', 'FECHA_SINTOMAS', 'FECHA_DEF', 'INTUBADO', 'NEUMONIA',
       'EDAD', 'NACIONALIDAD', 'EMBARAZO', 'HABLA_LENGUA_INDIG', 'DIABETES',
       'EPOC', 'ASMA', 'INMUSUPR', 'HIPERTENSION', 'OTRA_COM',
       'CARDIOVASCULAR', 'OBESIDAD', 'RENAL_CRONICA', 'TABAQUISMO',
       'OTRO_CASO', 'RESULTADO', 'MIGRANTE', 'PAIS_NACIONALIDAD',
       'PAIS_ORIGEN', 'UCI'],
      dtype='object')

In [None]:
# limpieza del nombre de las columnas, remover espacios, carácteres especiales y pasar a minúsculas
data.columns = data.columns.str.replace(' ', '_')
data.columns = data.columns.str.replace('.', '')
data.columns = data.columns.str.lower()

In [None]:
# calcular número de valores nulos por columna
for col in data.columns:
  print('Valores nulos en "{}": {}'.format(col,data[col].isna().sum()))

Valores nulos en "fecha_actualizacion": 0
Valores nulos en "id_registro": 0
Valores nulos en "origen": 0
Valores nulos en "sector": 0
Valores nulos en "entidad_um": 0
Valores nulos en "sexo": 0
Valores nulos en "entidad_nac": 0
Valores nulos en "entidad_res": 0
Valores nulos en "municipio_res": 0
Valores nulos en "tipo_paciente": 0
Valores nulos en "fecha_ingreso": 0
Valores nulos en "fecha_sintomas": 0
Valores nulos en "fecha_def": 0
Valores nulos en "intubado": 0
Valores nulos en "neumonia": 0
Valores nulos en "edad": 0
Valores nulos en "nacionalidad": 0
Valores nulos en "embarazo": 0
Valores nulos en "habla_lengua_indig": 0
Valores nulos en "diabetes": 0
Valores nulos en "epoc": 0
Valores nulos en "asma": 0
Valores nulos en "inmusupr": 0
Valores nulos en "hipertension": 0
Valores nulos en "otra_com": 0
Valores nulos en "cardiovascular": 0
Valores nulos en "obesidad": 0
Valores nulos en "renal_cronica": 0
Valores nulos en "tabaquismo": 0
Valores nulos en "otro_caso": 0
Valores nulos 

In [None]:
# tipos de datos
data.dtypes

fecha_actualizacion    object
id_registro            object
origen                  int64
sector                  int64
entidad_um              int64
sexo                    int64
entidad_nac             int64
entidad_res             int64
municipio_res           int64
tipo_paciente           int64
fecha_ingreso          object
fecha_sintomas         object
fecha_def              object
intubado                int64
neumonia                int64
edad                    int64
nacionalidad            int64
embarazo                int64
habla_lengua_indig      int64
diabetes                int64
epoc                    int64
asma                    int64
inmusupr                int64
hipertension            int64
otra_com                int64
cardiovascular          int64
obesidad                int64
renal_cronica           int64
tabaquismo              int64
otro_caso               int64
resultado               int64
migrante                int64
pais_nacionalidad      object
pais_orige

###Limpieza

In [None]:
# convertimos a fecha algunas columnas
def cast_datetime_cols(df):
    timestamp_cols = [col for col in df.columns if "fecha" in col]
    df[timestamp_cols] = df[timestamp_cols].apply(lambda date_col: pd.to_datetime(date_col, errors="coerce"), axis=0)
    return df

data = cast_datetime_cols(data)

In [None]:
data.head()

Unnamed: 0,fecha_actualizacion,id_registro,origen,sector,entidad_um,sexo,entidad_nac,entidad_res,municipio_res,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,intubado,neumonia,edad,nacionalidad,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,resultado,migrante,pais_nacionalidad,pais_origen,uci
0,2020-09-02,194e4a,2,3,27,1,7,27,4,2,2020-06-29,2020-06-20,NaT,2,2,35,1,2,2,2,2,2,2,2,2,2,2,2,2,1,1,99,MÃ©xico,99,2
1,2020-09-02,099786,2,4,25,2,25,25,6,1,2020-03-30,2020-03-12,NaT,97,2,35,1,97,2,2,2,2,2,2,2,2,2,2,2,1,1,99,MÃ©xico,99,97
2,2020-09-02,097d14,2,3,2,2,2,2,2,1,2020-06-10,2020-06-10,NaT,97,2,27,1,97,2,2,2,2,2,2,2,2,2,2,2,1,1,99,MÃ©xico,99,97
3,2020-09-02,18eb28,2,4,28,1,28,28,27,1,2020-04-22,2020-04-20,NaT,97,2,38,1,2,2,2,2,2,2,2,2,2,1,2,2,1,1,99,MÃ©xico,99,97
4,2020-09-02,1b7adb,2,4,2,2,12,2,4,2,2020-04-29,2020-04-15,2020-04-30,2,1,64,1,97,2,1,2,2,2,1,2,2,2,2,2,99,1,99,MÃ©xico,99,2


In [None]:
# unimos los datos con los catalogos para tener mejor entendimiento de ellos
data = (
    # unimos con el catálogo MUNICIPIOS y ENTIDADES
    data.merge(catalogues['de ENTIDADES'], how='left', left_on='entidad_res', right_on='clave_entidad').
    drop(columns=['entidad_res', 'abreviatura']).
    rename(columns={'entidad_federativa':'entidad_res'}).
    merge(catalogues['MUNICIPIOS'], how='left', left_on=['clave_entidad','municipio_res'], right_on=['clave_entidad','clave_municipio']).
    drop(columns=['municipio_res', 'clave_entidad', 'clave_municipio']).
    rename(columns={'municipio':'municipio_res'})
)

In [None]:
# unimos con el catálogo de ENTIDADES
entidades_cols = [col for col in data.columns if "entidad" in col and col != 'entidad_res']
for col in entidades_cols:
    data = (
        data.merge(catalogues['de ENTIDADES'], how='left', left_on=col, right_on='clave_entidad').
        drop(columns=[col, 'abreviatura', 'clave_entidad']).
        rename(columns={'entidad_federativa':col})
    )

In [None]:
# unimos con el catálogo SI_NO
sino_cols = ['intubado', 'neumonia', 'embarazo', 'habla_lengua_indig', 'diabetes', 'epoc', 'asma', 'inmusupr',
             'hipertension', 'otra_com', 'cardiovascular', 'obesidad', 'renal_cronica', 'tabaquismo', 
             'otro_caso', 'migrante', 'uci']
for col in sino_cols:
    data = (
        data.merge(catalogues['SI_NO'], how='left', left_on=col, right_on='clave').
        drop(columns=[col, 'clave']).
        rename(columns={'descripción':col})
    )

In [None]:
# unimos otras columnnas que comparten lógica
other_cols = ['origen', 'sector', 'sexo', 'tipo_paciente', 'nacionalidad', 'resultado']
for col, cat in zip(other_cols, [x.upper() for x in other_cols]):
    data = (
        data.merge(catalogues[cat], how='left', left_on=col, right_on='clave').
        drop(columns=[col, 'clave']).
        rename(columns={'descripción':col})
    )

KeyError: ignored

In [None]:
# creamos algunas variables que podrían ser útiles después
data['defuncion'] = ~data.fecha_def.isna()
data['mes_def'] = data.fecha_def.dt.month
data['año_def'] = data.fecha_def.dt.year
data['mes_ingreso'] = data.fecha_ingreso.dt.month
data['año_ingreso'] = data.fecha_ingreso.dt.year

In [None]:
data.head()

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,resultado,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-09-02,194e4a,2020-06-29,2020-06-20,NaT,35,1,MÃ©xico,99,TABASCO,CENTRO,TABASCO,CHIAPAS,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO,FUERA DE USMER,ESTATAL,MUJER,HOSPITALIZADO,MEXICANA,False,,,6,2020
1,2020-09-02,099786,2020-03-30,2020-03-12,NaT,35,1,MÃ©xico,99,SINALOA,CULIACÁN,SINALOA,SINALOA,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,False,,,3,2020
2,2020-09-02,097d14,2020-06-10,2020-06-10,NaT,27,1,MÃ©xico,99,BAJA CALIFORNIA,MEXICALI,BAJA CALIFORNIA,BAJA CALIFORNIA,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,HOMBRE,AMBULATORIO,MEXICANA,False,,,6,2020
3,2020-09-02,18eb28,2020-04-22,2020-04-20,NaT,38,1,MÃ©xico,99,TAMAULIPAS,NUEVO LAREDO,TAMAULIPAS,TAMAULIPAS,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,False,,,4,2020
4,2020-09-02,1b7adb,2020-04-29,2020-04-15,2020-04-30,64,1,MÃ©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,GUERRERO,NO,SI,NO APLICA,NO,SI,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,True,4.0,2020.0,4,2020


###Filtros

**Distintas formas de filtrar lo mismo**

In [None]:
# usando query
data.query('nacionalidad == "MEXICANA"').head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,resultado,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-09-02,194e4a,2020-06-29,2020-06-20,NaT,35,1,MÃ©xico,99,TABASCO,CENTRO,TABASCO,CHIAPAS,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO,FUERA DE USMER,ESTATAL,MUJER,HOSPITALIZADO,MEXICANA,False,,,6,2020
1,2020-09-02,099786,2020-03-30,2020-03-12,NaT,35,1,MÃ©xico,99,SINALOA,CULIACÁN,SINALOA,SINALOA,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,False,,,3,2020


In [None]:
# haciendo referencia a la columna como índice
data[data['nacionalidad'] == 'MEXICANA'].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,resultado,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-09-02,194e4a,2020-06-29,2020-06-20,NaT,35,1,MÃ©xico,99,TABASCO,CENTRO,TABASCO,CHIAPAS,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO,FUERA DE USMER,ESTATAL,MUJER,HOSPITALIZADO,MEXICANA,False,,,6,2020
1,2020-09-02,099786,2020-03-30,2020-03-12,NaT,35,1,MÃ©xico,99,SINALOA,CULIACÁN,SINALOA,SINALOA,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,False,,,3,2020


In [None]:
# seleccionando directamente la columna que queremos filtrar
data[data.nacionalidad == 'MEXICANA'].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,resultado,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
0,2020-09-02,194e4a,2020-06-29,2020-06-20,NaT,35,1,MÃ©xico,99,TABASCO,CENTRO,TABASCO,CHIAPAS,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO,FUERA DE USMER,ESTATAL,MUJER,HOSPITALIZADO,MEXICANA,False,,,6,2020
1,2020-09-02,099786,2020-03-30,2020-03-12,NaT,35,1,MÃ©xico,99,SINALOA,CULIACÁN,SINALOA,SINALOA,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,False,,,3,2020


**Filtrado múltiple**

In [None]:
# usando query podemos poner en el string del query todas las condiciones que queramos
data.query('nacionalidad == "MEXICANA" & entidad_res == "CIUDAD DE MÉXICO"').head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,resultado,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
7,2020-09-02,1a35f6,2020-03-28,2020-03-28,2020-04-10,53,1,MÃ©xico,99,CIUDAD DE MÉXICO,IZTAPALAPA,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,SI,NO APLICA,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,SI,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,True,4.0,2020.0,3,2020
9,2020-09-02,07c715,2020-04-08,2020-04-08,2020-05-09,57,1,MÃ©xico,99,CIUDAD DE MÉXICO,TLALPAN,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,True,5.0,2020.0,4,2020


In [None]:
# usando el filtrado tradicional debemos encerrar en paréntesis cada condición que queremos que cumpla nuestro filtro
data[(data['nacionalidad'] == "MEXICANA") & (data.entidad_res == "CIUDAD DE MÉXICO")].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,resultado,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
7,2020-09-02,1a35f6,2020-03-28,2020-03-28,2020-04-10,53,1,MÃ©xico,99,CIUDAD DE MÉXICO,IZTAPALAPA,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,SI,NO APLICA,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,SI,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,True,4.0,2020.0,3,2020
9,2020-09-02,07c715,2020-04-08,2020-04-08,2020-05-09,57,1,MÃ©xico,99,CIUDAD DE MÉXICO,TLALPAN,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,NO,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,True,5.0,2020.0,4,2020


###Resúmenes

In [None]:
# una columna, una métrica
data.groupby('sexo').edad.mean()

sexo
HOMBRE    42.832995
MUJER     41.751044
Name: edad, dtype: float64

In [None]:
# una columna, varias métricas
data.groupby('sexo').agg({'edad': ['min','mean','max']})

Unnamed: 0_level_0,edad,edad,edad
Unnamed: 0_level_1,min,mean,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
HOMBRE,0,42.832995,120
MUJER,0,41.751044,120


In [None]:
# varias columnas, una métrica
data.groupby('sexo').agg({'edad': 'mean', 'mes_ingreso': 'mean', 'mes_def': 'mean'})

Unnamed: 0_level_0,edad,mes_ingreso,mes_def
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
HOMBRE,42.832995,6.52064,6.356356
MUJER,41.751044,6.583068,6.415331


In [None]:
# varias columnas, varias métricas
data.groupby('sexo').agg({'edad': ['min','mean','max'], 'mes_ingreso': ['min','mean','max'], 'mes_def': ['min','mean','max']})

Unnamed: 0_level_0,edad,edad,edad,mes_ingreso,mes_ingreso,mes_ingreso,mes_def,mes_def,mes_def
Unnamed: 0_level_1,min,mean,max,min,mean,max,min,mean,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
HOMBRE,0,42.832995,120,1,6.52064,9,1.0,6.356356,9.0
MUJER,0,41.751044,120,1,6.583068,9,1.0,6.415331,9.0


###Descripción por Tipo

In [None]:
# Filtrar por tipos generales (categóricas y numéricas)
numerical = data.select_dtypes(include='number')
categorical = data.select_dtypes(include=['object', 'bool', 'category', 'datetime64[ns]'])

In [None]:
numerical.head()

Unnamed: 0,edad,resultado,mes_def,año_def,mes_ingreso,año_ingreso
0,35,1,,,6,2020
1,35,1,,,3,2020
2,27,1,,,6,2020
3,38,1,,,4,2020
4,64,1,4.0,2020.0,4,2020


In [None]:
categorical.head()

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,defuncion
0,2020-09-02,194e4a,2020-06-29,2020-06-20,NaT,MÃ©xico,99,TABASCO,CENTRO,TABASCO,CHIAPAS,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO,FUERA DE USMER,ESTATAL,MUJER,HOSPITALIZADO,MEXICANA,False
1,2020-09-02,099786,2020-03-30,2020-03-12,NaT,MÃ©xico,99,SINALOA,CULIACÁN,SINALOA,SINALOA,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,False
2,2020-09-02,097d14,2020-06-10,2020-06-10,NaT,MÃ©xico,99,BAJA CALIFORNIA,MEXICALI,BAJA CALIFORNIA,BAJA CALIFORNIA,NO APLICA,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,HOMBRE,AMBULATORIO,MEXICANA,False
3,2020-09-02,18eb28,2020-04-22,2020-04-20,NaT,MÃ©xico,99,TAMAULIPAS,NUEVO LAREDO,TAMAULIPAS,TAMAULIPAS,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,False
4,2020-09-02,1b7adb,2020-04-29,2020-04-15,2020-04-30,MÃ©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,GUERRERO,NO,SI,NO APLICA,NO,SI,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,True


In [None]:
# para conocer todos los tipo de datos
?data.select_dtypes

####Categóricas

In [None]:
# Cardinalidad - Valores únicos por columna
for col in categorical.columns:
  print('Valores únicos en "{}": {}'.format(col,categorical[col].nunique()))

Valores únicos en "fecha_actualizacion": 1
Valores únicos en "id_registro": 1376170
Valores únicos en "fecha_ingreso": 246
Valores únicos en "fecha_sintomas": 246
Valores únicos en "fecha_def": 191
Valores únicos en "pais_nacionalidad": 119
Valores únicos en "pais_origen": 77
Valores únicos en "entidad_res": 32
Valores únicos en "municipio_res": 2154
Valores únicos en "entidad_um": 32
Valores únicos en "entidad_nac": 33
Valores únicos en "intubado": 4
Valores únicos en "neumonia": 3
Valores únicos en "embarazo": 4
Valores únicos en "habla_lengua_indig": 3
Valores únicos en "diabetes": 3
Valores únicos en "epoc": 3
Valores únicos en "asma": 3
Valores únicos en "inmusupr": 3
Valores únicos en "hipertension": 3
Valores únicos en "otra_com": 3
Valores únicos en "cardiovascular": 3
Valores únicos en "obesidad": 3
Valores únicos en "renal_cronica": 3
Valores únicos en "tabaquismo": 3
Valores únicos en "otro_caso": 3
Valores únicos en "migrante": 3
Valores únicos en "uci": 4
Valores únicos en

In [None]:
# Unicidad - proporción de valores únicos por columna
total = data.shape[0]
for col in categorical.columns:
  print('Porcentaje de valores únicos en "{}": {}%'.format(col,round(categorical[col].nunique()/total*100,2)))

Porcentaje de valores únicos en "fecha_actualizacion": 0.0%
Porcentaje de valores únicos en "id_registro": 100.0%
Porcentaje de valores únicos en "fecha_ingreso": 0.02%
Porcentaje de valores únicos en "fecha_sintomas": 0.02%
Porcentaje de valores únicos en "fecha_def": 0.01%
Porcentaje de valores únicos en "pais_nacionalidad": 0.01%
Porcentaje de valores únicos en "pais_origen": 0.01%
Porcentaje de valores únicos en "entidad_res": 0.0%
Porcentaje de valores únicos en "municipio_res": 0.16%
Porcentaje de valores únicos en "entidad_um": 0.0%
Porcentaje de valores únicos en "entidad_nac": 0.0%
Porcentaje de valores únicos en "intubado": 0.0%
Porcentaje de valores únicos en "neumonia": 0.0%
Porcentaje de valores únicos en "embarazo": 0.0%
Porcentaje de valores únicos en "habla_lengua_indig": 0.0%
Porcentaje de valores únicos en "diabetes": 0.0%
Porcentaje de valores únicos en "epoc": 0.0%
Porcentaje de valores únicos en "asma": 0.0%
Porcentaje de valores únicos en "inmusupr": 0.0%
Porcenta

In [None]:
# Moda - valor que más se repite en cada columna excepto los indicadores únicos
for col in categorical.drop(columns='id_registro').columns:
  print('Valor más popular en "{}": {}'.format(col, statistics.mode(categorical[col])))

Valor más popular en "fecha_actualizacion": 2020-09-02 00:00:00
Valor más popular en "fecha_ingreso": 2020-07-20 00:00:00
Valor más popular en "fecha_sintomas": 2020-07-20 00:00:00
Valor más popular en "fecha_def": NaT
Valor más popular en "pais_nacionalidad": MÃ©xico
Valor más popular en "pais_origen": 99
Valor más popular en "entidad_res": CIUDAD DE MÉXICO
Valor más popular en "municipio_res": IZTAPALAPA
Valor más popular en "entidad_um": CIUDAD DE MÉXICO
Valor más popular en "entidad_nac": CIUDAD DE MÉXICO
Valor más popular en "intubado": NO APLICA
Valor más popular en "neumonia": NO 
Valor más popular en "embarazo": NO 
Valor más popular en "habla_lengua_indig": NO 
Valor más popular en "diabetes": NO 
Valor más popular en "epoc": NO 
Valor más popular en "asma": NO 
Valor más popular en "inmusupr": NO 
Valor más popular en "hipertension": NO 
Valor más popular en "otra_com": NO 
Valor más popular en "cardiovascular": NO 
Valor más popular en "obesidad": NO 
Valor más popular en "r

####Numéricas

In [None]:
numerical.describe()

Unnamed: 0,edad,resultado,mes_def,año_def,mes_ingreso,año_ingreso
count,1376170.0,1376170.0,83998.0,83998.0,1376170.0,1376170.0
mean,42.2849,1.615468,6.377771,2020.0,6.552265,2020.0
std,16.777,0.5962481,1.207876,0.0,1.270588,0.0
min,0.0,1.0,1.0,2020.0,1.0,2020.0
25%,30.0,1.0,5.0,2020.0,6.0,2020.0
50%,41.0,2.0,6.0,2020.0,7.0,2020.0
75%,53.0,2.0,7.0,2020.0,8.0,2020.0
max,120.0,3.0,9.0,2020.0,9.0,2020.0


##Análisis Exploratorio

En esta sección responderemos algunas preguntas sobre el set de datos usando las herramientas que hemos visto hasta ahora

In [None]:
# ¿Cuántas pruebas por origen se realizan?
data.groupby('origen').id_registro.count()

origen
FUERA DE USMER    916493
USMER             459677
Name: id_registro, dtype: int64

In [None]:
data.origen.value_counts()

FUERA DE USMER    916493
USMER             459677
Name: origen, dtype: int64

In [None]:
# ¿Cuántas pruebas por sector se realizan?
data.sector.value_counts()

SSA                852225
IMSS               355512
ISSSTE              52398
PRIVADA             51604
ESTATAL             25524
PEMEX               12153
IMSS-BIENESTAR       9632
SEMAR                7276
SEDENA               6846
MUNICIPAL            1125
UNIVERSITARIO         883
DIF                   779
CRUZ ROJA             205
NO ESPECIFICADO         8
Name: sector, dtype: int64

In [None]:
# ¿Cuántos pacientes por sexo tenemos?
data.sexo.value_counts()

MUJER     697136
HOMBRE    679034
Name: sexo, dtype: int64

In [None]:
# ¿Cuál es la proporción de los pacientes por sexo?
data.sexo.value_counts(normalize=True)

MUJER     0.506577
HOMBRE    0.493423
Name: sexo, dtype: float64

In [None]:
# ¿Cuál es la proporción de resultados de las pruebas?
data.resultado.value_counts(normalize=True)

2    0.496623
1    0.443955
3    0.059422
Name: resultado, dtype: float64

In [None]:
# ¿Cuántas pruebas positivas tenemos en el set?
data[data.resultado == 'Positivo SARS-CoV-2'].id_registro.count()

  res_values = method(rvalues)


0

In [None]:
# ¿Cuántos casos positivos tenemos por mes?
data[data.resultado == 'Positivo SARS-CoV-2'].mes_ingreso.value_counts().sort_index()

  res_values = method(rvalues)


Series([], Name: mes_ingreso, dtype: int64)

In [None]:
# ¿Cuál es el resultado de las pruebas por sexo?
data.groupby(['sexo','resultado'])['id_registro'].count()

sexo    resultado
HOMBRE  1            320316
        2            318431
        3             40287
MUJER   1            290641
        2            365007
        3             41488
Name: id_registro, dtype: int64

In [None]:
data.groupby('sexo').resultado.value_counts()

sexo    resultado
HOMBRE  1            320316
        2            318431
        3             40287
MUJER   2            365007
        1            290641
        3             41488
Name: resultado, dtype: int64

In [None]:
# ¿Qué proporción de resultados de pruebas tenemos por sexo?
data.groupby('sexo').resultado.value_counts(normalize=True)

sexo    resultado
HOMBRE  1            0.471723
        2            0.468947
        3            0.059330
MUJER   2            0.523581
        1            0.416907
        3            0.059512
Name: resultado, dtype: float64

In [None]:
# ¿Cuál es la edad de los pacientes por sexo?
data.groupby('sexo').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
HOMBRE,679034.0,42.832995,17.086914,0.0,30.0,41.0,54.0,120.0
MUJER,697136.0,41.751044,16.451991,0.0,30.0,40.0,52.0,120.0


In [None]:
def q25(x):
  return x.quantile(0.25)

def q75(x):
  return x.quantile(0.75)

data.groupby('sexo').agg({'edad': ['min', q25, 'median', q75, 'max']})

Unnamed: 0_level_0,edad,edad,edad,edad,edad
Unnamed: 0_level_1,min,q25,median,q75,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
HOMBRE,0,30,41,54,120
MUJER,0,30,40,52,120


In [None]:
# ¿Cuál es la edad de los pacientes dependiendo de si son intubados o no?
data.groupby('intubado').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
intubado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
NO,217877.0,53.631999,19.42649,0.0,42.0,55.0,67.0,120.0
NO APLICA,1129656.0,39.756176,15.010552,0.0,29.0,38.0,49.0,120.0
NO ESPECIFICADO,169.0,53.142012,17.996791,0.0,42.0,54.0,66.0,92.0
SI,28468.0,55.720563,18.838987,0.0,47.0,58.0,68.0,108.0


In [None]:
data.groupby('intubado').agg({'edad': ['min', q25, 'median', q75, 'max']})

Unnamed: 0_level_0,edad,edad,edad,edad,edad
Unnamed: 0_level_1,min,q25,median,q75,max
intubado,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
NO,0,42,55,67,120
NO APLICA,0,29,38,49,120
NO ESPECIFICADO,0,42,54,66,92
SI,0,47,58,68,108


In [None]:
# ¿Cuál es la edad máxima y cuál es la mínima de los pacientes fallecidos?
edad_def_max = data[data.defuncion].edad.max()
data[data.defuncion & (data.edad == edad_def_max)]

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,resultado,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
618523,2020-09-02,1b7b20,2020-05-21,2020-05-20,2020-05-26,109,2,MÃ©xico,99,MICHOACÁN DE OCAMPO,APATZINGÁN,MICHOACÁN DE OCAMPO,MICHOACÁN DE OCAMPO,NO,SI,NO APLICA,NO,NO,NO,NO,SI,NO,NO,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO,FUERA DE USMER,ISSSTE,HOMBRE,HOSPITALIZADO,MEXICANA,True,5.0,2020.0,5,2020


In [None]:
edad_def_min = data[data.defuncion].edad.min()
data[data.defuncion & (data.edad == edad_def_min)]

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,resultado,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,defuncion,mes_def,año_def,mes_ingreso,año_ingreso
10098,2020-09-02,083c34,2020-05-25,2020-05-25,2020-06-01,0,1,MÃ©xico,99,MÉXICO,CHIMALHUACÁN,MÉXICO,MÉXICO,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,SI,USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,True,6.0,2020.0,5,2020
10646,2020-09-02,05b7c8,2020-05-18,2020-05-18,2020-05-26,0,1,MÃ©xico,99,CIUDAD DE MÉXICO,COYOACÁN,CIUDAD DE MÉXICO,CIUDAD DE MÉXICO,SI,NO,NO APLICA,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,SI,FUERA DE USMER,SSA,HOMBRE,HOSPITALIZADO,MEXICANA,True,5.0,2020.0,5,2020
15231,2020-09-02,18feee,2020-06-23,2020-06-23,2020-07-06,0,1,MÃ©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,BAJA CALIFORNIA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,True,7.0,2020.0,6,2020
34466,2020-09-02,1b82ee,2020-05-13,2020-05-13,2020-05-22,0,1,MÃ©xico,99,MÉXICO,ECATEPEC DE MORELOS,CIUDAD DE MÉXICO,MÉXICO,SI,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO,NO ESPECIFICADO,SI,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,True,5.0,2020.0,5,2020
36040,2020-09-02,02f8e2,2020-05-08,2020-05-01,2020-05-10,0,1,MÃ©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,BAJA CALIFORNIA,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO,USMER,SSA,HOMBRE,HOSPITALIZADO,MEXICANA,True,5.0,2020.0,5,2020
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1303478,2020-09-02,083b61,2020-07-22,2020-07-18,2020-08-07,0,2,MÃ©xico,99,YUCATÁN,MÉRIDA,YUCATÁN,YUCATÁN,NO,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,True,8.0,2020.0,7,2020
1306024,2020-09-02,1e36e2,2020-08-09,2020-08-09,2020-08-11,0,2,MÃ©xico,99,BAJA CALIFORNIA,TECATE,BAJA CALIFORNIA,BAJA CALIFORNIA,NO,SI,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO,USMER,SSA,MUJER,HOSPITALIZADO,MEXICANA,True,8.0,2020.0,8,2020
1308718,2020-09-02,166615,2020-08-06,2020-08-01,2020-08-09,0,2,MÃ©xico,99,SAN LUIS POTOSÍ,MATEHUALA,SAN LUIS POTOSÍ,SAN LUIS POTOSÍ,NO,SI,NO APLICA,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,True,8.0,2020.0,8,2020
1310722,2020-09-02,0860f4,2020-06-30,2020-06-30,2020-07-13,0,3,MÃ©xico,99,PUEBLA,TEHUACÁN,PUEBLA,PUEBLA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,True,7.0,2020.0,6,2020


In [None]:
# ¿Cuál es la edad de los pacientes que fallecen?
data.groupby('defuncion').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
defuncion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
False,1292172.0,41.016116,16.073821,0.0,30.0,40.0,51.0,120.0
True,83998.0,61.803126,15.201952,0.0,53.0,63.0,72.0,109.0


In [None]:
# ¿Cuántas defunciones tenemos por mes?
data[data.defuncion].mes_def.value_counts().sort_index()

1.0        6
2.0       12
3.0      232
4.0     5262
5.0    16011
6.0    21306
7.0    23428
8.0    17610
9.0      131
Name: mes_def, dtype: int64

In [None]:
# ¿Cuál es la proporción de diábeticos para las defunciones?
data.groupby('diabetes').defuncion.value_counts(normalize=True)

diabetes   defuncion
NO         False        0.957100
           True         0.042900
SE IGNORA  False        0.873511
           True         0.126489
SI         False        0.811733
           True         0.188267
Name: defuncion, dtype: float64

In [None]:
# ¿Cuál es la proporción de asmáticos para las defunciones?
data.groupby('asma').defuncion.value_counts(normalize=True)

asma       defuncion
NO         False        0.938611
           True         0.061389
SE IGNORA  False        0.863046
           True         0.136954
SI         False        0.957281
           True         0.042719
Name: defuncion, dtype: float64

In [None]:
#PACIENTES CON HIPERTENSIÓN ES IGUAL A UN RIESGO MAYOR DE DEFUNCIÓN 

data.groupby('hipertension').defuncion.value_counts()


hipertension  defuncion
NO            False        1103550
              True           46365
SE IGNORA     False           3217
              True             461
SI            False         185405
              True           37172
Name: defuncion, dtype: int64

In [None]:
#CASOS CONFIRMADOS POR ESTADO

data[data.resultado == 1].entidad_res.value_counts()


CIUDAD DE MÉXICO                   100394
MÉXICO                              68844
GUANAJUATO                          32376
NUEVO LEÓN                          29951
VERACRUZ DE IGNACIO DE LA LLAVE     28734
TABASCO                             28626
PUEBLA                              27348
TAMAULIPAS                          24870
COAHUILA DE ZARAGOZA                22074
SONORA                              21713
JALISCO                             20794
SAN LUIS POTOSÍ                     18514
BAJA CALIFORNIA                     17069
SINALOA                             16385
MICHOACÁN DE OCAMPO                 15416
YUCATÁN                             15074
GUERRERO                            15033
OAXACA                              13905
HIDALGO                             10549
QUINTANA ROO                        10461
CHIHUAHUA                            7968
BAJA CALIFORNIA SUR                  7873
QUERÉTARO                            6606
DURANGO                           

In [None]:
#DEFUNCIONES POR ESTADO

data[data.defuncion].entidad_res.value_counts()


MÉXICO                             12873
CIUDAD DE MÉXICO                   11468
VERACRUZ DE IGNACIO DE LA LLAVE     4583
PUEBLA                              4371
BAJA CALIFORNIA                     3911
SINALOA                             3542
JALISCO                             3534
NUEVO LEÓN                          3149
SONORA                              3128
TABASCO                             2836
GUANAJUATO                          2710
TAMAULIPAS                          2645
GUERRERO                            2191
COAHUILA DE ZARAGOZA                1938
HIDALGO                             1910
CHIHUAHUA                           1882
QUINTANA ROO                        1797
MICHOACÁN DE OCAMPO                 1721
YUCATÁN                             1686
OAXACA                              1537
SAN LUIS POTOSÍ                     1535
TLAXCALA                            1239
CHIAPAS                             1211
MORELOS                             1194
CAMPECHE        

In [None]:
#FALLECIMIENTOS OCURRIDOS EN EL ESTADO CON MAYOR NUMERO DE CASOS CONFIRMADOS

data[(data.resultado == 1) & (data.entidad_res == "CIUDAD DE MÉXICO") & (data.defuncion)].entidad_res.value_counts()


CIUDAD DE MÉXICO    8541
Name: entidad_res, dtype: int64

In [None]:
#FALLECIMIENTOS OCURRIDOS EN PACIENTES AMBULATORIOS

data[(data.tipo_paciente == 'AMBULATORIO') & (data.defuncion)].tipo_paciente.value_counts()


AMBULATORIO    8910
Name: tipo_paciente, dtype: int64