<a href="https://colab.research.google.com/github/Humberto1285/hacking-civico/blob/master/notebooks/Exploracion_de_datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p align="center">
<img src="http://codeandomexico.org/resources/img/codeandomexico.png" width="500" alt="Codeando M√©xico"><br>
<a href="http://www.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/website-CodeandoMexico-00D88E.svg"></a>
<a href="http://slack.codeandomexico.org/" target="_blank"><img src="https://img.shields.io/badge/slack-CodeandoMexico-EC0E4F.svg"></a>
</p>
<!-- __ -->

# Curso de Datos Abiertos y Hacking C√≠vico

Este curso tiene como objetivo habilitar las capacidades de la ciudadaniÃÅa y los servidores p√∫blicos en el uso y generaci√≥n de datos abiertos para el bien com√∫n. Puedes encontrar m√°s informaci√≥n [aqu√≠](https://github.com/CodeandoMexico/hacking-civico).

# Exploraci√≥n de datos: COVID-19 en M√©xico

En este cuaderno aprenderemos algunas bases de exploraci√≥n de datos. Los datos a utilizar son los datos abiertos sobre COVID-19 en M√©xico, los cuales pueden ser accedidos directamente desde el portal: https://www.gob.mx/salud/documentos/datos-abiertos-152127

Del portal de datos abiertos podemos encontrar dos enlaces, uno para descargar el conjunto de datos y otro para descargar el diccionario; as√≠ que podemos automatizar el proceso de descarga y descompresi√≥n de la informaci√≥n.

Para obtener los datos, s√≥lo basta que ejecutes la siguiente l√≠nea de c√≥digo, que contiene el comando de descarga de la informaci√≥n.

In [3]:
# Para descargar el conjunto de datos
!wget http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip

# Para descargar el diccionario de los datos
!wget http://epidemiologia.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip

# Descomprimimos ambas carpetas y movemos archivos
!unzip datos_abiertos_covid19.zip
!unzip diccionario_datos_covid19.zip
!mv ./diccionario_datos_covid19/*.xlsx .
!mv *COVID19MEXICO.csv COVID19MEXICO.csv

# Eliminamos las carpetas comprimidas
!rm -rf diccionario_datos_covid19
!rm datos_abiertos_covid19.zip
!rm diccionario_datos_covid19.zip

--2020-09-13 18:45:22--  http://datosabiertos.salud.gob.mx/gobmx/salud/datos_abiertos/datos_abiertos_covid19.zip
Resolving datosabiertos.salud.gob.mx (datosabiertos.salud.gob.mx)... 187.210.186.146
Connecting to datosabiertos.salud.gob.mx (datosabiertos.salud.gob.mx)|187.210.186.146|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 31945189 (30M) [application/x-zip-compressed]
Saving to: ‚Äòdatos_abiertos_covid19.zip‚Äô


2020-09-13 18:45:24 (21.0 MB/s) - ‚Äòdatos_abiertos_covid19.zip‚Äô saved [31945189/31945189]

--2020-09-13 18:45:24--  http://epidemiologia.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_covid19.zip
Resolving epidemiologia.salud.gob.mx (epidemiologia.salud.gob.mx)... 187.191.75.207
Connecting to epidemiologia.salud.gob.mx (epidemiologia.salud.gob.mx)|187.191.75.207|:80... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://epidemiologia.salud.gob.mx/gobmx/salud/datos_abiertos/diccionario_datos_co

Hasta este punto, si abres la barra lateral izaquiera, deber√≠as ser capaz de encontrar los datos:

- `COVID19MEXICO.csv`
- `Catalogos_0412.xlsx`
- `Descriptores_0419.xlsx`

üëàüèº

## Carga

Ahora que tenemos los datos, procederemos a cargarlos. Para cargar los datos, primero importaremos algunos paquetes de Python, pues su funcionalidad nos ser√° muy util.

In [4]:
import statistics

import pandas as pd
import numpy as np

In [5]:
# Especificamos el nombre del archivo por abrir
nombre_archivo = 'COVID19MEXICO.csv'

# Utilizamos la funci√≥n de Pandas para cargar un archivo CSV
data = pd.read_csv(nombre_archivo, encoding='latin-1')

Mostramos la cabeza (primeros elementos del archivo).

In [None]:
data.head()

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,FECHA_INGRESO,FECHA_SINTOMAS,FECHA_DEF,INTUBADO,NEUMONIA,EDAD,NACIONALIDAD,EMBARAZO,HABLA_LENGUA_INDIG,DIABETES,EPOC,ASMA,INMUSUPR,HIPERTENSION,OTRA_COM,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,OTRO_CASO,RESULTADO,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2020-09-03,097d14,2,3,2,2,2,2,2,1,2020-06-10,2020-06-10,9999-99-99,97,2,27,1,97,2,2,2,2,2,2,2,2,2,2,2,1,1,99,M√É¬©xico,99,97
1,2020-09-03,1b7adb,2,4,2,2,12,2,4,2,2020-04-29,2020-04-15,2020-04-30,2,1,64,1,97,2,1,2,2,2,1,2,2,2,2,2,99,1,99,M√É¬©xico,99,2
2,2020-09-03,11daaa,2,3,27,1,27,27,15,1,2020-05-26,2020-05-26,9999-99-99,97,2,32,1,2,99,2,2,2,2,2,2,2,2,2,2,1,1,99,M√É¬©xico,99,97
3,2020-09-03,17c9eb,2,3,27,1,27,27,13,1,2020-06-05,2020-05-31,9999-99-99,97,2,54,1,2,2,1,2,2,2,1,2,2,2,2,2,1,1,99,M√É¬©xico,99,97
4,2020-09-03,14f12c,2,4,17,1,3,17,7,1,2020-04-02,2020-04-01,9999-99-99,97,2,44,1,2,2,2,2,2,2,2,1,2,2,2,2,1,1,99,M√É¬©xico,99,97


Ahora procedemos a cargar el archivo con los descriptores.

In [6]:
nombre_diccionario = 'Descriptores_0419.xlsx'
diccionario = pd.read_excel(nombre_diccionario)

In [7]:
diccionario

Unnamed: 0,N¬∫,NOMBRE DE VARIABLE,DESCRIPCI√ìN DE VARIABLE,FORMATO O FUENTE
0,1,FECHA_ACTUALIZACION,"La base de datos se alimenta diariamente, esta...",AAAA-MM-DD
1,2,ID_REGISTRO,N√∫mero identificador del caso,TEXTO
2,3,ORIGEN,La vigilancia centinela se realiza a trav√©s de...,CAT√ÅLOGO: ORIGEN ...
3,4,SECTOR,Identifica el tipo de instituci√≥n del Sistema ...,CAT√ÅLOGO: SECTOR ...
4,5,ENTIDAD_UM,Identifica la entidad donde se ubica la unidad...,CATAL√ìGO: ENTIDADES
5,6,SEXO,Identifica al sexo del paciente.,CAT√ÅLOGO: SEXO
6,7,ENTIDAD_NAC,Identifica la entidad de nacimiento del paciente.,CATAL√ìGO: ENTIDADES
7,8,ENTIDAD_RES,Identifica la entidad de residencia del paciente.,CATAL√ìGO: ENTIDADES
8,9,MUNICIPIO_RES,Identifica el municipio de residencia del paci...,CATAL√ìGO: MUNICIPIOS
9,10,TIPO_PACIENTE,Identifica el tipo de atenci√≥n que recibi√≥ el ...,CAT√ÅLOGO: TIPO_PACIENTE


Finalmente, cargamos el archivo de cat√°logos.

In [8]:
nombre_cat = 'Catalogos_0412.xlsx'
sheets = ['ORIGEN', 'SECTOR', 'SEXO', 'TIPO_PACIENTE', 'SI_NO', 'NACIONALIDAD', 'RESULTADO', 'de ENTIDADES', 'MUNICIPIOS']
catalogues = {}
for sheet in sheets:
  catalogue = pd.read_excel(nombre_cat, sheet_name='Cat√°logo ' + sheet)
  catalogue.columns = catalogue.columns.str.replace(' ', '_')
  catalogue.columns = catalogue.columns.str.replace('.', '')
  catalogue.columns = catalogue.columns.str.lower()
  new_catalogue = {sheet: catalogue}
  catalogues.update(new_catalogue)

In [9]:
catalogues

{'MUNICIPIOS':       clave_municipio        municipio  clave_entidad
 0                   1   AGUASCALIENTES              1
 1                   2         ASIENTOS              1
 2                   3         CALVILLO              1
 3                   4            COS√çO              1
 4                   5      JES√öS MAR√çA              1
 ...               ...              ...            ...
 2496              999  NO ESPECIFICADO             32
 2497              999  NO ESPECIFICADO             36
 2498              997        NO APLICA             97
 2499              998        SE IGNORA             98
 2500              999  NO ESPECIFICADO             99
 
 [2501 rows x 3 columns], 'NACIONALIDAD':    clave      descripci√≥n
 0      1         MEXICANA
 1      2       EXTRANJERA
 2     99  NO ESPECIFICADO, 'ORIGEN':    clave      descripci√≥n
 0      1            USMER
 1      2   FUERA DE USMER
 2     99  NO ESPECIFICADO, 'RESULTADO':   unnamed:_0              unnamed:_1
 

In [10]:
catalogues['SEXO']

Unnamed: 0,clave,descripci√≥n
0,1,MUJER
1,2,HOMBRE
2,99,NO ESPECIFICADO


##Perfilamiento

###Descripci√≥n General

In [11]:
# dimensi√≥n de los datos
print('N√∫mero de filas: {}'.format(data.shape[0]))
print('N√∫mero de columnas: {}'.format(data.shape[1]))

N√∫mero de filas: 1510311
N√∫mero de columnas: 35


In [12]:
# columnas (variables)
data.columns

Index(['FECHA_ACTUALIZACION', 'ID_REGISTRO', 'ORIGEN', 'SECTOR', 'ENTIDAD_UM',
       'SEXO', 'ENTIDAD_NAC', 'ENTIDAD_RES', 'MUNICIPIO_RES', 'TIPO_PACIENTE',
       'FECHA_INGRESO', 'FECHA_SINTOMAS', 'FECHA_DEF', 'INTUBADO', 'NEUMONIA',
       'EDAD', 'NACIONALIDAD', 'EMBARAZO', 'HABLA_LENGUA_INDIG', 'DIABETES',
       'EPOC', 'ASMA', 'INMUSUPR', 'HIPERTENSION', 'OTRA_COM',
       'CARDIOVASCULAR', 'OBESIDAD', 'RENAL_CRONICA', 'TABAQUISMO',
       'OTRO_CASO', 'RESULTADO', 'MIGRANTE', 'PAIS_NACIONALIDAD',
       'PAIS_ORIGEN', 'UCI'],
      dtype='object')

In [13]:
# limpieza del nombre de las columnas, remover espacios, car√°cteres especiales y pasar a min√∫sculas
data.columns = data.columns.str.replace(' ', '_')
data.columns = data.columns.str.replace('.', '')
data.columns = data.columns.str.lower()

In [14]:
# calcular n√∫mero de valores nulos por columna
for col in data.columns:
  print('Valores nulos en "{}": {}'.format(col,data[col].isna().sum()))

Valores nulos en "fecha_actualizacion": 0
Valores nulos en "id_registro": 0
Valores nulos en "origen": 0
Valores nulos en "sector": 0
Valores nulos en "entidad_um": 0
Valores nulos en "sexo": 0
Valores nulos en "entidad_nac": 0
Valores nulos en "entidad_res": 0
Valores nulos en "municipio_res": 0
Valores nulos en "tipo_paciente": 0
Valores nulos en "fecha_ingreso": 0
Valores nulos en "fecha_sintomas": 0
Valores nulos en "fecha_def": 0
Valores nulos en "intubado": 0
Valores nulos en "neumonia": 0
Valores nulos en "edad": 0
Valores nulos en "nacionalidad": 0
Valores nulos en "embarazo": 0
Valores nulos en "habla_lengua_indig": 0
Valores nulos en "diabetes": 0
Valores nulos en "epoc": 0
Valores nulos en "asma": 0
Valores nulos en "inmusupr": 0
Valores nulos en "hipertension": 0
Valores nulos en "otra_com": 0
Valores nulos en "cardiovascular": 0
Valores nulos en "obesidad": 0
Valores nulos en "renal_cronica": 0
Valores nulos en "tabaquismo": 0
Valores nulos en "otro_caso": 0
Valores nulos 

In [15]:
# tipos de datos
data.dtypes

fecha_actualizacion    object
id_registro            object
origen                  int64
sector                  int64
entidad_um              int64
sexo                    int64
entidad_nac             int64
entidad_res             int64
municipio_res           int64
tipo_paciente           int64
fecha_ingreso          object
fecha_sintomas         object
fecha_def              object
intubado                int64
neumonia                int64
edad                    int64
nacionalidad            int64
embarazo                int64
habla_lengua_indig      int64
diabetes                int64
epoc                    int64
asma                    int64
inmusupr                int64
hipertension            int64
otra_com                int64
cardiovascular          int64
obesidad                int64
renal_cronica           int64
tabaquismo              int64
otro_caso               int64
resultado               int64
migrante                int64
pais_nacionalidad      object
pais_orige

###Limpieza

In [16]:
# convertimos a fecha algunas columnas
def cast_datetime_cols(df):
    timestamp_cols = [col for col in df.columns if "fecha" in col]
    df[timestamp_cols] = df[timestamp_cols].apply(lambda date_col: pd.to_datetime(date_col, errors="coerce"), axis=0)
    return df

data = cast_datetime_cols(data)

In [17]:
data.head()

Unnamed: 0,fecha_actualizacion,id_registro,origen,sector,entidad_um,sexo,entidad_nac,entidad_res,municipio_res,tipo_paciente,fecha_ingreso,fecha_sintomas,fecha_def,intubado,neumonia,edad,nacionalidad,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,resultado,migrante,pais_nacionalidad,pais_origen,uci
0,2020-09-12,114cd3,2,3,27,1,27,27,4,1,2020-07-06,2020-06-29,NaT,97,2,52,1,2,2,2,2,2,2,2,2,2,2,2,2,1,1,99,M√É¬©xico,99,97
1,2020-09-12,0bafd8,2,4,15,2,15,15,106,2,2020-04-29,2020-04-28,2020-05-09,1,2,57,1,97,2,2,2,2,2,2,2,2,2,2,2,99,1,99,M√É¬©xico,99,2
2,2020-09-12,18747a,2,4,25,1,25,25,12,1,2020-04-14,2020-04-10,NaT,97,2,44,1,2,2,1,2,2,2,1,2,2,1,2,2,99,1,99,M√É¬©xico,99,97
3,2020-09-12,174174,2,4,9,2,12,9,7,1,2020-04-18,2020-04-11,NaT,97,1,28,1,97,2,2,2,2,2,2,2,2,2,2,2,99,1,99,M√É¬©xico,99,97
4,2020-09-12,0eae86,2,4,30,2,15,30,4,2,2020-04-21,2020-04-21,NaT,1,2,53,1,97,2,2,2,2,2,2,2,2,2,2,2,2,1,99,M√É¬©xico,99,1


In [18]:
# unimos los datos con los catalogos para tener mejor entendimiento de ellos
data = (
    # unimos con el cat√°logo MUNICIPIOS y ENTIDADES
    data.merge(catalogues['de ENTIDADES'], how='left', left_on='entidad_res', right_on='clave_entidad').
    drop(columns=['entidad_res', 'abreviatura']).
    rename(columns={'entidad_federativa':'entidad_res'}).
    merge(catalogues['MUNICIPIOS'], how='left', left_on=['clave_entidad','municipio_res'], right_on=['clave_entidad','clave_municipio']).
    drop(columns=['municipio_res', 'clave_entidad', 'clave_municipio']).
    rename(columns={'municipio':'municipio_res'})
)

In [19]:
# unimos con el cat√°logo de ENTIDADES
entidades_cols = [col for col in data.columns if "entidad" in col and col != 'entidad_res']
for col in entidades_cols:
    data = (
        data.merge(catalogues['de ENTIDADES'], how='left', left_on=col, right_on='clave_entidad').
        drop(columns=[col, 'abreviatura', 'clave_entidad']).
        rename(columns={'entidad_federativa':col})
    )

In [20]:
# unimos con el cat√°logo SI_NO
sino_cols = ['intubado', 'neumonia', 'embarazo', 'habla_lengua_indig', 'diabetes', 'epoc', 'asma', 'inmusupr',
             'hipertension', 'otra_com', 'cardiovascular', 'obesidad', 'renal_cronica', 'tabaquismo', 
             'otro_caso', 'migrante', 'uci']
for col in sino_cols:
    data = (
        data.merge(catalogues['SI_NO'], how='left', left_on=col, right_on='clave').
        drop(columns=[col, 'clave']).
        rename(columns={'descripci√≥n':col})
    )

> **Nota:**
>
> Si ejecutaste una versi√≥n previa del cuaderno, notar√°s que en la siguiente secci√≥n aparec√≠a un error. A continuaci√≥n dejamos como un peque√±o par√©ntesis un poco m√°s de limpieza sobre el cuaderno.

1. Corregimos el nombre de las columnas:

In [21]:
catalogues['RESULTADO'].columns

Index(['unnamed:_0', 'unnamed:_1'], dtype='object')

In [22]:
catalogues['RESULTADO'].columns = ['clave', 'descripci√≥n']
catalogues['RESULTADO'].columns

Index(['clave', 'descripci√≥n'], dtype='object')

2. Removemos la (primera) fila que no nos es √∫til.

In [23]:
catalogues['RESULTADO'] = catalogues['RESULTADO'].drop(index=0)

3. Convertimos el tipo de dato.

In [28]:
catalogues['RESULTADO']['clave'] = catalogues['RESULTADO']['clave'].astype(int)

> Fin del par√©ntesis. Hasta esta secci√≥n, esta parte de limpieza permite continuar con el proceso de manera normal.

In [29]:
# unimos otras columnnas que comparten l√≥gica
other_cols = ['origen', 'sector', 'sexo', 'tipo_paciente', 'nacionalidad', 'resultado']
for col, cat in zip(other_cols, [x.upper() for x in other_cols]):
    data = (
        data.merge(catalogues[cat], how='left', left_on=col, right_on='clave').
        drop(columns=[col, 'clave']).
        rename(columns={'descripci√≥n':col})
    )

ValueError: ignored

In [30]:
# creamos algunas variables que podr√≠an ser √∫tiles despu√©s
data['defuncion'] = ~data.fecha_def.isna()
data['mes_def'] = data.fecha_def.dt.month
data['a√±o_def'] = data.fecha_def.dt.year
data['mes_ingreso'] = data.fecha_ingreso.dt.month
data['a√±o_ingreso'] = data.fecha_ingreso.dt.year

In [31]:
data.head()

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,a√±o_def,mes_ingreso,a√±o_ingreso
0,2020-09-12,114cd3,2020-07-06,2020-06-29,NaT,52,M√É¬©xico,99,TABASCO,CENTRO,TABASCO,TABASCO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,7,2020
1,2020-09-12,0bafd8,2020-04-29,2020-04-28,2020-05-09,57,M√É¬©xico,99,M√âXICO,TOLUCA,M√âXICO,M√âXICO,SI,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,4,2020
2,2020-09-12,18747a,2020-04-14,2020-04-10,NaT,44,M√É¬©xico,99,SINALOA,MAZATL√ÅN,SINALOA,SINALOA,NO APLICA,NO,NO,NO,SI,NO,NO,NO,SI,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
3,2020-09-12,174174,2020-04-18,2020-04-11,NaT,28,M√É¬©xico,99,CIUDAD DE M√âXICO,IZTAPALAPA,CIUDAD DE M√âXICO,GUERRERO,NO APLICA,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
4,2020-09-12,0eae86,2020-04-21,2020-04-21,NaT,53,M√É¬©xico,99,VERACRUZ DE IGNACIO DE LA LLAVE,ACTOPAN,VERACRUZ DE IGNACIO DE LA LLAVE,M√âXICO,SI,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,SI,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020


###Filtros

**Distintas formas de filtrar lo mismo**

In [32]:
# usando query
data.query('nacionalidad == "MEXICANA"').head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,a√±o_def,mes_ingreso,a√±o_ingreso
0,2020-09-12,114cd3,2020-07-06,2020-06-29,NaT,52,M√É¬©xico,99,TABASCO,CENTRO,TABASCO,TABASCO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,7,2020
1,2020-09-12,0bafd8,2020-04-29,2020-04-28,2020-05-09,57,M√É¬©xico,99,M√âXICO,TOLUCA,M√âXICO,M√âXICO,SI,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,4,2020


In [33]:
# haciendo referencia a la columna como √≠ndice
data[data['nacionalidad'] == 'MEXICANA'].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,a√±o_def,mes_ingreso,a√±o_ingreso
0,2020-09-12,114cd3,2020-07-06,2020-06-29,NaT,52,M√É¬©xico,99,TABASCO,CENTRO,TABASCO,TABASCO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,7,2020
1,2020-09-12,0bafd8,2020-04-29,2020-04-28,2020-05-09,57,M√É¬©xico,99,M√âXICO,TOLUCA,M√âXICO,M√âXICO,SI,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,4,2020


In [34]:
# seleccionando directamente la columna que queremos filtrar
data[data.nacionalidad == 'MEXICANA'].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,a√±o_def,mes_ingreso,a√±o_ingreso
0,2020-09-12,114cd3,2020-07-06,2020-06-29,NaT,52,M√É¬©xico,99,TABASCO,CENTRO,TABASCO,TABASCO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,7,2020
1,2020-09-12,0bafd8,2020-04-29,2020-04-28,2020-05-09,57,M√É¬©xico,99,M√âXICO,TOLUCA,M√âXICO,M√âXICO,SI,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,4,2020


**Filtrado m√∫ltiple**

In [35]:
# usando query podemos poner en el string del query todas las condiciones que queramos
data.query('nacionalidad == "MEXICANA" & entidad_res == "CIUDAD DE M√âXICO"').head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,a√±o_def,mes_ingreso,a√±o_ingreso
3,2020-09-12,174174,2020-04-18,2020-04-11,NaT,28,M√É¬©xico,99,CIUDAD DE M√âXICO,IZTAPALAPA,CIUDAD DE M√âXICO,GUERRERO,NO APLICA,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
6,2020-09-12,1a73c1,2020-05-22,2020-05-21,2020-05-25,48,M√É¬©xico,99,CIUDAD DE M√âXICO,GUSTAVO A. MADERO,M√âXICO,CIUDAD DE M√âXICO,NO APLICA,NO,NO,NO,SI,NO,NO,NO,SI,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,5,2020


In [36]:
# usando el filtrado tradicional debemos encerrar en par√©ntesis cada condici√≥n que queremos que cumpla nuestro filtro
data[(data['nacionalidad'] == "MEXICANA") & (data.entidad_res == "CIUDAD DE M√âXICO")].head(2)

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,a√±o_def,mes_ingreso,a√±o_ingreso
3,2020-09-12,174174,2020-04-18,2020-04-11,NaT,28,M√É¬©xico,99,CIUDAD DE M√âXICO,IZTAPALAPA,CIUDAD DE M√âXICO,GUERRERO,NO APLICA,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False,,,4,2020
6,2020-09-12,1a73c1,2020-05-22,2020-05-21,2020-05-25,48,M√É¬©xico,99,CIUDAD DE M√âXICO,GUSTAVO A. MADERO,M√âXICO,CIUDAD DE M√âXICO,NO APLICA,NO,NO,NO,SI,NO,NO,NO,SI,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,5,2020


###Res√∫menes

In [37]:
# una columna, una m√©trica
data.groupby('sexo').edad.mean()

sexo
HOMBRE    42.667259
MUJER     41.639353
Name: edad, dtype: float64

In [38]:
# una columna, varias m√©tricas
data.groupby('sexo').agg({'edad': ['min','mean','max']})

Unnamed: 0_level_0,edad,edad,edad
Unnamed: 0_level_1,min,mean,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
HOMBRE,0,42.667259,120
MUJER,0,41.639353,120


In [39]:
# varias columnas, una m√©trica
data.groupby('sexo').agg({'edad': 'mean', 'mes_ingreso': 'mean', 'mes_def': 'mean'})

Unnamed: 0_level_0,edad,mes_ingreso,mes_def
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
HOMBRE,42.667259,6.730779,6.497591
MUJER,41.639353,6.80777,6.572409


In [40]:
# varias columnas, varias m√©tricas
data.groupby('sexo').agg({'edad': ['min','mean','max'], 'mes_ingreso': ['min','mean','max'], 'mes_def': ['min','mean','max']})

Unnamed: 0_level_0,edad,edad,edad,mes_ingreso,mes_ingreso,mes_ingreso,mes_def,mes_def,mes_def
Unnamed: 0_level_1,min,mean,max,min,mean,max,min,mean,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
HOMBRE,0,42.667259,120,1,6.730779,9,1.0,6.497591,9.0
MUJER,0,41.639353,120,1,6.80777,9,1.0,6.572409,9.0


###Descripci√≥n por Tipo

In [41]:
# Filtrar por tipos generales (categ√≥ricas y num√©ricas)
numerical = data.select_dtypes(include='number')
categorical = data.select_dtypes(include=['object', 'bool', 'category', 'datetime64[ns]'])

In [None]:
numerical.head()

Unnamed: 0,edad,mes_def,a√±o_def,mes_ingreso,a√±o_ingreso
0,27,,,6,2020
1,64,4.0,2020.0,4,2020
2,32,,,5,2020
3,54,,,6,2020
4,44,,,4,2020


In [42]:
categorical.head()

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion
0,2020-09-12,114cd3,2020-07-06,2020-06-29,NaT,M√É¬©xico,99,TABASCO,CENTRO,TABASCO,TABASCO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,ESTATAL,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False
1,2020-09-12,0bafd8,2020-04-29,2020-04-28,2020-05-09,M√É¬©xico,99,M√âXICO,TOLUCA,M√âXICO,M√âXICO,SI,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True
2,2020-09-12,18747a,2020-04-14,2020-04-10,NaT,M√É¬©xico,99,SINALOA,MAZATL√ÅN,SINALOA,SINALOA,NO APLICA,NO,NO,NO,SI,NO,NO,NO,SI,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,MUJER,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False
3,2020-09-12,174174,2020-04-18,2020-04-11,NaT,M√É¬©xico,99,CIUDAD DE M√âXICO,IZTAPALAPA,CIUDAD DE M√âXICO,GUERRERO,NO APLICA,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO APLICA,FUERA DE USMER,IMSS,HOMBRE,AMBULATORIO,MEXICANA,Positivo SARS-CoV-2,False
4,2020-09-12,0eae86,2020-04-21,2020-04-21,NaT,M√É¬©xico,99,VERACRUZ DE IGNACIO DE LA LLAVE,ACTOPAN,VERACRUZ DE IGNACIO DE LA LLAVE,M√âXICO,SI,NO,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,SI,FUERA DE USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,False


In [43]:
# para conocer todos los tipo de datos
?data.select_dtypes

####Categ√≥ricas

In [44]:
# Cardinalidad - Valores √∫nicos por columna
for col in categorical.columns:
  print('Valores √∫nicos en "{}": {}'.format(col,categorical[col].nunique()))

Valores √∫nicos en "fecha_actualizacion": 1
Valores √∫nicos en "id_registro": 1510311
Valores √∫nicos en "fecha_ingreso": 256
Valores √∫nicos en "fecha_sintomas": 256
Valores √∫nicos en "fecha_def": 201
Valores √∫nicos en "pais_nacionalidad": 119
Valores √∫nicos en "pais_origen": 77
Valores √∫nicos en "entidad_res": 32
Valores √∫nicos en "municipio_res": 2164
Valores √∫nicos en "entidad_um": 32
Valores √∫nicos en "entidad_nac": 33
Valores √∫nicos en "intubado": 4
Valores √∫nicos en "neumonia": 3
Valores √∫nicos en "embarazo": 4
Valores √∫nicos en "habla_lengua_indig": 3
Valores √∫nicos en "diabetes": 3
Valores √∫nicos en "epoc": 3
Valores √∫nicos en "asma": 3
Valores √∫nicos en "inmusupr": 3
Valores √∫nicos en "hipertension": 3
Valores √∫nicos en "otra_com": 3
Valores √∫nicos en "cardiovascular": 3
Valores √∫nicos en "obesidad": 3
Valores √∫nicos en "renal_cronica": 3
Valores √∫nicos en "tabaquismo": 3
Valores √∫nicos en "otro_caso": 3
Valores √∫nicos en "migrante": 3
Valores √∫nicos e

In [45]:
# Unicidad - proporci√≥n de valores √∫nicos por columna
total = data.shape[0]
for col in categorical.columns:
  print('Porcentaje de valores √∫nicos en "{}": {}%'.format(col,round(categorical[col].nunique()/total*100,2)))

Porcentaje de valores √∫nicos en "fecha_actualizacion": 0.0%
Porcentaje de valores √∫nicos en "id_registro": 100.0%
Porcentaje de valores √∫nicos en "fecha_ingreso": 0.02%
Porcentaje de valores √∫nicos en "fecha_sintomas": 0.02%
Porcentaje de valores √∫nicos en "fecha_def": 0.01%
Porcentaje de valores √∫nicos en "pais_nacionalidad": 0.01%
Porcentaje de valores √∫nicos en "pais_origen": 0.01%
Porcentaje de valores √∫nicos en "entidad_res": 0.0%
Porcentaje de valores √∫nicos en "municipio_res": 0.14%
Porcentaje de valores √∫nicos en "entidad_um": 0.0%
Porcentaje de valores √∫nicos en "entidad_nac": 0.0%
Porcentaje de valores √∫nicos en "intubado": 0.0%
Porcentaje de valores √∫nicos en "neumonia": 0.0%
Porcentaje de valores √∫nicos en "embarazo": 0.0%
Porcentaje de valores √∫nicos en "habla_lengua_indig": 0.0%
Porcentaje de valores √∫nicos en "diabetes": 0.0%
Porcentaje de valores √∫nicos en "epoc": 0.0%
Porcentaje de valores √∫nicos en "asma": 0.0%
Porcentaje de valores √∫nicos en "inmus

In [46]:
# Moda - valor que m√°s se repite en cada columna excepto los indicadores √∫nicos
for col in categorical.drop(columns='id_registro').columns:
  print('Valor m√°s popular en "{}": {}'.format(col, statistics.mode(categorical[col])))

Valor m√°s popular en "fecha_actualizacion": 2020-09-12 00:00:00
Valor m√°s popular en "fecha_ingreso": 2020-07-20 00:00:00
Valor m√°s popular en "fecha_sintomas": 2020-07-20 00:00:00
Valor m√°s popular en "fecha_def": NaT
Valor m√°s popular en "pais_nacionalidad": M√É¬©xico
Valor m√°s popular en "pais_origen": 99
Valor m√°s popular en "entidad_res": CIUDAD DE M√âXICO
Valor m√°s popular en "municipio_res": IZTAPALAPA
Valor m√°s popular en "entidad_um": CIUDAD DE M√âXICO
Valor m√°s popular en "entidad_nac": CIUDAD DE M√âXICO
Valor m√°s popular en "intubado": NO APLICA
Valor m√°s popular en "neumonia": NO 
Valor m√°s popular en "embarazo": NO 
Valor m√°s popular en "habla_lengua_indig": NO 
Valor m√°s popular en "diabetes": NO 
Valor m√°s popular en "epoc": NO 
Valor m√°s popular en "asma": NO 
Valor m√°s popular en "inmusupr": NO 
Valor m√°s popular en "hipertension": NO 
Valor m√°s popular en "otra_com": NO 
Valor m√°s popular en "cardiovascular": NO 
Valor m√°s popular en "obesidad": 

####Num√©ricas

In [47]:
numerical.describe()

Unnamed: 0,edad,mes_def,a√±o_def,mes_ingreso,a√±o_ingreso
count,1510311.0,90195.0,90195.0,1510311.0,1510311.0
mean,42.14413,6.524896,2020.0,6.769961,2020.0
std,16.80812,1.306444,0.0,1.395983,0.0
min,0.0,1.0,2020.0,1.0,2020.0
25%,30.0,6.0,2020.0,6.0,2020.0
50%,41.0,7.0,2020.0,7.0,2020.0
75%,53.0,8.0,2020.0,8.0,2020.0
max,120.0,9.0,2020.0,9.0,2020.0


##An√°lisis Exploratorio

En esta secci√≥n responderemos algunas preguntas sobre el set de datos usando las herramientas que hemos visto hasta ahora

In [48]:
# ¬øCu√°ntas pruebas por origen se realizan?
data.groupby('origen').id_registro.count()

origen
FUERA DE USMER    1010999
USMER              499312
Name: id_registro, dtype: int64

In [49]:
data.origen.value_counts()

FUERA DE USMER    1010999
USMER              499312
Name: origen, dtype: int64

In [50]:
# ¬øCu√°ntas pruebas por sector se realizan?
data.sector.value_counts()

SSA                942672
IMSS               386225
ISSSTE              57072
PRIVADA             55614
ESTATAL             27163
PEMEX               12919
IMSS-BIENESTAR      10158
SEMAR                7796
SEDENA               7371
MUNICIPAL            1201
UNIVERSITARIO        1046
DIF                   843
CRUZ ROJA             223
NO ESPECIFICADO         8
Name: sector, dtype: int64

In [51]:
# ¬øCu√°ntos pacientes por sexo tenemos?
data.sexo.value_counts()

MUJER     768635
HOMBRE    741676
Name: sexo, dtype: int64

In [52]:
# ¬øCu√°l es la proporci√≥n de los pacientes por sexo?
data.sexo.value_counts(normalize=True)

MUJER     0.508925
HOMBRE    0.491075
Name: sexo, dtype: float64

In [53]:
# ¬øCu√°l es la proporci√≥n de resultados de las pruebas?
data.resultado.value_counts(normalize=True)

No positivo SARS-CoV-2    0.502670
Positivo SARS-CoV-2       0.439627
Resultado pendiente       0.057703
Name: resultado, dtype: float64

In [54]:
# ¬øCu√°ntas pruebas positivas tenemos en el set?
data[data.resultado == 'Positivo SARS-CoV-2'].id_registro.count()

663973

In [55]:
# ¬øCu√°ntos casos positivos tenemos por mes?
data[data.resultado == 'Positivo SARS-CoV-2'].mes_ingreso.value_counts().sort_index()

1         2
2         8
3      2530
4     26567
5     86557
6    152980
7    199471
8    155971
9     39887
Name: mes_ingreso, dtype: int64

In [56]:
# ¬øCu√°l es el resultado de las pruebas por sexo?
data.groupby(['sexo','resultado'])['id_registro'].count()

sexo    resultado             
HOMBRE  No positivo SARS-CoV-2    352619
        Positivo SARS-CoV-2       346464
        Resultado pendiente        42593
MUJER   No positivo SARS-CoV-2    406569
        Positivo SARS-CoV-2       317509
        Resultado pendiente        44557
Name: id_registro, dtype: int64

In [57]:
data.groupby('sexo').resultado.value_counts()

sexo    resultado             
HOMBRE  No positivo SARS-CoV-2    352619
        Positivo SARS-CoV-2       346464
        Resultado pendiente        42593
MUJER   No positivo SARS-CoV-2    406569
        Positivo SARS-CoV-2       317509
        Resultado pendiente        44557
Name: resultado, dtype: int64

In [58]:
# ¬øQu√© proporci√≥n de resultados de pruebas tenemos por sexo?
data.groupby('sexo').resultado.value_counts(normalize=True)

sexo    resultado             
HOMBRE  No positivo SARS-CoV-2    0.475435
        Positivo SARS-CoV-2       0.467137
        Resultado pendiente       0.057428
MUJER   No positivo SARS-CoV-2    0.528949
        Positivo SARS-CoV-2       0.413082
        Resultado pendiente       0.057969
Name: resultado, dtype: float64

In [59]:
# ¬øCu√°l es la edad de los pacientes por sexo?
data.groupby('sexo').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
sexo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
HOMBRE,741676.0,42.667259,17.126286,0.0,30.0,41.0,54.0,120.0
MUJER,768635.0,41.639353,16.479581,0.0,30.0,40.0,52.0,120.0


In [60]:
def q25(x):
  return x.quantile(0.25)

def q75(x):
  return x.quantile(0.75)

data.groupby('sexo').agg({'edad': ['min', q25, 'median', q75, 'max']})

Unnamed: 0_level_0,edad,edad,edad,edad,edad
Unnamed: 0_level_1,min,q25,median,q75,max
sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
HOMBRE,0,30,41,54,120
MUJER,0,30,40,52,120


In [61]:
# ¬øCu√°l es la edad de los pacientes dependiendo de si son intubados o no?
data.groupby('intubado').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
intubado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
NO,221572.0,53.304786,19.684371,0.0,42.0,55.0,67.0,118.0
NO APLICA,1248894.0,39.686951,15.079782,0.0,29.0,38.0,49.0,120.0
NO ESPECIFICADO,194.0,54.443299,16.817502,0.0,45.0,57.0,65.0,92.0
SI,39651.0,57.111826,17.914277,0.0,48.0,59.0,69.0,108.0


In [62]:
data.groupby('intubado').agg({'edad': ['min', q25, 'median', q75, 'max']})

Unnamed: 0_level_0,edad,edad,edad,edad,edad
Unnamed: 0_level_1,min,q25,median,q75,max
intubado,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
NO,0,42,55,67,118
NO APLICA,0,29,38,49,120
NO ESPECIFICADO,0,45,57,65,92
SI,0,48,59,69,108


In [63]:
# ¬øCu√°l es la edad m√°xima y cu√°l es la m√≠nima de los pacientes fallecidos?
edad_def_max = data[data.defuncion].edad.max()
data[data.defuncion & (data.edad == edad_def_max)]

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,a√±o_def,mes_ingreso,a√±o_ingreso
581442,2020-09-12,1b7b20,2020-05-21,2020-05-20,2020-05-26,109,M√É¬©xico,99,MICHOAC√ÅN DE OCAMPO,APATZING√ÅN,MICHOAC√ÅN DE OCAMPO,MICHOAC√ÅN DE OCAMPO,NO,SI,NO APLICA,NO,NO,NO,NO,SI,NO,NO,NO,NO,SI,NO,NO,NO ESPECIFICADO,NO,FUERA DE USMER,ISSSTE,HOMBRE,HOSPITALIZADO,MEXICANA,No positivo SARS-CoV-2,True,5.0,2020.0,5,2020


In [64]:
edad_def_min = data[data.defuncion].edad.min()
data[data.defuncion & (data.edad == edad_def_min)]

Unnamed: 0,fecha_actualizacion,id_registro,fecha_ingreso,fecha_sintomas,fecha_def,edad,pais_nacionalidad,pais_origen,entidad_res,municipio_res,entidad_um,entidad_nac,intubado,neumonia,embarazo,habla_lengua_indig,diabetes,epoc,asma,inmusupr,hipertension,otra_com,cardiovascular,obesidad,renal_cronica,tabaquismo,otro_caso,migrante,uci,origen,sector,sexo,tipo_paciente,nacionalidad,resultado,defuncion,mes_def,a√±o_def,mes_ingreso,a√±o_ingreso
11277,2020-09-12,18feee,2020-06-23,2020-06-23,2020-07-06,0,M√É¬©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,BAJA CALIFORNIA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,7.0,2020.0,6,2020
11565,2020-09-12,083c34,2020-05-25,2020-05-25,2020-06-01,0,M√É¬©xico,99,M√âXICO,CHIMALHUAC√ÅN,M√âXICO,M√âXICO,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,SI,USMER,IMSS,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,6.0,2020.0,5,2020
26116,2020-09-12,02f8e2,2020-05-08,2020-05-01,2020-05-10,0,M√É¬©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,BAJA CALIFORNIA,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO,USMER,SSA,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,5,2020
50494,2020-09-12,014b5d,2020-05-18,2020-05-17,2020-05-18,0,M√É¬©xico,99,BAJA CALIFORNIA,TIJUANA,BAJA CALIFORNIA,BAJA CALIFORNIA,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO,FUERA DE USMER,ISSSTE,HOMBRE,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,5.0,2020.0,5,2020
60925,2020-09-12,053398,2020-06-11,2020-06-11,2020-06-17,0,M√É¬©xico,99,AGUASCALIENTES,AGUASCALIENTES,AGUASCALIENTES,AGUASCALIENTES,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Positivo SARS-CoV-2,True,6.0,2020.0,6,2020
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1439056,2020-09-12,0860f4,2020-06-30,2020-06-30,2020-07-13,0,M√É¬©xico,99,PUEBLA,TEHUAC√ÅN,PUEBLA,PUEBLA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,FUERA DE USMER,IMSS,MUJER,HOSPITALIZADO,MEXICANA,Resultado pendiente,True,7.0,2020.0,6,2020
1462455,2020-09-12,1e94e4,2020-08-14,2020-08-06,2020-08-20,0,M√É¬©xico,99,SAN LUIS POTOS√ç,SAN LUIS POTOS√ç,SAN LUIS POTOS√ç,SAN LUIS POTOS√ç,SI,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,SI,NO ESPECIFICADO,SI,FUERA DE USMER,PRIVADA,HOMBRE,HOSPITALIZADO,MEXICANA,Resultado pendiente,True,8.0,2020.0,8,2020
1473848,2020-09-12,00f39c,2020-07-06,2020-07-03,2020-07-08,0,M√É¬©xico,99,JALISCO,ZAPOTILTIC,JALISCO,JALISCO,NO,SI,NO APLICA,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO,NO ESPECIFICADO,SI,USMER,SSA,HOMBRE,HOSPITALIZADO,MEXICANA,Resultado pendiente,True,7.0,2020.0,7,2020
1487374,2020-09-12,07cf0b,2020-08-26,2020-08-25,2020-08-27,0,M√É¬©xico,99,CHIHUAHUA,JU√ÅREZ,CHIHUAHUA,COAHUILA DE ZARAGOZA,NO,SI,NO,NO,NO,NO,NO,NO,NO,SE IGNORA,NO,NO,NO,NO,NO ESPECIFICADO,NO ESPECIFICADO,NO,USMER,SSA,MUJER,HOSPITALIZADO,MEXICANA,Resultado pendiente,True,8.0,2020.0,8,2020


In [65]:
# ¬øCu√°l es la edad de los pacientes que fallecen?
data.groupby('defuncion').edad.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
defuncion,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
False,1420116.0,40.888838,16.104672,0.0,29.0,39.0,51.0,120.0
True,90195.0,61.908676,15.218544,0.0,53.0,63.0,73.0,109.0


In [66]:
# ¬øCu√°ntas defunciones tenemos por mes?
data[data.defuncion].mes_def.value_counts().sort_index()

1.0        6
2.0       12
3.0      232
4.0     5294
5.0    16091
6.0    21461
7.0    23855
8.0    18791
9.0     4453
Name: mes_def, dtype: int64

In [67]:
# ¬øCu√°l es la proporci√≥n de di√°beticos para las defunciones?
data.groupby('diabetes').defuncion.value_counts(normalize=True)

diabetes   defuncion
NO         False        0.958145
           True         0.041855
SE IGNORA  False        0.873868
           True         0.126132
SI         False        0.813339
           True         0.186661
Name: defuncion, dtype: float64

In [68]:
# ¬øCu√°l es la proporci√≥n de asm√°ticos para las defunciones?
data.groupby('asma').defuncion.value_counts(normalize=True)

asma       defuncion
NO         False        0.939952
           True         0.060048
SE IGNORA  False        0.867149
           True         0.132851
SI         False        0.958165
           True         0.041835
Name: defuncion, dtype: float64