In [1]:
import numpy as np
import pandas as pd

# Preparación de Subconjuntos de Datos

## Carga de Datos ##

In [2]:
import os

COVID_URL = os.path.join('..', 'datasets', '211006COVID19MEXICO.csv')
print(COVID_URL)

..\datasets\211006COVID19MEXICO.csv


In [3]:
# Definir el tipo de dato hace el proceso más eficiente
types = {
    'FECHA_ACTUALIZACION': 'object',
    'ID_REGISTRO': 'object',
    'ORIGEN': np.int8,
    'SECTOR': np.int8,
    'ENTIDAD_UM': np.int8,
    'SEXO': np.int8,
    'ENTIDAD_NAC': np.int8,
    'ENTIDAD_RES': np.int8,
    'MUNICIPIO_RES': np.int8,
    'TIPO_PACIENTE': np.int8,
    'FECHA_INGRESO': 'object',
    'FECHA_SINTOMAS': 'object',
    'FECHA_DEF': 'object',
    'INTUBADO': np.int8,
    'NEUMONIA': np.int8,
    'EDAD': np.int8,
    'NACIONALIDAD': np.int8,
    'EMBARAZO': np.int8,
    'HABLA_LENGUA_INDIG': np.int8,
    'INDIGENA': np.int8,
    'DIABETES': np.int8,
    'EPOC': np.int8,
    'ASMA': np.int8,
    'INMUSUPR': np.int8,
    'HIPERTENSION':np.int8,
    'OTRAS_COM': np.int8,
    'CARDIOVASCULAR': np.int8,
    'OBESIDAD': np.int8,
    'RENAL_CRONICA': np.int8,
    'TABAQUISMO': np.int8,
    'OTRO_CASO': np.int8,
    'TOMA_MUESTRA_LAB': np.int8,
    'RESULTADO_LAB': np.int8,
    'TOMA_MUESTRA_ANTIGENO': np.int8,
    'RESULTADO_ANTIGENO': np.int8,
    'CLASIFICACION_FINAL': np.int8,
    'MIGRANTE': np.int8,
    'PAIS_NACIONALIDAD': 'object',
    'PAIS_ORIGEN': 'object',
    'UCI': np.int8
}

In [4]:
# 'latin' porque contiene acentos
df = pd.read_csv(COVID_URL, encoding='latin', dtype=types)

In [5]:
df.head(5)

Unnamed: 0,FECHA_ACTUALIZACION,ID_REGISTRO,ORIGEN,SECTOR,ENTIDAD_UM,SEXO,ENTIDAD_NAC,ENTIDAD_RES,MUNICIPIO_RES,TIPO_PACIENTE,...,OTRO_CASO,TOMA_MUESTRA_LAB,RESULTADO_LAB,TOMA_MUESTRA_ANTIGENO,RESULTADO_ANTIGENO,CLASIFICACION_FINAL,MIGRANTE,PAIS_NACIONALIDAD,PAIS_ORIGEN,UCI
0,2021-10-06,z482b8,2,12,9,2,9,9,12,1,...,2,2,97,2,97,1,99,MÃ©xico,97,97
1,2021-10-06,z49a69,1,12,23,1,23,23,4,2,...,1,2,97,2,97,2,99,MÃ©xico,97,1
2,2021-10-06,z23d9d,1,12,22,2,24,22,9,1,...,2,2,97,2,97,6,99,MÃ©xico,97,97
3,2021-10-06,z24953,1,12,9,1,9,9,10,1,...,1,1,2,2,97,7,99,MÃ©xico,97,97
4,2021-10-06,zz8e77,2,12,9,2,9,9,2,1,...,2,2,97,2,97,6,99,MÃ©xico,97,97


In [6]:
# Los tipos que definimos se respetan. Los otros se intuyen (no de manera óptima)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10807151 entries, 0 to 10807150
Data columns (total 40 columns):
 #   Column                 Dtype 
---  ------                 ----- 
 0   FECHA_ACTUALIZACION    object
 1   ID_REGISTRO            object
 2   ORIGEN                 int8  
 3   SECTOR                 int8  
 4   ENTIDAD_UM             int8  
 5   SEXO                   int8  
 6   ENTIDAD_NAC            int8  
 7   ENTIDAD_RES            int8  
 8   MUNICIPIO_RES          int8  
 9   TIPO_PACIENTE          int8  
 10  FECHA_INGRESO          object
 11  FECHA_SINTOMAS         object
 12  FECHA_DEF              object
 13  INTUBADO               int8  
 14  NEUMONIA               int8  
 15  EDAD                   int8  
 16  NACIONALIDAD           int8  
 17  EMBARAZO               int8  
 18  HABLA_LENGUA_INDIG     int8  
 19  INDIGENA               int8  
 20  DIABETES               int8  
 21  EPOC                   int8  
 22  ASMA                   int8  
 23  INMUS

## Estrategia para el análisis ##

* Eliminar campos que no nos sirven ahora: ID Registro, Municipio de procedencia, Origen, Entidad_UM, Fecha de Síntomas, País de Origen, País de Nacionalidad, Migrante, Otro Caso, Tipo de Paciente, Habla lengua indígena, Fecha de actualización.
* Indagar y trabajar más sobre campos útiles: Fecha de actualización, Fecha de defunción, Fecha de ingreso.
* Identificar preguntas que queremos responder
    * ¿Cuántos hombres y mujeres se infectaron o fallecieron?
    * ¿Qué estados han sufrido más por el COVID?
    * ¿Cómo ha ido avanzando la pandemia en México?
    * ¿Cuál ha sido el rendimiento de los diferentes sistemas de salud durante la pandemia?
    * ¿Cuál es el efecto de enfermedades existentes en los infectados de COVID?
    * ¿Cuál es el efecto de las complicaciones presentadas en lso infectados?
    * ¿Cómo se distribuyen los infectados y fallecidos según en el espectro de edades?
    * ¿Existe alguna correlación entre el tiempo en morir y las edades?

## Selección de Datos
Seleccionar implica, como su nombre dice, elegir aquelas columnas o filas que servirán en posteriores análisis. En nuestro caso, eliminaremos ciertos campos y registros innecesarios.

### Eliminar registros innecesarios para el análisis

In [7]:
# Eliminamos registros no relacionados al COVID (casos negativos o sospechosos)
rows = df[df.CLASIFICACION_FINAL>3].index
rows

Int64Index([       2,        3,        4,        5,        6,        7,
                   9,       10,       11,       12,
            ...
            10807141, 10807142, 10807143, 10807144, 10807145, 10807146,
            10807147, 10807148, 10807149, 10807150],
           dtype='int64', length=7107530)

In [8]:
df.drop(rows, inplace=True)

### Eliminar columnas innecesarias para el análisis

In [9]:
# Eliminamos columnas innecesarias
cols = ['FECHA_ACTUALIZACION', 'ID_REGISTRO', 'ORIGEN', 'ENTIDAD_NAC', 'ENTIDAD_RES',
       'MUNICIPIO_RES', 'NACIONALIDAD', 'HABLA_LENGUA_INDIG', 'INDIGENA',
       'OTRA_COM', 'OTRO_CASO', 'TOMA_MUESTRA_LAB', 'RESULTADO_LAB', 'TOMA_MUESTRA_ANTIGENO', 'RESULTADO_ANTIGENO',
        'CLASIFICACION_FINAL', 'MIGRANTE', 'PAIS_NACIONALIDAD', 'PAIS_ORIGEN']
df.drop(cols, axis=1, inplace=True)

In [10]:
# La memoria se ha reducido drásticamente
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3699621 entries, 0 to 10807130
Data columns (total 21 columns):
 #   Column          Dtype 
---  ------          ----- 
 0   SECTOR          int8  
 1   ENTIDAD_UM      int8  
 2   SEXO            int8  
 3   TIPO_PACIENTE   int8  
 4   FECHA_INGRESO   object
 5   FECHA_SINTOMAS  object
 6   FECHA_DEF       object
 7   INTUBADO        int8  
 8   NEUMONIA        int8  
 9   EDAD            int8  
 10  EMBARAZO        int8  
 11  DIABETES        int8  
 12  EPOC            int8  
 13  ASMA            int8  
 14  INMUSUPR        int8  
 15  HIPERTENSION    int8  
 16  CARDIOVASCULAR  int8  
 17  OBESIDAD        int8  
 18  RENAL_CRONICA   int8  
 19  TABAQUISMO      int8  
 20  UCI             int8  
dtypes: int8(18), object(3)
memory usage: 176.4+ MB


In [11]:
df.head(5)

Unnamed: 0,SECTOR,ENTIDAD_UM,SEXO,TIPO_PACIENTE,FECHA_INGRESO,FECHA_SINTOMAS,FECHA_DEF,INTUBADO,NEUMONIA,EDAD,...,DIABETES,EPOC,ASMA,INMUSUPR,HIPERTENSION,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,UCI
0,12,9,2,1,2020-10-16,2020-10-16,9999-99-99,97,2,41,...,2,2,2,2,2,2,2,2,2,97
1,12,23,1,2,2020-07-20,2020-07-17,2020-07-21,1,1,66,...,1,2,2,2,1,2,1,2,2,1
8,12,12,2,1,2020-08-19,2020-08-17,9999-99-99,97,2,47,...,1,2,2,2,2,2,2,2,2,97
14,6,22,2,1,2020-08-31,2020-08-26,9999-99-99,97,2,54,...,2,2,2,2,2,2,2,2,2,97
15,12,9,1,1,2020-09-08,2020-09-03,9999-99-99,97,2,26,...,2,2,2,2,2,2,2,2,2,97


## Limpieza de datos
Limpiar involucra el proceso de convertir los datos a un formato legible y estandarizado para su procesamiento

Existen varias a considerar al filtrar los datos. Estos son mayormente conversiones de categorías.
- El campo SEXO se compone de 3 valores (1 para mujeres, 2 para hombres y 99 en caso de no ser especificado). Los campos con valor 99 se desecharán y convertiremos la variable sexo en una variable binaria (0 para hombres, 1 para mujeres).
- Los campos que representna a las afecciones previas y las complicaciones del paciente (EMBARAZO, INTUBADO, etc.) presentan un catálogo de datos de 5 valores (1 es SI, 2 es NO, 97 es NO APLICA, 98 es SE IGNORA y  99 es NO ESPECIFICADO). Queremos convertir estos campos a tipo binario, para que sólo existan valores 0 para NO y 1 para SI.
- El campo TIPO PACIENTE presenta 3 valores (1 es Ambulatorio, 2 es Hospitalizado y 99 es No ESPECIFICADO). Queremos convertirlo a una variable binario, con Ambulatorio como 0 y Hospitalizado como 1. Los valores NO ESPECIFICADO pueden eliminarse en caso necesario.

### Limpieza de Sexo

In [12]:
# Desechamos registros con valor 99
rows = df[df.SEXO==99].index
df.drop(rows, inplace=True)

In [13]:
# Función de conversión
clean_sex = lambda x: 1 if x==1 else 0

In [14]:
# Aplicamos la conversión y guardamos los datos en la misma columna
df['SEXO'] = df['SEXO'].apply(clean_sex).astype('int8') # astype permite conservar el tipo de dato original

### Limpieza de Afecciones y Complicaciones

In [15]:
cols = ['INTUBADO', 'NEUMONIA', 'EMBARAZO', 'DIABETES', 'EPOC',
       'ASMA', 'INMUSUPR', 'HIPERTENSION', 'CARDIOVASCULAR', 'OBESIDAD',
       'RENAL_CRONICA', 'TABAQUISMO', 'UCI']

Antes de filtrar valores, queremos verificar cuantos registros se borarrían.

In [16]:
df.shape[0]

3699621

In [17]:
def count_per_case(case):
    # case puede ser: 1 (SI), 2(NO), 97(NO APLICA), 98(SE IGNORA), 99(NO ESPEC.)
    count = 0
    for col in cols:
        value_counts = (df[col]==case).value_counts()
        try:
            print(col, value_counts[True])
            count += value_counts[True]
        except:
            print(col, 0)
    print('TOTAL:', count, ' --- ', count/df.shape[0]*100, '% del dataset')

In [18]:
# Casos de NO APLICA
count_per_case(97)

INTUBADO 3119753
NEUMONIA 0
EMBARAZO 1846448
DIABETES 0
EPOC 0
ASMA 0
INMUSUPR 0
HIPERTENSION 0
CARDIOVASCULAR 0
OBESIDAD 0
RENAL_CRONICA 0
TABAQUISMO 0
UCI 3119753
TOTAL: 8085954  ---  218.56168510233886 % del dataset


En este caso, es obvio que casos de NO APLICA en la columna EMBARAZO son en gran mayoría en los pacientes hombres. Esto se puede solucionar simplemente ajustando el valor a 2 (NO).   
Para los INTUBADOS y UCI, el que tengan los valores tan exactos significa que aplican a un segmento específico de la población, que se presume son los pacientes no fallecidos. También puede ajustarse el valor a NO.   
De esta forma no es necesario eliminar los registros con valores 97 (que ya de por sí serían todos).

In [19]:
# Función de conversión
def func_no_aplica(x):
    if x==1: return 1 # Caso SI
    if x==2: return 0 # Caso NO
    if x==97: return 0 # Caso NO APLICA
    else: return x # Otros casos (98, 99)

In [20]:
cols_no_aplica = ['INTUBADO', 'EMBARAZO', 'UCI']
for col in cols_no_aplica:
    df[col] = df[col].apply(func_no_aplica).astype('int8')

In [21]:
# Casos de SE IGNORA
count_per_case(98)

INTUBADO 0
NEUMONIA 0
EMBARAZO 11301
DIABETES 8600
EPOC 7993
ASMA 7832
INMUSUPR 8049
HIPERTENSION 8030
CARDIOVASCULAR 8011
OBESIDAD 7576
RENAL_CRONICA 7946
TABAQUISMO 8344
UCI 0
TOTAL: 83682  ---  2.2619073683493527 % del dataset


In [22]:
# Casos de NO ESPEC.
count_per_case(99)

INTUBADO 5058
NEUMONIA 2977
EMBARAZO 2
DIABETES 0
EPOC 0
ASMA 0
INMUSUPR 0
HIPERTENSION 0
CARDIOVASCULAR 0
OBESIDAD 0
RENAL_CRONICA 0
TABAQUISMO 0
UCI 5069
TOTAL: 13106  ---  0.35425250316181034 % del dataset


Tanto en los casos de SE IGNORA como NO ESPEC, el porcentaje de registros con tales valores asciende a menos del 5 % del dataset, por lo que se decide eliminarlos del mismo.

In [24]:
values_to_delete = [98,99]
for col in cols:
    for value in values_to_delete:
        rows_to_delete = (df[df[col]==value]).index
        df.drop(rows_to_delete, inplace=True)

#### Conversión a Variable Binaria
Ya que lidiamos con los valores no comunes de las columnas, ahora solo cambiamos los valores comunes (1 para SI, 2 para NO) a valores binarios (1 para SI, 0 para NO) en todas las columnas.

In [31]:
def to_binary_variable(x):
    if (x==1): return 1
    else: return 0

In [33]:
for col in cols:
    df[col] = df[col].apply(to_binary_variable).astype('int8')

In [34]:
df.head(5)

Unnamed: 0,SECTOR,ENTIDAD_UM,SEXO,TIPO_PACIENTE,FECHA_INGRESO,FECHA_SINTOMAS,FECHA_DEF,INTUBADO,NEUMONIA,EDAD,...,DIABETES,EPOC,ASMA,INMUSUPR,HIPERTENSION,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,UCI
0,12,9,0,1,2020-10-16,2020-10-16,9999-99-99,0,0,41,...,0,0,0,0,0,0,0,0,0,0
1,12,23,1,2,2020-07-20,2020-07-17,2020-07-21,1,1,66,...,1,0,0,0,1,0,1,0,0,1
8,12,12,0,1,2020-08-19,2020-08-17,9999-99-99,0,0,47,...,1,0,0,0,0,0,0,0,0,0
14,6,22,0,1,2020-08-31,2020-08-26,9999-99-99,0,0,54,...,0,0,0,0,0,0,0,0,0,0
15,12,9,1,1,2020-09-08,2020-09-03,9999-99-99,0,0,26,...,0,0,0,0,0,0,0,0,0,0


### Limpieza de TIPO _PACIENTE

Aquí simplemente dropeamos los registros de tipo 99 (NO ESPEC.), los cuales pueden introducir ruido durante posteriroes análisis.

In [25]:
rows = df[df['TIPO_PACIENTE']==99].index
df.drop(rows, axis=0, inplace=True)

También convertimos la variable a tipo binario, convirtiendo sus valores actuales (1 para AMBULATORIO y 2 para HOSPITALIZADO) a valores nuevos que digan si un paciente fue HOSPITALIZADO (1 para SI, 0 para NO).

In [38]:
def tipo_paciente_a_hospitalizado(x):
    if x==1: return 0
    else: return 1

In [39]:
df['TIPO_PACIENTE'] = df['TIPO_PACIENTE'].apply(tipo_paciente_a_hospitalizado).astype('int8')

In [40]:
# Renombramos columna
df.rename(columns={'TIPO_PACIENTE': 'PAC_HOSPITALIZADO'}, inplace=True)

In [41]:
# La columna ya ha sido renombrada
df.columns

Index(['SECTOR', 'ENTIDAD_UM', 'SEXO', 'PAC_HOSPITALIZADO', 'FECHA_INGRESO',
       'FECHA_SINTOMAS', 'FECHA_DEF', 'INTUBADO', 'NEUMONIA', 'EDAD',
       'EMBARAZO', 'DIABETES', 'EPOC', 'ASMA', 'INMUSUPR', 'HIPERTENSION',
       'CARDIOVASCULAR', 'OBESIDAD', 'RENAL_CRONICA', 'TABAQUISMO', 'UCI'],
      dtype='object')

Una vez terminado la limpieza, podemos guardar los datos

In [26]:
# Porcentaje de datos originales con los que quedamos
df.shape[0]/3700000 * 100

99.12783783783784

### Salvar un checkpoint de los datos

In [43]:
clean_dataset_path = os.path.join('..', 'datasets', 'clean_covid_dataset.csv')
df.to_csv(clean_dataset_path)

In [44]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3667730 entries, 0 to 10785803
Data columns (total 21 columns):
 #   Column             Dtype 
---  ------             ----- 
 0   SECTOR             int8  
 1   ENTIDAD_UM         int8  
 2   SEXO               int8  
 3   PAC_HOSPITALIZADO  int8  
 4   FECHA_INGRESO      object
 5   FECHA_SINTOMAS     object
 6   FECHA_DEF          object
 7   INTUBADO           int8  
 8   NEUMONIA           int8  
 9   EDAD               int8  
 10  EMBARAZO           int8  
 11  DIABETES           int8  
 12  EPOC               int8  
 13  ASMA               int8  
 14  INMUSUPR           int8  
 15  HIPERTENSION       int8  
 16  CARDIOVASCULAR     int8  
 17  OBESIDAD           int8  
 18  RENAL_CRONICA      int8  
 19  TABAQUISMO         int8  
 20  UCI                int8  
dtypes: int8(18), object(3)
memory usage: 303.9+ MB


Ahora que tenemos un dataset más limpio, podemos comenzar a producir diversos subconjunto de datos que servirán para ciertas tareas específicas.

In [45]:
df.head(5)

Unnamed: 0,SECTOR,ENTIDAD_UM,SEXO,PAC_HOSPITALIZADO,FECHA_INGRESO,FECHA_SINTOMAS,FECHA_DEF,INTUBADO,NEUMONIA,EDAD,...,DIABETES,EPOC,ASMA,INMUSUPR,HIPERTENSION,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,UCI
0,12,9,0,0,2020-10-16,2020-10-16,9999-99-99,0,0,41,...,0,0,0,0,0,0,0,0,0,0
1,12,23,1,1,2020-07-20,2020-07-17,2020-07-21,1,1,66,...,1,0,0,0,1,0,1,0,0,1
8,12,12,0,0,2020-08-19,2020-08-17,9999-99-99,0,0,47,...,1,0,0,0,0,0,0,0,0,0
14,6,22,0,0,2020-08-31,2020-08-26,9999-99-99,0,0,54,...,0,0,0,0,0,0,0,0,0,0
15,12,9,1,0,2020-09-08,2020-09-03,9999-99-99,0,0,26,...,0,0,0,0,0,0,0,0,0,0
