In [1]:
import numpy as np
import pandas as pd

# Preparación del Subconjunto de Datos para Análisis Estadístico

In [2]:
import os

COVID_URL = os.path.join('..', 'datasets', 'Clean_Covid_Dataset.csv')
print(COVID_URL)

..\datasets\Clean_Covid_Dataset.csv


In [3]:
# Definir el tipo de dato hace el proceso más eficiente
types = {
    'SECTOR': np.int8,
    'ENTIDAD_UM': np.int8,
    'SEXO': np.int8,
    'PAC_HOSPITALIZADO': np.int8,
    'FECHA_INGRESO': 'object',
    'FECHA_SINTOMAS': 'object',
    'FECHA_DEF': 'object',
    'INTUBADO': np.int8,
    'NEUMONIA': np.int8,
    'EDAD': np.int8,
    'EMBARAZO': np.int8,
    'DIABETES': np.int8,
    'EPOC': np.int8,
    'ASMA': np.int8,
    'INMUSUPR': np.int8,
    'HIPERTENSION':np.int8,
    'CARDIOVASCULAR': np.int8,
    'OBESIDAD': np.int8,
    'RENAL_CRONICA': np.int8,
    'TABAQUISMO': np.int8,
    'UCI': np.int8
}

In [4]:
# 'latin' porque contiene acentos
df = pd.read_csv(COVID_URL, encoding='latin', dtype=types, index_col=0)

  mask |= (ar1 == a)


In [5]:
df.head(5)

Unnamed: 0,SECTOR,ENTIDAD_UM,SEXO,PAC_HOSPITALIZADO,FECHA_INGRESO,FECHA_SINTOMAS,FECHA_DEF,INTUBADO,NEUMONIA,EDAD,...,DIABETES,EPOC,ASMA,INMUSUPR,HIPERTENSION,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,UCI
0,12,31,1,0,2020-06-12,2020-06-10,9999-99-99,0,0,56,...,1,0,0,0,0,0,0,0,0,0
4,12,1,1,0,2020-06-02,2020-05-30,9999-99-99,0,0,58,...,1,0,0,0,0,0,0,0,0,0
6,12,31,0,0,2020-07-01,2020-06-30,9999-99-99,0,0,37,...,0,0,0,0,0,0,0,0,0,0
9,12,8,1,0,2020-08-07,2020-08-05,9999-99-99,0,0,71,...,0,0,0,0,1,0,0,0,0,0
10,12,9,1,0,2020-09-23,2020-09-23,9999-99-99,0,0,67,...,1,0,0,0,0,0,0,0,0,0


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3832786 entries, 0 to 11703510
Data columns (total 21 columns):
 #   Column             Dtype 
---  ------             ----- 
 0   SECTOR             int8  
 1   ENTIDAD_UM         int8  
 2   SEXO               int8  
 3   PAC_HOSPITALIZADO  int8  
 4   FECHA_INGRESO      object
 5   FECHA_SINTOMAS     object
 6   FECHA_DEF          object
 7   INTUBADO           int8  
 8   NEUMONIA           int8  
 9   EDAD               int8  
 10  EMBARAZO           int8  
 11  DIABETES           int8  
 12  EPOC               int8  
 13  ASMA               int8  
 14  INMUSUPR           int8  
 15  HIPERTENSION       int8  
 16  CARDIOVASCULAR     int8  
 17  OBESIDAD           int8  
 18  RENAL_CRONICA      int8  
 19  TABAQUISMO         int8  
 20  UCI                int8  
dtypes: int8(18), object(3)
memory usage: 182.8+ MB


## Estrategia para el análisis ##

El propósito de este subset de datos es el de auxiliar en la solución de las siguientes incógnitas:   
* ¿Cuántos hombres y mujeres se infectaron o fallecieron?
* ¿Qué estados han sufrido más por el COVID?
* ¿Cómo ha ido avanzando la pandemia a través de los meses?
* ¿Cuál ha sido el rendimiento de los diferentes sistemas de salud durante la pandemia?
* ¿Cuál es el efecto de enfermedades existentes en los infectados de COVID?
* ¿Cuál es el efecto de las complicaciones presentadas en los infectados?
* ¿Cómo se distribuyen los infectados y fallecidos según en el espectro de edades?

Para ello, tenemos que realizar las siguientes tareas:

* Eliminar campos que no nos sirven ahora, como es el caso de FECHA_SINTOMAS, el cual no figura en la resolución de nuestras dudas (pero se usará en otras tareas de ciencia de datos en posteriores notebooks)
* Convertir los campos FECHA_INGRESO y FECHA_DEFUNCION a tipos de datos con los que podamos trabajar (justo ahora son texto)

## Selección de Datos
Aquí simplemente eliminamos la columna FECHA_SINTOMAS

In [7]:
df.drop(['FECHA_SINTOMAS'], axis=1, inplace=True)

In [8]:
df.columns

Index(['SECTOR', 'ENTIDAD_UM', 'SEXO', 'PAC_HOSPITALIZADO', 'FECHA_INGRESO',
       'FECHA_DEF', 'INTUBADO', 'NEUMONIA', 'EDAD', 'EMBARAZO', 'DIABETES',
       'EPOC', 'ASMA', 'INMUSUPR', 'HIPERTENSION', 'CARDIOVASCULAR',
       'OBESIDAD', 'RENAL_CRONICA', 'TABAQUISMO', 'UCI'],
      dtype='object')

## Limpieza de datos

In [9]:
df.head(3)

Unnamed: 0,SECTOR,ENTIDAD_UM,SEXO,PAC_HOSPITALIZADO,FECHA_INGRESO,FECHA_DEF,INTUBADO,NEUMONIA,EDAD,EMBARAZO,DIABETES,EPOC,ASMA,INMUSUPR,HIPERTENSION,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,UCI
0,12,31,1,0,2020-06-12,9999-99-99,0,0,56,0,1,0,0,0,0,0,0,0,0,0
4,12,1,1,0,2020-06-02,9999-99-99,0,0,58,0,1,0,0,0,0,0,0,0,0,0
6,12,31,0,0,2020-07-01,9999-99-99,0,0,37,0,0,0,0,0,0,0,0,0,0,0


In [10]:
def get_month(x):
    date = x.split('-')
    return date[1]

def get_year(x):
    date = x.split('-')
    return date[0]

In [11]:
df['MES_INGRESO'] = df['FECHA_INGRESO'].apply(get_month).astype('int8')

In [12]:
df['AÑO_INGRESO'] = df['FECHA_INGRESO'].apply(get_year).astype('int16')

In [13]:
df['MES_DEF'] = df['FECHA_DEF'].apply(get_month).astype('int8')

In [14]:
df['AÑO_DEF'] = df['FECHA_DEF'].apply(get_year).astype('int16')

In [15]:
df.head(3)

Unnamed: 0,SECTOR,ENTIDAD_UM,SEXO,PAC_HOSPITALIZADO,FECHA_INGRESO,FECHA_DEF,INTUBADO,NEUMONIA,EDAD,EMBARAZO,...,HIPERTENSION,CARDIOVASCULAR,OBESIDAD,RENAL_CRONICA,TABAQUISMO,UCI,MES_INGRESO,AÑO_INGRESO,MES_DEF,AÑO_DEF
0,12,31,1,0,2020-06-12,9999-99-99,0,0,56,0,...,0,0,0,0,0,0,6,2020,99,9999
4,12,1,1,0,2020-06-02,9999-99-99,0,0,58,0,...,0,0,0,0,0,0,6,2020,99,9999
6,12,31,0,0,2020-07-01,9999-99-99,0,0,37,0,...,0,0,0,0,0,0,7,2020,99,9999


Ahora eliminamos las columans de fecha originales para ahorrar espacio en el dataset

In [16]:
df.drop(['FECHA_INGRESO', 'FECHA_DEF'], axis=1, inplace=True)

In [17]:
df.columns

Index(['SECTOR', 'ENTIDAD_UM', 'SEXO', 'PAC_HOSPITALIZADO', 'INTUBADO',
       'NEUMONIA', 'EDAD', 'EMBARAZO', 'DIABETES', 'EPOC', 'ASMA', 'INMUSUPR',
       'HIPERTENSION', 'CARDIOVASCULAR', 'OBESIDAD', 'RENAL_CRONICA',
       'TABAQUISMO', 'UCI', 'MES_INGRESO', 'AÑO_INGRESO', 'MES_DEF',
       'AÑO_DEF'],
      dtype='object')

### Salvamos el subset de datos

A comparación del peso anterior del dataset, hemos conseguido reducir su peso en MB's y guardaremos el dataset para usarlo en el análisis estadístico posterior en otro notebook

In [18]:
clean_dataset_path = os.path.join('..', 'datasets', 'subset_analisis.csv')
df.to_csv(clean_dataset_path)