# DiploDatos 2020 - Coronavirus en Argentina

## Práctico Análisis Exploratorio y Curación de Datos

Database: https://github.com/lucia15/Datos-Covid19-Argentina

### Tareas a realizar:

* Detectar al menos **tres** variables con valores faltantes no triviales. Decidir qué tratamiento darles (eliminarlos, computarlos, etc.), investigar los métodos disponibles en pandas para dichos fines.

* Detectar al menos **cinco** inconsistencias en los datos, discutir a qué se deben y qué podemos hacer con ellas.
 
* Elegir al menos **una** variable que tenga outliers, debatir y decidir qué hacer con los mismos.

### Empezamos

In [None]:
### Aumentar el ancho del notebook
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))

In [None]:
# Importamos las librerías necesarias
import os
import datetime
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', 30)
pd.set_option('display.max_rows', 100)

In [None]:
## Seteamos semilla random para reproducibilidad
np.random.seed(0)

### Inicialización y carga de datos

In [None]:
url = 'https://raw.githubusercontent.com/lucia15/Datos-Covid19-Argentina/master/'

In [None]:
file1 = os.path.join(url, 'Argentina-covid19.csv')

data1 = pd.read_csv(file1, error_bad_lines=False)

In [None]:
file2 = os.path.join(url, 'Argentina-covid19-por-provincia.csv')

data2 = pd.read_csv(file2, error_bad_lines=False)

In [None]:
file3 = os.path.join(url, 'Argentina-covid19-fallecidos.csv')

data3 = pd.read_csv(file3, error_bad_lines=False)

Antes de comenzar, es necesario repasar cuáles son las variables que tenemos:

In [None]:
# Obtenemos la cantidad de filas y columnas
print("Cantidad de registros: ", data1.shape[0])
print("Cantidad de columnas: ", data1.shape[1])

In [None]:
# Listamos las columnas y sus tipos de datos
data1.dtypes

Revisar en https://github.com/lucia15/Datos-Covid19-Argentina de qué se trataba cada una

In [None]:
# Cambiamos el tipo de la columna 'fecha' de object a datetime
data1['fecha'] = pd.to_datetime(data1['fecha'], format='%Y-%m-%d')

In [None]:
#data1.head()
#data1.tail()
data1

In [None]:
# TODO: Hacer lo mismo con los otros datasets

In [None]:
print("Cantidad de registros: ", data2.shape[0])
print("Cantidad de columnas: ", data2.shape[1])

In [None]:
data2.dtypes

In [None]:
data2['fecha'] = pd.to_datetime(data2['fecha'], format='%Y-%m-%d')

In [None]:
data2.head()

In [None]:
print("Cantidad de registros: ", data3.shape[0])
print("Cantidad de columnas: ", data3.shape[1])

In [None]:
data3.dtypes

In [None]:
data3['fecha'] = pd.to_datetime(data3['fecha'], format='%Y-%m-%d')

In [None]:
data3.head()

### Algunas ideas para arrancar con el análisis

Como en el práctico anterior, estas son solo ayudas y sugerencias.

## Valores faltantes

El siguiente comando imprime True en los campos con valor NaN (not a number) y False donde sí hay asignado un valor.

In [None]:
data1.isnull()

Podemos observar por ejemplo que no falta ninguna fecha desde el 2020-03-05 hasta la actualidad:

In [None]:
df = data1['fecha'].isnull()
df[df==True]

Sin embargo vemos que en este dataset faltan un montón de otros valores, principalmente entre los primeros días, esto se debe a que los primeros informes diarios tenían menos información. A medida que fueron pasando los días se incorporaron variables que tuvieron valores desde ese momento en adelante. 

Por ejemplo, la variable 'dia_cuarentena' tiene valores a partir del día 16

In [None]:
df = data1['dia_cuarentena'].isnull()
df[df==True]

In [None]:
df[df==False]

Este es el día en que se declara la cuarentena por DNU 260

In [None]:
data1['fecha'][16]

valores en días anteriores no tendrían sentido.

Nos interesa detectar valores faltantes a partir del momento en que la variable tiene su primer valor, no antes.

Por ejemplo, para la variable '%mujer'

In [None]:
df = data1['%mujer'].isnull()
df[df==True]

vemos que hasta el día 20 esta variable no tiene valores, posiblemente porque estos se empezaron a reportar a partir del día 21, ¿pero qué pasó en el día 106?

In [None]:
data1[105:108]

En el campo 'observaciones' vemos que el Reporte Matutino correspondiente a ese día no fue publicado en la página https://www.argentina.gob.ar/coronavirus/informe-diario/junio2020, y este es el Reporte que debía contener dicha información faltante.

#### TO DO:

* ¿Podemos completar este campo con algún valor? Hint: chequear las funciones *fillna()*, *replace()*, *interpolate()*

* ¿Qué otras variables están en una situación similar? ¿Podemos completarlas también?

* Buscar datos faltantes en los otros dos datasets y evaluar si es posible o no completarlos

Para más detalles leer los siguients artículos (si tienen tiempo):

* https://www.geeksforgeeks.org/working-with-missing-data-in-pandas/

* https://towardsdatascience.com/data-cleaning-with-python-and-pandas-detecting-missing-values-3e9c6ebcf78b

* https://towardsdatascience.com/the-ultimate-guide-to-data-cleaning-3969843991d4

In [None]:
data1.columns

In [None]:
df = data1['casos_nuevos'].isnull()
df[df==True]

In [None]:
df = data1['casos_total'].isnull()
df[df==True]

In [None]:
df = data1['%varon'].isnull()
df[df==True]

In [None]:
df = data1['mujer_total'].isnull()
df[df==True]

In [None]:
df = data1['varon_total'].isnull()
df[df==True]

In [None]:
df = data1['franja_etaria'].isnull()
df[df==True]

In [None]:
data1[124:]

In [None]:
df = data1['edad_prom'].isnull()
df[df==True]

In [None]:
df = data1['importados_total'].isnull()
df[df==True]

In [None]:
df = data1['importados_nuevos'].isnull()
df[df==True]

In [None]:
df = data1['local_total'].isnull()
df[df==True]

In [None]:
df = data1['local_nuevos'].isnull()
df[df==True]

In [None]:
df = data1['comunitario_total'].isnull()
df[df==True]

In [None]:
df = data1['comunitario_nuevos'].isnull()
df[df==True]

Parece que faltan los primeros 28 días, quizá sea posible reemplazar por 0, si corresponde.

In [None]:
df = data1['en_investigacion_total'].isnull()
df[df==True]

In [None]:
df = data1['en_investigacion_nuevos'].isnull()
df[df==True]

In [None]:
df = data1['muertes_total'].isnull()
df[df==True]

In [None]:
df = data1['muertes_nuevos'].isnull()
df[df==True]

In [None]:
df = data1['alta_total'].isnull()
df[df==True]

In [None]:
data1[104:]

In [None]:
data1_corregido = data1

In [None]:
# Acá se  corrige el faltante en altas nuevas debido a que se arrastra el faltante del reporte del 20 de Junio.

for k in range(108,132):
    data1_corregido['alta_nuevos'][k] = data1_corregido['alta_total'][k]-data1_corregido['alta_total'][k-1]
    
# Además se podría incluir las altas nuevas del 20 de Junio donde no hay dato, con las del 21, aunque no es correcto sumamos consistencia al dataset

data1_corregido['alta_nuevos'][107] = data1_corregido['alta_total'][107]-data1_corregido['alta_total'][107-2]

In [None]:
df = data1_corregido['alta_nuevos'].isnull()
df[df==True]

In [None]:
df = data1['alta_nuevos'].isnull()
df[df==True]

In [None]:
df = data1['alta_definitiva'].isnull()
#df[df==True]
df[df==False]

In [None]:
df = data1['descartados_total'].isnull()
df[df==True]

In [None]:
data1[31:34]

In [None]:
df = data1['descartados_nuevos'].isnull()
df[df==True]

In [None]:
df = data1['tests_realizados_total'].isnull()
df[df==True]

In [None]:
df = data1['tests_realizados_nuevos'].isnull()
df[df==True]

In [None]:
df = data1['test_por_millon_hab'].isnull()
df[df==True]

In [None]:
df = data1['UTI_internados'].isnull()
#df[df==True]
df[df==False]

In [None]:
df = data1['UTI_%Nacion'].isnull()
#df[df==True]
df[df==False]

In [None]:
df = data1['UTI_%AMBA'].isnull()
#df[df==True]
df[df==False]

In [None]:
data1[110:]

In [None]:
data1[ data1['observaciones'].isnull() == False]

### Valores faltantes - dataset 3

In [None]:
data3.isnull()

In [None]:
data3_columns = data3.columns
for column in data3_columns:
    print('Columna: ', column)    
    df = data3[column].isnull()
    cant_nulos = df[df==True].size
    print('Cantidad de valores faltantes: ', cant_nulos)
    print('Cantidad de total de valores: ', data3.shape[0])
    print('Porcentaje valores faltantes: ', round(((cant_nulos / data3.shape[0]) * 100), 3), '%')
    print('*' * 50)

### Análisis valores faltantes Dataset 3

Tras ver los valores de datos faltantes de todas las columnas del dataset, podemos dividirlos en 3 grupos: **Sin datos faltantes**, **Con pocos faltantes**, **Con muchos faltantes**

- **Sin datos faltantes**: dentro de este grupo podemos incluir a las columnas que no presentan datos faltantes. Las columnas que pertenecen a este grupo son: **fecha** y **num_caso**.
- **Con pocos faltantes**: dentro de este grupo incluímos a las columnas que que cuentan con aproximadamente un 5% de datos faltantes. Las columnas que pertenecen a este grupo son: **provincia**, **genero** y **edad**.
- **Con muchos faltantes**: dentro de este grupo incluímos a las columnas que que cuentan con más del 90% de datos faltantes. Las columnas que pertenecen a este grupo son: **tipo_caso**, **comorbilidades**, **viajes** y **observaciones**.

### Tratamiento valores faltantes Dataset 3

### Con pocos faltantes

In [None]:
#Columna provincia
pd.set_option('display.max_rows', data3.shape[0]+1)
data3[data3.provincia.isnull()]

In [None]:
#Columna genero
pd.set_option('display.max_rows', data3.shape[0]+1)
data3[data3.genero.isnull()]

In [None]:
#Columna edad
pd.set_option('display.max_rows', data3.shape[0]+1)
data3[data3.edad.isnull()]

In [None]:
#Sin datos en la columna provincia, genero y edad:
data3[data3.provincia.isnull() & data3.genero.isnull() & data3.edad.isnull()]

In [None]:
faltantes_observaciones = data3[data3.provincia.isnull() & data3.genero.isnull() & data3.edad.isnull()].observaciones.isnull()
cant_sin_observaciones = faltantes_observaciones[faltantes_observaciones==True].shape[0]
cant_sin_observaciones

### Con pocos faltantes

Como se puede observar, si filtramos el dataset para visualizar las filas que tienen datos faltantes en todas las columnas del grupo **Con pocos faltantes**, podemos observar que todas las filas resultantes tienen completa la columna **observaciones**. En esta columna se indica que estas filas peretenecen a muertes faltantes en los reportes o bien corresponden a datos de reportes no publicados. Es por este motivo que la mayoría de las columnas se encuentran incompletas. Una alternativa de limpieza de estos datos, sería eliminar las filas que no cuentan con datos en estas columnas (**VER**).

### Con muchos faltantes

Teniendo en cuenta la gran cantidad de datos faltantes que contienen estas columnas y que los datos de las mismas no corresponden a valores numéricos calculados. Una alternativa para limpiar el conjunto de datos, sería eliminar estas columnas.

## Consistencia de los datos

Las variables de cada data set deben ser consistentes. Por ejemplo, el total de infectados para un día dado, debe ser igual al total de infectados del día anterior más los casos nuevos de ese día:

In [None]:
data1['casos_total'][116] == data1['casos_total'][115] + data1['casos_nuevos'][116]

Pero además debe ser igual a la suma de todos los casos nuevos hasta ese día

In [None]:
data1['casos_total'][116] == sum(data1['casos_nuevos'][:117])

Veamos qué está pasando chequeando todos los días:

In [None]:
n = len(data1['casos_total'])

if data1['casos_total'][0] != data1['casos_total'][0]:
    print(0)

for k in range(1,n):
    
    if data1['casos_total'][k] != data1['casos_total'][k-1] + data1['casos_nuevos'][k]:
        print(k)

Estos son los días que presentan inconsistencias. Estas pueden deberse, por ejemplo, a descartes o reclasificaciones de casos reportados anteriormente, por lo que no necesariamente hay que "arreglarlas".

Además de la coherencia interna de cada dataset, los tres datasets deben ser consistentes entre sí.

Por ejemplo, la cantidad de fallecidos al día '2020-06-29' reportado en 'Argentina-covid19.csv' (data1) debe coincidir con el 'num_caso' del último registro de esa fecha en 'Argentina-covid19-fallecidos.csv' (data3)

In [None]:
data1[data1['fecha']=='2020-06-29']['muertes_total']

In [None]:
data3[data3['fecha']=='2020-06-29'].tail()

Vemos que los números coinciden, por lo tanto los datos son consistentes.

Este valor también debería coincidir con la suma de 'muertes_total' de cada provincia al día '2020-06-29'

In [None]:
data2[data2['fecha']=='2020-06-29']

In [None]:
sum(data2[data2['fecha']=='2020-06-29']['muertes_total'])

En este caso no coinciden... ¿qué puede estar pasando? ¿lo podremos solucionar?

¿Qué otras inconsistencias encuentran en los datos? ¿Cómo podemos solucionarlas?

In [None]:
data1.columns

In [None]:
x = float('nan')

for i in range(0,len(data1['%mujer'])):
    q = round(100*data1['mujer_total'][i]/data1['casos_total'][i],1)
    w = round(100*data1['varon_total'][i]/data1['casos_total'][i],1)
    #print( i, data1['%mujer'][i], data1['%varon'][i] )
    #print( i,
    #      data1['casos_total'][i],
    #      data1['mujer_total'][i],
    #      data1['mujer_total'][i]/data1['casos_total'][i],
    #      float(data1['%mujer'][i].replace(',','.')),
    #      q )
    if ( type(data1['%mujer'][i]) == type('str') ):
        if ( q != float(data1['%mujer'][i].replace(',','.')) ):
            print( i, 'mujer' )
            print( data1['casos_total'][i] ,data1['%mujer'][i], q, data1['mujer_total'][i], data1['%varon'][i], w,  data1['varon_total'][i] )
    if ( type(data1['%varon'][i]) == type('str') ):
        if ( w != float(data1['%varon'][i].replace(',','.')) ):
            print( i, 'varon' )
            print( ' ' )
    #print( i, 
    #      '\t mujer', q == float(data1['%mujer'][i].replace(',','.')),
    #      '\t varon', w == float(data1['%varon'][i].replace(',','.'))
    #)

In [None]:
n = len(data1['casos_total'])

casos = []
for k in range(1,n):
    
    if data1['muertes_total'][k] != data1['muertes_total'][k-1] + data1['muertes_nuevos'][k]:
        print(k,data1['muertes_total'][k], data1['muertes_total'][k-1], data1['muertes_nuevos'][k] )
        casos.append(k)

Inconsistecia del día 30 de Marzo (fila 25). Habían reportados 20 fallecientos en total en el reporte vespertino del día 29, el reporte matutino del día 30 suma un fallecimiento, y el reporte verpertino del mismo día suma cuatro fallecimientos nuevos, pero reporta un total de 24 muertes totales. En este caso la inconsistecia está en la fuente de los datos. En los informes del día siguiente, 31 de Marzo, no se rectifica esta inconsistencia, y se considera que el numero de fallecidos es efectivamente 24. Puede deberse la inconsistencia que el fallecimiento del reporte matutino del 30 haya sido rectificado, en alguno de sus datos, y este incluído en el vespertino. De ser así en el dataset se debería restar un caso al día 29. Sin más información no se puede corregir la inconsistencia.

En el caso de los días 2 y 3 de Abril (filas 28 y 29) sucede que hay muertes que se están contando de manera erronea al cargarlas a la base de datos. El criterio parece ser que incluye a las muertes del reporte matutino en el dato de muertes nuevas del día anterior. Por lo que la muertes acumaluadas pueden no coincidir con el dato del reporte vespertino del día. En este caso el reporte vespertinos del 2 de Abril incluye las dos muertes del reporte matutino del mismo día, por lo que de la manera en que sea cargan los datos de se debería corregir el número de muertes nuevas de 4 a 3, las dos del vespertino del 2 y una del matutino del 3 de Abril. Eso hace consistente el dato de 37 muertes el 2/04.

El día 3 de Abril sucede de forma distinta al día anterior. En el matutino se reporta una muerte, y luego el vespertino suma 5 muertes sin contar la anterior. En el siguente reporte matutino no hay muertes nuevas, por lo que las muertes de 3 de Abril deben ser 5 en lugar de las 6 que figuran en la base de datos, debido a que la muerte del reporte matutino del mismo día ya había sido contabilizada en las 37 totales del día anterior.

Se pueden corregir estas inconsistencias cambiando el número de muertes nuevas los día 2 y 3 de Abril por los correctos.

El en día 30 de Abril (fila 56) se puede observar que las muertes acumuladas coinciden con las reportadas en el informe vespertino de ese día. Por otro lado, en el día anterior, las muertes tambien coinciden con las del reporte vespertino de ese día. Podemos asumir que aquí ya se esta usando el criterio de que la entrada de muertes totales coincida con los reportes vespertinos, por lo que las muertes registradas en los reportes matutinos se deben sumar a las del vespertino del mismo día. Entonces, el 30 en el reporte matutino se informa una muertes y en verpertino 3, por lo que el total debe ser de 4 en lugar de 3 como en la base de datos.

El caso del día 22 de Mayo (fila 78) presenta una inconsistencia. Las muertes totales del mismo día y del anterior coinciden con los reportes, pero las muertes nuevas no coinciden, se informan 3 en el reporte matutino y 14 en el verpertino, que suman 17, mientras en la base de datos figuran 18.



In [None]:
Filter_df  = data1[data1.index.isin(casos)]
Filter_df

In [None]:
for k in casos:
    fecha = data1['fecha'][k]

    df = data3[data3['fecha']==fecha]
    l  = len(df)
    q  = df.index[l-1]
    
    qq = float(data1[data1['fecha']==fecha].get('muertes_total'))
    ll = float(data1[data1['fecha']==fecha].get('muertes_nuevos'))
    print(fecha, '\t', q+1, '\t', l,'\t','\t', qq, '\t', ll )


In [None]:
n = len(data1['casos_total'])
q = -1
for k in range(1,n):
    fecha = data1['fecha'][k]

    df = data3[data3['fecha']==fecha]
    l  = len(df)
    if (l!=0):
        q  = df.index[l-1]

    qq = float(data1[data1['fecha']==fecha].get('muertes_total'))
    ll = float(data1[data1['fecha']==fecha].get('muertes_nuevos'))
    
    if (q+1 != qq or l != ll):
        print(fecha, '\t', q+1, '\t', l,'\t','\t', qq, '\t', ll )

### Inconsistencias en la columna 'casos_nuevos' entre dataset 1 y dataset 2

In [None]:
# Validar inconsistencias de la columna casos_nuevos entre el dataset 1 y el dataset 2
fechas_dataset_1 = pd.unique(data1.fecha)
fechas_dataset_2 = pd.unique(data2.fecha)

cant_inconsistencias = 0
if all(fechas_dataset_1 == fechas_dataset_2):
    for fecha in fechas_dataset_1:
        casos_nuevos_dataset1 = int(data1[data1.fecha == fecha].casos_nuevos)
        casos_nuevos_dataset2 = int(sum(data2[data2.fecha == fecha].casos_nuevos))
        if casos_nuevos_dataset1 != casos_nuevos_dataset2:
            cant_inconsistencias += 1
            fecha_format = pd.to_datetime(str(fecha))
            fecha_formatted = fecha_format.strftime('%d/%m/%Y')
            msg = f'¡Inconsistencia (fecha {fecha_formatted})! {casos_nuevos_dataset1}(casos nuevos dataset1) != {casos_nuevos_dataset2}(casos nuevos dataset2)'
            print(msg)
print('*' * 50)
print(f'Cantidad total de inconsistencias = {cant_inconsistencias}')

### Inconsistencias en la columna 'casos_total' entre dataset 1 y dataset 2

In [None]:
# Validar inconsistencias de la columna casos_total entre el dataset 1 y el dataset 2
fechas_dataset_1 = pd.unique(data1.fecha)
fechas_dataset_2 = pd.unique(data2.fecha)

cant_inconsistencias = 0
if all(fechas_dataset_1 == fechas_dataset_2):
    for fecha in fechas_dataset_1:
        casos_total_dataset1 = int(data1[data1.fecha == fecha].casos_total)
        casos_total_dataset2 = int(sum(data2[data2.fecha == fecha].casos_total))
        if casos_total_dataset1 != casos_total_dataset2:
            cant_inconsistencias += 1
            fecha_format = pd.to_datetime(str(fecha))
            fecha_formatted = fecha_format.strftime('%d/%m/%Y')
            msg = f'¡Inconsistencia (fecha {fecha_formatted})! {casos_total_dataset1}(casos total dataset1) != {casos_total_dataset2}(casos total dataset2)'
            print(msg)
print('*' * 50)
print(f'Cantidad total de inconsistencias = {cant_inconsistencias}')

## Outliers

En el siguiente artículo pueden encontrar varias técnicas para detectar outliers:

https://towardsdatascience.com/ways-to-detect-and-remove-the-outliers-404d16608dba

In [None]:
import seaborn as sns

In [None]:
sns.boxplot(data1['casos_nuevos'])

In [None]:
data1_outliers =  data1[ data1['casos_nuevos'] > data1['casos_nuevos'].mean() + 2.0*data1['casos_nuevos'].std() ]

data1_outliers

In [None]:
for c in data1.columns:
    print(c,type(data1[c][120]))

In [None]:
select = 'UTI_internados'

sns.boxplot(data1[select])
print(data1[select].mean(),'+/-$',data1[select].std())

In [None]:
select = 'tests_realizados_nuevos'

sns.boxplot(data1[select])
print(data1[select].mean(),'+/-$',data1[select].std())

In [None]:
select = 'descartados_nuevos'

sns.boxplot(data1[select])
print(data1[select].mean(),'+/-$',data1[select].std())

In [None]:
select = 'en_investigacion_nuevos'

sns.boxplot(data1[select])
print(data1[select].mean(),'+/-$',data1[select].std())

In [None]:
data1_outliers_up =  data1[ data1['en_investigacion_nuevos'] > data1['en_investigacion_nuevos'].mean() + 2.0*data1['en_investigacion_nuevos'].std()]

data1_outliers_dw =  data1[ data1['en_investigacion_nuevos'] < data1['en_investigacion_nuevos'].mean() - 2.0*data1['en_investigacion_nuevos'].std() ]

In [None]:
data1_outliers = pd.concat([data1_outliers_dw, data1_outliers_up])
data1_outliers

In [None]:
(data1['test_por_millon_hab'])

In [None]:
data1.columns