# DiploDatos 2020 - Coronavirus en Argentina

## Práctico Análisis Exploratorio y Curación de Datos

Database: https://github.com/lucia15/Datos-Covid19-Argentina

### Tareas a realizar:

* Detectar al menos **tres** variables con valores faltantes no triviales, investigar posibles métodos para completarlos.

* Detectar al menos **cinco** inconsistencias en los datos, discutir a qué se deben y qué podemos hacer con ellas.
 
* Elegir al menos **una** variable que tenga outliers, debatir y decidir qué hacer con los mismos.

### Empezamos

In [1]:
### Aumentar el ancho del notebook
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:90% !important; }</style>"))

In [2]:
# Importamos las librerías necesarias
import os
import datetime
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', 30)
pd.set_option('display.max_rows', 100)

In [3]:
## Seteamos semilla random para reproducibilidad
np.random.seed(0)

### Inicialización y carga de datos

In [4]:
url = 'https://raw.githubusercontent.com/lucia15/Datos-Covid19-Argentina/master'

In [5]:
file1 = os.path.join(url, 'Argentina-covid19.csv')

data1 = pd.read_csv(file1, error_bad_lines=False)

In [6]:
file2 = os.path.join(url, 'Argentina-covid19-por-provincia.csv')

data2 = pd.read_csv(file2, error_bad_lines=False)

In [7]:
file3 = os.path.join(url, 'Argentina-covid19-fallecidos.csv')

data3 = pd.read_csv(file3, error_bad_lines=False)

Antes de comenzar, es necesario repasar cuáles son las variables que tenemos:

In [8]:
# Obtenemos la cantidad de filas y columnas
print("Cantidad de registros: ", data1.shape[0])
print("Cantidad de columnas: ", data1.shape[1])

Cantidad de registros:  117
Cantidad de columnas:  29


In [9]:
# Listamos las columnas y sus tipos de datos
data1.dtypes

fecha                       object
dia_cuarentena             float64
casos_nuevos                 int64
casos_total                  int64
%mujer                      object
%varon                      object
mujer_total                float64
varon_total                float64
franja_etaria               object
edad_prom                  float64
importados_total             int64
importados_nuevos            int64
local_total                  int64
local_nuevos                 int64
comunitario_total            int64
comunitario_nuevos         float64
en_investigacion_total       int64
en_investigacion_nuevos      int64
muertes_total                int64
muertes_nuevos               int64
alta_total                 float64
alta_nuevos                float64
alta_definitiva            float64
descartados_total          float64
descartados_nuevos         float64
tests_realizados_total     float64
tests_realizados_nuevos    float64
test_por_millon_hab         object
observaciones       

Revisar en https://github.com/lucia15/Datos-Covid19-Argentina de qué se trataba cada una

In [10]:
# Cambiamos el tipo de la columna 'fecha' de object a datetime
data1['fecha'] = pd.to_datetime(data1['fecha'], format='%Y-%m-%d')

In [11]:
data1.head()
#data1.tail()

Unnamed: 0,fecha,dia_cuarentena,casos_nuevos,casos_total,%mujer,%varon,mujer_total,varon_total,franja_etaria,edad_prom,importados_total,importados_nuevos,local_total,local_nuevos,comunitario_total,comunitario_nuevos,en_investigacion_total,en_investigacion_nuevos,muertes_total,muertes_nuevos,alta_total,alta_nuevos,alta_definitiva,descartados_total,descartados_nuevos,tests_realizados_total,tests_realizados_nuevos,test_por_millon_hab,observaciones
0,2020-03-05,,1,1,,,,,,,1,1,0,0,0,,0,0,0,0,0.0,0.0,0.0,,,,,,
1,2020-03-06,,1,2,,,,,,,2,1,0,0,0,,0,0,0,0,0.0,0.0,0.0,,,,,,
2,2020-03-07,,7,9,,,,,,,9,7,0,0,0,,0,0,0,0,0.0,0.0,0.0,,,,,,
3,2020-03-08,,3,12,,,,,,,12,3,0,0,0,,0,0,0,0,0.0,0.0,0.0,,,,28.0,,
4,2020-03-09,,5,17,,,,,,,17,5,0,0,0,,0,0,1,1,0.0,0.0,0.0,,,,,,


In [12]:
# TODO: Hacer lo mismo con los otros datasets

### Algunas ideas para arrancar con el análisis

Como en el práctico anterior, estas son solo ayudas y sugerencias.

## Valores faltantes

El siguiente comando imprime True en los campos con valor NaN (not a number) y False donde sí hay asignado un valor.

In [13]:
data1.isnull()

Unnamed: 0,fecha,dia_cuarentena,casos_nuevos,casos_total,%mujer,%varon,mujer_total,varon_total,franja_etaria,edad_prom,importados_total,importados_nuevos,local_total,local_nuevos,comunitario_total,comunitario_nuevos,en_investigacion_total,en_investigacion_nuevos,muertes_total,muertes_nuevos,alta_total,alta_nuevos,alta_definitiva,descartados_total,descartados_nuevos,tests_realizados_total,tests_realizados_nuevos,test_por_millon_hab,observaciones
0,False,True,False,False,True,True,True,True,True,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,True,True,True,True,True
1,False,True,False,False,True,True,True,True,True,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,True,True,True,True,True
2,False,True,False,False,True,True,True,True,True,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,True,True,True,True,True
3,False,True,False,False,True,True,True,True,True,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,True,True,False,True,True
4,False,True,False,False,True,True,True,True,True,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,True,True,True,True,True
5,False,True,False,False,True,True,True,True,True,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,True,True,True,True,True
6,False,True,False,False,True,True,True,True,True,True,False,False,False,False,False,True,False,False,False,False,False,False,False,True,True,True,True,True,True
7,False,True,False,False,True,True,True,True,True,True,False,False,False,False,False,True,False,False,False,False,False,False,True,True,True,True,True,True,False
8,False,True,False,False,True,True,True,True,True,True,False,False,False,False,False,True,False,False,False,False,True,True,True,True,True,True,True,True,True
9,False,True,False,False,True,True,True,True,True,True,False,False,False,False,False,True,False,False,False,False,True,True,True,True,True,True,True,True,True


Podemos observar por ejemplo que no falta ninguna fecha desde el 2020-03-05 hasta la actualidad:

In [14]:
df = data1['fecha'].isnull()
df[df==True]

Series([], Name: fecha, dtype: bool)

Sin embargo vemos que en este dataset faltan un montón de otros valores, principalmente entre los primeros días, esto se debe a que los primeros informes diarios tenían menos información. A medida que fueron pasando los días se incorporaron variables que tuvieron valores desde ese momento en adelante. 

Por ejemplo, la variable 'dia_cuarentena' tiene valores a partir del día 16

In [15]:
df = data1['dia_cuarentena'].isnull()
df[df==True]

0     True
1     True
2     True
3     True
4     True
5     True
6     True
7     True
8     True
9     True
10    True
11    True
12    True
13    True
14    True
15    True
Name: dia_cuarentena, dtype: bool

In [16]:
df[df==False]

16     False
17     False
18     False
19     False
20     False
       ...  
112    False
113    False
114    False
115    False
116    False
Name: dia_cuarentena, Length: 101, dtype: bool

Este es el día en que se declara la cuarentena por DNU 260

In [17]:
data1['fecha'][16]

Timestamp('2020-03-21 00:00:00')

valores en días anteriores no tendrían sentido.

Nos interesa detectar valores faltantes a partir del momento en que la variable tiene su primer valor, no antes.

Por ejemplo, para la variable '%mujer'

In [18]:
df = data1['%mujer'].isnull()
df[df==True]

0      True
1      True
2      True
3      True
4      True
5      True
6      True
7      True
8      True
9      True
10     True
11     True
12     True
13     True
14     True
15     True
16     True
17     True
18     True
19     True
20     True
106    True
116    True
Name: %mujer, dtype: bool

vemos que hasta el día 20 esta variable no tiene valores, posiblemente porque estos se empezaron a reportar a partir del día 21, ¿pero qué pasó en el día 106?

In [19]:
data1[106:107]

Unnamed: 0,fecha,dia_cuarentena,casos_nuevos,casos_total,%mujer,%varon,mujer_total,varon_total,franja_etaria,edad_prom,importados_total,importados_nuevos,local_total,local_nuevos,comunitario_total,comunitario_nuevos,en_investigacion_total,en_investigacion_nuevos,muertes_total,muertes_nuevos,alta_total,alta_nuevos,alta_definitiva,descartados_total,descartados_nuevos,tests_realizados_total,tests_realizados_nuevos,test_por_millon_hab,observaciones
106,2020-06-19,91.0,2060,39570,,,,,,,1044,-5,15003,583,16383,1036.0,7140,446,979,31,,,,,,,,,Reporte matutino 20-06-20 no fue publicado en ...


En el campo 'observaciones' vemos que el Reporte Matutino correspondiente a ese día no fue publicado en la página https://www.argentina.gob.ar/coronavirus/informe-diario/junio2020, y este es el Reporte que debía contener dicha información faltante.

#### TO DO:

* ¿Podemos completar este campo con algún valor? Hint: chequear las funciones *fillna()*, *replace()*, *interpolate()*

* ¿Qué otras variables están en una situación similar? ¿Podemos completarlas también?

* Buscar datos faltantes en los otros dos datasets y evaluar si es posible o no completarlos

Para más detalles leer los siguients artículos (si tienen tiempo):

* https://www.geeksforgeeks.org/working-with-missing-data-in-pandas/

* https://towardsdatascience.com/data-cleaning-with-python-and-pandas-detecting-missing-values-3e9c6ebcf78b

## Consistencia de los datos

Las variables de cada data set deben ser consistentes. Por ejemplo, el total de infectados para un día dado, debe ser igual al total de infectados del día anterior más los casos nuevos de ese día:

In [20]:
data1['casos_total'][116] == data1['casos_total'][115] + data1['casos_nuevos'][116]

True

Pero además debe ser igual a la suma de todos los casos nuevos hasta ese día

In [21]:
data1['casos_total'][116] == sum(data1['casos_nuevos'][:117])

False

Veamos qué está pasando chequeando todos los días:

In [22]:
n = len(data1['casos_total'])

if data1['casos_total'][0] != data1['casos_total'][0]:
    print(0)

for k in range(1,n):
    
    if data1['casos_total'][k] != data1['casos_total'][k-1] + data1['casos_nuevos'][k]:
        print(k)

13
18
20
43
47
57
59
61
72
83


Estos son los días que presentan inconsistencias. Estas pueden deberse, por ejemplo, a descartes o reclasificaciones de casos reportados anteriormente, por lo que no necesariamente hay que "arreglarlas".

Además de la coherencia interna de cada dataset, los tres datasets deben ser consistentes entre sí.

Por ejemplo, la cantidad de fallecidos al día '2020-06-29' reportado en 'Argentina-covid19.csv' (data1) debe coincidir con el 'num_caso' del último registro de esa fecha en 'Argentina-covid19-fallecidos.csv' (data3)

In [23]:
data1[data1['fecha']=='2020-06-29']['muertes_total']

116    1280
Name: muertes_total, dtype: int64

In [24]:
data3[data3['fecha']=='2020-06-29'].tail()

Unnamed: 0,fecha,provincia,num_caso,genero,edad,tipo_caso,comorbilidades,viajes,observaciones
1275,2020-06-29,CABA,1276,mujer,52.0,,,,
1276,2020-06-29,CABA,1277,mujer,92.0,,,,
1277,2020-06-29,CABA,1278,mujer,93.0,,,,
1278,2020-06-29,CABA,1279,mujer,91.0,,,,
1279,2020-06-29,CABA,1280,mujer,,,,,No registra información de su edad


Vemos que los números coinciden, por lo tanto los datos son consistentes.

Este valor también debería coincidir con la suma de 'muertes_total' de cada provincia al día '2020-06-29'

In [25]:
data2[data2['fecha']=='2020-06-29']

Unnamed: 0,fecha,provincia,casos_total,casos_nuevos,muertes_total,muertes_nuevos,observaciones
2281,2020-06-29,Buenos Aires,30265,1279,562.0,21.0,
2282,2020-06-29,CABA,26359,944,511.0,23.0,
2283,2020-06-29,Chaco,1961,31,90.0,2.0,
2284,2020-06-29,Chubut,120,1,3.0,0.0,
2285,2020-06-29,Córdoba,637,2,37.0,1.0,
2286,2020-06-29,Corrientes,117,2,0.0,0.0,
2287,2020-06-29,Entre Ríos,278,5,0.0,0.0,
2288,2020-06-29,Formosa,70,0,0.0,0.0,
2289,2020-06-29,Jujuy,91,16,1.0,0.0,
2290,2020-06-29,La Pampa,7,0,0.0,0.0,


In [26]:
sum(data2[data2['fecha']=='2020-06-29']['muertes_total'])

1292.0

En este caso no coinciden... ¿qué puede estar pasando? ¿lo podremos solucionar?

¿Qué otras inconsistencias encuentran en los datos? ¿Cómo podemos solucionarlas?

## Outliers

En el siguiente artículo pueden encontrar varias técnicas para detectar outliers:

https://towardsdatascience.com/ways-to-detect-and-remove-the-outliers-404d16608dba