# Datos de COVID-19 del Ministerio de Salud

http://datos.salud.gob.ar/dataset/covid-19-casos-registrados-en-la-republica-argentina

Los datos estan en formato .csv, que es simplemente un archivo de texto con el siguiente formato:

Archivo .csv (comma-separated values)
```
columna1, columna2, columna3
valor1, valor2, valor3
valor1, valor2, valor3
```

Ejemplo
```
fecha, edad, positivo
2020-06-20, 33, NO
2020-07-09, 27, SI
```

---
#### Google Colab

Si están en Google Colab, pueden bajar los datos con el siguiente comando:

In [None]:
!wget https://sisa.msal.gov.ar/datos/descargas/covid-19/files/Covid19Casos.csv

Y ver las primeras filas con el siguiente comando:

In [None]:
!cat Covid19Casos.csv | head -n 3

---

Cargamos los datos:

In [None]:
import pandas as pd

# file = "https://sisa.msal.gov.ar/datos/descargas/covid-19/files/Covid19Casos.csv"
file = "Covid19Casos.csv"
df = pd.read_csv(file)

Veamos los datos:

In [None]:
df

Calculemos la mediana de la columna edad:

In [None]:
df.edad.median()

Hagamos un histograma de la columna edad:

In [None]:
df.edad.hist(bins=range(120))

Veamos que tipos de clasificaciones hay:

In [None]:
df.clasificacion_resumen.unique()

Quedemonos con el subset de casos confirmados:

In [None]:
df_descartado = df[df.clasificacion_resumen == "Descartado"]
df_confirmado = df[df.clasificacion_resumen == "Confirmado"]

Comparemos los histogramas de edad:

In [None]:
ax = df_descartado.edad.hist(bins=range(120), histtype="step", label='Confirmado')
ax = df_confirmado.edad.hist(bins=range(120), histtype="step", label="Descartado")
ax.legend()

Hay menos casos confimados que descartados, pero: ¿es distinta la distribución de edad?

Normalicemos los histogramas:

In [None]:
ax = df_descartado.edad.hist(density=True, bins=range(120), histtype="step", label='Confirmado')
ax = df_confirmado.edad.hist(density=True, bins=range(120), histtype="step", label="Descartado")
ax.legend()

Otra forma (¿mejor?) de verlo:

Contemos la cantidad de casos por edad y calculemos la relación: confirmados / descartados en función de la edad.

In [None]:
dg = df_confirmado.groupby("edad").size() / df_descartado.groupby("edad").size()
dg.plot()

In [None]:
df_confirmado.groupby("sexo").edad.hist(bins=range(120), histtype="step")