# Práctico 1: Análisis y Visualización

In [1]:
# Importamos las librerías necesarias
import os
import sys
import datetime
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Seteamos semilla random para reproducibilidad
np.random.seed(0)

### Inicialización y carga de datos

Puesto que el dataset se actualiza diariamente, para empezar a trabajar con el es conveniente cargarlo directamente desde Github, para contar siempre con la última versión.

En el mismo tenemos tres subconjuntos de datos.

In [3]:
path = 'C:/Users/lucas/Documents/DIPLODATOS/MENTORÍA/Datos-Covid19-Argentina/'

In [4]:
file1 = os.path.join(path, 'Argentina-covid19.csv')

data1 = pd.read_csv(file1, error_bad_lines=False)

In [5]:
file2 = os.path.join(path, 'Argentina-covid19-por-provincia.csv')

data2 = pd.read_csv(file2, error_bad_lines=False)

In [6]:
file3 = os.path.join(path, 'Argentina-covid19-fallecidos.csv')

data3 = pd.read_csv(file3, error_bad_lines=False)

### Análisis exploratorio

### Dataset 1

In [7]:
# Obtenemos la cantidad de filas y columnas
print("Cantidad de registros: ", data1.shape[0])
print("Cantidad de columnas: ", data1.shape[1])

Cantidad de registros:  113
Cantidad de columnas:  29


In [8]:
# Listamos las columnas y sus tipos de datos
data1.dtypes

fecha                       object
dia_cuarentena             float64
casos_nuevos                 int64
casos_total                  int64
%mujer                      object
%varon                      object
mujer_total                float64
varon_total                float64
franja_etaria               object
edad_prom                  float64
importados_total             int64
importados_nuevos            int64
local_total                  int64
local_nuevos                 int64
comunitario_total            int64
comunitario_nuevos         float64
en_investigacion_total       int64
en_investigacion_nuevos      int64
muertes_total                int64
muertes_nuevos               int64
alta_total                 float64
alta_nuevos                float64
alta_definitiva            float64
descartados_total          float64
descartados_nuevos         float64
tests_realizados_total     float64
tests_realizados_nuevos    float64
test_por_millon_hab         object
observaciones       

In [9]:
# Cambiamos el tipo de la columna 'fecha' de object a datetime
data1['fecha'] = pd.to_datetime(data1['fecha'], format='%Y-%m-%d')

In [10]:
# Analizamos 2 muestras de filas, usamos transpose() para visualizar los datos con mayor comodidad
data1.sample(2).transpose()

Unnamed: 0,105,10
fecha,2020-06-18 00:00:00,2020-03-15 00:00:00
dia_cuarentena,90,
casos_nuevos,1958,11
casos_total,37510,56
%mujer,494,
%varon,506,
mujer_total,18530,
varon_total,18980,
franja_etaria,20-59,
edad_prom,36,


In [11]:
data1.sample(10)

Unnamed: 0,fecha,dia_cuarentena,casos_nuevos,casos_total,%mujer,%varon,mujer_total,varon_total,franja_etaria,edad_prom,...,muertes_nuevos,alta_total,alta_nuevos,alta_definitiva,descartados_total,descartados_nuevos,tests_realizados_total,tests_realizados_nuevos,test_por_millon_hab,observaciones
39,2020-04-13,24.0,69,2277,474.0,526.0,1079.0,1198.0,20-59,45.0,...,3,559.0,44.0,,17724.0,1308.0,22805.0,1612.0,5026.0,
91,2020-06-04,76.0,929,20197,493.0,507.0,9957.0,10240.0,20-59,33.0,...,25,6088.0,95.0,,132402.0,3469.0,183862.0,5414.0,40519.0,
71,2020-05-15,56.0,345,7479,494.0,506.0,3695.0,3784.0,20-59,40.0,...,3,2534.0,37.0,,76257.0,2548.0,100362.0,3469.0,22117.0,
53,2020-04-27,38.0,111,4003,50.0,50.0,2002.0,2001.0,20-59,43.0,...,5,1162.0,22.0,,41559.0,1569.0,53600.0,1700.0,11812.0,
55,2020-04-29,40.0,158,4285,501.0,499.0,2147.0,2138.0,20-59,43.0,...,7,1256.0,64.0,,45446.0,2124.0,58685.0,2627.0,12933.0,
89,2020-06-02,74.0,904,18319,49.0,51.0,8976.0,9343.0,20-59,40.0,...,13,5896.0,187.0,,125571.0,3428.0,172947.0,5148.0,38114.0,
77,2020-05-21,62.0,648,9931,487.0,513.0,4836.0,5095.0,20-59,39.0,...,13,3062.0,30.0,,91398.0,3246.0,121278.0,4589.0,26727.0,
84,2020-05-28,69.0,769,14702,491.0,509.0,7219.0,7483.0,20-59,37.0,...,8,4788.0,171.0,,110796.0,3698.0,150486.0,5405.0,33164.0,
76,2020-05-20,61.0,474,9283,49.0,51.0,4549.0,4734.0,20-59,39.0,...,10,3032.0,99.0,,88152.0,3022.0,116689.0,4319.0,25716.0,
5,2020-03-10,,2,19,,,,,,,...,0,0.0,0.0,0.0,,,,,,


In [12]:
# TO DO
# ¿En qué día se dio hasta ahora el record de contagios? ¿Y de muertes?

In [13]:
max_contagios_1 = data1.loc[data1['casos_nuevos'].idxmax()].fecha
print('Día con más contagios: ' + str(max_contagios_1.date()))
max_muertes_2 = data1.loc[data1['muertes_nuevos'].idxmax()].fecha
print('Día con más muertes: ' + str(max_muertes_2.date()))

Día con más contagios: 2020-06-24
Día con más muertes: 2020-06-24


In [14]:
# TO DO
# Hacer una exploración similar de los otros dos conjuntos de datos

### Dataset 2

In [15]:
# Obtenemos la cantidad de filas y columnas
print("Cantidad de registros: ", data2.shape[0])
print("Cantidad de columnas: ", data2.shape[1])

Cantidad de registros:  2212
Cantidad de columnas:  7


In [16]:
data2.dtypes

fecha              object
provincia          object
casos_total         int64
casos_nuevos        int64
muertes_total     float64
muertes_nuevos    float64
observaciones      object
dtype: object

In [17]:
# Cambiamos el tipo de la columna 'fecha' de object a datetime
data2['fecha'] = pd.to_datetime(data2['fecha'], format='%Y-%m-%d')

In [18]:
# Analizamos 2 muestras de filas, usamos transpose() para visualizar los datos con mayor comodidad
data2.sample(2).transpose()

Unnamed: 0,898,182
fecha,2020-04-27 00:00:00,2020-03-25 00:00:00
provincia,Tierra del Fuego,Buenos Aires
casos_total,131,133
casos_nuevos,1,30
muertes_total,0,
muertes_nuevos,0,
observaciones,,


In [19]:
max_contagios_2 = data2.loc[data2['casos_nuevos'].idxmax()].fecha
print('Día con más contagios: ' + str(max_contagios_2.date()))
max_muertes_2 = data2.loc[data2['muertes_nuevos'].idxmax()].fecha
print('Día con más muertes: ' + str(max_muertes_2.date()))

Día con más contagios: 2020-06-25
Día con más muertes: 2020-06-17


### Dataset 3

In [20]:
# Obtenemos la cantidad de filas y columnas
print("Cantidad de registros: ", data3.shape[0])
print("Cantidad de columnas: ", data3.shape[1])

Cantidad de registros:  1162
Cantidad de columnas:  9


In [21]:
data3.dtypes

fecha              object
provincia          object
num_caso            int64
genero             object
edad              float64
tipo_caso          object
comorbilidades     object
viajes             object
observaciones      object
dtype: object

In [22]:
# Cambiamos el tipo de la columna 'fecha' de object a datetime
data3['fecha'] = pd.to_datetime(data3['fecha'], format='%Y-%m-%d')

In [23]:
# Analizamos 2 muestras de filas, usamos transpose() para visualizar los datos con mayor comodidad
data3.sample(2).transpose()

Unnamed: 0,989,463
fecha,2020-06-21 00:00:00,2020-05-25 00:00:00
provincia,CABA,Buenos Aires
num_caso,990,464
genero,hombre,hombre
edad,63,87
tipo_caso,,
comorbilidades,,
viajes,,
observaciones,,


#### Tareas a realizar:

*   Análisis estadístico de variables

> Seleccionar un conjunto de al menos **cuatro** variables que les resulten de interés y:
1.   Usar distintos tipos de gráficos para describir sus distribuciones
2.   Analizar Outliers (si los hubiera)
3.   Calcular estadísticos clásicos (media, mediana, moda, desviación estandar)

* Evolución de variables en el tiempo

> Seleccionar al menos **tres** variables y graficar como fueron cambiando desde el primer día hasta hoy.

*   Análisis de probabilidades condicionales e independencia entre dos variables.

> Con al menos **un** par de variables realizar un análisis de este tipo.

>  Algunas ideas guía:
1.   ¿Cuál es la probabilidad de que un infectado sea mujer (varón)?
2.   ¿Cuál es la probabilidad de que un infectado sea de Córdoba (u otra provincia)?
3.   Probabilidad de que un fallecido sea mujer (varón)
4.   Probabilidad de que un fallecido sea mujer (varón) dado que está en la franja etaria 60-80 (u alguna otra).
5.   Probabilidad de que un fallecido en la franja etaria 60-80 sea mujer (varón).
6.   Probabilidad de que un fallecido sea de CABA dado que es mujer. Y viceversa, que sea mujer dado que es de CABA.
7.   Probabilidad de que un fallecido en la franja etaria 30-60 sea de Chaco. (Quizás encontremos alguna correlación interesante entre edad y provincia).
8.   ¿El género de un fallecido es independiente de la franja etaria?
9.   ¿El género de un fallecido es independiente de la provincia?
10.  ¿La franja etaria de un fallecido es independiente de la provincia?