# Caso COVID-19 Fase 1
### Gestión de Datos, Maestría en Ciencia de Datos
### Pontificia Universidad Javeriana Cali
### Por: Juan José Restrepo Rosero

# Contexto
---
El SARS-COV-2, responsable de la enfermedad COVID-19, es un virus de la
familia de los coronavirus que apareció en China a finales del año 2019 y se
expandió a gran velocidad a lo largo y ancho del globo, sorprendiendo a la
mayoría de países del planeta y causando una pandemia a inicios de 2020. La
gran preocupación con respecto a este virus es su alto índice de contagio, lo
que le permitió tal expansión en un período muy corto de tiempo; y su alto
grado de afectación en pacientes con comorbilidades previas, al punto de
ocasionar la muerte rápidamente.

# Caso
---
Consciente del peligro latente que representa el nuevo coronavirus, las
principales instituciones se han tomado seriamente la tarea de recopilar la
mayor cantidad de datos posibles sobre casos confirmados, decesos y
pacientes recuperados y almacenarlos en bases de datos. Lo anterior con el
fin de ver la evolución de la enfermedad, entender su comportamiento y, así,
tratar de crear mecanismos de contención. Ahora bien, las instituciones
desean proveer estos datos a todo el público, por lo que piensan que la mejor
manera de mostrarlos es por medio de gráficas, de forma que sea fácil de
entender tanto por expertos como por personas del común. Para ello contratan
a un equipo de ingenieros y científicos de datos cuya misión es realizar todo
el proceso de limpieza, preparación y visualización de datos, específicamente
de aquellos relacionados a casos confirmados de contagio.

# Alcance
---
Como ya se explicó, este es un caso de tipo programado, por lo que su
resolución se hará siguiendo una serie de pasos o fases. Para esta unidad,
deben desarrollar la Fase #1 que consiste en utilizar la base de datos de la
Universidad Johns Hopkins y el módulo de preparación y limpieza de datos
pandas de forma que puedan responder a las siguientes preguntas de
interés.
 1. ¿En cuál mes se presentó el mayor número de contagios?
 2. ¿En ese mismo mes, cuál fue el país que reportó más contagios?
 3. ¿Cuál es el país con el menor número de casos reportados hasta la fecha?


# Recursos
---
El dataset utilizado para este caso es el de la Universidad Johns Hopkins, el cual puede ser encontrado en el siguiente enlace:

[Time Series Covid 19 Confirmed Global](https://raw.githubusercontent.com/CSSEGISandData/COVID19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv)

# Consideraciones 
---
Es importante leer las condiciones de uso para trabajar con el dataset de la Universidad Johns Hopkins. Dichas condiciones las pueden encontrar en el siguiente enlace:

[CSSEGISandData](https://github.com/CSSEGISandData/COVID-19)

Importamos las librerias a emplear en nuestro análisis

In [65]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
#import matplotlib.ticker as ticker

#import plotly.express as px
#from plotly.offline import plot
import warnings
warnings.filterwarnings('ignore')

Importamos nuestro dataset

In [75]:
covid_confirmados = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv')
covid_muertes = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_global.csv')
covid_recuperados = pd.read_csv('https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_recovered_global.csv')

## 1. Conociendo nuestro dataset

Visualizamos los datos

### **Casos confirmados**

In [78]:
covid_confirmados.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/28/23,3/1/23,3/2/23,3/3/23,3/4/23,3/5/23,3/6/23,3/7/23,3/8/23,3/9/23
0,,Afghanistan,33.93911,67.709953,0,0,0,0,0,0,...,209322,209340,209358,209362,209369,209390,209406,209436,209451,209451
1,,Albania,41.1533,20.1683,0,0,0,0,0,0,...,334391,334408,334408,334427,334427,334427,334427,334427,334443,334457
2,,Algeria,28.0339,1.6596,0,0,0,0,0,0,...,271441,271448,271463,271469,271469,271477,271477,271490,271494,271496
3,,Andorra,42.5063,1.5218,0,0,0,0,0,0,...,47866,47875,47875,47875,47875,47875,47875,47875,47890,47890
4,,Angola,-11.2027,17.8739,0,0,0,0,0,0,...,105255,105277,105277,105277,105277,105277,105277,105277,105288,105288


### **Casos muertes**

In [80]:
covid_muertes.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/28/23,3/1/23,3/2/23,3/3/23,3/4/23,3/5/23,3/6/23,3/7/23,3/8/23,3/9/23
0,,Afghanistan,33.93911,67.709953,0,0,0,0,0,0,...,7896,7896,7896,7896,7896,7896,7896,7896,7896,7896
1,,Albania,41.1533,20.1683,0,0,0,0,0,0,...,3598,3598,3598,3598,3598,3598,3598,3598,3598,3598
2,,Algeria,28.0339,1.6596,0,0,0,0,0,0,...,6881,6881,6881,6881,6881,6881,6881,6881,6881,6881
3,,Andorra,42.5063,1.5218,0,0,0,0,0,0,...,165,165,165,165,165,165,165,165,165,165
4,,Angola,-11.2027,17.8739,0,0,0,0,0,0,...,1933,1933,1933,1933,1933,1933,1933,1933,1933,1933


### **Casos recuperados**

In [81]:
covid_recuperados.head()

Unnamed: 0,Province/State,Country/Region,Lat,Long,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,...,2/28/23,3/1/23,3/2/23,3/3/23,3/4/23,3/5/23,3/6/23,3/7/23,3/8/23,3/9/23
0,,Afghanistan,33.93911,67.709953,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,,Albania,41.1533,20.1683,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,,Algeria,28.0339,1.6596,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,,Andorra,42.5063,1.5218,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,,Angola,-11.2027,17.8739,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


Dado que las columnas están correctamente nombradas, no será necesario utilizar el el parámetro **header=None** en el método de pandas *read_csv()*

Dimensiones

In [91]:
#print(covid_confirmado[covid_confirmado['Country/Region'] == 'Canada'])
#print(covid_muertes)
#print(covid_recuperados)
print("Shape Confirmados: ", covid_confirmados.shape)
print("Shape Muertes: ", covid_muertes.shape)
print("Shape Recuperados: ", covid_recuperados.shape)

Shape Confirmados:  (289, 1147)
Shape Muertes:  (289, 1147)
Shape Recuperados:  (274, 1147)


Lo anterior, nos muestra que los datasets cuentan con:
- 289 registros (filas) y 1147 columnas para casos confirmados
- 289 registros (filas) y 1147 columnas para casos de muertes
- 274 registros (filas) y 1147 columnas para casos recuperados

Usando el método *info()* podemos obtener la información de las columnas para cada dataset

In [89]:
covid_confirmados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 289 entries, 0 to 288
Columns: 1147 entries, Province/State to 3/9/23
dtypes: float64(2), int64(1143), object(2)
memory usage: 2.5+ MB


In [84]:
covid_muertes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 289 entries, 0 to 288
Columns: 1147 entries, Province/State to 3/9/23
dtypes: float64(2), int64(1143), object(2)
memory usage: 2.5+ MB


In [85]:
covid_recuperados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 274 entries, 0 to 273
Columns: 1147 entries, Province/State to 3/9/23
dtypes: float64(2), int64(1143), object(2)
memory usage: 2.4+ MB


Al verificar esta información podemos comenzar a detectar los primeros problemas. 

Anteriormente habíamos dicho que el número total de registros era de 289, pero aquí vemos que para algunas columnas los registros no están completos. Por ejemplo, para el caso del dataset de pacientes con covid recuperados, donde faltan 15 registros, lo que nos quiere decir es que en cada una de esas columnas hay valores nulos.

In [92]:
# Usamos el método descibre para obtener datos estadísticos de las columnas de tipo numérico.
covid_confirmados.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Lat,287.0,1.971872e+01,2.595661e+01,-71.9499,4.072192,21.512583,4.040178e+01,7.170690e+01
Long,287.0,2.218208e+01,7.787093e+01,-178.1165,-32.823050,20.939400,8.922435e+01,1.780650e+02
1/22/20,289.0,1.927336e+00,2.617366e+01,0.0000,0.000000,0.000000,0.000000e+00,4.440000e+02
1/23/20,289.0,2.273356e+00,2.627019e+01,0.0000,0.000000,0.000000,0.000000e+00,4.440000e+02
1/24/20,289.0,3.266436e+00,3.270727e+01,0.0000,0.000000,0.000000,0.000000e+00,5.490000e+02
...,...,...,...,...,...,...,...,...
3/5/23,289.0,2.339187e+06,8.518645e+06,0.0000,14567.000000,103248.000000,1.052664e+06,1.036470e+08
3/6/23,289.0,2.339387e+06,8.519346e+06,0.0000,14567.000000,103248.000000,1.052664e+06,1.036555e+08
3/7/23,289.0,2.339839e+06,8.521641e+06,0.0000,14567.000000,103248.000000,1.052926e+06,1.036909e+08
3/8/23,289.0,2.340460e+06,8.524968e+06,0.0000,14567.000000,103248.000000,1.053068e+06,1.037558e+08


In [93]:
covid_muertes.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Lat,287.0,19.718719,25.956609,-71.9499,4.072192,21.512583,40.401784,7.170690e+01
Long,287.0,22.182084,77.870931,-178.1165,-32.823050,20.939400,89.224350,1.780650e+02
1/22/20,289.0,0.058824,1.000000,0.0000,0.000000,0.000000,0.000000,1.700000e+01
1/23/20,289.0,0.062284,1.001525,0.0000,0.000000,0.000000,0.000000,1.700000e+01
1/24/20,289.0,0.089965,1.413797,0.0000,0.000000,0.000000,0.000000,2.400000e+01
...,...,...,...,...,...,...,...,...
3/5/23,289.0,23798.439446,93478.098000,0.0000,66.000000,952.000000,8721.000000,1.122134e+06
3/6/23,289.0,23799.705882,93481.061127,0.0000,66.000000,952.000000,8721.000000,1.122181e+06
3/7/23,289.0,23802.899654,93497.671329,0.0000,66.000000,952.000000,8721.000000,1.122516e+06
3/8/23,289.0,23807.899654,93529.846264,0.0000,66.000000,952.000000,8727.000000,1.123246e+06


In [94]:
covid_recuperados.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Lat,273.0,18.318242,25.442128,-71.9499,3.9193,19.1959,39.0742,71.7069
Long,273.0,27.325980,75.783947,-178.1165,-9.6966,23.8813,95.9956,178.0650
1/22/20,274.0,0.109489,1.695410,0.0000,0.0000,0.0000,0.0000,28.0000
1/23/20,274.0,0.116788,1.699238,0.0000,0.0000,0.0000,0.0000,28.0000
1/24/20,274.0,0.142336,1.886378,0.0000,0.0000,0.0000,0.0000,31.0000
...,...,...,...,...,...,...,...,...
3/5/23,274.0,0.000000,0.000000,0.0000,0.0000,0.0000,0.0000,0.0000
3/6/23,274.0,0.000000,0.000000,0.0000,0.0000,0.0000,0.0000,0.0000
3/7/23,274.0,0.000000,0.000000,0.0000,0.0000,0.0000,0.0000,0.0000
3/8/23,274.0,0.000000,0.000000,0.0000,0.0000,0.0000,0.0000,0.0000
