# Data Engineering Test
# Solvex - 2024

## Resuelto por Santiago Taracena Puga

### Ejercicio 1: Manipulación de datos con Pandas y conjunto de datos de COVID-19

Utiliza Pandas y el conjunto de datos público de COVID-19 proporcionado por la Universidad de Johns Hopkins para realizar las siguientes tareas:

- Descarga los datos de COVID-19 en formato CSV o JSON desde la URL pública.
- Carga los datos en un DataFrame de Pandas.
- Calcula el promedio de casos confirmados por día en un país específico.
- Encuentra los 10 países con la tasa de mortalidad más alta (número de muertes / número de casos confirmados) hasta la fecha.

Puedes encontrar el conjunto de datos de COVID-19 en la URL pública, como la ofrecida por la Universidad de Johns Hopkins: https://github.com/CSSEGISandData/COVID-19

### Solución

El primer paso para solucionar el presente ejercicio consiste en descargar el dataset proporcionado, todo con el objetivo de poder resolver los siguientes incisos que siguen al primero. Se observaron los diferentes datasets presentes en el repositorio de Github proporcionado, y se observó un patrón en el que cada archivo .csv representaba los datos de cada día entre el 1 de enero de 2021 y el 9 de marzo de 2023. Todos los datasets poseían las mismas columnas, sólo que los datos registrados iban aumentando conforme aumentaban los días. Por esta razón, se tomó la decisión de utilizar el archivo `03-09-2023.csv` para realizar el análisis solicitado, ya que este archivo contiene los datos más actualizados hasta el momento.

El archivo fue descargado en una carpeta `./data/`, y con el mismo disponible en el dispositivo en el que se está trabajando la presente prueba fue posible comenzar a desarrollar el resto de la solución al ejercicio. Lo primero que es necesario es cargar los datos en un DataFrame de Pandas, por lo que es necesario importar la librería `pandas` para realizar esta carga de datos.

In [1]:
# Instrucción para importar pandas
import pandas as pd

Con la librería a nuestra disposición, podemos cargar un archivo con extensión .csv haciendo uso de la función `read_csv` que nos da la librería. Esta función toma como entrada el path de un archivo .csv, y devuelve precisamente un DataFrame de Pandas.

In [2]:
# Carga de datos a un DataFrame
data = pd.read_csv("./data/03-09-2023.csv")
data

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
0,,,,Afghanistan,2023-03-10 04:21:03,33.939110,67.709953,209451,7896,,,Afghanistan,538.042451,3.769855
1,,,,Albania,2023-03-10 04:21:03,41.153300,20.168300,334457,3598,,,Albania,11621.968170,1.075774
2,,,,Algeria,2023-03-10 04:21:03,28.033900,1.659600,271496,6881,,,Algeria,619.132366,2.534476
3,,,,Andorra,2023-03-10 04:21:03,42.506300,1.521800,47890,165,,,Andorra,61981.492267,0.344540
4,,,,Angola,2023-03-10 04:21:03,-11.202700,17.873900,105288,1933,,,Angola,320.352770,1.835917
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4011,,,,West Bank and Gaza,2023-03-10 04:21:03,31.952200,35.233200,703228,5708,,,West Bank and Gaza,13784.956961,0.811686
4012,,,,Winter Olympics 2022,2023-03-10 04:21:03,39.904200,116.407400,535,0,,,Winter Olympics 2022,,0.000000
4013,,,,Yemen,2023-03-10 04:21:03,15.552727,48.516388,11945,2159,,,Yemen,40.048994,18.074508
4014,,,,Zambia,2023-03-10 04:21:03,-13.133897,27.849332,343135,4057,,,Zambia,1866.491630,1.182333


Podemos observar que cada entrada en el dataset corresponde a una región específica del mundo. Algunas regiones están constituidas por países enteros, mientras que hay otras regiones que son únicamente provincias dentro de estados de países como Estados Unidos. Si nos interesa Guatemala, podemos obtener las entradas en las que la columna `Country_Region` es Guatemala. El resultado de la consulta nos indica que, efectivamente, Guatemala constituye un país entero, y no son tomados en cuenta los diferentes departamentos y municipios del país.

In [3]:
# Filas en las que el país es Guatemala
data[data["Country_Region"] == "Guatemala"]

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
241,,,,Guatemala,2023-03-10 04:21:03,15.7835,-90.2308,1238247,20182,,,Guatemala,6911.570256,1.629885


Ahora que nos encontramos seguros, valdría mucho la pena conocer un poco mejor el dataset. Podemos obtener información sobre cada columna utilizando la función `info` que trae la clase DataFrame de Pandas. Esta función nos retorna otro DataFrame con información sobre cada columna.

In [4]:
# Información del dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4016 entries, 0 to 4015
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   FIPS                 3268 non-null   float64
 1   Admin2               3272 non-null   object 
 2   Province_State       3837 non-null   object 
 3   Country_Region       4016 non-null   object 
 4   Last_Update          4016 non-null   object 
 5   Lat                  3925 non-null   float64
 6   Long_                3925 non-null   float64
 7   Confirmed            4016 non-null   int64  
 8   Deaths               4016 non-null   int64  
 9   Recovered            0 non-null      float64
 10  Active               0 non-null      float64
 11  Combined_Key         4016 non-null   object 
 12  Incident_Rate        3922 non-null   float64
 13  Case_Fatality_Ratio  3974 non-null   float64
dtypes: float64(7), int64(2), object(5)
memory usage: 439.4+ KB


Para calcular el promedio de casos por día en un país en específico, lo primero que necesitamos es definir el país que queramos utilizar para el ejercicio. En este caso, se ha definido una constante `COUNTRY` igual al país que se desee utilizar. Esto puede cambiarse para ver cualquier otro país.

In [5]:
# País a utilizar para el ejercicio
COUNTRY = "Guatemala"
COUNTRY

'Guatemala'

Con el país definido, podemos obtener la totalidad de los casos a analizar consultando las filas con el país definido y utilizando la función `sum` para hallar la suma de todos los valores de una columna proporcionada. Esto es necesario para países como Estados Unidos, en los que hay múltiples filas del país representando múltiples regiones.

In [6]:
# Suma de casos dado un país a utilizar
cases = data[data["Country_Region"] == COUNTRY]["Confirmed"].sum()
cases

1238247

Ya tenemos la totalidad de casos para cualquier país que se desee utilizar como ejemplo. Lo que necesitamos ahora para obtener el promedio de casos por día es, efectivamente, el número de días a tomar en cuenta para obtener el mismo promedio. Esto puede ser tricky, y puede variar dependiendo del criterio de cada quién. Para este caso en específico, se tomó como día inicial a tomar en cuenta el 13 de marzo de 2020, que fue el día en el que la mayoría de países comenzaron a declarar medidas contra la pandemia. El día final a tomar en cuenta fue el 9 de marzo de 2023, que es el último día que se actualizó el dataset proporcionado.

Con esta suposición definida, ahora necesitamos encontrar el número de días pasados entre la fecha inicial y la fecha final mencionadas. Esto lo podemos averiguar utilizando Python, específicamente la librería `datetime`. Esta librería nos permite instanciar fechas y realizar operaciones aritméticas entre ellas. Lo primero que debemos hacer es importar la librería.

In [7]:
# Instrucción para importar datetime
from datetime import date

Con esta librería podemos proceder a instanciar fechas pasando como argumentos el año, mes y día a tomar en cuenta. Podemos realizar una resta entre las dos fechas y extraer los días de la clase que se estaría instanciando con la operación. Esta cantidad de días se encontrará en la variable `period_of_time`.

In [8]:
# Cálculo de los días a tomar en cuenta para el promedio
period_of_time = (date(2023, 3, 9) - date(2020, 3, 13)).days
period_of_time

1091

Teniendo disponible la sumatoria de casos en el país dado y la cantidad de días que transcurrieron para poder calcular el promedio, lo único que es necesario realizar es la división de casos entre los días transcurridos. Este cálculo se realiza en la siguiente celda.

In [9]:
# Promedio de casos por día
average = cases / period_of_time
average

1134.9651695692025

Finalmente es necesario obtener los diez países con el `Case_Fatality_Ratio` más alto. Podemos observar que efectivamente tenemos esta columna sumamente útil. La misma nos brinda el porcentaje % de casos fatales por cada entrada del dataset. Podemos observar la columna consultando su información.

In [10]:
# Columna Case_Fatality_Ratio
data["Case_Fatality_Ratio"]

0        3.769855
1        1.075774
2        2.534476
3        0.344540
4        1.835917
          ...    
4011     0.811686
4012     0.000000
4013    18.074508
4014     1.182333
4015     2.145863
Name: Case_Fatality_Ratio, Length: 4016, dtype: float64

De primeras parece que lo que podemos realizar es un proceso de sorting para obtener las entradas del dataset del porcentaje más alto al más bajo utilizando la función `sort_values` y finalmente obteniendo los primeros diez registros obtenidos utilizando la función `head` para ver las primeras filas en un dataset. Con esta lógica obtenemos el siguiente resultado.

In [11]:
# Primeras diez filas del dataset ordenadas por Case_Fatality_Ratio
fatality_sorted_data = data.sort_values(by="Case_Fatality_Ratio", ascending=False)
fatality_sorted_data.head(10)

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
1386,90017.0,Unassigned,Illinois,US,2023-03-10 04:21:03,,,66,5065,,,"Unassigned, Illinois, US",,7674.242424
2936,90040.0,Unassigned,Oklahoma,US,2023-03-10 04:21:03,,,152,2164,,,"Unassigned, Oklahoma, US",,1423.684211
367,,,,"Korea, North",2023-03-10 04:21:03,40.3399,127.5101,1,6,,,"Korea, North",0.003879,600.0
33,,,Unknown,Belgium,2023-03-10 04:21:03,,,63364,33814,,,"Unknown, Belgium",,53.364687
2108,90027.0,Unassigned,Minnesota,US,2023-03-10 04:21:03,,,896,421,,,"Unassigned, Minnesota, US",,46.986607
3119,72999.0,Unassigned,Puerto Rico,US,2023-03-10 04:21:03,,,25651,5823,,,"Unassigned, Puerto Rico, US",,22.700869
381,,,,MS Zaandam,2023-03-10 04:21:03,,,9,2,,,MS Zaandam,,22.222222
4013,,,,Yemen,2023-03-10 04:21:03,15.552727,48.516388,11945,2159,,,Yemen,40.048994,18.074508
1075,90012.0,Unassigned,Florida,US,2023-03-10 04:21:03,,,3307,396,,,"Unassigned, Florida, US",,11.974599
994,90008.0,Unassigned,Colorado,US,2023-03-10 04:21:03,,,261,25,,,"Unassigned, Colorado, US",,9.578544


El primer problema que podemos observar es que tenemos entradas donde por alguna razón los registros son incorrectos, y obtenemos un `Case_Fatality_Ratio` mayor a 100%. Esto se debe a que estas filas tienen más muertes confirmadas que casos en sí, lo cual es incorrecto y debemos ignorar por el momento. Podemos filtrar la columna `Case_Fatality_Ratio` y asegurarnos de que sea menor o igual a 100%, y posteriormente realizar el mismo procedimiento de obtener el top 10.

In [12]:
# Primeras diez filas del dataset filtrado
fatality_sorted_data = data[data["Case_Fatality_Ratio"] <= 100].sort_values(by="Case_Fatality_Ratio", ascending=False)
fatality_sorted_data.head(10)

Unnamed: 0,FIPS,Admin2,Province_State,Country_Region,Last_Update,Lat,Long_,Confirmed,Deaths,Recovered,Active,Combined_Key,Incident_Rate,Case_Fatality_Ratio
33,,,Unknown,Belgium,2023-03-10 04:21:03,,,63364,33814,,,"Unknown, Belgium",,53.364687
2108,90027.0,Unassigned,Minnesota,US,2023-03-10 04:21:03,,,896,421,,,"Unassigned, Minnesota, US",,46.986607
3119,72999.0,Unassigned,Puerto Rico,US,2023-03-10 04:21:03,,,25651,5823,,,"Unassigned, Puerto Rico, US",,22.700869
381,,,,MS Zaandam,2023-03-10 04:21:03,,,9,2,,,MS Zaandam,,22.222222
4013,,,,Yemen,2023-03-10 04:21:03,15.552727,48.516388,11945,2159,,,Yemen,40.048994,18.074508
1075,90012.0,Unassigned,Florida,US,2023-03-10 04:21:03,,,3307,396,,,"Unassigned, Florida, US",,11.974599
994,90008.0,Unassigned,Colorado,US,2023-03-10 04:21:03,,,261,25,,,"Unassigned, Colorado, US",,9.578544
641,,,,Sudan,2023-03-10 04:21:03,12.8628,30.2176,63829,5017,,,Sudan,145.56457,7.860064
422,,,Michoacan,Mexico,2023-03-10 04:21:03,19.5665,-101.7068,115872,9037,,,"Michoacan, Mexico",2401.292659,7.799123
427,,,Puebla,Mexico,2023-03-10 04:21:03,19.0414,-98.2063,221279,16748,,,"Puebla, Mexico",3350.452596,7.568725


Ahora surge otro problema, y está relacionado a los países que tienen múltiples regiones. No nos interesa saber que el top 10 está formado por estados de Estados Unidos y México, por ejemplo, ya que lo que realmente necesitamos es esta data por país. Podemos obtener los datos que necesitamos agrupando por país con la función `groupby` y obteniendo el promedio de la columna objetivo con `mean`.

In [13]:
# Datos agrupados por país
country_fatality_ratio = data.groupby("Country_Region")["Case_Fatality_Ratio"].mean()
country_fatality_ratio

Country_Region
Afghanistan              3.769855
Albania                  1.075774
Algeria                  2.534476
Andorra                  0.344540
Angola                   1.835917
                          ...    
West Bank and Gaza       0.811686
Winter Olympics 2022     0.000000
Yemen                   18.074508
Zambia                   1.182333
Zimbabwe                 2.145863
Name: Case_Fatality_Ratio, Length: 201, dtype: float64

Con los datos obtenidos, podemos proceder a crear un nuevo DataFrame de Pandas que tenga como columnas el país y el promedio de la fatalidad de los casos. Con este nuevo dataset podemos sencillamente ordenar lo que teníamos y obtener el resultado que necesitamos, por país.

In [14]:
# Dataset necesario para solventar el problema de las regiones
country_fatality_ratio_df = country_fatality_ratio.reset_index()
country_fatality_ratio_df.columns = ["Country", "Average_Case_Fatality_Ratio"]
country_fatality_ratio_df

Unnamed: 0,Country,Average_Case_Fatality_Ratio
0,Afghanistan,3.769855
1,Albania,1.075774
2,Algeria,2.534476
3,Andorra,0.344540
4,Angola,1.835917
...,...,...
196,West Bank and Gaza,0.811686
197,Winter Olympics 2022,0.000000
198,Yemen,18.074508
199,Zambia,1.182333


Ya que tenemos el dataset anteriormente mencionado, únicamente hace falta realizar el mismo proceso de filtrado y ordenamiento de los datos con las funciones mencionadas. Este procedimiento nos devuelve el top 10 que necesitamos.

In [15]:
# Top 10 de países con mayor fatalidad de casos
country_fatality_ratio_df = country_fatality_ratio_df[country_fatality_ratio_df["Average_Case_Fatality_Ratio"] <= 100].sort_values(by="Average_Case_Fatality_Ratio", ascending=False)
country_fatality_ratio_df.head(10)

Unnamed: 0,Country,Average_Case_Fatality_Ratio
107,MS Zaandam,22.222222
198,Yemen,18.074508
169,Sudan,7.860064
174,Syria,5.505769
141,Peru,5.030036
164,Somalia,4.980969
117,Mexico,4.899717
54,Egypt,4.810774
17,Belgium,4.447057
186,US,4.201001
