# Caso de Estudio COVID-19

Laura Tamath |  Martín España | Sofía Rueda

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import datetime 
import matplotlib.pyplot as plt
sns.set()

Renombrar columnas para que tengan un formato standard

In [2]:
'''
Cambia el nombre de las columnas del archivo de datos sin procesar, para que
estos sean mas legibles y todos esten en formato de minusculas
'''
def covid_rename_columns(input_data):
    output_data = input_data.rename(
        columns = {'Province/State':'subregion',
                'Country/Region':'country',
                'Lat':'lat',
                'Long':'long'
        }
    )
    return(output_data)

Reformatear los datos para que queden en una forma “tidy”

In [3]:
'''
Como en los datos sin procesar, las fechas estan como columnas separadas, entonces se 
crea un proceso donde se remodela la fecha para crear una nueva columna de fechas, llamada DATE_RAW
y una columna de value_Var_name 
'''
def covid_melt_data(input_data, value_var_name):
    output_data = input_data.melt(id_vars = ['country','subregion', 'lat', 'long'],
                                var_name ='date_RAW',
                                value_name = value_var_name
    )
    return(output_data)

Convertir las fechas al formato datetime

In [4]:
'''
Se desea tener el formato de fecha y hora.
Dentro de esta función se usa el metodo de asignación de Pandas para crear una nueva 
variable, así se convierten los datos de date_RAW al formato desedo (que estan en formato de cadena).
'''
def covid_convert_dates(input_data):
    output_data = input_data.assign(
        date = pd.to_datetime(input_data.date_RAW, format='%m/%d/%y')
    )
    output_data.drop(columns=['date_RAW'], inplace=True)
    return(output_data)

Re-ordenar los datos:  colocar la fecha entre las primeras columnas, ordenar los registros por país y fecha

In [5]:
'''
Como las filas y columnas estaban desordenadas, con esta funcion se reordenan los datos para poner el pais, subregion, fecha, lat y long.

'''
def covid_rearrange_data(input_data, value_var_name):
    output_data = (input_data.filter(['country','subregion','date','lat','long',value_var_name]).sort_values(['country','subregion','date','lat','long']).reset_index(drop=True))
    return(output_data)


In [6]:
'''
Como los datos son a tiempo real, se debe de insertar la URL, no el archivo tal cual.
el segundo parametro es value_var_name porque asi se va a poder crerar diferentes variables para los disitintos
conjuntos de datos.
'''
def covid_get_data(input_url, value_var_name):
    covid_data_inprocess = pd.read_csv(input_url)
    covid_data_inprocess = covid_rename_columns(covid_data_inprocess)
    covid_data_inprocess = covid_melt_data(covid_data_inprocess, value_var_name)
    covid_data_inprocess = covid_convert_dates(covid_data_inprocess)
    covid_data_inprocess = covid_rearrange_data(covid_data_inprocess, value_var_name)
    return(covid_data_inprocess)

Cargar datos

In [7]:
url_confirmed = 'https://data.humdata.org/hxlproxy/api/data-preview.csv?url=https%3A%2F%2Fraw.githubusercontent.com%2FCSSEGISandData%2FCOVID-19%2Fmaster%2Fcsse_covid_19_data%2Fcsse_covid_19_time_series%2Ftime_series_covid19_confirmed_global.csv&filename=time_series_covid19_confirmed_global.csv'
url_deaths = 'https://data.humdata.org/hxlproxy/api/data-preview.csv?url=https%3A%2F%2Fraw.githubusercontent.com%2FCSSEGISandData%2FCOVID-19%2Fmaster%2Fcsse_covid_19_data%2Fcsse_covid_19_time_series%2Ftime_series_covid19_deaths_global.csv&filename=time_series_covid19_deaths_global.csv'
url_recovered = 'https://data.humdata.org/hxlproxy/api/data-preview.csv?url=https%3A%2F%2Fraw.githubusercontent.com%2FCSSEGISandData%2FCOVID-19%2Fmaster%2Fcsse_covid_19_data%2Fcsse_covid_19_time_series%2Ftime_series_covid19_recovered_global.csv&filename=time_series_covid19_recovered_global.csv'

covid_confirmed = covid_get_data(url_confirmed, 'confirmed')
covid_deaths = covid_get_data(url_deaths, 'dead')
covid_recovered = covid_get_data(url_recovered,'recovered')

In [8]:
print(covid_confirmed)

            country subregion       date        lat       long  confirmed
0       Afghanistan       NaN 2020-01-22  33.939110  67.709953          0
1       Afghanistan       NaN 2020-01-23  33.939110  67.709953          0
2       Afghanistan       NaN 2020-01-24  33.939110  67.709953          0
3       Afghanistan       NaN 2020-01-25  33.939110  67.709953          0
4       Afghanistan       NaN 2020-01-26  33.939110  67.709953          0
...             ...       ...        ...        ...        ...        ...
286683     Zimbabwe       NaN 2022-10-05 -19.015438  29.154857     257568
286684     Zimbabwe       NaN 2022-10-06 -19.015438  29.154857     257655
286685     Zimbabwe       NaN 2022-10-07 -19.015438  29.154857     257655
286686     Zimbabwe       NaN 2022-10-08 -19.015438  29.154857     257655
286687     Zimbabwe       NaN 2022-10-09 -19.015438  29.154857     257655

[286688 rows x 6 columns]


In [9]:
print(covid_deaths)

            country subregion       date        lat       long  dead
0       Afghanistan       NaN 2020-01-22  33.939110  67.709953     0
1       Afghanistan       NaN 2020-01-23  33.939110  67.709953     0
2       Afghanistan       NaN 2020-01-24  33.939110  67.709953     0
3       Afghanistan       NaN 2020-01-25  33.939110  67.709953     0
4       Afghanistan       NaN 2020-01-26  33.939110  67.709953     0
...             ...       ...        ...        ...        ...   ...
286683     Zimbabwe       NaN 2022-10-05 -19.015438  29.154857  5603
286684     Zimbabwe       NaN 2022-10-06 -19.015438  29.154857  5604
286685     Zimbabwe       NaN 2022-10-07 -19.015438  29.154857  5604
286686     Zimbabwe       NaN 2022-10-08 -19.015438  29.154857  5604
286687     Zimbabwe       NaN 2022-10-09 -19.015438  29.154857  5604

[286688 rows x 6 columns]


In [10]:
print(covid_recovered)

            country subregion       date        lat       long  recovered
0       Afghanistan       NaN 2020-01-22  33.939110  67.709953          0
1       Afghanistan       NaN 2020-01-23  33.939110  67.709953          0
2       Afghanistan       NaN 2020-01-24  33.939110  67.709953          0
3       Afghanistan       NaN 2020-01-25  33.939110  67.709953          0
4       Afghanistan       NaN 2020-01-26  33.939110  67.709953          0
...             ...       ...        ...        ...        ...        ...
271803     Zimbabwe       NaN 2022-10-05 -19.015438  29.154857          0
271804     Zimbabwe       NaN 2022-10-06 -19.015438  29.154857          0
271805     Zimbabwe       NaN 2022-10-07 -19.015438  29.154857          0
271806     Zimbabwe       NaN 2022-10-08 -19.015438  29.154857          0
271807     Zimbabwe       NaN 2022-10-09 -19.015438  29.154857          0

[271808 rows x 6 columns]


In [11]:
print(len(covid_confirmed))
print(len(covid_deaths))
print(len(covid_recovered))

286688
286688
271808


Fusión (Merge) de los tres archivos en uno solo,eliminando columnas repetidas

In [12]:
covid_deaths.drop(columns = ['lat', 'long'], inplace = True)
covid_recovered.drop(columns = ['lat', 'long'], inplace = True)

In [13]:
covid_data = (covid_confirmed
.merge(covid_deaths, on = ['country','subregion','date'], how ='left')
.merge(covid_recovered, on = ['country','subregion','date'], how ='left')
)

In [14]:
print(covid_data)

            country subregion       date        lat       long  confirmed  \
0       Afghanistan       NaN 2020-01-22  33.939110  67.709953          0   
1       Afghanistan       NaN 2020-01-23  33.939110  67.709953          0   
2       Afghanistan       NaN 2020-01-24  33.939110  67.709953          0   
3       Afghanistan       NaN 2020-01-25  33.939110  67.709953          0   
4       Afghanistan       NaN 2020-01-26  33.939110  67.709953          0   
...             ...       ...        ...        ...        ...        ...   
286683     Zimbabwe       NaN 2022-10-05 -19.015438  29.154857     257568   
286684     Zimbabwe       NaN 2022-10-06 -19.015438  29.154857     257655   
286685     Zimbabwe       NaN 2022-10-07 -19.015438  29.154857     257655   
286686     Zimbabwe       NaN 2022-10-08 -19.015438  29.154857     257655   
286687     Zimbabwe       NaN 2022-10-09 -19.015438  29.154857     257655   

        dead  recovered  
0          0        0.0  
1          0        0.0

Realización de un Análisis Exploratorio de Datos.

Generación de nueva información calculando nuevas columnas como:
- casos nuevos por día, 
- casos infectados

Normalización de los datos re-calculando todo en base de “por millón de habitantes"

Realización de visualizaciones interactivas, simples, que podrían ser de interés para alguien
que esté real