# Explorando datos mundiales de COVID-19

In [None]:
import numpy as np
import pandas as pd

## Preparación de datos

1. Explore el archivo covid19_confirmados.csv y configure la función read_csv de pandas para importarlo como un DataFrame.
    - Utilice el nombre de país como índice principal
    - Elimine las columnas Lat y Long
    - Use TimeStamps para los "nombres de columna" asociados a fechas
    - Reduzca la columna Province/State, el DataFrame resultante debe tener los totales a nivel país

### Datos de casos confirmados

Primero, importamos los datos de casos confirmados a un dataframe

In [None]:
df_confirmados = pd.read_csv('./data/covid19_confirmados.csv')
df_confirmados.head(5)

Las primeras cuatro columnas identifican el lugar y las 400 columnas siguientes corresponden al número de casos en ese lugar, durante 400 días consecutivos.

Algunos países tienen solo una fila, otros tienen varias, cada una correspondiente a una provincia o estado.

Luego, reduciremos la columna 'Province/State' y dejaremos una fila por país. Para facilitar esa reducción, crearemos un MultiIndex con las columnas 'Country/Region' y 'Province/State'.

In [None]:
df_confirmados.set_index(keys=['Country/Region', 'Province/State'], drop=True,inplace=True)

In [None]:
df_confirmados.head(5)

Pero antes de hacer esa reducción, ordenaremos un poco más el dataframe.

Eliminamos las columnas "Lat" y "Long":

In [None]:
df_confirmados.drop(labels=['Lat', 'Long'], axis=1, inplace=True)

In [None]:
df_confirmados.head(5)

Luego, reinterpretamos las etiquetas de fecha como Timestamps en lugar de simples objetos.

Para eso, le aplicamos a cada columna la función `pd.to_datetime`.

In [None]:
df_confirmados.rename(mapper=pd.to_datetime, axis='columns', inplace=True);
df_confirmados.head(5)

Ahora sí reducimos el índice Province/State, para que quede solo una fila por país. Los valores para cada día serán la suma de casos dentro de las provincias para aquellos países en que habían varias provincias. Para los países que solo tenían una fila, el valor se mantiene. **TO DO**: Revisar que estas operaciones hayan quedado bien calculadas para ambos casos.

In [None]:
df_confirmados = df_confirmados.groupby(by='Country/Region').aggregate(np.sum)

In [None]:
df_confirmados.head(5)

### Datos de población por país

Importamos los datos, usando el país como índice principal.

Solo importamos los datos de nombre de país y población. No usaremos los otros.

In [None]:
df_poblacion = pd.read_csv('./data/population_by_country_2020.csv',usecols=['Country (or dependency)','Population (2020)'],index_col='Country (or dependency)')

df_poblacion.head(5)

Ordenamos los países por orden alfabético.

In [None]:
df_poblacion.sort_index(inplace=True)
df_poblacion.head(5)

Debemos encontrar las diferencias entre las etiquetas de los índices de los dataframes.

Primero, veamos los tamaños de ambos índices.

In [None]:
print('n° filas df confirmados:', len(df_confirmados.index))
print('n° filas df población:', len(df_poblacion.index))
print('diferencia:', abs(len(df_confirmados.index) - len(df_poblacion.index)))

Ahora, veamos qué etiquetas están en el dataframe de confirmados pero no en el de población.

In [None]:
df_confirmados.index.difference(df_poblacion.index)

In [None]:
len(_)

Ahora lo contrario, es decir, cuáles están en población pero no en confirmados.

In [None]:
df_poblacion.index.difference(df_confirmados.index)

In [None]:
len(_)

Hay varias diferencias entre los países incluidos en los dataframes. Por ejemplo: en un dataframe se usa el caracter '&' y en otros la palabra 'and' para nombrar a ciertos países. Además, hay diferencias semánticas y políticas en lo que se considera en la columna de los países.

En base a estas diferencias implementamos un procedimiento ad hoc para hacer que los países de ambos dataframes coincidan.

In [None]:
# Cambio de algunos símbolos
symbolChanges = [
    ['&', 'and'],
    ['St.', 'Saint'],
    ['ô', 'o']
]
for change in symbolChanges:
    df_poblacion.index = [country.replace(change[0], change[1]) for country in df_poblacion.index]


# Cambiamos valores específicos
fullChanges = [
    ['US','United States'],
    ['Burma','Myanmar'],
    ['Korea, South','South Korea'],
    ['Taiwan*','Taiwan'],
    ['Congo (Kinshasa)','DR Congo'],
    ['Congo (Brazzaville)','Congo'],
    ['Czechia','Czech Republic (Czechia)'],
    ['Saint Vincent and the Grenadines','Saint Vincent and Grenadines']
]

for change in fullChanges:  
    df_poblacion.index = [change[0] if country == change[1] else country for country in df_poblacion.index]


# Incluimos sectores dentro de otros ( sumando población )
includeChanges = [
    ['France','Wallis and Futuna'],
    ['France','New Caledonia'],
    ['France','French Guiana'],
    ['France','French Polynesia'],
    ['France','Guadeloupe'],
    ['France','Martinique'],
    ['France','Mayotte'],
    ['France','Réunion'],
    ['France','Saint Barthelemy'],
    ['France','Saint Pierre and Miquelon'],
    ['Denmark','Faeroe Islands'],
    ['Denmark','Greenland'],
    ['US','American Samoa'],
    ['US','Guam'],
    ['US','Northern Mariana Islands'],
    ['US','Puerto Rico'],
    ['US','U.S. Virgin Islands'],
    ['Israel','State of Palestine'],
    ['United Kingdom','Falkland Islands'],
    ['United Kingdom','Anguilla'],
    ['United Kingdom','Bermuda'],
    ['United Kingdom','British Virgin Islands'],
    ['United Kingdom','Cayman Islands'],
    ['United Kingdom','Channel Islands'],
    ['United Kingdom','Gibraltar'],
    ['United Kingdom','Isle of Man'],
    ['United Kingdom','Montserrat'],
    ['United Kingdom','Saint Helena'],
    ['United Kingdom','Turks and Caicos'],
    ['Netherlands','Aruba'],
    ['Netherlands','Caribbean Netherlands'],
    ['Netherlands','Curaçao'],
    ['Netherlands','Sint Maarten'],
    ['New Zealand','Cook Islands'],
    ['New Zealand','Niue'],
    ['New Zealand','Tokelau'],
    ['China','Hong Kong'],
    ['China','Macao'],
    ['Micronesia','Nauru'],
    ['Micronesia','Palau'],
    ['Morocco','Western Sahara']
]

for change in includeChanges:  
    df_poblacion.index = [change[0] if country == change[1] else country for country in df_poblacion.index]

# Suma población de lugares unidos
df_poblacion = df_poblacion.groupby(df_poblacion.index).sum()

df_poblacion.head(5)

3. Haga un merge de los DataFrame anteriores. El objetivo es asignar un valor de Population a cada elemento del primer DataFrame. Indique las filas donde no se puede realizar el merge y luego descártelas de su DataFrame final

In [None]:
# Elimina lugares en df de población
removePop = ['Kiribati', 'North Korea', 'Saint Martin', 'Tonga', 'Turkmenistan', 'Tuvalu']
df_poblacion = df_poblacion.drop(removePop,axis=0).sort_index()
df_poblacion.head(5)

In [None]:
# Elimina lugares en df de confirmados
removeCon = ['Diamond Princess', 'Kosovo', 'MS Zaandam', 'West Bank and Gaza']
df_confirmados = df_confirmados.drop(removeCon,axis=0).sort_index()
df_confirmados.head(5)

In [None]:
# Incluye la población al df de confirmados
df_confirmados.insert(0, 'Population', df_poblacion['Population (2020)'])
df_confirmados.head(5)

4. Repita el procedimiento anterior para los archivos covid19_recuperados.csv y covid19_muertes.csv

In [None]:
# Importamos datasets
df_recuperados = pd.read_csv('./data/covid19_recuperados.csv',index_col='Country/Region')
df_muertes = pd.read_csv('./data/covid19_decesos.csv',index_col='Country/Region')

# Elimina columnas Lat, Long y Province/State
df_recuperados = df_recuperados.drop(['Lat','Long','Province/State'],axis=1)
df_muertes = df_muertes.drop(['Lat','Long','Province/State'],axis=1)

# Convierte nombre de columnas a datetime64
df_recuperados.columns = pd.to_datetime(df_recuperados.columns).tolist()
df_muertes.columns = pd.to_datetime(df_muertes.columns).tolist()

# Compacta las filas del mismo país en una y suma sus valores
df_recuperados = df_recuperados.groupby("Country/Region").sum()
df_muertes = df_muertes.groupby("Country/Region").sum()

# Elimina Filas Conflictivas
df_recuperados = df_recuperados.drop(removeCon,axis=0).sort_index()
df_muertes = df_muertes.drop(removeCon,axis=0).sort_index()

# Incluye la población
df_recuperados.insert(0, 'Population', df_poblacion['Population (2020)'])
df_muertes.insert(0, 'Population', df_poblacion['Population (2020)'])

In [None]:
# Verifica recuperados
df_recuperados.head(5)

In [None]:
# Verifica muertes
df_muertes.head(5)

In [None]:
# Dudas:

In [None]:
# Unir Wallis and Futuna con Francia ???
# Unir New Caledonia con Francia ???
# Unir French Guiana con Francia ???
# Unir French Polynesia con Francia ???
# Unir Guadeloupe con Francia ???
# Unir Martinique con Francia ???
# Unir Mayotte con Francia ???
# Unir Réunion con Francia ???
# Unir Saint Barthelemy con Francia ???
# Unir Saint Pierre and Miquelon con Francia ???
# Unir Faeroe Islands con Dinamarca ???
# Unir Greenland con Dinamarca ???
# Unir American Samoa con USA ???
# Unir Guam con USA ???
# Unir Northern Mariana Islands con USA ???
# Unir Puerto Rico con USA ???
# Unir U.S. Virgin Islands con USA ???
# Unir palestina con isrrael ???
# Unir Falkland Islands (malvinas) con UK ???
# Unir Anguilla con UK ???
# Unir Bermudas con UK ???
# Unir British Virgin Islands con UK ???
# Unir Cayman Island con UK ???
# Unir Channel Islands con UK ???????????????????????????????????????
# Unir Gibraltar con UK ???
# Unir Isle of Man con UK ???
# Unir Montserrat con UK ???
# Unir Saint Helena con UK ???
# Unir Turks and Caicos con UK ???
# Unir Aruba con paises bajos ???
# Unir Caribbean Netherlands con paises bajos ???
# Unir Curaçao con paises bajos ???
# Unir Sint Maarten con Paises Bajos ???
# Unir Cook Islands con Nueva Zelanda ???
# Unir Niue con Nueva Zelanda ???
# Unir Tokelau con Nueva Zelanda ???
# Unir Hong Kong con China ???
# Unir Macao con China ???
# Unir Nauru con Micronesia ???
# Unir Palau con Micronesia ???
# Unir Western Sahara con Morocco ???

# Saint Martin unir con Francia o Paises Bajos ???

# Descartar Kiribati ??
# Descartar North Korea ??
# Descartar Tonga ??
# Descartar Turkmenistan ??
# Descartar Tuvalu ??
# Descartar Palau o añadir a Micronesia ??

## Análisis global (1.5pt)
1. Obtenga la cantidad total a la fecha (26 de Abril) de los casos (a) confirmados, (b) cerrados (recuperados más decesos) y (c) activos (confirmados menos cerrados) por país. En base a estas cantidades calcule el porcentaje de
    - casos activos con respecto al total de confirmados
    - decesos con respecto al total de casos cerrados
    - recuperados con respecto al total de casos cerrados

In [None]:
# Totales

# Calcula casos confirmados globales hasta el 26 de abril
total_confirmados = df_confirmados[df_confirmados.columns[-1]]

# Calcula casos recuperados globales hasta el 26 de abril
total_recuperados = df_recuperados[df_recuperados.columns[-1]]

# Calcula decesos globales hasta el 26 de abril
total_muertes = df_muertes[df_muertes.columns[-1]]

# Calcula casos cerrados (recuperados más decesos) hasta el 26 de abril
total_cerrados = total_recuperados + total_muertes

# Calcula casos activos (confirmados menos cerrados) hasta el 26 de abril
total_activos = total_confirmados - total_cerrados

# Porcentajes

# Porcentaje de casos activos con respecto al total de confirmados
p_activos_confirmados = 100.0 * total_activos.astype('float64')/total_confirmados.astype('float64')

# Porcentaje de decesos con respecto al total de casos cerrados
p_muertes_cerrados = 100.0 * total_muertes.astype('float64')/total_cerrados.astype('float64')

# Porcentaje de recuperados con respecto al total de casos cerrados
p_recuperados_cerrados = 100.0 * total_recuperados.astype('float64')/total_cerrados.astype('float64')

2. Luego calcule las siguientes tasas en base a información a la fecha
    - Tasa de incidencia: confirmados por 100.000 dividido población total
    - Tasa de recuperación: recuperados por 100.000 dividido población total
    - Tasa de mortalidad: decesos por 100.000 dividido población total

In [None]:
# Tasas

# Población por país (double)
poblacion_total = df_poblacion['Population (2020)'].astype('float64')

# Tasa de incidencia
tasa_incidencia = (100000.0 * total_confirmados)/poblacion_total

# Tasa de recuperación
tasa_recuperacion = (100000.0 * total_recuperados)/poblacion_total

# Tasa de mortalidad
tasa_mortalidad = (100000.0 * total_muertes)/poblacion_total

En el archivo de recuperados, varios países presentan información aparentemente errónea.

Por ejemplo, en Estados Unidos ('US') y en Suecia ('Sweden') se reportan cero recuperados para todos los días. En otros países se reportan cantidades decrecientes de recuperados, lo cual no tiene sentido, ya que el resto de países reportan cantidad acumulada de recuperados.

In [None]:
recuperados_cero = ['US', 'Sweden', 'Serbia', 'Belgium']
recuperados_decrecientes = []

3. En base a lo anterior muestre los nombres y los valores de los 5 países con
    - La mayor y menor tasa de incidencia, respectivamente
    - La mayor y menor tasa de recuperación, respectivamente
    - La mayor y menor tasa de mortalidad, respectivamente

In [None]:
# Ordenamos en orden creciente cada df de tasas
tasa_incidencia_sorted = tasa_incidencia.sort_values()
tasa_recuperacion_sorted = tasa_recuperacion.sort_values()
tasa_mortalidad_sorted = tasa_mortalidad.sort_values()

# Obtenemos 5 mínimos en cada caso
tasa_incidencia_mins = tasa_incidencia_sorted[:5]
tasa_recuperacion_mins = tasa_recuperacion_sorted[:9] # Primeros 4 no son confiables
tasa_mortalidad_mins = tasa_mortalidad_sorted[:5]

# Obtenemos 5 máximos en cada caso
tasa_incidencia_maxs = tasa_incidencia_sorted[-5:]
tasa_recuperacion_maxs = tasa_recuperacion_sorted[-5:]
tasa_mortalidad_maxs = tasa_mortalidad_sorted[-5:]

In [None]:
# Muestra min y max tasas de incidencia
print("Paises con tasas de incidencia mínima:")
display(tasa_incidencia_mins)
print("Paises con tasas de incidencia máxima:")
display(tasa_incidencia_maxs)

In [None]:
# Muestra min y max tasas de recuperacion
print("Paises con tasas de recuperación mínima:")
display(tasa_recuperacion_mins)
print("Paises con tasas de recuperación máxima:")
display(tasa_recuperacion_maxs)

Serbia, Bélgica, Suecia y Estados Unidos reportan cero recupardos, y estimamos que esa información podría no ser verídica.

In [None]:
# Muestra min y max tasas de mortalidad
print("Paises con tasas de mortalidad mínima:")
display(tasa_mortalidad_mins)
print("Paises con tasas de mortalidad máxima:")
display(tasa_mortalidad_maxs)

4. Responda, analice y discuta: ¿En qué lugar/ranking se encuentra Chile con respecto a cada una de las métricas de los puntos anteriores? ¿A qué países de la OCDE se parece más? ¿A qué paises de latinoamérica se parece más?

In [88]:
paises_ocde = ['Canada', 'United States', 'United Kingdom', 'Denmark', 'Iceland', 'Norway',
               'Turkey','Spain', 'Portugal', 'France', 'Ireland', 'Belgium', 'Germany',
               'Greece', 'Sweden', 'Switzerland','Austria', 'Netherlands', 'Luxembourg',
               'Italy', 'Japan', 'Finland', 'Australia', 'New Zealand', 'Mexico',
               'Czech Republic (Czechia)','Hungary', 'Poland', 'South Korea', 'Slovakia',
               'Chile', 'Slovenia', 'Israel', 'Estonia', 'Latvia', 'Lithuania', 'Colombia']

# tasa_incidencia_sorted_solo_ocde = tasa_incidencia.ix[paises_ocde]


AttributeError: 'Series' object has no attribute 'ix'

In [87]:
print('Tasa de incidencia en Chile:', tasa_incidencia.at['Chile'])
print('Puesto de Chile en el ranking mundial de incidencia:',
      tasa_incidencia_sorted.index.get_loc('Chile'), '\n')

print('Tasa de recuperación en Chile:', tasa_recuperacion.at['Chile'])
print('Puesto de Chile en el ranking mundial de recuperacion:',
      tasa_recuperacion_sorted.index.get_loc('Chile'), '\n')

print('Tasa de mortalidad en Chile:', tasa_recuperacion.at['Chile'])
print('Puesto de Chile en el ranking mundial de mortalidad:',
      tasa_mortalidad_sorted.index.get_loc('Chile'), '\n')

Tasa de incidencia en Chile: 6108.958633515813
Puesto de Chile en el ranking mundial de incidencia: 147 

Tasa de recuperación en Chile: 5745.315716882119
Puesto de Chile en el ranking mundial de recuperacion: 160 

Tasa de mortalidad en Chile: 5745.315716882119
Puesto de Chile en el ranking mundial de mortalidad: 156 

