In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import curve_fit

plt.rc('text', usetex=True)
plt.rc('font', family='serif')

In [2]:
url = 'https://raw.githubusercontent.com/CSSEGISandData/COVID-19/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_confirmed_global.csv'
covid_global = pd.read_csv(url)
covid_global.drop(['Province/State', 'Lat', 'Long'], axis = 1, inplace = True)
# Agrupamos por país pues algunos países vienen desglosados por ciudad
covid_global = covid_global.groupby('Country/Region').sum()
covid_global.head()

Unnamed: 0_level_0,1/22/20,1/23/20,1/24/20,1/25/20,1/26/20,1/27/20,1/28/20,1/29/20,1/30/20,1/31/20,...,4/7/20,4/8/20,4/9/20,4/10/20,4/11/20,4/12/20,4/13/20,4/14/20,4/15/20,4/16/20
Country/Region,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Afghanistan,0,0,0,0,0,0,0,0,0,0,...,423,444,484,521,555,607,665,714,784,840
Albania,0,0,0,0,0,0,0,0,0,0,...,383,400,409,416,433,446,467,475,494,518
Algeria,0,0,0,0,0,0,0,0,0,0,...,1468,1572,1666,1761,1825,1914,1983,2070,2160,2268
Andorra,0,0,0,0,0,0,0,0,0,0,...,545,564,583,601,601,638,646,659,673,673
Angola,0,0,0,0,0,0,0,0,0,0,...,17,19,19,19,19,19,19,19,19,19


# Punto 1

Para los países tomemos los 10 con más casos y a México.

In [4]:
total_casos = [covid_global.loc[pais][-1] for pais in covid_global.index]

totales = pd.DataFrame(data = {'Países':list(covid_global.index), 'Total':total_casos})
totales.sort_values(by = 'Total', ascending = False).head(10)

Unnamed: 0,Países,Total
171,US,667801
156,Spain,184948
84,Italy,168941
61,France,147091
65,Germany,137698
175,United Kingdom,104145
36,China,83403
80,Iran,77995
170,Turkey,74193
16,Belgium,34809


In [None]:
paises = ['US', 'Spain', 'Italy', 'Germany', 'France', 'China', 
          'Iran', 'United Kingdom', 'Turkey', 'Switzerland', 'Mexico']

In [None]:
# Diccionario de fechas, nos servirá más adelante y también para que todas las fechas tengan el mismo formato.

dict_fechas = {}

inicial_enero = 22
inicial_febrero = 1
inicial_marzo = 1
inicial_abril = 1
inicial_mayo = 1

for i in range(200):
    
    if i <= 10:     
        fecha = str(inicial_enero) + '/Ene/20'
        inicial_enero = inicial_enero + 1
        dict_fechas[i] = fecha
    elif i <= 10+29:
        fecha = str(inicial_febrero) + '/Feb/20'
        inicial_febrero = inicial_febrero + 1
        dict_fechas[i] = fecha
    elif i <= 10+29+31:
        fecha = str(inicial_marzo) + '/Mar/20'
        inicial_marzo = inicial_marzo + 1
        dict_fechas[i] = fecha
    elif i <= 10+29+31+30:
        fecha = str(inicial_abril) + '/Abr/20'
        inicial_abril = inicial_abril + 1
        dict_fechas[i] = fecha
    elif i <= 10+29+31+30+31:
        fecha = str(inicial_mayo) + '/May/20'
        inicial_mayo = inicial_mayo + 1
        dict_fechas[i] = fecha

In [None]:
plt.figure(figsize=(12,7))

for pais in paises:
    
    if pais == 'Mexico':
        kwargs = {'alpha':1.0, 'linewidth':3.0}
    else:
        kwargs = {'alpha':0.4, 'linewidth':1.0}
    
    fechas = [dict_fechas[i] for i in range(len(covid_global.columns))]
    casos = covid_global.loc[pais]
    
    plt.scatter(fechas, casos, s = 8, label = '', **kwargs)
    plt.plot(fechas, casos, label = pais, **kwargs)
    plt.xticks(rotation = 45)
    plt.xticks(np.arange(0, len(fechas), step=3))

    plt.xlabel(r'\textbf{Fecha}')
    plt.ylabel(r'\textbf{Número de casos}')

# plt.yscale('log')
plt.legend(bbox_to_anchor=(1.2, 1.01), loc='upper right', ncol=1)
plt.grid()
plt.show()

In [None]:
plt.figure(figsize=(12,7))

for pais in paises:
    
    if pais == 'Mexico':
        kwargs = {'alpha':1.0, 'linewidth':3.0}
    else:
        kwargs = {'alpha':0.4, 'linewidth':1.0}
    
    fechas = [dict_fechas[i] for i in range(len(covid_global.columns))]
    casos = covid_global.loc[pais]
    
    plt.scatter(fechas, casos, s = 8, label = '', **kwargs)
    plt.plot(fechas, casos, label = pais, **kwargs)
    plt.xticks(rotation = 45)
    plt.xticks(np.arange(0, len(fechas), step=3))

    plt.xlabel(r'\textbf{Fecha}')
    plt.ylabel(r'\textbf{Número de casos (logscale)}')

plt.yscale('log')
plt.legend(bbox_to_anchor=(1.2, 1.01), loc='upper right', ncol=1)
plt.grid()
plt.show()

# Punto 2

Ahora para hacer el modelo tenemos que 

$$ I_{n+1} = (E+1)I_{n}, $$

donde se cumple que 

- Se cumple que $E + 1 \geq 1$.
- Cuando $E = 0$ se tiene que $I_{n+1} = I_{n}$ por lo que no habrá incremento en el día siguiente.
- Cuando $E = 1$ se tiene que $I_{n+1} = 2I_{n}$ por lo que el incremento será del doble al día siguiente.
- Se puede ver que $(E + 1) = \frac{I_{n+1}}{I_{n}}$, por lo tanto, si tenemos información de $I_{n}$ e $I_{n+1}$ entonces es posible conocer el valor de $(E + 1)$ para el día $n + 1$.

Para calcular $E+1$ tomamos un promedio de los distintos $\frac{I_{n+1}}{I_{n}}$ empezando por el $n$ tal que $I_{n} \geq 20$.

In [None]:
def fit_and_predict(data, pais = 'Mexico', umbral = 50, adelante = 0):
    """
    Esta función ajusta los datos al modelo I_(n+1) = (E+1)I_n.
    
    data: pandas.DataFrame, arreglo con los datos a ajustar.
    pais: str, opcional, país al cuál queremos ajustar sus datos, default: 'Mexico'.
    umbral: int, opcional, número de casos a partir del cual empezaremos a calcular
            (E+1), default: 50.
    adelante: int, opcional, número de días hacia adelante que queremos predecir a 
              partir del último día, default: 0.
              
    Returns: inicio: int, día en el que hubo más de 'umbral' pacientes confirmados.
             fechas, data.loc['Mexico']: fechas y casos reales .
             fechas_pred, ys_pred: casos predichos con el modelo y sus respectivas fechas.
    """
    
    fin = len(data.columns)
    
    ys = data.loc[pais]
    
    # Encontramos el día en que hubo más de 20 pacientes confirmados
    inicio = 0
    while ys[inicio] < umbral:
        inicio = inicio+1
           
    es = [ys[i]/ys[i-1] for i in range(inicio,fin) if ys[i-1] != 0]
    
    e_1 = np.mean(es)
    
    print('E+1 = {:.3f}'.format(e_1))
    
    xs_pred = np.array([i for i in range(inicio, fin + adelante)])
    ys_pred = [ys[inicio]*(e_1)**(i-inicio) for i in range(inicio, fin+adelante)]
    
    fechas = [dict_fechas[i] for i in range(len(data.columns))]
    fechas_pred = [dict_fechas[x] for x in xs_pred]
       
    return inicio, fechas, data.loc[pais], fechas_pred, ys_pred

In [None]:
inicio, xs, ys, xs_pred, ys_pred = fit_and_predict(covid_global, umbral = 50, adelante = 2)

In [None]:
plt.figure(figsize=(12,7))

plt.scatter(xs, ys, s = 8, label = '')
plt.plot(xs, ys, label = 'Casos')
plt.plot(xs_pred, ys_pred, label = 'Predicción')

plt.xticks(rotation=45)
plt.xticks(np.arange(0, len(xs_pred) + inicio, step=3))

plt.grid()
plt.legend()

plt.xlabel(r'\textbf{Fecha}')
plt.ylabel(r'\textbf{Número de casos}')
plt.title(r'\textbf{Casos confirmados de COVID19 en México}')

plt.show()

Jugando con los valores del umbral (a partir de cuántos casos el modelo se ajusta mejor) con alrededor de 50 parece ser lo mejor, así, obtenemos que $E+1 = 1.199$, de modo que de un día al otro esperamos que haya 1.199 de veces nuevos casos. Además, al 8 de abril predecimos que habrá 4092 casos. Sin embargo, no se ajusta tan bien, tratemos de usar una función exponencial más general, la cuál es

$$ f(x | a,b,c) = ba^{x} + c. $$

Entonces tratemos de ajustar los datos a

$$ f(x | a,b,c) = e^{ax + b} + c, $$ 

recordemos que $a^{x} = e^{x\log a} \ (a > 0)$, de modo que nuestro modelo es equivalente a

$$ \begin{align*}
f(x | a,b,c) &= e^{ax + b} + c\\ 
&= e^{b}e^{ax} + c \\
&= b'e^{x\log a'} + c \quad \text{donde } \log a' = a, \ b' = e^{b} \\
&= b' a'^{x} + c,
\end{align*} $$

que es lo que queremos (daba valores extraños al ajustar $b' a'^{x} + c$, al ponerla como $e^{ax + b} + c$ salía bien).

In [None]:
def func(x, a, b, c):
    """
    Función exponencial a ajustarse.
    """
    return np.exp(a*x + b) + c

In [None]:
def fit_and_predict_exp(data, pais = 'Mexico', inicio = 0, adelante = 0):
    """
    Esta función ajusta los datos al modelo f(x | a,b,c) = ba^{x} + c.
    
    data: pandas.DataFrame, arreglo con los datos a ajustar.
    pais: str, opcional, país al cuál queremos ajustar sus datos, default: 'Mexico'.
    umbral: int, opcional, número de casos a partir del cual empezaremos a calcular
            (E+1), default: 50.
    adelante: int, opcional, número de días hacia adelante que queremos predecir a 
              partir del último día, default: 0.
              
    Returns: inicio: int, día en el que hubo más de 'umbral' pacientes confirmados.
             fechas, data.loc['Mexico']: fechas y casos reales .
             fechas_pred, ys_pred: casos predichos con el modelo y sus respectivas fechas.
    """
    
    
    fin = len(data.columns)
    
    xs = [i for i in range(inicio,fin)]
    ys = data.loc[pais][inicio:fin]
    
    popt, pcov = curve_fit(func, xs, ys)
    a,b,c = popt
    
    print('a = {:.3f}, b = {:.3f}, c = {:.3f}'.format(a,b,c))
    
    xs_pred = np.array([i for i in range(inicio, fin + adelante)])
    ys_pred = func(xs_pred, a,b,c)
    
    fechas = [dict_fechas[i] for i in range(len(data.columns))]
    fechas_pred = [dict_fechas[x] for x in xs_pred]
    
    return fechas, data.loc[pais], fechas_pred, ys_pred

In [None]:
inicio = 0
adelante = 2 # tratemos de predecir 2 días adelante

xs, ys, xs_pred, ys_pred = fit_and_predict_exp(covid_global, pais = 'US', inicio = inicio, adelante = adelante)

In [None]:
plt.figure(figsize=(12,7))

plt.scatter(xs, ys, s = 8, label = '')
plt.plot(xs, ys, label = 'Casos')
plt.plot(xs_pred, ys_pred, label = 'Predicción')

plt.xticks(rotation=45)
plt.xticks(np.arange(0, len(xs_pred) + inicio, step=3))

plt.grid()
plt.legend()

plt.xlabel(r'\textbf{Fecha}')
plt.ylabel(r'\textbf{Número de casos}')
plt.title(r'\textbf{Casos confirmados de COVID19 en México}')

plt.show()

Así se ajusta mucho mejor, además, predecimos que para el 8 de abril habrá 3252 casos.

# Mapa

Ahora hagamos un mapa (estoy aprendiendo a usar la biblioteca **folium** porque la necesito para mi proyecto) de cómo se va propagando el virus en el mundo en las últimas semanas.

In [None]:
import folium
from folium.plugins import TimeSliderChoropleth
from folium.plugins import MousePosition
import os
import geojson

## Estandarizar nombres

Los nombres de algunos países en el geojson que uso para hacer el mapa y el del dataset del COVID19 no coinciden, por lo que hay que hacer que coincidan, lo cual hago con un diccionario.

In [None]:
dir_geojson_to_covid = {'Bahamas':'The Bahamas', 
                       'Burma':'Myanmar', 
                       'Cabo Verde':'Cape Verde',
                       'Congo (Brazzaville)':'Republic of Congo',
                       'Congo (Kinshasa)':'Democratic Republic of the Congo',
                       "Cote d'Ivoire":'Ivory Coast',
                       'Czechia':'Czech Republic',
                       'Eswatini':'Swaziland',
                       'Guinea-Bissau':'Guinea Bissau',
                       'Holy See':'Vatican',
                       'Korea, South':'South Korea',
                       'North Macedonia':'Macedonia',
                       'Serbia':'Republic of Serbia',
                       'Taiwan*':'Taiwan',
                       'Tanzania':'United Republic of Tanzania',
                       'Timor-Leste':'East Timor',
                       'US':'United States of America',
                       'West Bank and Gaza':'Palestine'}

También hay datos de dos cruceros que tenían personas afectadas, pero los quitaré porque no son países.

In [None]:
covid_global.drop(['Diamond Princess','MS Zaandam'], inplace = True)
covid_global = covid_global.reset_index()

In [None]:
def same_name(x):
    if x in dir_geojson_to_covid.keys():
        return dir_geojson_to_covid[x]
    else:
        return x

In [None]:
covid_global['Country/Region'] = covid_global['Country/Region'].apply(same_name)

In [None]:
covid_global = covid_global.set_index('Country/Region')
covid_global.head()

In [None]:
n = len(covid_global.columns)

datetime_index = pd.date_range(start='2020-01-22', periods=n, freq = 'D')
dt_index_epochs = datetime_index.astype(np.int64) // 10**9
dt_index = dt_index_epochs.astype('U10')

Leemos los datos del geojson, que tiene las fronteras de todos los países del mundo

In [None]:
import geopandas as gpd

gdf = gpd.read_file('https://raw.githubusercontent.com/datasets/geo-countries/master/data/countries.geojson')
gdf.head()

También necesitamos un mapa de colores, lo hago asimétrico debido que si lo hago simétrico sólo se notan los países con mayor número de casos (China, US, Italia, etc) y los demás países parecen no estar afectados, lo cual no es cierto.

In [None]:
import branca.colormap as cm

hoy = covid_global.columns[-1]

colormap = cm.LinearColormap(colors = ['#12C600', '#DFE600', '#F8900B', '#E90000', '#E90000'],
                             index = [0, 2000, 50000, 100000, 300000],
                             vmin = 0, vmax = covid_global[hoy].max())

colormap

In [None]:
dict_country = dict(zip(gdf.index, gdf['ADMIN']))

In [None]:
n = len(covid_global.columns)

styledata = {}

for country in gdf.index:
    
    if dict_country[country] in covid_global.index:
        casos = covid_global.loc[dict_country[country]]
        colores = [colormap(x) for x in casos]
    else:
        # A los que no tienen información les pongo negro de color
        colores = ['000000' for _ in range(n)]        
    
    df = pd.DataFrame(
        {'color': colores,
         'opacity': np.ones(n)},
        index=dt_index
    )
    styledata[country] = df

In [None]:
styledict = {
    str(country): data.to_dict(orient='index') for
    country, data in styledata.items()
}

En el siguiente mapa se muestra cómo va evolucionando la propagación del virus, empieza en China y luego se propaga a Europa, para después propagarse a el resto del mundo (de los países en negro no hay información). El mapa se ve mejor en el archivo 'Mapa/TimeSliderChoropleth.html'.

**Quitar los comentarios para hacer el mapa (el mapa pesa como 20 MB y no me dejaba subirlo a la plataforma.)**

In [None]:
# m = folium.Map([0, 0], tiles='OpenStreetMap', zoom_start=2)

# MousePosition().add_to(m)

# g = TimeSliderChoropleth(
#     gdf.to_json(),
#     styledict=styledict,
#     overlay = False,
#     control = False, 
#     show = False
# ).add_to(m)

# colormap.caption = 'Casos confirmados'
# colormap.add_to(m)

# m.save(os.path.join('Mapa', 'TimeSliderChoropleth.html'))

# m

In [None]:
# !jt -r
# !jt -t chesterish -T -N -kl