# Análisis de distribución de casos + de Madrid

## Objetivo

El procedimiento de comunicación de datos positivos de Covid de la Comunidad de Madrid se basa en comunicar un número total diarios, primera página de este pdf por ejemplo, mencionándose, a continuación, los que corresponden al día anterior. El resto se distribuyen entre días pasados. Nos preguntamos como se hace ese reparto, hasta cuando se "reparten" esos positivos, ¿cuánto hacia atrás se están llevando?, qué equivale a decir: con qué retraso se están asignando esos casos, de hoy por ejemplo, a sus fechas reales?.
En este trabajo vamos a intentar responder a esa pregunta

## Pasos a seguir

1. Descargaremos los ficheros pdf del repositorio de la Comunidad de Madrid, desde el 01 de Septiembre. Este es, como ejemplo, el [fichero](https://www.comunidad.madrid/sites/default/files/doc/sanidad/200901_cam_covid19.pdf)  del 1 de Septiembre.
2. Leeremos esos ficheros buscando las tablas de acumulado, que aparecen en la página 2 y 3 de ese documento.
3. Construiremos, con esa información, la "visión" de casos que se ha tenido en cada uno de los días desde Septiembre, guardándolas como columnas de un `pandas`
4. A continuación calcularemos los incrementales diarios de cada día, es decir los positivos comunicados en el documento de un día en concreto: a qué días se están asignando.
5. En este punto tendremos un `pandas`con los datos de cada día de publicación en columna, y cada fila representa el día al que se asocia.
6. Por último desplazaremos cada columna para que cada fila represente de manera relativa días de diferencia con el de publicación (así hablaremos de que un dato presentado en día `t` se ha asignado a un día `t-3` por ejemplo, tres días anteriores.
7. Finalmente preparemos un gráfico para visualizar este comportamiento.

Para los pasos 1 y 2 he utilizado el script escrito por [@alfonsotwr](https://twitter.com/alfonsotwr) , disponible en su [github](https://github.com/alfonsotwr/snippets/tree/master/covidia-cam). Todo el código de esos pasos es suyo. 
Manos a la obra

## Código

Tenemos un montón de librerias con las que vamos a trabajar, no he tenido ningún problema en instalar aquellas no disponibles en el entorno Anaconda con el que trabajo por medio de `pip install libreria` realizado desde un terminal abierto desde el entorno `env`.

In [1]:
import os.path as pth
import datetime as dt
import time
from glob import glob
import re
import pandas as pd
import numpy as np

import requests
from shutil import copyfile

import matplotlib.pyplot as plt
from matplotlib.ticker import FuncFormatter
from matplotlib import cm
import matplotlib.dates as mdates
import matplotlib.ticker as ticker
from matplotlib.dates import (YEARLY, MONTHLY, DateFormatter, WeekdayLocator, MonthLocator,DayLocator,
                              rrulewrapper, RRuleLocator, drange)
import seaborn as sns
import matplotlib.colors as colors

import numpy as np
from datetime import datetime
import seaborn as sns
%matplotlib inline

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfpage import PDFPage
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO

Preparamos las expresiones regulares que nos ayudarán en la interpretación de la información que sacamos de los pdf.

In [2]:
expnumber = re.compile(r'^ *(\d+(?: ?\. ?\d+)*)(?:[^\d/]|\s|\(|$|\.[^\d/]|\.\s|\.$)', re.M)
expfecha = re.compile(r'(\d\d)/(\d\d)/(\d\d\d\d)') #fechas
expacum = re.compile(r'\n2 \n7 \n11 \n[\d \n]+') #acumulados, 2,7,11 son los primeros datos de la serie
expnumber2 = re.compile(r'\d\d\d\d\d+')

Definimos variables que nos ayuden en la gestión de los nombres de los ficheros.

In [3]:
URL_TPL = 'https://www.comunidad.madrid/sites/default/files/doc/sanidad/{:02d}{:02d}{:02d}_cam_covid19.pdf'
FN_TPL = '{:02d}{:02d}{:02d}_cam_covid19.pdf'
FN_TPL_txt = '{:02d}{:02d}{:02d}_cam_covid19.txt'
datadir='data/'

In [5]:
ALWAYS_UPDATE = True
def descarga(url, fn, isbinary=False, isascii=False, isbackup=False,
             prevpage=None):
    #función para descargar el fichero depositado en url y que guardamos con 
    #nombre fn
    
    
    today = dt.date.today()

    ret = True

    if pth.isfile(fn):
        modifiedTime = pth.getmtime(fn)
        changed = dt.datetime.fromtimestamp(modifiedTime).date()

        if isbackup:
            basename = pth.basename(fn)
            rootfn, ext = pth.splitext(basename)
            dirname = pth.dirname(fn)
            changedstr = str(changed)

            backupfn = pth.join(dirname, 'backup',
                                rootfn + '-' + changedstr + ext)
            print('Backup: {} -> {}'.format(fn, backupfn))
            copyfile(fn, backupfn)


    if not pth.isfile(fn) or changed != today or ALWAYS_UPDATE:
        print('Descargando:', url)
        headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
        with requests.Session() as s:
            if prevpage:
                s.get(prevpage, headers=headers)
            r = s.get(url, headers=headers)
        if r.status_code == requests.codes.ok:
            if isbinary:
                with open(fn, 'wb') as fp:
                    fp.write(r.content)
            elif isascii:
                content = r.content
                text = r.content.decode('ascii', 'ignore')
                with open(fn, 'w', encoding='utf-8') as fp:
                    fp.write(text)
            else:
                with open(fn, 'w', encoding='utf-8') as fp:
                    fp.write(r.text)
        else:
            print('ERROR', r.status_code, 'descargando:', fn)
            ret = False

    return ret

In [6]:
# Extract PDF text using PDFMiner. Adapted from
# http://stackoverflow.com/questions/5725278/python-help-using-pdfminer-as-a-library

def pdf_to_text(pdfname, pagenum=None):

    # PDFMiner boilerplate
    rsrcmgr = PDFResourceManager()
    sio = StringIO()
    laparams = LAParams()
    device = None
    try:
        device = TextConverter(rsrcmgr, sio, laparams=laparams)
        interpreter = PDFPageInterpreter(rsrcmgr, device)

        # Extract text
        with open(pdfname, 'rb') as fp:
            for i, page in enumerate(PDFPage.get_pages(fp)):
                if pagenum is None or pagenum == i:
                    interpreter.process_page(page)

        # Get text from StringIO
        text = sio.getvalue()
    finally:
        # Cleanup
        sio.close()
        if device is not None:
            device.close()

    return text

In [7]:
# descargamos los ficheros pdf desde 1 de Septiembre hasta hoy
# sacado del script de @alfonsotwr mencionado
today = dt.date.today()

un_dia = dt.timedelta(days=1)
tomorrow = today+un_dia
ayer= today-un_dia
desde = dt.date(year=2020,month=9,day=1)

date_array = np.arange(desde, tomorrow,
                                    np.timedelta64(1,'D'), dtype='datetime64')
date_array_download = np.arange(today-un_dia-un_dia-un_dia, tomorrow,
                                    np.timedelta64(1,'D'), dtype='datetime64')

for dia in date_array_download:
    pdfdir = 'data/'
    dia_dt = dia.item()
    if dia_dt.weekday() in [5,6]:
        continue
    fn = pdfdir + FN_TPL.format(dia_dt.year % 100, dia_dt.month, dia_dt.day)
    url = URL_TPL.format(dia_dt.year % 100, dia_dt.month, dia_dt.day)
    ret = descarga(url, fn, isbinary=True)
    time.sleep(1)
    if not ret:
        changed = False
        if dia_dt == dt.date(2020, 9, 2):  # special cases
                url = url.replace('/doc/sanidad', '')
                changed = True
        if changed:
            descarga(url, fn, isbinary=True)
            time.sleep(1)

Descargando: https://www.comunidad.madrid/sites/default/files/doc/sanidad/201015_cam_covid19.pdf
Descargando: https://www.comunidad.madrid/sites/default/files/doc/sanidad/201016_cam_covid19.pdf


In [8]:
for dia in date_array:
    print (dia)

2020-09-01
2020-09-02
2020-09-03
2020-09-04
2020-09-05
2020-09-06
2020-09-07
2020-09-08
2020-09-09
2020-09-10
2020-09-11
2020-09-12
2020-09-13
2020-09-14
2020-09-15
2020-09-16
2020-09-17
2020-09-18
2020-09-19
2020-09-20
2020-09-21
2020-09-22
2020-09-23
2020-09-24
2020-09-25
2020-09-26
2020-09-27
2020-09-28
2020-09-29
2020-09-30
2020-10-01
2020-10-02
2020-10-03
2020-10-04
2020-10-05
2020-10-06
2020-10-07
2020-10-08
2020-10-09
2020-10-10
2020-10-11
2020-10-12
2020-10-13
2020-10-14
2020-10-15
2020-10-16
2020-10-17
2020-10-18


In [9]:
#Creamos los txt con los datos
#basado en el script de @alfonsotwr mencionado


for dia in date_array:
    dia_dt = dia.item()
    if (dia_dt.weekday() in [5,6]) or (dia_dt.month ==10 and dia_dt.day == 12):
        continue
    
    fn = pdfdir + FN_TPL.format(dia_dt.year % 100, dia_dt.month, dia_dt.day)
    #print(fn)
    fn1 = fn.replace('.pdf', '_1.txt')
    fn2 = fn.replace('.pdf', '_2.txt')
    fn3 = fn.replace('.pdf', '_3.txt')
    
    #datos de la primera página del pdf
    print('Creating:', fn1)
    page1 = pdf_to_text(fn, pagenum=0)
    #with open(fn1, 'w', encoding='utf-8') as fp:
    with open(fn1, 'w') as fp:    
        fp.write(page1)
    
    #datos de la segunda página del pdf
    print('Creating:', fn2)
    page2 = pdf_to_text(fn, pagenum=1)
    #with open(fn2, 'w', encoding='utf-8') as fp:
    with open(fn2, 'w') as fp:     
        fp.write(page2)
    
    #datos de la tercera página del pdf
    print('Creating:', fn3)
    page3 = pdf_to_text(fn, pagenum=2)
    #with open(fn3, 'w', encoding='utf-8') as fp:
    with open(fn3, 'w') as fp:
        fp.write(page3)

Creating: data/200901_cam_covid19_1.txt
Creating: data/200901_cam_covid19_2.txt
Creating: data/200901_cam_covid19_3.txt
Creating: data/200902_cam_covid19_1.txt
Creating: data/200902_cam_covid19_2.txt
Creating: data/200902_cam_covid19_3.txt
Creating: data/200903_cam_covid19_1.txt
Creating: data/200903_cam_covid19_2.txt
Creating: data/200903_cam_covid19_3.txt
Creating: data/200904_cam_covid19_1.txt
Creating: data/200904_cam_covid19_2.txt
Creating: data/200904_cam_covid19_3.txt
Creating: data/200907_cam_covid19_1.txt
Creating: data/200907_cam_covid19_2.txt
Creating: data/200907_cam_covid19_3.txt
Creating: data/200908_cam_covid19_1.txt
Creating: data/200908_cam_covid19_2.txt
Creating: data/200908_cam_covid19_3.txt
Creating: data/200909_cam_covid19_1.txt
Creating: data/200909_cam_covid19_2.txt
Creating: data/200909_cam_covid19_3.txt
Creating: data/200910_cam_covid19_1.txt
Creating: data/200910_cam_covid19_2.txt
Creating: data/200910_cam_covid19_3.txt
Creating: data/200911_cam_covid19_1.txt


In [10]:
#creamos los ficheros csv a partir de los ficheros txt creados antes.
#basado en el script de @alfonsotwr mencionado

csvfn = datadir + 'madrid-series.csv'

for dia in date_array:
    df = pd.DataFrame()
    pdfdir = 'data/'
    dia_dt = dia.item()
    if dia_dt.weekday() in [5,6]  or (dia_dt.month ==10 and dia_dt.day == 12):
        continue
    fn = pdfdir + FN_TPL.format(dia_dt.year % 100, dia_dt.month, dia_dt.day)
    #print(fn)
    fn2 = fn.replace('.pdf', '_2.txt')
    fn3 = fn2.replace('_2.txt', '_3.txt')
    print(fn2)
    #with open(fn2, encoding='utf-8') as fp:
    with open(fn2) as fp:
        text = fp.read()

    m = expacum.search(text)

    assert m, 'Debe ajustarse expacum con los primeros valores'

    accum = [int(x) for x in m.group().split()]

    dates = []
    for m in expfecha.finditer(text):
        dates.append(dt.datetime(int(m.group(3)), int(m.group(2)),
                                    int(m.group(1))))

    #accum2 = [int(x.group()) for x in expnumber2.finditer(text)
    #        if int(x.group()) > accum[-1]]
    
    accum2 = sorted(int(x.group()) for x in expnumber2.finditer(text)
                     if int(x.group()) > accum[-1])
    accum += accum2

    assert len(accum) == len(dates), 'La serie acumulada no concuerda para _2'

    print(fn3)
    #with open(fn3, encoding='utf-8') as fp:
    with open(fn3) as fp:   
        text = fp.read()

    dates2 = []
    for m in expfecha.finditer(text):
        dates2.append(dt.datetime(int(m.group(3)), int(m.group(2)),
                                      int(m.group(1))))
    dates += sorted(dates2)

    accum2 = [int(x.group()) for x in expnumber2.finditer(text)]
    
    
    
    accum += sorted(accum2)

    # assert len(accum) == len(dates), 'La serie acumulada no concuerda para _3'

    sr = pd.Series(accum, index=dates).sort_index()
    sr.name = 'PCR+'
    sr.index.name = 'Fecha'
    df2 = sr.to_frame()

    #if df.index[-1] != df2.index[-1] + dt.timedelta(1):
    #    raise RuntimeError('Última fecha de las tablas no coincide')

    # pd.set_option('display.max_rows', None)
    # print(sr)
    # print(sr.diff())
    assert all(sr.diff().dropna() >= 0), 'La serie acumulada no es creciente'
    assert all((sr.index[1:] - sr.index[:-1]).days > 0), 'Fechas no suben'

    csvfn = datadir + 'madrid_pcr_' + dia.item().strftime('_%d_%m')+'.csv'
    print('Escribiendo', csvfn)
    df2.to_csv(csvfn, line_terminator='\r\n')

data/200901_cam_covid19_2.txt
data/200901_cam_covid19_3.txt
Escribiendo data/madrid_pcr__01_09.csv
data/200902_cam_covid19_2.txt
data/200902_cam_covid19_3.txt
Escribiendo data/madrid_pcr__02_09.csv
data/200903_cam_covid19_2.txt
data/200903_cam_covid19_3.txt
Escribiendo data/madrid_pcr__03_09.csv
data/200904_cam_covid19_2.txt
data/200904_cam_covid19_3.txt
Escribiendo data/madrid_pcr__04_09.csv
data/200907_cam_covid19_2.txt
data/200907_cam_covid19_3.txt
Escribiendo data/madrid_pcr__07_09.csv
data/200908_cam_covid19_2.txt
data/200908_cam_covid19_3.txt
Escribiendo data/madrid_pcr__08_09.csv
data/200909_cam_covid19_2.txt
data/200909_cam_covid19_3.txt
Escribiendo data/madrid_pcr__09_09.csv
data/200910_cam_covid19_2.txt
data/200910_cam_covid19_3.txt
Escribiendo data/madrid_pcr__10_09.csv
data/200911_cam_covid19_2.txt
data/200911_cam_covid19_3.txt
Escribiendo data/madrid_pcr__11_09.csv
data/200914_cam_covid19_2.txt
data/200914_cam_covid19_3.txt
Escribiendo data/madrid_pcr__14_09.csv
data/20091

A continuación vamos a generar el pandas con todas la información que hemos conseguido de los ficheros pdf

In [69]:

df=pd.DataFrame() #creamos un pandas vacío para trabajar

for dia in date_array[::]: #iteramos sobre todo el tiempo de análisis, desde 1 Sept
    dia_dt = dia.item() # date_array es un array de tiempo de numpy, con item() pasamos a datetime
    if dia_dt.weekday() in [5,6] or (dia_dt.month ==10 and dia_dt.day == 12): # en los fines de semana no se publican datos
        continue
    #construimos el nombre del ficher csv en el que hemos guardado la info.
    nombre_csv=datadir+'madrid_pcr__{:02d}_{:02d}.csv'.format(dia_dt.day,dia_dt.month)
    
    #leemos el csv en un pandas df1
    df1=pd.read_csv(nombre_csv).set_index('Fecha')
    #asigbamos como nombre de columna el día en el que se publica (dia)
    nombre_columna='{:02d}-{:02d}-{:02d}'.format(dia_dt.year,dia_dt.month,dia_dt.day)
    df1.columns=[nombre_columna]
    
    #concatenamos es pandas recién leído con el principal
    df = pd.concat([df,df1], axis=1)
#invertimos el orden de las columnas para tener a la izquierda la fecha más antigua
#df = df[df.columns[::-1]]
#df = df.diff() #resta una fila de la anterior
#df.fillna(0,inplace=True)
#df = df.diff(axis=1) #resta una columna de la anterior


In [70]:
date_array

array(['2020-09-01', '2020-09-02', '2020-09-03', '2020-09-04',
       '2020-09-05', '2020-09-06', '2020-09-07', '2020-09-08',
       '2020-09-09', '2020-09-10', '2020-09-11', '2020-09-12',
       '2020-09-13', '2020-09-14', '2020-09-15', '2020-09-16',
       '2020-09-17', '2020-09-18', '2020-09-19', '2020-09-20',
       '2020-09-21', '2020-09-22', '2020-09-23', '2020-09-24',
       '2020-09-25', '2020-09-26', '2020-09-27', '2020-09-28',
       '2020-09-29', '2020-09-30', '2020-10-01', '2020-10-02',
       '2020-10-03', '2020-10-04', '2020-10-05', '2020-10-06',
       '2020-10-07', '2020-10-08', '2020-10-09', '2020-10-10',
       '2020-10-11', '2020-10-12', '2020-10-13', '2020-10-14',
       '2020-10-15', '2020-10-16', '2020-10-17', '2020-10-18'],
      dtype='datetime64[D]')

In [71]:
df.tail(60)

Unnamed: 0,2020-09-01,2020-09-02,2020-09-03,2020-09-04,2020-09-07,2020-09-08,2020-09-09,2020-09-10,2020-09-11,2020-09-14,2020-09-15,2020-09-16,2020-09-17,2020-09-18,2020-09-21,2020-09-22,2020-09-23,2020-09-24,2020-09-25,2020-09-28,2020-09-29,2020-09-30,2020-10-01,2020-10-02,2020-10-05,2020-10-06,2020-10-07,2020-10-08,2020-10-09,2020-10-13,2020-10-14,2020-10-15,2020-10-16
2020-08-17,103844.0,104157.0,104499.0,104499.0,105986.0,106307.0,106643.0,107105.0,107514.0,108696.0,109107.0,109482.0,110038.0,110587.0,112666.0,113005.0,113479.0,113926.0,114238.0,116086.0,116373.0,116765.0,117172.0,117527.0,118274.0,118560.0,118885.0,119206.0,119497.0,120345.0,120643.0,120982.0,121296
2020-08-18,106820.0,107144.0,107498.0,107498.0,109026.0,109354.0,109700.0,110171.0,110591.0,111796.0,112208.0,112586.0,113150.0,113704.0,115815.0,116160.0,116659.0,117113.0,117435.0,119320.0,119609.0,120006.0,120422.0,120781.0,121540.0,121829.0,122159.0,122486.0,122783.0,123648.0,123950.0,124298.0,124621
2020-08-19,109557.0,109893.0,110260.0,110260.0,111877.0,112213.0,112561.0,113041.0,113470.0,114696.0,115114.0,115501.0,116075.0,116637.0,118778.0,119126.0,119636.0,120120.0,120454.0,122367.0,122662.0,123069.0,123492.0,123858.0,124643.0,124938.0,125275.0,125606.0,125908.0,126793.0,127098.0,127454.0,127785
2020-08-20,112133.0,112480.0,112854.0,112854.0,114605.0,114953.0,115308.0,115794.0,116233.0,117492.0,117924.0,118316.0,118901.0,119475.0,121643.0,121996.0,122513.0,123006.0,123344.0,125288.0,125589.0,126004.0,126434.0,126806.0,127610.0,127908.0,128250.0,128584.0,128891.0,129797.0,130109.0,130473.0,130809
2020-08-21,115790.0,116158.0,116553.0,116553.0,118544.0,118907.0,119273.0,119769.0,120214.0,121504.0,121940.0,122344.0,122940.0,123529.0,125738.0,126097.0,126626.0,127132.0,127476.0,129469.0,129775.0,130198.0,130642.0,131025.0,131852.0,132166.0,132522.0,132864.0,133177.0,134098.0,134422.0,134800.0,135152
2020-08-22,116755.0,117126.0,117527.0,117527.0,119551.0,119922.0,120296.0,120798.0,121250.0,122567.0,123010.0,123415.0,124032.0,124625.0,126852.0,127217.0,127752.0,128262.0,128607.0,130617.0,130924.0,131349.0,131799.0,132189.0,133019.0,133336.0,133698.0,134043.0,134360.0,135288.0,135615.0,135998.0,136355
2020-08-23,117332.0,117706.0,118108.0,118108.0,120139.0,120511.0,120886.0,121388.0,121843.0,123165.0,123608.0,124015.0,124640.0,125233.0,127465.0,127831.0,128366.0,128877.0,129222.0,131237.0,131546.0,131972.0,132424.0,132815.0,133648.0,133965.0,134328.0,134673.0,134992.0,135921.0,136250.0,136633.0,136991
2020-08-24,118412.0,118800.0,119207.0,119207.0,121280.0,121658.0,122034.0,122541.0,123000.0,124338.0,124787.0,125195.0,125836.0,126438.0,128678.0,129049.0,129588.0,130111.0,130459.0,132488.0,132807.0,133240.0,133695.0,134092.0,134932.0,135255.0,135621.0,135974.0,136295.0,137240.0,137569.0,137957.0,138314
2020-08-25,121733.0,122150.0,122572.0,122572.0,124831.0,125227.0,125621.0,126142.0,126611.0,127978.0,128434.0,128851.0,129506.0,130124.0,132394.0,132777.0,133323.0,133860.0,134213.0,136278.0,136605.0,137052.0,137524.0,137925.0,138794.0,139129.0,139502.0,139866.0,140190.0,141153.0,141490.0,141887.0,142248
2020-08-26,124563.0,125016.0,125457.0,125457.0,127834.0,128251.0,128656.0,129201.0,129686.0,131084.0,131551.0,131980.0,132651.0,133276.0,135582.0,135973.0,136526.0,137072.0,137434.0,139527.0,139861.0,140325.0,140815.0,141222.0,142109.0,142453.0,142834.0,143200.0,143531.0,144510.0,144852.0,145253.0,145625


Hagamos comprobaciones para asegurar que los datos son correctos: 

Queremos saber cuantos casos había en el día 3 Septiembre, vistos desde el día 10 septiembre [aquí](https://www.comunidad.madrid/sites/default/files/doc/sanidad/201002_cam_covid19.pdf)

In [56]:
df.loc['2020-07-03',df.columns<='2020-09-10'].sum()

1107.0

In [57]:
df.loc['2020-07-03',df.columns=='2020-09-10']-df.loc['2020-07-02',df.columns=='2020-09-10']

2020-09-10    15.0
dtype: float64

In [68]:
df.loc['2020-08-17',df.columns=='2020-09-02'] #este funciona restando filas

2020-09-02    986.0
Name: 2020-08-17, dtype: float64

In [None]:
df.loc['2020-08-17',df.columns=='2020-09-02']

Lo mismo con el día [02/09](https://www.comunidad.madrid/sites/default/files/200902_cam_covid19.pdf). Resultado también correcto:

In [88]:
fecha_menos=(dt.datetime.strptime('2020-09-01','%Y-%m-%d')-catorce_dias).strftime('%Y-%m-%d')

In [75]:
catorce_dias=dt.timedelta(days=14)

In [89]:
df.loc['2020-09-01',df.columns=='2020-09-02']-df.loc[fecha_menos,df.columns=='2020-09-02']

2020-09-02    27315.0
dtype: float64

In [216]:
df_ratio = pd.DataFrame(index=df.columns[1:])
df_ratio['AI14']=0
df_ratio['AI14_7']=0

In [217]:
def calculo_AI(x):
    catorce_dias=dt.timedelta(days=14)
    un_dia=dt.timedelta(days=1)
    #print (x.name)
    fecha = dt.datetime.strptime(x.name,'%Y-%m-%d')
    ayer_dt = (fecha-un_dia)
    ayer = ayer_dt.strftime('%Y-%m-%d')
    inicio = (ayer_dt-catorce_dias).strftime('%Y-%m-%d')
    valor= df.loc[ayer,df.columns==x.name]-df.loc[inicio,df.columns==x.name]
    
    print (valor.values[0])
    return valor.values[0]

In [218]:
def calculo_AI_7(x):
    catorce_dias=dt.timedelta(days=14)
    un_dia=dt.timedelta(days=1)
    siete_dias=dt.timedelta(days=7)
    fecha = dt.datetime.strptime(x.name,'%Y-%m-%d')
    fecha_fin_dt = (fecha-siete_dias)
    fecha_fin = fecha_fin_dt.strftime('%Y-%m-%d')
    
    inicio = (fecha_fin_dt-catorce_dias).strftime('%Y-%m-%d')
    valor= df.loc[fecha_fin,df.columns==x.name]-df.loc[inicio,df.columns==x.name]
    
    print (valor.values[0])
    return valor.values[0]

In [219]:
df_ratio.loc[:,'AI14_7']=df_ratio.apply(calculo_AI_7,axis=1)

27925.0
28728.0
29389.0
31382.0
31871.0
32160.0
32630.0
32972.0
34583.0
35226.0
36369.0
37489.0
39020.0
41579.0
43431.0
45232.0
47016.0
48911.0
49965.0
50319.0
50494.0
50464.0
49391.0
47801.0
45995.0
44074.0
41674.0
38093.0
35018.0
33294.0
31900.0
30066.0


In [220]:
df_ratio.loc[:,'AI14']=df_ratio.apply(calculo_AI,axis=1)

27315.0
27058.0
26718.0
29933.0
31326.0
30180.0
30624.0
30884.0
35133.0
37054.0
36523.0
37553.0
38838.0
42212.0
43812.0
42708.0
41997.0
40650.0
44447.0
44806.0
41896.0
39715.0
38064.0
34732.0
34926.0
32663.0
30987.0
29062.0
26255.0
24686.0
23882.0
23880.0


In [221]:
df_ratio

Unnamed: 0,AI14,AI14_7
2020-09-02,27315.0,27925.0
2020-09-03,27058.0,28728.0
2020-09-04,26718.0,29389.0
2020-09-07,29933.0,31382.0
2020-09-08,31326.0,31871.0
2020-09-09,30180.0,32160.0
2020-09-10,30624.0,32630.0
2020-09-11,30884.0,32972.0
2020-09-14,35133.0,34583.0
2020-09-15,37054.0,35226.0
