In [37]:
# LIBRARIES

import pandas as pd
import os
import requests
import platform

In [38]:
# CONFIG

if platform.system() == 'Windows':

    os.chdir('C:/Users/pport/OneDrive/Projects/Covid-19/') # For Win

if platform.system() == 'Darwin':

    os.chdir('/Users/pportocarrero/OneDrive/Projects/Covid-19/') # For MacOS

In [39]:
# GET NEW DATA

param_headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36"
                  }

req = requests.get('https://files.minsa.gob.pe/s/eRqxR35ZCxrzNgr/download', headers=param_headers)

url_content = req.content

csv_file = open('positivos_covid.csv', 'wb')

csv_file.write(url_content)

csv_file.close()

In [40]:
# DATA CONFIG

data = pd.read_csv('positivos_covid.csv', delimiter = ';')

data['FECHA_RESULTADO'] = data['FECHA_RESULTADO'].astype(float, errors = 'raise')

nan_values = data['FECHA_RESULTADO'].isna().sum()

data['FECHA_RESULTADO'] = data['FECHA_RESULTADO'].fillna('20211231') # NaN values are assigned to 31/12/2021

data['FECHA_RESULTADO'] = data['FECHA_RESULTADO'].astype(float, errors = 'raise')

data['FECHA_RESULTADO'] = data['FECHA_RESULTADO'].map('{:.0f}'.format)

data['FECHA_RESULTADO'] = data['FECHA_RESULTADO'] * 1

# WRANGLING

data['YEAR'] = data['FECHA_RESULTADO'].str[2:4]

data['MONTH'] = data['FECHA_RESULTADO'].str[4:6]

data['DAY'] = data['FECHA_RESULTADO'].str[6:8]

data['DATE'] = data['DAY'] + '/' + data['MONTH'] + '/' + data['YEAR']

data['DATE'] = pd.to_datetime(data['DATE'])

data['DATE'] = pd.to_datetime(data['DATE']).dt.strftime('%d/%m/%y')

data["DATE"] = data["DATE"].astype("datetime64")

In [41]:
# CREATING AGGREGATES

aggregate = data.groupby(['DATE']).size()

last_value = aggregate.iloc[-1]

data['time'] = pd.to_datetime(data['DATE'])
date = data['time'].dt.date
date = date.drop_duplicates()
date = date.astype("datetime64")
date = date.sort_values(ascending=True)

df_aggregate = pd.DataFrame({'casos': aggregate, 'fecha': pd.date_range('03/06/20', periods = len(aggregate))})

df_aggregate.to_excel('casos_positivos.xlsx')

In [42]:
# AMAZONAS

casos_ama = data[data['DEPARTAMENTO'] == 'AMAZONAS']

aggregate_ama = casos_ama.groupby(['DATE']).size()

df_aggregate_ama = pd.DataFrame({'casos': aggregate_ama})

df_aggregate_ama.to_excel('regiones/casos_amazonas.xlsx')

In [43]:
# ANCASH

casos_anc = data[data['DEPARTAMENTO'] == 'ANCASH']

aggregate_anc = casos_anc.groupby(['DATE']).size()

df_aggregate_anc = pd.DataFrame({'casos': aggregate_anc})

df_aggregate_anc.to_excel('regiones/casos_ancash.xlsx')

In [44]:
# APURIMAC

casos_apu = data[data['DEPARTAMENTO'] == 'APURIMAC']

aggregate_apu = casos_apu.groupby(['DATE']).size()

df_aggregate_apu = pd.DataFrame({'casos': aggregate_apu})

df_aggregate_apu.to_excel('regiones/casos_apurimac.xlsx')

In [45]:
# AREQUIPA

casos_are = data[data['DEPARTAMENTO'] == 'AREQUIPA']

aggregate_are = casos_are.groupby(['DATE']).size()

df_aggregate_are = pd.DataFrame({'casos': aggregate_are})

df_aggregate_are.to_excel('regiones/casos_arequipa.xlsx')

In [46]:
# AYACUCHO

casos_aya = data[data['DEPARTAMENTO'] == 'AYACUCHO']

aggregate_aya = casos_aya.groupby(['DATE']).size()

df_aggregate_aya = pd.DataFrame({'casos': aggregate_aya})

df_aggregate_aya.to_excel('regiones/casos_ayacucho.xlsx')

In [47]:
# CAJAMARCA

casos_caj = data[data['DEPARTAMENTO'] == 'CAJAMARCA']

aggregate_caj = casos_caj.groupby(['DATE']).size()

df_aggregate_caj = pd.DataFrame({'casos': aggregate_caj})

df_aggregate_caj.to_excel('regiones/casos_cajamarca.xlsx')

In [48]:
# CALLAO

casos_cal = data[data['DEPARTAMENTO'] == 'CALLAO']

aggregate_cal = casos_cal.groupby(['DATE']).size()

df_aggregate_cal = pd.DataFrame({'casos': aggregate_cal})

df_aggregate_cal.to_excel('regiones/casos_callao.xlsx')

In [49]:
# CUSCO

casos_cus= data[data['DEPARTAMENTO'] == 'CUSCO']

aggregate_cus = casos_cus.groupby(['DATE']).size()

df_aggregate_cus = pd.DataFrame({'casos': aggregate_cus})

df_aggregate_cus.to_excel('regiones/casos_cusco.xlsx')

In [50]:
# HUANCAVELICA

casos_hlv = data[data['DEPARTAMENTO'] == 'HUANCAVELICA']

aggregate_hlv = casos_hlv.groupby(['DATE']).size()

df_aggregate_hlv = pd.DataFrame({'casos': aggregate_hlv})

df_aggregate_hlv.to_excel('regiones/casos_huancavelica.xlsx')

In [51]:
# HUANUCO

casos_hua = data[data['DEPARTAMENTO'] == 'HUANUCO']

aggregate_hua = casos_hua.groupby(['DATE']).size()

df_aggregate_hua = pd.DataFrame({'casos': aggregate_hua})

df_aggregate_hua.to_excel('regiones/casos_huanuco.xlsx')

In [52]:
# ICA

casos_ica = data[data['DEPARTAMENTO'] == 'ICA']

aggregate_ica = casos_ica.groupby(['DATE']).size()

df_aggregate_ica = pd.DataFrame({'casos': aggregate_ica})

df_aggregate_ica.to_excel('regiones/casos_ica.xlsx')

In [53]:
# JUNIN

casos_jun = data[data['DEPARTAMENTO'] == 'JUNIN']

aggregate_jun = casos_jun.groupby(['DATE']).size()

df_aggregate_jun = pd.DataFrame({'casos': aggregate_jun})

df_aggregate_jun.to_excel('regiones/casos_junin.xlsx')

In [54]:
# LA LIBERTAD

casos_lal = data[data['DEPARTAMENTO'] == 'LA LIBERTAD']

aggregate_lal = casos_lal.groupby(['DATE']).size()

df_aggregate_lal = pd.DataFrame({'casos': aggregate_lal})

df_aggregate_lal.to_excel('regiones/casos_lalibertad.xlsx')

In [55]:
# LAMBAYEQUE

casos_lam = data[data['DEPARTAMENTO'] == 'LAMBAYEQUE']

aggregate_lam = casos_lam.groupby(['DATE']).size()

df_aggregate_lam = pd.DataFrame({'casos': aggregate_lam})

df_aggregate_lam.to_excel('regiones/casos_lambayeque.xlsx')

In [56]:
# LIMA

casos_lim = data[data['DEPARTAMENTO'] == 'LIMA']

aggregate_lim = casos_lim.groupby(['DATE']).size()

df_aggregate_lim = pd.DataFrame({'casos': aggregate_lim})

df_aggregate_lim.to_excel('regiones/casos_lima.xlsx')

In [57]:
# LORETO

casos_lor = data[data['DEPARTAMENTO'] == 'LORETO']

aggregate_lor = casos_lor.groupby(['DATE']).size()

df_aggregate_lor = pd.DataFrame({'casos': aggregate_lor})

df_aggregate_lor.to_excel('regiones/casos_loreto.xlsx')

In [58]:
# MADRE DE DIOS

casos_mad = data[data['DEPARTAMENTO'] == 'MADRE DE DIOS']

aggregate_mad = casos_mad.groupby(['DATE']).size()

df_aggregate_mad = pd.DataFrame({'casos': aggregate_mad})

df_aggregate_mad.to_excel('regiones/casos_madrededios.xlsx')

In [59]:
# MOQUEGUA

casos_moq = data[data['DEPARTAMENTO'] == 'MOQUEGUA']

aggregate_moq = casos_moq.groupby(['DATE']).size()

df_aggregate_moq = pd.DataFrame({'casos': aggregate_moq})

df_aggregate_moq.to_excel('regiones/casos_moquegua.xlsx')

In [60]:
# PASCO

casos_pas = data[data['DEPARTAMENTO'] == 'PASCO']

aggregate_pas = casos_pas.groupby(['DATE']).size()

df_aggregate_pas = pd.DataFrame({'casos': aggregate_pas})

df_aggregate_pas.to_excel('regiones/casos_pasco.xlsx')

In [61]:
# PIURA

casos_piu = data[data['DEPARTAMENTO'] == 'PIURA']

aggregate_piu = casos_piu.groupby(['DATE']).size()

df_aggregate_piu = pd.DataFrame({'casos': aggregate_piu})

df_aggregate_piu.to_excel('regiones/casos_piura.xlsx')

In [62]:
# PUNO

casos_pun = data[data['DEPARTAMENTO'] == 'PUNO']

aggregate_pun = casos_pun.groupby(['DATE']).size()

df_aggregate_pun = pd.DataFrame({'casos': aggregate_pun})

df_aggregate_pun.to_excel('regiones/casos_puno.xlsx')

In [63]:
# SAN MARTÍN

casos_san = data[data['DEPARTAMENTO'] == 'SAN MARTIN']

aggregate_san = casos_san.groupby(['DATE']).size()

df_aggregate_san = pd.DataFrame({'casos': aggregate_san})

df_aggregate_san.to_excel('regiones/casos_sanmartin.xlsx')

In [64]:
# TACNA

casos_tac = data[data['DEPARTAMENTO'] == 'TACNA']

aggregate_tac = casos_tac.groupby(['DATE']).size()

df_aggregate_tac = pd.DataFrame({'casos': aggregate_tac})

df_aggregate_tac.to_excel('regiones/casos_tacna.xlsx')

In [65]:
# TUMBES

casos_tum = data[data['DEPARTAMENTO'] == 'TUMBES']

aggregate_tum = casos_tum.groupby(['DATE']).size()

df_aggregate_tum = pd.DataFrame({'casos': aggregate_tum})

df_aggregate_tum.to_excel('regiones/casos_tumbes.xlsx')

In [66]:
# UCAYALI

casos_uca = data[data['DEPARTAMENTO'] == 'UCAYALI']

aggregate_uca = casos_uca.groupby(['DATE']).size()

df_aggregate_uca = pd.DataFrame({'casos': aggregate_uca})

df_aggregate_uca.to_excel('regiones/casos_ucayali.xlsx')