In [1]:
import pandas as pd
import numpy as np
import camelot
import re

In [2]:
#Importamos el boletín descargado de la página https://sns.gob.do/coronavirus/ y especificamos el número de la página
#donde se encuentra nuestra tabla deseada.
tables = camelot.read_pdf("Boletin-Especial-107-COVID-19.pdf",pages='2')

In [3]:
#Al inspeccionar nuestra variable creada vemos que solo contiene una sola tabla
tables

<TableList n=1>

In [4]:
#Para visualizar esta tabla extraida como un pandas DataFrame, utilizamos el método .df.
tables[0].df

Unnamed: 0,0,1,2,3
0,Provincia,Muestras \nprocesadasa,Casos (n)b\nDefunciones (n)b,
1,,,Incidencia \nPositividad\nNuevos\nAcumulados\n...,
2,01 Distrito Nacional\n02 Azua\n03 Baoruco\n04 ...,"45,433\n2,642\n197\n2,553\n103\n6,416\n343\n18...","323\n9,659\n925.91\n21.32\n5,030\n37\n695\n312...",4\n143\n0\n10\n0\n2\n0\n8\n0\n2\n0\n87\n0\n1\n...


In [5]:
#Nuestra tabla no fue extraida de la forma deseada debido a que en el documento en pdf no hay lineas definidas que dividan
#los datos por filas, sin embargo, aún podemos trabajar sobre este data frame para reorganizar la información.
tablas_df=tables[0].df

In [6]:
#Reorganizar los nombres de la primera columna de la tabla: la columna llamada provincias
provincias=np.array(tablas_df[0].str.split('\n').iloc[2])
nombre_provincia=[]
for i in provincias:
    nombre = re.sub("[0-9]", "", i).lstrip()
    nombre_provincia.append(nombre)

In [7]:
#Reorganizar datos de las muestras procesadas
muestras=np.array(tablas_df[1].str.split('\n').iloc[2])
muestras=np.delete(muestras,np.where(muestras==' '))
muestras=muestras.reshape(34,1)

In [8]:
#Reorganizar datos de las columnas relacionadas a los casos de contagio: Nuevos, acumulados, indicencia acumulada
#Positividad(%), Recuperados
casos_valores=np.array(tablas_df[2].str.split('\n').iloc[2])
casos_valores=np.delete(casos_valores,np.where(casos_valores==' '))
casos_valores=casos_valores.reshape(34,5)

In [9]:
#Reorganizar datos de las columnas relacionadas a las defunciones: Nuevos y acumulados
defun_valores=np.array(tablas_df[3].str.split('\n').iloc[2])
defun_valores=np.delete(defun_valores,np.where(defun_valores==' '))
defun_valores=defun_valores.reshape(34,2)

In [10]:
boletin=pd.concat([pd.Series(nombre_provincia),pd.DataFrame(muestras),pd.DataFrame(casos_valores),
                   pd.DataFrame(defun_valores)],axis=1)

In [11]:
boletin.columns=['Provincia','Muestras procesadas','Nuevos_casos','Casos_acumulados','Incidencia_acumulada',
                 'Positividad(%)','Recuperados','Nuevas_defunciones','Defunciones_acumuladas']

In [12]:
boletin

Unnamed: 0,Provincia,Muestras procesadas,Nuevos_casos,Casos_acumulados,Incidencia_acumulada,Positividad(%),Recuperados,Nuevas_defunciones,Defunciones_acumuladas
0,Distrito Nacional,45433,323,9659,925.91,21.32,5030,4,143
1,Azua,2642,37,695,312.70,26.33,349,0,10
2,Baoruco,197,0,38,37.62,23.97,9,0,2
3,Barahona,2553,16,645,340.95,30.19,179,0,8
4,Dajabón,103,1,37,55.67,58.33,8,0,2
5,Duarte,6416,5,934,312.47,7.29,723,0,87
6,Elías Piña,343,2,108,170.34,37.59,10,0,1
7,El Seibo,188,0,55,58.82,37.97,25,0,0
8,Espaillat,2670,33,794,331.05,24.85,545,0,14
9,Independencia,204,6,107,183.14,55.49,10,0,1


In [13]:
#Exportar archivo
boletin.to_excel('boletin_107.xlsx')