# Reading tables from PDF files
In this project, our intention is to read informational tables from the reports of Brazilian Ministry of Health. 
In order to do so, we will make use of the *PDFplumber* library, which has shown itself the easiest available tool for this task.  

The sample files are in the following folder:  
~/workplace/github/epidemic_BRdata/BMH_Bulletins/

### General statements

In [18]:
import pandas as pd
import os
import re

In [19]:
import pdfplumber

--------------------

## Listing and checking available files  
- List all the bulletins available in the "covid" directory;  
- Check whether it was already downloaded and parsed, or not. 

In [20]:
os.listdir('BMH_Bulletins/covid')

['.directory',
 'be-covid-08-final-2.pdf',
 'Boletim-epidemiologico-SVS-04fev20.pdf',
 '2020-04-27-18-05h-BEE14-Boletim-do-COE.pdf',
 'BE6-Boletim-Especial-do-COE.pdf',
 'BE13---Boletim-do-COE.pdf',
 'be-covid-08-final.pdf',
 'Boletim-epidemiologico-SVS-01-COE-inundacao.pdf',
 '2020-04-06-BE7-Boletim-Especial-do-COE-Atualizacao-da-Avaliacao-de-Risco.pdf',
 '2020-04-16---BE10---Boletim-do-COE-21h.pdf',
 '2020-02-21-Boletim-Epidemiologico03.pdf',
 'BE12-Boletim-do-COE.pdf',
 '2020-04-11-BE9-Boletim-do-COE.pdf',
 'Boletim-epidemiologico-COEcorona-SVS-13fev20.pdf',
 '2020-03-02-Boletim-Epidemiol--gico-04-corrigido.pdf',
 '2020-04-17---BE11---Boletim-do-COE-21h.pdf']

In [21]:
file1 = 'BMH_Bulletins/covid/2020-04-17---BE11---Boletim-do-COE-21h.pdf'

In [22]:
file2 = 'BMH_Bulletins/covid/2020-02-21-Boletim-Epidemiologico03.pdf'

In [26]:
file3 = 'BMH_Bulletins/covid/2020-04-27-18-05h-BEE14-Boletim-do-COE.pdf'

--------------------

## Reading tables with PDFplumber:  
General reference: http://blog.rubypdf.com/2019/07/09/extract-table-from-pdf-with-python/

#### Reading the file and extracting its tables automatically:

In [23]:
def parse_pdf(file):
    ## Openning the PDF file:
    filename = re.findall('(?:[^/]+)$(?<=(?:.jpg)|(?:.pdf))', file)[0]  #The last term is to take the filename out of the list type.
    try:
        print('Reading the file "{0}"'.format(filename))
        pdf = pdfplumber.open(file)
    except: 
        print('It was not possible to open the file "{0}"'.format(filename))    
    print('Done: {0} pages read.'.format(len(pdf.pages)))
    
    
    return pdf

In [73]:
pdf = parse_pdf(file1)

Reading the file "2020-04-17---BE11---Boletim-do-COE-21h.pdf"
Done: 37 pages read.


--------------

#### Trying to read each page and show how many Tables we found:

In [None]:
for page in pdf.pages:
    

In [79]:
page1 = pdf.pages[2]

In [84]:
table1 = page1.find_tables()[0]

In [89]:
row1 = table1.rows[2]

In [95]:
print(table1.extract()[2][0])

Fonte:   Secretaria   de   Vigilância   em   Saúde/Ministério   da   Saúde.   Dados   atualizados   em   17   de   abril   de   2020   às   15h,   sujeitos   a   revisões. 
Figura    1:  Incidência   de   casos   conﬁrmados   de   COVID-19   (A)   e   cumulativo   dos   casos   (B)   por   data   de  
notiﬁcação.   Brasil,   2020.  
 
 
Fonte:   Secretaria   de   Vigilância   em   Saúde/Ministério   da   Saúde.   Dados   atualizados   em   17   de   abril   de   2020   às   15h,   sujeitos   a   revisões.  
Figura    2:   Incidência   de   casos   conﬁrmados   de   COVID-19   (A)   e   cumulativo   dos   casos   (B)   por   semana  
epidemiológica.   Brasil,   2020.  
 
Como   mostrado   na  Tabela   2,    a   maior   parte   dos   casos   concentrou-se   na   região   Sudeste   (19.067;   56,6%)  
seguido   das   regiões   Nordeste   (7.469;   22,2%)   e   Sul   (2.602;   7,7%).   Dentre   as   Unidades   Federadas,   São   Paulo  
apresentou   o   maior   número   de   casos   conﬁrm

--------------

In [74]:
pdf.pages

[<pdfplumber.page.Page at 0x7fe2fceb5ef0>,
 <pdfplumber.page.Page at 0x7fe2fceb7160>,
 <pdfplumber.page.Page at 0x7fe2fceb73c8>,
 <pdfplumber.page.Page at 0x7fe2fceb75c0>,
 <pdfplumber.page.Page at 0x7fe2fceb7828>,
 <pdfplumber.page.Page at 0x7fe2fceb7a90>,
 <pdfplumber.page.Page at 0x7fe2fceb7d30>,
 <pdfplumber.page.Page at 0x7fe2fceb7f98>,
 <pdfplumber.page.Page at 0x7fe2fcec0438>,
 <pdfplumber.page.Page at 0x7fe2fcec06d8>,
 <pdfplumber.page.Page at 0x7fe2fcec0940>,
 <pdfplumber.page.Page at 0x7fe2fcec0ba8>,
 <pdfplumber.page.Page at 0x7fe2fcec0dd8>,
 <pdfplumber.page.Page at 0x7fe2fcec5080>,
 <pdfplumber.page.Page at 0x7fe2fcec52b0>,
 <pdfplumber.page.Page at 0x7fe2fcec5518>,
 <pdfplumber.page.Page at 0x7fe2fcec5940>,
 <pdfplumber.page.Page at 0x7fe2fcec5b70>,
 <pdfplumber.page.Page at 0x7fe2fcec5dd8>,
 <pdfplumber.page.Page at 0x7fe2fcec5fd0>,
 <pdfplumber.page.Page at 0x7fe2fcecb240>,
 <pdfplumber.page.Page at 0x7fe2fcecb4a8>,
 <pdfplumber.page.Page at 0x7fe2fcecb748>,
 <pdfplumbe

--------------------

#### Reading the file and extracting its tables manually:

In [45]:
## Openning the PDF file:
pdf = pdfplumber.open(file1)

In [29]:
## Reading the file metada (there wasn't any useful information, in this case)
pdf.metadata

{'CreationDate': "D:20200429120015+00'00'",
 'Creator': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36',
 'ModDate': "D:20200429120015+00'00'",
 'Producer': 'Skia/PDF m80'}

In [30]:
## Checking the number of pages (remembering it outputs a list)
len(pdf.pages)

48

#### Exploring how the PDFplumber works based on a page of interest from the document:  
We are interested in catching out the tables 1 and 2 from the document, which are in the pages 2 and 4, respectively. 

In [33]:
page2 = pdf.pages[1]
page4 = pdf.pages[3]
page9 = pdf.pages[8]

In [32]:
print(page4.extract_tables()[0][2][0])

pode   parecer   contraditório,   pois   a   COVID-19   gera   menos   casos   que   o   sarampo   (F igura   3) ,   por   exemplo.   No  
entanto,   essa   doença,   por   ser   ainda   desconhecida   em   vários   aspectos,   gera   impacto   na   sociedade   de  
modo   desproporcional   em   cada   região.   Os   modelos   matemáticos,   estatísticos   e   epidemiológicos   ainda  
não   conseguem   contemplar   toda   a   complexidade   da   situação   (F igura   4) .   
 
Figura   3:    Taxa   de   transmissibilidade   (R0)   de   doenças   diferentes   em   até   três   gerações   de   transmissão.   
  
Figura   4:   Contando   a   história   natural   e   parcial   da   COVID-19   a   partir   de   conhecimentos   disponíveis   até  
abril   de   2020.  
Considerando   que   a   Alemanha   é   um   dos   países   de   referência   na   resposta   internacional,   até   mesmo   o  
virologista   símbolo   da   medida   de   distanciamento   social   no   país,   o   virologista

In [36]:
print(page9.extract_tables()[0][2][0])

Tabela   3:    Comparação   entre   os   dados   da   Central   de   Informações   do   Registro   Civil   e   do   Ministério   da  
Saúde   em   relação   aos   óbitos   por   COVID-19.   Brasil,   2020.  
Óbitos   por   COVID-19*   em   2020  
Unidade   da   Federação  
CRC   Nacional   Ministério   da   Saúde   Diferença**  
Acre   6   11   -5  
Alagoas   18   32   -14  
Amazonas   170   304   -134  
Amapá   0   21   -21  
Bahia   23   73   -50  
Ceará   315   327   -12  
Distrito   Federal   46   27   19  
Espírito   Santo   50   51   -1  
Goiás   56   25   31  
Maranhão   81   112   -31  
Minas   Gerais   143   61   82  
Mato   Grosso   do   Sul   5   7   -2  
Mato   Grosso   6   9   -3  
Pará   16   100   -84  
Paraíba   23   49   -26  
Pernambuco   159   415   -256  
Piauí   4   18   -14  
Paraná   78   72   6  
Rio   de   Janeiro   1.140   645   495  
Rio   Grande   do   Norte   15   44   -29  
Rondônia   10   10   0  
Roraima   2   4   -2  
Rio   Grande   do   Sul   44   35  

In [50]:
table1_df = pd.DataFrame(page4.extract_tables()[1])

In [51]:
table1_df

Unnamed: 0,0,1,2,3
0,ID,UF/REGIÃO,CONFIRMADOS,ÓBITOS
1,,,N (%),N (%)
2,NORTE,,"3.158 (9,4%)","193 (6,1%)"
3,1,AC,135,5
4,2,AM,1.809,145
5,3,AP,370,10
6,4,PA,557,26
7,5,RO,92,3
8,6,RR,164,3
9,7,TO,31,1


In [40]:
pd.DataFrame(page9.extract_tables()[1])

Unnamed: 0,0,1,2,3
0,Unidade da Federação,Óbitos por COVID-19* em 2020,,
1,,CRC Nacional,Ministério da Saúde,Diferença**
2,Acre,6,11,-5
3,Alagoas,18,32,-14
4,Amazonas,170,304,-134
5,Amapá,0,21,-21
6,Bahia,23,73,-50
7,Ceará,315,327,-12
8,Distrito Federal,46,27,19
9,Espírito Santo,50,51,-1


### For each page, get the Table and Figure subtitle:

File: 2020-04-27, page 28 has 2 tables:

In [41]:
page28 = pdf.pages[27]

In [54]:
len(page28.extract_tables()[0])

4

In [65]:
print(page28.extract_tables()[0][2][0])

Tabela   9:    Distribuição   dos   casos   de   Síndrome   Respiratória   Aguda   Grave   (SRAG)   segundo   faixa   etária   e  
fatores   de   risco/comorbidades.   Brasil,   2020.  
Fatores   de   risco/comorbidades  
Casos   de   Taxa   de  
Faixa   etária   SRAG   no   hospitalização   Doenças   crônicas2   
(anos)   População1    SGIrVipEeP     (podre   1   h   mabil.h)  ão   Sem   1   2+   ImImuunnooddeeﬁpcriêensscãiao/     GPeusétrapnetrea/3      Obesidade  
registro  
0   a   9   28.918.854   9.587   331,5   7.634   1.661   292   240   ---   7  
10   a   19   32.974.096   1.807   54,8   1.285   443   79   116   193   26  
20   a   29   33.996.173   4.345   127,8   3.431   755   159   208   509   96  
30   a   39   34.503.246   7.780   225,5   5.846   1.555   379   410   419   268  
40   a   49   28.746.122   8.982   312,5   5.733   2.344   905   477   59   349  
50   a   59   23.377.297   10.217   437,0   5.067   3.219   1.931   593   22   362  
60   a   69   15.946.086   10.

In [None]:
print(page9.extract_tables()[0][2][0])

In [66]:
page9.find_tables()

[<pdfplumber.table.Table at 0x7fe2fd05b128>,
 <pdfplumber.table.Table at 0x7fe2fd05ba90>]

In [70]:
teste = pd.read_csv('covid_saude_gov_br/20200504_2000.csv', sep=';')

In [71]:
teste

Unnamed: 0,regiao,estado,data,casosNovos,casosAcumulados,obitosNovos,obitosAcumulados
0,Norte,RO,2020-01-30,0,0,0,0
1,Norte,RO,2020-01-31,0,0,0,0
2,Norte,RO,2020-02-01,0,0,0,0
3,Norte,RO,2020-02-02,0,0,0,0
4,Norte,RO,2020-02-03,0,0,0,0
...,...,...,...,...,...,...,...
2587,Centro-Oeste,DF,2020-04-30,81,1356,2,30
2588,Centro-Oeste,DF,2020-05-01,110,1466,0,30
2589,Centro-Oeste,DF,2020-05-02,100,1566,1,31
2590,Centro-Oeste,DF,2020-05-03,83,1649,2,33
