# Leitura de tabela em PDF

---
Ref: https://www.hashtagtreinamentos.com/ler-tabelas-em-pdf-com-python?gclid=CjwKCAjw3K2XBhAzEiwAmmgrAqzTRwZmLARIlz7UyF_HQIGr8yKkYhL_DwPL0BnvS_33lnN4SCDw4RoCL5QQAvD_BwE

Dados: http://www.vale.com/PT/investors/information-market/quarterly-results/ResultadosTrimestrais/Vale_IFRS_1T21_BRL_v26042021_vf.pdf

---

In [32]:
# Instalação das bibliotecas necessárias

#!pip install tabula
#!pip install tabula-py

In [33]:
import tabula
from tabula.io import read_pdf

In [34]:
# Leitura dos dados através do upload para o Google Colab (pag. 11)

pkg_dir = '/content'

lista_tabelas = tabula.read_pdf(f'{pkg_dir}/Vale_IFRS_1T21_BRL_v26042021_vf.pdf', pages="11")

# Obs: Existem os parâmetros lattice e guess na função read_pdf() caso necessário

Aug 11, 2022 4:56:10 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont <init>



In [35]:
# Verificando quantas tabelas foram encontradas

print(len(lista_tabelas))

2


In [36]:
# Print das tabelas

for tabela in lista_tabelas:
  display(tabela)

Unnamed: 0,US$ milhões,1T21,%,4T20,%.1,1T20,%.2
0,Minerais Ferrosos,608.0,603,763.0,528,627.0,558
1,Metais Básicos,359.0,356,566.0,392,352.0,313
2,Carvão,29.0,29,65.0,45,80.0,71
3,Energia e outros,13.0,13,50.0,35,65.0,58
4,Total,1.009,1000,1.444,1000,1.124,1000


Unnamed: 0,US$ milhões,1T21,%,4T20,%.1,1T20,%.2
0,Minerais Ferrosos,82,539,69,479,91,628
1,Metais Básicos,68,447,55,382,52,359
2,Energia e outros,2,13,20,139,2,14
3,Total,152,1000,144,1000,145,1000


In [37]:
# Lendo as tabelas da pag. 10

lista_tabelas2 = tabula.read_pdf(f'{pkg_dir}/Vale_IFRS_1T21_BRL_v26042021_vf.pdf', pages = '10')

print(len(lista_tabelas2))

Aug 11, 2022 4:56:14 PM org.apache.pdfbox.pdmodel.font.PDTrueTypeFont <init>



1


In [38]:
# Neste caso, as 2 tabelas da pág. 10 são lidas como uma única tabela
# A linha de índice 11 é a próxima tabela, além das colunas indevidas

display(lista_tabelas2[0])

Unnamed: 0.1,Indicadores financeiros selecionados,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3
0,R$ milhões,,,,Variação percentual
1,,1T21,4T20,1T20,1T21/4T20 1T21/1T20
2,"Receita de vendas, líquida",69.301,78.938,31.251,"-12,2% 121,8%"
3,Custos e despesas,(27.359),(35.434),(21.619),"-22,8% 26,6%"
4,Despesas relacionadas a Brumadinho,(637),(25.002),(708),"-97,5% -10,0%"
5,EBIT (LAJIR) ajustado,41.729,18.987,9.248,"119,8% 351,2%"
6,Margem EBIT ajustado (%),"60,2%","24,1%","29,6%","150,3% 103,5%"
7,EBITDA (LAJIDA) ajustado,45.741,23.492,12.924,"94,7% 253,9%"
8,Lucro líquido atribuído aos acionistas da Vale,30.564,4.825,984,"533,5% n.m."
9,,,,,


In [39]:
# Tratando a primeira tabela da lista 2

tabela = lista_tabelas2[0]
tabela.columns = tabela.iloc[0]
tabela[[0,1]] = tabela['Variação percentual'].str.split(" ", expand = True)
tabela = tabela[1:9]
tabela = tabela.set_index('R$ milhões')
tabela.columns = tabela.iloc[0]
tabela = tabela[1:]
tabela = tabela.drop('1T21/4T20 1T21/1T20', axis = 1)
display(tabela)

nan,1T21,4T20,1T20,1T21/4T20,1T21/1T20
R$ milhões,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"Receita de vendas, líquida",69.301,78.938,31.251,"-12,2%","121,8%"
Custos e despesas,(27.359),(35.434),(21.619),"-22,8%","26,6%"
Despesas relacionadas a Brumadinho,(637),(25.002),(708),"-97,5%","-10,0%"
EBIT (LAJIR) ajustado,41.729,18.987,9.248,"119,8%","351,2%"
Margem EBIT ajustado (%),"60,2%","24,1%","29,6%","150,3%","103,5%"
EBITDA (LAJIDA) ajustado,45.741,23.492,12.924,"94,7%","253,9%"
Lucro líquido atribuído aos acionistas da Vale,30.564,4.825,984,"533,5%",n.m.


In [57]:
# Tratando a segunda tabela da lista 2

tabela2 = lista_tabelas2[0]
tabela2.columns = tabela2.iloc[12]
#tabela2[[0,1]] = tabela2['4T20 1T20'].str.split(" ", expand = True)
tabela2 = tabela2[12:]
tabela2 = tabela2.set_index('R$ milhões')
tabela2.columns = tabela2.iloc[0]
tabela2 = tabela2[1:]
tabela2 = tabela2.drop('4T20 1T20', axis = 1)
tabela2 = tabela2.iloc[:,[1,3,4]]
display(tabela2)

R$ milhões,1T21,4T20,1T20
R$ milhões,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Lucro líquido atribuído aos acionistas da Vale,30.564,4.825,984
Prejuízo atribuído aos acionistas não controladores,(375),(508),(347)
Lucro líquido,30.189,4.317,637
"Depreciação, exaustão e amortização",4.012,4.505,3.676
Tributos sobre lucro,9.950,1.014,(3.102)
Resultado financeiro,176,3.683,10.486
LAJIDA (EBITDA),44.327,11.697,
Itens para reconciliação de LAJIDA (EBITDA) ajustado,,,
Redução ao valor recuperável e baixa de ativos não,,,
,897,7.815,136
