# Ler tabelas em pdf com Python

### Instalação:

1. pip install tabula-py
2. verifique se tem o java no seu computador, caso contrário, instale o java
3. Reinicie o Jupyter
4. Usar no código
    - Caso mesmo assim o tabula dê algum erro e não reconheça o read_pdf, você pode importar:<br>from tabula.io import read_pdf

### Nosso exemplo:

- Faça o download do nosso PDF

- Local arquivo: http://www.vale.com/PT/investors/information-market/quarterly-results/ResultadosTrimestrais/Vale_IFRS_1T21_BRL_v26042021_vf.pdf

In [5]:
# Importar as bibliotecas
import tabula

# Realizar a leitura do PDF na página 11 e incluir os dados em uma lista
lista_tabelas = tabula.read_pdf("http://www.vale.com/PT/investors/information-market/quarterly-results/ResultadosTrimestrais/Vale_IFRS_1T21_BRL_v26042021_vf.pdf", pages = "11")
# Imprimindo a quantidade de tabelas encontramos e armazenamos na lista
print(len(lista_tabelas))

2


In [6]:
# Visualizar as tabelas coletadas anteriormente
for tabela in lista_tabelas:
    display(tabela)

Unnamed: 0,US$ milhões,1T21,%,4T20,%.1,1T20,%.2
0,Minerais Ferrosos,608.0,603,763.0,528,627.0,558
1,Metais Básicos,359.0,356,566.0,392,352.0,313
2,Carvão,29.0,29,65.0,45,80.0,71
3,Energia e outros,13.0,13,50.0,35,65.0,58
4,Total,1.009,1000,1.444,1000,1.124,1000


Unnamed: 0,US$ milhões,1T21,%,4T20,%.1,1T20,%.2
0,Minerais Ferrosos,82,539,69,479,91,628
1,Metais Básicos,68,447,55,382,52,359
2,Energia e outros,2,13,20,139,2,14
3,Total,152,1000,144,1000,145,1000


### Mas nem sempre a tabela vai vir bonitinha

In [21]:
# Realizar a leitura do PDF na página 10 e incluir os dados em uma lista
lista_tabelas2 = tabula.read_pdf("http://www.vale.com/PT/investors/information-market/quarterly-results/ResultadosTrimestrais/Vale_IFRS_1T21_BRL_v26042021_vf.pdf", pages = "10")
# Imprimindo a quantidade de tabelas encontramos e armazenamos na lista
print(len(lista_tabelas2))

1


In [22]:
# Armazenando o conteúdo encontrada na página 10
tabela = lista_tabelas2[0]
# Considerar a primeira linha como cabeçalho (nome das colunas)
tabela.columns = tabela.iloc[0]
# Separar a coluna "Variação percentual" em duas pois os dados estão todos juntos
tabela[[0, 1]] = tabela["Variação percentual"].str.split(" ", expand=True)
# Gerando nova tabela com apenas os dados da linha 1 até linha 8
tabela = tabela[1:9]
# Alterando o índice para a coluna "R$ milhões"
tabela = tabela.set_index("R$ milhões")
# Transformando a primeira linha em cabeçalho
tabela.columns = tabela.iloc[0]
# Gerando nova tabela com apenas os dados da linha 1 até o final
tabela = tabela[1:]
# Removendo colunas desnecesárias
tabela = tabela.drop("1T21/4T20 1T21/1T20", axis=1)
# Visualizando os dados da tabela localizada e armazenada
display(tabela)

nan,1T21,4T20,1T20,1T21/4T20,1T21/1T20
R$ milhões,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
"Receita de vendas, líquida",69.301,78.938,31.251,"-12,2%","121,8%"
Custos e despesas,(27.359),(35.434),(21.619),"-22,8%","26,6%"
Despesas relacionadas a Brumadinho,(637),(25.002),(708),"-97,5%","-10,0%"
EBIT (LAJIR) ajustado,41.729,18.987,9.248,"119,8%","351,2%"
Margem EBIT ajustado (%),"60,2%","24,1%","29,6%","150,3%","103,5%"
EBITDA (LAJIDA) ajustado,45.741,23.492,12.924,"94,7%","253,9%"
Lucro líquido atribuído aos acionistas da Vale,30.564,4.825,984,"533,5%",n.m.


### E se ele não tiver reconhecendo a tabela?

2 parâmetros para testar:

- lattice
- guess

In [23]:
# lattice
lista_df = tabula.read_pdf("ResultadoVale.pdf", pages="10", lattice=True)
display(lista_df[0])

print("*" * 10)

# guess
lista_df = tabula.read_pdf("ResultadoVale.pdf", pages="10", guess=False)
display(lista_df[0])

Unnamed: 0.1,Unnamed: 0,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8
0,,ndicadores financeiros selecionados,,,,,,,
1,,,,,,,,,
2,R$ milhões,,,,Variação percentual,,,,
3,$ milhões,,,,,,,,
4,,1T21,4T20,1T20,1T21/4T20,1T21/1T20,,,
5,,,,,,,,,
6,,,,,,,,,
7,"Receita de vendas, líquida",69.301,78.938,31.251,"-12,2%","121,8%",,,
8,"eceita de vendas, líquida",69.30,,78.93,,31.25,"-12,2%",,
9,,(27.359),(35.434),(21.619),,,,,


**********


Unnamed: 0.1,Unnamed: 0,Unnamed: 1
0,,compensados por maiores receitas de subproduto...
1,,mais altos do cobre no trimestre;
2,•,"O EBITDA dos negócios de Cobre foi de R$ 2,002..."
3,,"abaixo do 4T20, principalmente devido aos meno..."
4,,Uma ampla revisão de segurança para melhorar a...
5,,disponibilidade de equipamentos de mineração e...
6,,"menores volumes, os resultados foram afetados ..."
7,,menor diluição de custos fixos e menores recei...
8,,parcialmente compensados por maiores preços re...
9,,melhorias das atividades de manutenção se mate...
