<a href="https://colab.research.google.com/github/brayannmb/post_automatizando_pdf/blob/main/automatizando_rotina_pdf.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Extraindo Informações de Arquivos PDF**

-----------------------------------------


Com a era que estamos vivendo de Big Data, cada vez mais a quantidade de dados cresce de maneira exponencial. As empresas necessitam estar em constante atualização para ganhar competitividade de mercado. Diante deste cenário, a tecnologia tem sido usada para a otimização de processos a fim de ganho de produtividade, redução de custos e outros ganhos.

Pensando nisso, criei este artigo que mostra como você pode automatizar a leitura e manipulação de informações de arquivos PDF utilizando a linguagem de programação Python.

<center><img width="60%" src="https://github.com/brayannmb/post_automatizando_pdf/blob/main/automatizando_pdf.jpg?raw=true"><center>


##**Importando Bibliotecas**
É possível que você não tenha alguma dessas bibliotecas instaladas no seu Colab. Para instalar qualquer biblioteca no Google Colaboratory basta utilizar o comando pip install -q , como mostra a seguir:

In [None]:
#instalando as bibliotecas

!pip install pdfplumber -q
!pip install os -q

[K     |████████████████████████████████| 51kB 2.0MB/s 
[K     |████████████████████████████████| 5.6MB 3.5MB/s 
[K     |████████████████████████████████| 143kB 37.3MB/s 
[K     |████████████████████████████████| 1.9MB 30.9MB/s 
[?25h  Building wheel for pdfplumber (setup.py) ... [?25l[?25hdone
[31mERROR: Could not find a version that satisfies the requirement os (from versions: none)[0m
[31mERROR: No matching distribution found for os[0m


Este parâmetro `-q` utilizado no final do comando serve para não mostrar as diversas informações de instalação quando é executada a célula.

In [None]:
#importando as bibliotecas

import os
import pdfplumber

Neste projeto utilizarei algumas bibliotecas, dentre suas funções estão:

* OS: navegar pelos diretórios
* PDFplumber: manipular arquivos pdf

##**Visualizando Arquivos do Drive**

A primeira parte deste projeto consiste em fazer a conexão do Google Colab ao Drive, assim, conseguiremos coletar os dados dos arquivos PDF que estão alocados na nuvem.

A conexão entre o Colab e o Drive é muito simples, no canto esquerdo no Colab existe a aba "Arquivos". Clicando nela você irá encontrar 3 botões, para se conectar no Drive basta clicar no último botão, "Mount Drive".


<center><img width="50%" src="https://github.com/brayannmb/Data-Science/blob/main/projeto_automatizar_pdf/foto_1.png?raw=true"><center>

O código abaixo executa uma listagem dos arquivos contidos na conta do Google Drive.

In [None]:
#listando os conteúdos da pasta My Drive

!ls '/content/drive/MyDrive'

'Colab Notebooks'   relatorios_pdf   Sigmoidal


O comando `!ls` serve para listar arquivos de um diretório, este comando é original do Linux e pode ser utilizado no Google Colab.

A seguir entre aspas é o diretório do Drive que vamos acessar. Para que não tenha algum erro futuro na digitação deste diretório, ele pode ser acessado a partir da aba Arquivos, e ser copiado pressionando o botão direito do mouse em cima do diretório desejado.

##**Acessando Arquivos do Drive**

Agora que já estamos conectados na nuvem, precisamos aprender como navegar entre os diretórios e acessar os arquivos desejados. Pensando nisso, utilizaremos a biblioteca OS.

O primeiro passo após se conectar com o Drive é verificar qual o diretório estamos, para isso utilizaremos o método `os.getcwd()`

In [None]:
#verificando o diretório atual

os.getcwd()

'/content'


Bom, mas não é neste diretório onde queremos estar, precisamos acessar o diretório drive que aparece no canto superior esquerdo da nossa tela, como mostra na foto abaixo:

<center><img width="50%" src="https://github.com/brayannmb/Data-Science/blob/main/projeto_automatizar_pdf/foto_2.png?raw=true"><center>

Se clicarmos neste diretório irá mostrar a pasta My drive, onde está alocado todos os arquivos.

Para acessar outros diretórios, teremos que utilizar o método `os.chdir()`da bibiloteca os.

In [None]:
#mudando de diretório

os.chdir('/content/drive/MyDrive/relatorios_pdf')

In [None]:
#verificando diretório atual

os.getcwd()

'/content/drive/MyDrive/relatorios_pdf'

Dica: para não errar a escrita do caminho, é possível acessar o arquivo apenas clicando nas pastas ao lado, assim, que encontrar o arquivo desejado com o botão direito do mouse podemos copiar o caminho, apenas clicando em "Copiar caminho", ou em inglês Copy path. A imagem a seguir demonstra essa explicação.

<center><img width="60%" src="https://github.com/brayannmb/Data-Science/blob/main/projeto_automatizar_pdf/foto_3.png?raw=true"><center>


Depois de acessar o diretório desejado, o último item é escolher a pasta onde estão localizados os arquivos pdf's, no meu caso está na pasta **relatorios_pdf.**

Estando no diretório onde contém o conteúdo desejado, podemos finalmente abrir estes arquivos e começar a manipulá-los.

Para isso, devemos utilizar a biblioteca **pdfplumber**.


In [None]:
#abrindo arquivo pdf

arquivos_semana = os.listdir()

pdf = pdfplumber.open('/content/drive/MyDrive/relatorios_pdf/20200801.pdf')

**Visualizando a quantidade de páginas:**

In [None]:
#verificando quantidade de páginas

pdf.pages

[<Page:1>]

Como foi visto acima, neste meu caso só tenho uma página para utilizar. 

Então podemos selecionar a página que contém a informação que queremos extrair. Para isso, utlizamos o código abaixo, onde a variável page está selecionando a primeira página, de index 0.
* `pdf.pages[0]` 

Vale lembrar que index em Python começa pela posição zero, no meu caso, estou acessando a página 1, mas seu index é 0.

In [None]:
#selecionando página 1

page = pdf.pages[0]

Agora que já estamos com o arquivo selecionado, precisamos extrair o seu conteúdo. O método `extract_text()` nos permite fazer exatamente isso.

In [None]:
#extraindo conteúdo de texto contido no arquivo PDF

text = page.extract_text()

#visualizando texto

text

'SIGMOIDAL\t\n\t \t\nRelatório\tDiário\t\nData:\t01/08/2020\t\n\t\n\t\nRECEITA:\tR$\t1297.00\t\nDADOS\tATUALIZADOS\tPOR\tCARLOS\tMELO\t\n\t\n\t\nVisitantes:\t1367\t\nA\tquantidade\tde\tvisitantes\tdiz\trespeito\ta\tvisitantes\túnicos\tvisitando\tqualquer\t\npágina\tdo\tdomínio\tou\tsubdomínio\tsigmoidal.ai.\tCompreende,\tentão,\tcursos,\t\nblogs\te\tlanding\tpages.\t\n\t\nInscritos:\t33\t\nÉ\tconsiderado\taqui\to\tnúmero\tde\tleads\tgerados\tpor\tmeio\tde\tcadastro\t\nvoluntário\tnos\tformulários\tdo\tcabeçalho,\trodapé\tou\tmateriais\tricos\t(como\t\neBook,\tinfográficos,\tentre\toutros).\t\n\t\nAssinantes:\t6\t\nClientes\tassinantes\tda\tEscola\tde\tData\tScience,\tconsiderando-se\to\tplano\t\nrenovável\tde\tassinatura\tmensal.\t\n\t'

A primeira vista, não é possível entender o que está escrito, existem muitos caracteres especiais.. de fato, está uma bagunça! Mas agora que vem a parte boa, nós iremos manipular as strings contidas neste arquivo a fim de extrair suas informações.

##**Manipulação de Strings**

Neste tópico, irei utilizar alguns métodos nativos do Python para fazer uma organização nos nossos dados, a fim de facilitar a busca por informações dentro da página selecionada.

In [None]:
#visualizando a página

text

'SIGMOIDAL\t\n\t \t\nRelatório\tDiário\t\nData:\t01/08/2020\t\n\t\n\t\nRECEITA:\tR$\t1297.00\t\nDADOS\tATUALIZADOS\tPOR\tCARLOS\tMELO\t\n\t\n\t\nVisitantes:\t1367\t\nA\tquantidade\tde\tvisitantes\tdiz\trespeito\ta\tvisitantes\túnicos\tvisitando\tqualquer\t\npágina\tdo\tdomínio\tou\tsubdomínio\tsigmoidal.ai.\tCompreende,\tentão,\tcursos,\t\nblogs\te\tlanding\tpages.\t\n\t\nInscritos:\t33\t\nÉ\tconsiderado\taqui\to\tnúmero\tde\tleads\tgerados\tpor\tmeio\tde\tcadastro\t\nvoluntário\tnos\tformulários\tdo\tcabeçalho,\trodapé\tou\tmateriais\tricos\t(como\t\neBook,\tinfográficos,\tentre\toutros).\t\n\t\nAssinantes:\t6\t\nClientes\tassinantes\tda\tEscola\tde\tData\tScience,\tconsiderando-se\to\tplano\t\nrenovável\tde\tassinatura\tmensal.\t\n\t'

Se pararmos para analisar o resultado do texto obtido, podemos enxergar muitos `\t` e `\n` . Ambos são funções que nos possibilitam uma melhor visualização quando utilizamos a função print. Mas no nosso caso, estas funções estão nos atrapalhando.

O primeiro passo será utilizar o método `.split()` que faz uma separação nas strings de acordo com o parâmetro que escolhermos dentro dos parênteses.

In [None]:
#separando as strings pela quebra de linha

text.split('\n')

['SIGMOIDAL\t',
 '\t \t',
 'Relatório\tDiário\t',
 'Data:\t01/08/2020\t',
 '\t',
 '\t',
 'RECEITA:\tR$\t1297.00\t',
 'DADOS\tATUALIZADOS\tPOR\tCARLOS\tMELO\t',
 '\t',
 '\t',
 'Visitantes:\t1367\t',
 'A\tquantidade\tde\tvisitantes\tdiz\trespeito\ta\tvisitantes\túnicos\tvisitando\tqualquer\t',
 'página\tdo\tdomínio\tou\tsubdomínio\tsigmoidal.ai.\tCompreende,\tentão,\tcursos,\t',
 'blogs\te\tlanding\tpages.\t',
 '\t',
 'Inscritos:\t33\t',
 'É\tconsiderado\taqui\to\tnúmero\tde\tleads\tgerados\tpor\tmeio\tde\tcadastro\t',
 'voluntário\tnos\tformulários\tdo\tcabeçalho,\trodapé\tou\tmateriais\tricos\t(como\t',
 'eBook,\tinfográficos,\tentre\toutros).\t',
 '\t',
 'Assinantes:\t6\t',
 'Clientes\tassinantes\tda\tEscola\tde\tData\tScience,\tconsiderando-se\to\tplano\t',
 'renovável\tde\tassinatura\tmensal.\t',
 '\t']

Como podemos ver acima, este método nos resultou um lista contendo todos os valores strings do início, mas agora, de uma maneira um pouco mais legível.

Mas o trabalho ainda não acabou, mesmo deixando este arquivo um pouco mais organizado, ainda precisamos acessar o valor da receita que desejamos.

Para isso, irei selecionar o valor 7 da lista. No caso do Python, o index começa pelo número 0, então o valor 7 estará no index 6.

In [None]:
#selecionando a linha desejada

text.split('\n')[6]

'RECEITA:\tR$\t1297.00\t'

Que grande avanço, não é mesmo? Pouco atrás a nossa visualização era uma imensa quantidade caracteres que não nos diziam nada. Bom, mas ainda temos trabalho pela frente.

Desta vez, irei utilizar novamente o método `split()` para fazer uma nova separação em nossas strings mas dessa vez eu quero que separa por "\t". 

In [None]:
#nova separação

text.split('\n')[6].split('\t')

['RECEITA:', 'R$', '1297.00', '']

Como podemos ver acima, o valor de receita buscado está na posição de index 2. Sendo assim, irei acessar o valor de receita novamente utilizando a sua posição de index.

In [None]:
#acessando o valor desejado

text.split('\n')[6].split('\t')[2]

'1297.00'

Parece que chegamos ao resultado esperado, mas será isso é o suficiente? Será que com este resultado eu posso já posso fazer algumas operações?
A resposta é não! 

Se notarmos, este valor está contido dentro de aspas simples. Em Python estas aspas nos mostram que este valor tem seu tipo primitivo como string. Isso é algo que devemos nos atentar ao trabalhar com strings.

**Transformando Strings**

Antes de realmente trabalhar com número que desejamos, precisamos transformar seu tipo primitivo de string para float.

In [None]:
#transformação em float

text = float(text.split('\n')[6].split('\t')[2])

text

1297.0

O resultado será um valor que podemos utilizar em operações aritméticas.

##**Automatizando a Extração de Informações:**

Bom, foi ensinado como trabalhar com um arquivo e fazer as devidas manipulações para extrair suas informações, mas isso terá que ser feito todas as vezes que desejamos coletar estes dados? A resposta é não!

Neste tópico irei abordar como você pode utilizar os conceitos e métodos apresentados, com o pensamento de automatizar a rotina diária de coleta de dados a partir de arquivos PDF.

In [None]:
#variável de contagem

receita_soma = 0

#loop de iteração do código mostrado ácima de transformação de Strings

for arquivo in arquivos_semana:
  relatorio = pdfplumber.open(arquivo) 
  pagina = relatorio.pages[0]
  texto = pagina.extract_text()
  receita = float(texto.split('\n')[6].split('\t')[2])

  #soma de todas as receitas dos últimos dias
  
  receita_soma = receita_soma + receita
  print('Arquivo: {}, valor de receita: R${}\n'.format(arquivo, receita))
  
print("Receita total dos últimos dias: R${}".format(receita_soma))

Arquivo: 20200801.pdf, valor de receita: R$1297.0

Arquivo: 20200802.pdf, valor de receita: R$537.0

Arquivo: 20200803.pdf, valor de receita: R$554.0

Arquivo: 20200804.pdf, valor de receita: R$2554.0

Arquivo: 20200805.pdf, valor de receita: R$154.0

Receita total dos últimos dias: R$5096.0


Como podemos ver no resultado acima, ele nos mostra o arquivo que foi aberto e qual o seu valor de receita, no final nos mostra uma soma de todas as receitas dos últimos dias.

##**Thank you!**

Espero que você que acompanhou este tutorial tenha gostado, eu estou aberto para sugestões de melhorias e para as dúvidas que possam surgir. Este projeto está no meu GitHub e também foi postado no meu Linkedin, aproveita e vamos nos conectar nessas redes, muito obrigado!