<a href="https://colab.research.google.com/github/andremarinho17/data_projects/blob/master/Extraindo_Informa%C3%A7%C3%B5es_de_Relat%C3%B3rios_de_uma_Empresa_com_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Extraindo Informações de Relatórios de uma Empresa com Python


Muitas empresas utilizam relatórios em PDF com dados importantes acerca de seu negócio. Porém, um dos maiores problemas que estas enfrentam habita no momento em que elas precisam extrair informações, pois geralmente são muitas e exige um trabalho manual com planilhas ou calculadoras, o que pode tomar horas. O Python chega para resolver este problema.

<p align="center"><img width="70%" src="https://raw.githubusercontent.com/andremarinho17/imagens/main/relatorios.jpeg"></p>

Neste projeto, irei mostrar um projeto sobre como extrair informações de relatórios em pdf de uma empresa utilizando a linguagem Python e uma de suas bibliotecas chamada PDF Plumber, que é feita para obter informações detalhadas em relatórios pdf. Ela também permite a extração e manipulação de diversos arquivos ao mesmo tempo.


Antes de tudo, é preciso utilizar o gerenciador de pacotes pip com o comando install para instalar a biblioteca PDF Pumbler.

In [None]:
!pip install pdfplumber

Collecting pdfplumber
[?25l  Downloading https://files.pythonhosted.org/packages/36/90/0e3da2c9a963af03e1cd66d568eacb599c50b9da7b87f7ddeff9f5e73312/pdfplumber-0.5.24.tar.gz (42kB)
[K     |████████████████████████████████| 51kB 5.5MB/s 
[?25hCollecting pdfminer.six==20200517
[?25l  Downloading https://files.pythonhosted.org/packages/b0/c0/ef1c8758bbd86edb10b5443700aac97d0ba27a9ca2e7696db8cd1fdbd5a8/pdfminer.six-20200517-py3-none-any.whl (5.6MB)
[K     |████████████████████████████████| 5.6MB 8.8MB/s 
Collecting Wand
[?25l  Downloading https://files.pythonhosted.org/packages/98/08/096b76e9211ca5ef338791100b76375555cb4082a53496b1c1d5897ee13c/Wand-0.6.5-py2.py3-none-any.whl (138kB)
[K     |████████████████████████████████| 143kB 44.6MB/s 
[?25hCollecting pycryptodome
[?25l  Downloading https://files.pythonhosted.org/packages/2b/6f/7e38d7c97fbbc3987539c804282c33f56b6b07381bf2390deead696440c5/pycryptodome-3.9.9-cp36-cp36m-manylinux1_x86_64.whl (13.7MB)
[K     |█████████████████████

É aconselhável a utilização algum serviço em nuvem, de preferência o Google Drive, para armazenar os relatórios da empresa e facilitar a extração dos dados e o reaproveitamento do notebook. O Google Colab faz uma integração muito boa com o Google Drive, basta importa-la. É preciso também importar o pdfplumber, o OS para caminhar pelos diretórios do Google Drive e montar o Drive.

In [None]:
#Importando as bibliotecas necessárias 

from google.colab import drive
import pdfplumber
import os

drive.mount('/content/gdrive')

Mounted at /content/gdrive


Agora, é preciso navegar até a pasta onde estão localizados os arquivos que se deseja usar. Para isso, basta usar o método Change Directory através do comando chdir da biblioteca OS.

In [None]:
# navegando até a pasta com os relatórios
os.chdir('/content/gdrive/MyDrive/PDZ/relatorios')

Além disso, a OS também tem o comando getcwd para verificar o local em que se está.

In [None]:
# checando o diretorio
os.getcwd()

'/content/gdrive/MyDrive/PDZ/relatorios'

No diretório correto, é preciso verificar se os arquivos que serão usados estão nele. Para isso, basta usar o comando listdir do OS para fazer a listagem.


In [None]:
# Listando os arquivos do diretório
arquivos_semana = os.listdir()
print(arquivos_semana)

['20200801.pdf', '20200802.pdf', '20200803.pdf', '20200804.pdf', '20200805.pdf']


### **Manipulando os Relatórios**

Agora, é hora de começar a manipular os arquivos e extrair informações. Vou abrir o arquivo com o pdfplumber a armazená-lo em uma variável para facilitar a manipulação.


In [None]:
# Abrindo o relatório
relatorio = pdfplumber.open('/content/gdrive/MyDrive/PDZ/relatorios/20200801.pdf')

É importante ressaltar que relatórios podem possuir mais de uma página e mesmo que possua apenas uma, sempre é preciso definir a que será trabalhada. Para selecionar a página correta, basta executar o seguinte comando:

In [None]:
pagina = relatorio.pages[0]

Neste caso, selecionei a primeira página do relatório, onde estão as informações a serem extraídas. Para extraí-las, basta usar a função `extract_text()` do pdfplumber.

In [None]:
# Extraindo o texto da primeira página do relatório
texto = pagina.extract_text()
print(texto)

SIGMOIDAL	
	 	
Relatório	Diário	
Data:	01/08/2020	
	
	
RECEITA:	R$	1297.00	
DADOS	ATUALIZADOS	POR	CARLOS	MELO	
	
	
Visitantes:	1367	
A	quantidade	de	visitantes	diz	respeito	a	visitantes	únicos	visitando	qualquer	
página	do	domínio	ou	subdomínio	sigmoidal.ai.	Compreende,	então,	cursos,	
blogs	e	landing	pages.	
	
Inscritos:	33	
É	considerado	aqui	o	número	de	leads	gerados	por	meio	de	cadastro	
voluntário	nos	formulários	do	cabeçalho,	rodapé	ou	materiais	ricos	(como	
eBook,	infográficos,	entre	outros).	
	
Assinantes:	6	
Clientes	assinantes	da	Escola	de	Data	Science,	considerando-se	o	plano	
renovável	de	assinatura	mensal.	
	


O grande problema é que o Python não enxerga os dados da forma que estão acima e sim, como uma grande string, incluindo símbolos como \t (espaço entre palavras) e \n (quebra de linha), como na imagem a seguir:

In [None]:
texto

'SIGMOIDAL\t\n\t \t\nRelatório\tDiário\t\nData:\t01/08/2020\t\n\t\n\t\nRECEITA:\tR$\t1297.00\t\nDADOS\tATUALIZADOS\tPOR\tCARLOS\tMELO\t\n\t\n\t\nVisitantes:\t1367\t\nA\tquantidade\tde\tvisitantes\tdiz\trespeito\ta\tvisitantes\túnicos\tvisitando\tqualquer\t\npágina\tdo\tdomínio\tou\tsubdomínio\tsigmoidal.ai.\tCompreende,\tentão,\tcursos,\t\nblogs\te\tlanding\tpages.\t\n\t\nInscritos:\t33\t\nÉ\tconsiderado\taqui\to\tnúmero\tde\tleads\tgerados\tpor\tmeio\tde\tcadastro\t\nvoluntário\tnos\tformulários\tdo\tcabeçalho,\trodapé\tou\tmateriais\tricos\t(como\t\neBook,\tinfográficos,\tentre\toutros).\t\n\t\nAssinantes:\t6\t\nClientes\tassinantes\tda\tEscola\tde\tData\tScience,\tconsiderando-se\to\tplano\t\nrenovável\tde\tassinatura\tmensal.\t\n\t'

Diante dessa situação, é preciso fazer uma limpeza no texto, eliminando todos os caracteres símbolos. Para isso, basta substituir \t por vazio utilizando a função replace e separar o texto em linhas utilizando a função split.

In [None]:
# quebrando as linhas do texto
texto.split('\n')

Nos arquivos em questão, a variável Vendas sempre aparece na sétima linha e é com ela que é feito o calculo do valor total de vendas da empresa.

In [None]:
# selecionando a linha 7, que é onde está o valor da receita
texto.split('\n')[6]

'RECEITA:\tR$\t1297.00\t'

In [None]:
# limpando a linha 7
texto.split('\n')[6].replace('\t', "")

'RECEITA:R$1297.00'

In [None]:
texto.split('\n')[6].replace('\t', "").split("R$")

['RECEITA:', '1297.00']

In [None]:
texto.split('\n')[6].replace('\t', "").split("R$")[1]

'1297.00'

Formatado o texto, agora é necessário automatizar a soma das receitas de todos os relatórios, retornando a receita total dos últimos cinco dias. Para isso, basta criar uma função que itere sobre cada um dos relatórios que estão no diretório e some o valor de receita contido em cada um deles.

In [None]:
# conferindo a variável que contém da semana
arquivos_semana

['20200801.pdf',
 '20200802.pdf',
 '20200803.pdf',
 '20200804.pdf',
 '20200805.pdf']

Total de cada relatório:

In [None]:
# Contador
soma = 0

# Função
for arquivo  in arquivos_semana:
  relatorio = pdfplumber.open(arquivo)
  pagina = relatorio.pages[0]
  texto = pagina.extract_text()
  valor = texto.split('\n')[6].replace('\t', "").split("R$")[1]
  valor = float(valor)
  soma = soma + valor
  print(arquivo, '--->',valor)
  

20200801.pdf ---> 1297.0
20200802.pdf ---> 537.0
20200803.pdf ---> 554.0
20200804.pdf ---> 2554.0
20200805.pdf ---> 154.0


Total Geral dos últimos 5 dias:

In [None]:
print('Receita dos Últimos 5 dias: R$', soma)

Receita dos Últimos 5 dias: R$ 5096.0


###**Conclusões**

Portanto, todo aquele trabalho manual com planilhas e calculadoras para extrair informações de PDFs pode ser dispensado através do uso da linguagem Python, que faz todo este trabalho de uma forma simples e otimizada. 