<a href="https://colab.research.google.com/github/sirleudo/sigmoidal_data_science/blob/master/Relatorios_Empresa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Extração e manipulação de dados em arquivo pdf

Utilizando a biblioteca `PDF Plumber` vamos extrair e manipular informações de diversos relatórios em pdf ao mesmo tempo.

In [1]:
# instalando o pdfplumber
!pip install pdfplumber -q

[K     |████████████████████████████████| 51kB 2.6MB/s 
[K     |████████████████████████████████| 5.6MB 5.4MB/s 
[K     |████████████████████████████████| 143kB 48.3MB/s 
[K     |████████████████████████████████| 13.7MB 313kB/s 
[?25h  Building wheel for pdfplumber (setup.py) ... [?25l[?25hdone


In [2]:
# importando os pacotes necessários
from google.colab import drive
import pdfplumber
import os

# montando o drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [3]:
# mudar para diretorio com pdfs de semana
os.chdir("/content/gdrive/MyDrive/relatorios")

In [4]:
# checar se estou no diretorio correto
os.getcwd()

'/content/gdrive/My Drive/relatorios'

In [5]:
# imprimir lista com arquivos no diretorio
arquivos_semana = os.listdir()
print(arquivos_semana)

['20200801.pdf', '20200802.pdf', '20200804.pdf', '20200805.pdf', '20200803.pdf']


In [6]:
# abrir o relatorio de exemplo
relatorio = pdfplumber.open("/content/gdrive/MyDrive/relatorios/20200801.pdf")

In [7]:
# abrir a primeira pagina do relatorio
pagina = relatorio.pages[0]

In [8]:
# etrair o texto da primeira pagina do primeiro relatorio
texto = pagina.extract_text()
print(texto)

SIGMOIDAL	
	 	
Relatório	Diário	
Data:	01/08/2020	
	
	
RECEITA:	R$	1297.00	
DADOS	ATUALIZADOS	POR	CARLOS	MELO	
	
	
Visitantes:	1367	
A	quantidade	de	visitantes	diz	respeito	a	visitantes	únicos	visitando	qualquer	
página	do	domínio	ou	subdomínio	sigmoidal.ai.	Compreende,	então,	cursos,	
blogs	e	landing	pages.	
	
Inscritos:	33	
É	considerado	aqui	o	número	de	leads	gerados	por	meio	de	cadastro	
voluntário	nos	formulários	do	cabeçalho,	rodapé	ou	materiais	ricos	(como	
eBook,	infográficos,	entre	outros).	
	
Assinantes:	6	
Clientes	assinantes	da	Escola	de	Data	Science,	considerando-se	o	plano	
renovável	de	assinatura	mensal.	
	


In [9]:
# ollhe como chega o texto
texto

'SIGMOIDAL\t\n\t \t\nRelatório\tDiário\t\nData:\t01/08/2020\t\n\t\n\t\nRECEITA:\tR$\t1297.00\t\nDADOS\tATUALIZADOS\tPOR\tCARLOS\tMELO\t\n\t\n\t\nVisitantes:\t1367\t\nA\tquantidade\tde\tvisitantes\tdiz\trespeito\ta\tvisitantes\túnicos\tvisitando\tqualquer\t\npágina\tdo\tdomínio\tou\tsubdomínio\tsigmoidal.ai.\tCompreende,\tentão,\tcursos,\t\nblogs\te\tlanding\tpages.\t\n\t\nInscritos:\t33\t\nÉ\tconsiderado\taqui\to\tnúmero\tde\tleads\tgerados\tpor\tmeio\tde\tcadastro\t\nvoluntário\tnos\tformulários\tdo\tcabeçalho,\trodapé\tou\tmateriais\tricos\t(como\t\neBook,\tinfográficos,\tentre\toutros).\t\n\t\nAssinantes:\t6\t\nClientes\tassinantes\tda\tEscola\tde\tData\tScience,\tconsiderando-se\to\tplano\t\nrenovável\tde\tassinatura\tmensal.\t\n\t'

In [10]:
# dividindo o texto em linhas
texto.split('\n')

['SIGMOIDAL\t',
 '\t \t',
 'Relatório\tDiário\t',
 'Data:\t01/08/2020\t',
 '\t',
 '\t',
 'RECEITA:\tR$\t1297.00\t',
 'DADOS\tATUALIZADOS\tPOR\tCARLOS\tMELO\t',
 '\t',
 '\t',
 'Visitantes:\t1367\t',
 'A\tquantidade\tde\tvisitantes\tdiz\trespeito\ta\tvisitantes\túnicos\tvisitando\tqualquer\t',
 'página\tdo\tdomínio\tou\tsubdomínio\tsigmoidal.ai.\tCompreende,\tentão,\tcursos,\t',
 'blogs\te\tlanding\tpages.\t',
 '\t',
 'Inscritos:\t33\t',
 'É\tconsiderado\taqui\to\tnúmero\tde\tleads\tgerados\tpor\tmeio\tde\tcadastro\t',
 'voluntário\tnos\tformulários\tdo\tcabeçalho,\trodapé\tou\tmateriais\tricos\t(como\t',
 'eBook,\tinfográficos,\tentre\toutros).\t',
 '\t',
 'Assinantes:\t6\t',
 'Clientes\tassinantes\tda\tEscola\tde\tData\tScience,\tconsiderando-se\to\tplano\t',
 'renovável\tde\tassinatura\tmensal.\t',
 '\t']

In [11]:
# vendas sempre aparece na 7a posição
texto.split('\n')[6]

'RECEITA:\tR$\t1297.00\t'

In [17]:
# retirado as tabulações
texto.split("\n")[6].replace("\t", "")

'RECEITA:R$1297.00'

In [18]:
# extraindo o valor
texto.split("\n")[6].replace("\t", "").split("R$")

['RECEITA:', '1297.00']

In [19]:
# valor é string
texto.split("\n")[6].replace("\t", "").split("R$")[1]

'1297.00'

In [20]:
# transformando em float
float(texto.split("\n")[6].replace("\t", "").split("R$")[1])

1297.0

In [22]:
# criando o contador
soma = 0

# criando a função
for arquivo in arquivos_semana:
  relatorio = pdfplumber.open(arquivo)
  pagina = relatorio.pages[0]
  texto = pagina.extract_text()
  valor = texto.split("\n")[6].replace("\t", "").split("R$")[1]
  valor = float(valor)
  soma = soma + valor
  print(arquivo, "--->, valor")

20200801.pdf --->, valor
20200802.pdf --->, valor
20200804.pdf --->, valor
20200805.pdf --->, valor
20200803.pdf --->, valor


In [23]:
# soma total
print("Receita dos ultimos 5 dias: R$", soma)

Receita dos ultimos 5 dias: R$ 5096.0
