<a href="https://colab.research.google.com/github/rbviana/data_science/blob/main/Relat%C3%B3rio_da_Empresa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Relatórios da Empresa

Em nossa jornada rumo à automação de tarefas repetitivas em nossa rotina de trabalho, vamos aprender a extrair e utilizar informações úteis de nossos documentos.

Mais uma vez utilizando a biblioteca [PDF Plumber](https://github.com/jsvine/pdfplumber) vamos extrair e manipular informações de diversos relatórios em pdf ao mesmo tempo.


<center><img width="50%" src="https://image.freepik.com/free-photo/workplace-results-professional-report-accounting-during_1418-61.jpg"></center>

In [1]:
# instalando o pdfplumber
!pip install pdfplumber -q

[K     |████████████████████████████████| 51kB 2.7MB/s 
[K     |████████████████████████████████| 5.6MB 5.6MB/s 
[K     |████████████████████████████████| 143kB 48.7MB/s 
[K     |████████████████████████████████| 13.7MB 300kB/s 
[?25h  Building wheel for pdfplumber (setup.py) ... [?25l[?25hdone


In [2]:
# importando pacotes necessários
from google.colab import drive
import pdfplumber
import os

# montando o drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [3]:
# mudar para o diretório com pdfs da semana
os.chdir('/content/gdrive/MyDrive/relatorios')

In [5]:
# checar se estou no diretório correto
os.getcwd()

'/content/gdrive/My Drive/relatorios'

In [7]:
# imprimir lista com arquivos no diretório
arquivos_semana = os.listdir()
print(arquivos_semana)

['20200804.pdf', '20200803.pdf', '20200802.pdf', '20200805.pdf', '20200801.pdf']


## Manipulando Relatórios

Voltaremos a usar a biblioteca `pdfplumber`, que irá nos ajudar a manipular arquivos no formato pdf.

In [9]:
# abrir um relatório de exemplo
relatorio = pdfplumber.open('/content/gdrive/MyDrive/relatorios/20200801.pdf')

Vamos abrir a primeira página, e gravar essa informação em uma variável.

In [10]:
# abrir a primeira página do relatório
pagina = relatorio.pages[0]

Mais uma vez, utilizaremos a função `extract_text()` para extrair as informações contidas no arquivo.

In [11]:
# extrair o texto da primeira página do primeiro relatório
texto = pagina.extract_text()
print(texto)

SIGMOIDAL	
	 	
Relatório	Diário	
Data:	01/08/2020	
	
	
RECEITA:	R$	1297.00	
DADOS	ATUALIZADOS	POR	CARLOS	MELO	
	
	
Visitantes:	1367	
A	quantidade	de	visitantes	diz	respeito	a	visitantes	únicos	visitando	qualquer	
página	do	domínio	ou	subdomínio	sigmoidal.ai.	Compreende,	então,	cursos,	
blogs	e	landing	pages.	
	
Inscritos:	33	
É	considerado	aqui	o	número	de	leads	gerados	por	meio	de	cadastro	
voluntário	nos	formulários	do	cabeçalho,	rodapé	ou	materiais	ricos	(como	
eBook,	infográficos,	entre	outros).	
	
Assinantes:	6	
Clientes	assinantes	da	Escola	de	Data	Science,	considerando-se	o	plano	
renovável	de	assinatura	mensal.	
	


Para visualização, o processo feito acima já nos atende perfeitamente.

Entretanto, não é assim que o Python enxerga o que foi mostrado acima. E para que posssamos manipular os dados contidos nesse arquivo e extrarir deles as informações que precisamos, é necessário entender como o Python lida com esses dados.

## Strings

`Strings` são o tipo de dado que utilizamos para lidar com palavras, letras, textos, enfim, nossa linguagem natural.

O texto é recebido pelo Python incluindo símbolos que representam:
* `\t` : a tecla tab (espaço entre palavras)
* `\n` : a tecla enter (quebra de linha)

In [12]:
# olher como chega o texto
texto

'SIGMOIDAL\t\n\t \t\nRelatório\tDiário\t\nData:\t01/08/2020\t\n\t\n\t\nRECEITA:\tR$\t1297.00\t\nDADOS\tATUALIZADOS\tPOR\tCARLOS\tMELO\t\n\t\n\t\nVisitantes:\t1367\t\nA\tquantidade\tde\tvisitantes\tdiz\trespeito\ta\tvisitantes\túnicos\tvisitando\tqualquer\t\npágina\tdo\tdomínio\tou\tsubdomínio\tsigmoidal.ai.\tCompreende,\tentão,\tcursos,\t\nblogs\te\tlanding\tpages.\t\n\t\nInscritos:\t33\t\nÉ\tconsiderado\taqui\to\tnúmero\tde\tleads\tgerados\tpor\tmeio\tde\tcadastro\t\nvoluntário\tnos\tformulários\tdo\tcabeçalho,\trodapé\tou\tmateriais\tricos\t(como\t\neBook,\tinfográficos,\tentre\toutros).\t\n\t\nAssinantes:\t6\t\nClientes\tassinantes\tda\tEscola\tde\tData\tScience,\tconsiderando-se\to\tplano\t\nrenovável\tde\tassinatura\tmensal.\t\n\t'

## split()

Utilizando o método split, nós podemos dizer ao Python que separe o texto a partir de um argumento que passaremos dentro dos parênteses. Nesse caso, vamos ver como ficaria o texto, caso fizéssemos o split a partir das linhas.

In [13]:
# dividindo o texto por linhas
texto.split('\n')

['SIGMOIDAL\t',
 '\t \t',
 'Relatório\tDiário\t',
 'Data:\t01/08/2020\t',
 '\t',
 '\t',
 'RECEITA:\tR$\t1297.00\t',
 'DADOS\tATUALIZADOS\tPOR\tCARLOS\tMELO\t',
 '\t',
 '\t',
 'Visitantes:\t1367\t',
 'A\tquantidade\tde\tvisitantes\tdiz\trespeito\ta\tvisitantes\túnicos\tvisitando\tqualquer\t',
 'página\tdo\tdomínio\tou\tsubdomínio\tsigmoidal.ai.\tCompreende,\tentão,\tcursos,\t',
 'blogs\te\tlanding\tpages.\t',
 '\t',
 'Inscritos:\t33\t',
 'É\tconsiderado\taqui\to\tnúmero\tde\tleads\tgerados\tpor\tmeio\tde\tcadastro\t',
 'voluntário\tnos\tformulários\tdo\tcabeçalho,\trodapé\tou\tmateriais\tricos\t(como\t',
 'eBook,\tinfográficos,\tentre\toutros).\t',
 '\t',
 'Assinantes:\t6\t',
 'Clientes\tassinantes\tda\tEscola\tde\tData\tScience,\tconsiderando-se\to\tplano\t',
 'renovável\tde\tassinatura\tmensal.\t',
 '\t']

Analisando o output acima, conseguimos identificar que a `receita do dia` está contida na sétima posição, que se encontra no índice 6.

In [15]:
# vendas sempre aparecem na 7ª posição (índice 6)
texto.split('\n')[6]

'RECEITA:\tR$\t1297.00\t'

## replace()

Em inglês, `replace` significa substituir, e é exatamente isso que esse método faz. Utilizaremos ele para apagar as tabulações, que estão atrapalhando nossa visualização.

In [16]:
# retirando tabulações
texto.split('\n')[6].replace('\t','')

'RECEITA:R$1297.00'

Avançado na extração da informação, podemos utilizar o split para separar o que vem antes e depois do R$.

In [17]:
# como queremos o que vem depois do R$, pode ser usado str.split("R$")
texto.split('\n')[6].replace('\t', '').split('R$')

['RECEITA:', '1297.00']

Para que possamos fazer as operações necessárias, precisamos converter nosso resultado para uma forma numérica.

In [18]:
# somando strings
strings = '1' + '1'
print('Soma de Strings: ', strings)

# somando floats
floats = 1.0 + 1.0
print('Soma de Floats: ', floats)

Soma de Strings:  11
Soma de Floats:  2.0


Para que possamos realizar operações matemáticas, precisamos converter esses números de strings, para um formato numérico.

In [19]:
# valor ainda é string
texto.split('\n')[6].replace('\t', '').split('R$')[1]

'1297.00'

In [20]:
# transformando em float
float(texto.split('\n')[6].replace('\t', '').split('R$')[1])

1297.0

## Automatizando a Soma de Receita dos Relatórios

Agora que sabemos como abrir, ler, e manipular os relatórios para extrair a receita de cada arquivo, é hora de criarmos uma função para fazer tudo isso pra nós.

Basicamente, essa função vai iterar sobre nosso relatórios, fazer todos os passos que fizemos anteriormente, e extrair o valor de receita contido em cada um desses. Após receber os valores, ela vai somá-los, e nos retornar a receita total dos últimos 5 dias.

In [22]:
# criando um contador
soma = 0

# criando a função
for arquivo in arquivos_semana:
  relatorio = pdfplumber.open(arquivo)
  pagina = relatorio.pages[0]
  texto = pagina.extract_text()
  valor = texto.split('\n')[6].replace('\t', '').split('R$')[1]
  valor = float(valor)
  soma = soma + valor
  print(arquivo, '--->', valor)

20200804.pdf ---> 2554.0
20200803.pdf ---> 554.0
20200802.pdf ---> 537.0
20200805.pdf ---> 154.0
20200801.pdf ---> 1297.0


Após visuaizar o total de cada dia,vamos ver como ficou a soma:

In [23]:
# soma total
print('Receita dos Últimos 5 dias: R$', soma)

Receita dos Últimos 5 dias: R$ 5096.0


## Dúvidas

### Leitura de arquivos
* https://pypi.org/project/gdoc-down/ - Biblioteca para ler arquivos gdoc, html,LaTeX, word, pdf, etc.
* Pandas - csv, excel, etc.

### Manipular Strings

* split vs strip (Separador vs "retirador")
* revisão do notebook


In [24]:
texto_1 = 'Receita: R$200,00'
texto_2 = 'R$200,00'

In [25]:
texto_1.split('R$')

['Receita: ', '200,00']

In [26]:
texto_2.strip('R$')

'200,00'

## Booleanos

* Função de string + Booleanos/Condicionais - Uso

In [27]:
x = 'Carlos'
y = 'carlos'

x == y

False

In [28]:
x = x.lower()

x == y

True