<img alt = "Jean logo" width="5%" src="https://raw.githubusercontent.com/jeanhrsouza/python-sigmoidal/master/imagens/logo-jean.png">
<img alt ="Colaboratory logo" width="15%" src="https://raw.githubusercontent.com/jeanhrsouza/python-sigmoidal/master/imagens/logo-sigmoidal.png">

### **Python do Zero**
---
### Relatórios da Empresa

Agora que temos as ferramentas e o conhecimento para usá-las, é hora de botar a mão na massa, e botar todo o poder de tudo que aprendemos para funcionar na prática.

<center><img width="50%" src="https://image.freepik.com/free-photo/workplace-results-professional-report-accounting-during_1418-61.jpg"></center>

Em nossa jornada rumo à automação de tarefas repetitivas em nossa rotina de trabalho, vamos aprender a extrair informações úteis de nosso documentos.

Mais uma vez utilizando a biblioteca [PDF Plumber](https://github.com/jsvine/pdfplumber) vamos extrair e manipular informações de diversos relatórios em pdf ao mesmo tempo.

Para isso, vamos precisar fazer o download dos arquivos de apoio que foram disponibilizados como material complementar dessa aula.

Lembrando: Nativamente, o Google Colab não possui essa biblioteca instalada, então nós precisamos instalar a mesma no nosso ambiente.

Para isso, vamos utilizar o gerenciador de pacotes `pip`, e com o comando `install` vamos instalar a biblioteca


In [1]:
# instalando o pdfplumber
!pip install pdfplumber -q

[K     |████████████████████████████████| 5.6MB 6.4MB/s 
[K     |████████████████████████████████| 143kB 47.2MB/s 
[K     |████████████████████████████████| 13.7MB 307kB/s 
[?25h  Building wheel for pdfplumber (setup.py) ... [?25l[?25hdone


In [2]:
# importando os pacotes necessários
from google.colab import drive
import pdfplumber
import os

#montando o drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


Assim que montamos o nosso drive, estamos na raiz dele. Atente-se sempre para o caminho que leva ao arquivo que você deseja acessar.

Você pode fazer o upload em qualquer lugar no seu drive. Sabendo o caminho, fica fácil acessar.

Normalmente, aquela tela inicial do seu drive é `/content/gdrive/My Drive`.

Aqui, eu criei uma pasta `relatórios`, onde todos os arquivos de relatórios estão. Para acessar essa pasta, o caminho é:

<center>/content/gdrive/My Drive/Cursos/Sigmoidal/Modulo 02/dados/relatorios</center>

Portanto, usando o método Change Directory através do comando `chdir` da biblioteca `os`, vamos navegar até a pasta onde se encontram os arquivos que desejamos usar.

In [3]:
# mudar para o diretório com pdfs da semana
os.chdir('/content/gdrive/My Drive/Cursos/Sigmoidal/Modulo 02/dados/relatorios')

É sempre bom garantir logo que você chegou ao diretório que deseja, antes de dar continuidade ao projeto e se deparar com erros que você não saberá a origem. Ela pode estar aqui.

Para isso, mais uma vez utilizamos a biblioteca `os`, com o comando `getcwd`.

In [4]:
# checar se estou no diretório
os.getcwd()

'/content/gdrive/My Drive/Cursos/Sigmoidal/Modulo 02/dados/relatorios'

Estamos no repositório correto. Para conferir os arquivos que temos dentro desse diretório, podemos usar o método `listdir`, que nos retorna uma lista do conteúdo do repositórios em que estamos.

Vamos salvar essa informação em uma variável para que possamos acessar esses arquivos facilmente mais para frente.

In [5]:
# imprimir lista com arquivos no diretório
arquivos_semana = os.listdir()
print(arquivos_semana)

['20200801.pdf', '20200802.pdf', '20200803.pdf', '20200804.pdf', '20200805.pdf']


## Manipulando Relatórios
Com todo o conteúdo à disposição, é hora de começar a manipular esses arquivos.
Aqui, voltaremos a usar a biblioteca `pdfplumber`, que irá nos ajudar a manipular arquivos no formato pdf.

In [6]:
# abrir um relatório de exemplo
relatorio = pdfplumber.open("/content/gdrive/My Drive/Cursos/Sigmoidal/Modulo 02/dados/relatorios/20200801.pdf")

Lembre-se: Mesmo que o arquivo tenha apenas uma página, sempre precisamos definir em que página iremos trabalhar.

Vamos abrir a primeira página, e gravar essa informação em uma variável.

Como a contagem começa em `0`, a primeira página do nosso arquivo está na posição `[0]`.

In [7]:
# abrir a primeira pagina do relatorio
pagina = relatorio.pages[0]

Mais uma vez, utilizaremos a função `extract_text()` para extrair as informações contidas no arquivo.

In [8]:
# extrair o texto da primeira página do primeiro relatório
texto = pagina.extract_text()
print(texto)

SIGMOIDAL	
	 	
Relatório	Diário	
Data:	01/08/2020	
	
	
RECEITA:	R$	1297.00	
DADOS	ATUALIZADOS	POR	CARLOS	MELO	
	
	
Visitantes:	1367	
A	quantidade	de	visitantes	diz	respeito	a	visitantes	únicos	visitando	qualquer	
página	do	domínio	ou	subdomínio	sigmoidal.ai.	Compreende,	então,	cursos,	
blogs	e	landing	pages.	
	
Inscritos:	33	
É	considerado	aqui	o	número	de	leads	gerados	por	meio	de	cadastro	
voluntário	nos	formulários	do	cabeçalho,	rodapé	ou	materiais	ricos	(como	
eBook,	infográficos,	entre	outros).	
	
Assinantes:	6	
Clientes	assinantes	da	Escola	de	Data	Science,	considerando-se	o	plano	
renovável	de	assinatura	mensal.	
	


Para visualização, o processo feito acima já nos atende perfeitamente. Todas as informações estão visíveis e claras, facilitando muito a leitura das informações.

Entretanto, não é assim que o Python enxerga o que foi mostrado acima. E para que possamos manipular os dados contidos nesse arquivo e extrair as informações que precisamos, é necessário entender como o Python lida com esses dados.

## Strings
O tipo de dado que estamos utilizando aqui chama-se `string`, como já vimos em aulas anteriores.

`Strings` são o tipo de dado que utilizamos para lidar com palavras, letras, textos, enfim, nossa linguagem natural.

Nós ainda iremos ver em mais detalhes as formas de manipular as strings, mas em bom estilo Sigmoidal, vamos ver como utilizaremos essas manipulações na prática, para que possamos nos aprofundar em seguida.




O texto é recebido pelo Python incluindo símbolos que representam:
* `\t` : a tecla tab (Espaço entre palavras)
* `\n` : a tecla enter (Quebra de linha)

In [9]:
# olhe como chega o texto
texto

'SIGMOIDAL\t\n\t \t\nRelatório\tDiário\t\nData:\t01/08/2020\t\n\t\n\t\nRECEITA:\tR$\t1297.00\t\nDADOS\tATUALIZADOS\tPOR\tCARLOS\tMELO\t\n\t\n\t\nVisitantes:\t1367\t\nA\tquantidade\tde\tvisitantes\tdiz\trespeito\ta\tvisitantes\túnicos\tvisitando\tqualquer\t\npágina\tdo\tdomínio\tou\tsubdomínio\tsigmoidal.ai.\tCompreende,\tentão,\tcursos,\t\nblogs\te\tlanding\tpages.\t\n\t\nInscritos:\t33\t\nÉ\tconsiderado\taqui\to\tnúmero\tde\tleads\tgerados\tpor\tmeio\tde\tcadastro\t\nvoluntário\tnos\tformulários\tdo\tcabeçalho,\trodapé\tou\tmateriais\tricos\t(como\t\neBook,\tinfográficos,\tentre\toutros).\t\n\t\nAssinantes:\t6\t\nClientes\tassinantes\tda\tEscola\tde\tData\tScience,\tconsiderando-se\to\tplano\t\nrenovável\tde\tassinatura\tmensal.\t\n\t'

### split()

Utilizando o método split, nós podemos dizer ao Python que separe o texto a partir de um argumento que passaremos dentro dos parênteses. Nesse caso, vamos ver como ficaria o texto, caso fizéssemos o split a partir das linhas.

In [10]:
# dividindo o texto por linhas
texto.split("\n")

['SIGMOIDAL\t',
 '\t \t',
 'Relatório\tDiário\t',
 'Data:\t01/08/2020\t',
 '\t',
 '\t',
 'RECEITA:\tR$\t1297.00\t',
 'DADOS\tATUALIZADOS\tPOR\tCARLOS\tMELO\t',
 '\t',
 '\t',
 'Visitantes:\t1367\t',
 'A\tquantidade\tde\tvisitantes\tdiz\trespeito\ta\tvisitantes\túnicos\tvisitando\tqualquer\t',
 'página\tdo\tdomínio\tou\tsubdomínio\tsigmoidal.ai.\tCompreende,\tentão,\tcursos,\t',
 'blogs\te\tlanding\tpages.\t',
 '\t',
 'Inscritos:\t33\t',
 'É\tconsiderado\taqui\to\tnúmero\tde\tleads\tgerados\tpor\tmeio\tde\tcadastro\t',
 'voluntário\tnos\tformulários\tdo\tcabeçalho,\trodapé\tou\tmateriais\tricos\t(como\t',
 'eBook,\tinfográficos,\tentre\toutros).\t',
 '\t',
 'Assinantes:\t6\t',
 'Clientes\tassinantes\tda\tEscola\tde\tData\tScience,\tconsiderando-se\to\tplano\t',
 'renovável\tde\tassinatura\tmensal.\t',
 '\t']

Agora que sabemos uma forma de separar os dados, vamos buscar a informação que estamos buscando: a receita do dia.

Analisando o output de cima, conseguimos identificar que essa informação está contida na sétima posição, que se encontra no índice 6, já que começamos a contagem do 0.

Aqui, vamos fazer o split, como havíamos feito anteriormente, mas somente na linha [6].

In [11]:
# vendas sempre aparecem na 7a posição (indice 6)
texto.split("\n")[6]

'RECEITA:\tR$\t1297.00\t'

### replace()

Em inglês, `replace` significar substituir, e é exatamente isso que esse método faz. Utilizaremos ele para apagar as tabulações, que estão atrapalhando nossa visualização.

In [12]:
# retirando tabulações
texto.split("\n")[6].replace("\t", "")

'RECEITA:R$1297.00'

Avançando na extração da informação, podemos utilizar o split para separar o que vem antes e depois do R$. 

Nós sabemos que esses dados estão em reais brasileiros, e estamos interessados apenas na parte numérica, por isso, ele não é relevante nesse momento. Vamos retirá-lo.

In [13]:
# como queremos o que vem depois do R$, pode ser usado str.split("R$")
texto.split("\n")[6].replace("\t", "").split("R$")

['RECEITA:', '1297.00']

Como mencionamos anteriormente, estamos lidando com `strings`. 

Entretanto, estamos aqui para extrair e manipular números. Para que possamos fazer as operações necessárias, precisamos converter nosso resultado para uma forma numérica.

Como estamos lidando com moedas, que possuem casa decimal, vamos utilizar o formato `float`.

Veja a difereneça no resultado das operações caso não façamos a conversão:

In [14]:
# somando strings
strings = "1" + "1"
print('Soma de Strings: ', strings)

# somando floats
floats = 1.0 + 1.0
print('Soma de Floats: ', floats)

Soma de Strings:  11
Soma de Floats:  2.0


Para que possamos realizar operações matemáticas, precisamos converter esses números de strings, para um formato numérico.

No nosso caso, como mencionamos, utilizaremos o formato float.

In [15]:
# valor ainda é string
texto.split("\n")[6].replace("\t", "").split("R$")[1]

'1297.00'

In [16]:
# transformando em float
float(texto.split("\n")[6].replace("\t", "").split("R$")[1])

1297.0

## Automatizando a Soma de Receita dos Relatórios

Agora que sabemos como abrir, ler, e manipular os relatórios para extrair a receita de cada arquivo, é hora de criarmos uma função para fazer tudo isso pra nós.

Basicamente, essa função vai iterar sobre nossos relatórios, fazer todos os passos que fizemos anteriormente, e extrair o valor de receita contido em cada um desses. Após receber os valores, ela vai somá-los, e nos retornar a receita total dos últimos 5 dias.

In [17]:
soma_teste = 0

for letra in [1, 10, 34, 99]:
  soma_teste = soma_teste + letra
  print(soma_teste)

1
11
45
144


In [18]:
#criando um contador
soma = 0

#criando a função
for arquivo in arquivos_semana:
  relatorio = pdfplumber.open(arquivo)
  pagina = relatorio.pages[0]
  texto = pagina.extract_text()
  valor = texto.split("\n")[6].replace("\t", "").split("R$")[1]
  valor = float(valor)
  soma = soma + valor
  print(arquivo, "--->", valor)

20200801.pdf ---> 1297.0
20200802.pdf ---> 537.0
20200803.pdf ---> 554.0
20200804.pdf ---> 2554.0
20200805.pdf ---> 154.0


Após visualizar o total de cada dia, vamos ver como ficou a soma:

In [19]:
# soma total
print("Receita dos últimos 5 dias: R$", soma)

Receita dos últimos 5 dias: R$ 5096.0


## Dúvidas

### Leitura de arquivos
* https://pypi.org/project/gdoc-down/ - Biblioteca para ler arquivos gdoc, html,LaTeX, word, pdf, etc.
* Pandas - csv, excel, etc.

### Manipular Strings

* split vs strip (Separador vs "retirador")
* revisão do notebook



In [20]:
texto_1 = 'Receita: R$200,00'
texto_2 = 'R$200,00'

In [21]:
texto_1.split("R$")

['Receita: ', '200,00']

In [22]:
texto_2.strip('R$')

'200,00'

### Booleanos
* Função de string + Booleanos/Condicionais - Uso

In [23]:
x = 'Carlos'
y = 'carlos'

x == y

False

In [24]:
x = x.lower()

x == y

True