<a href="https://colab.research.google.com/github/marciadartup/Portif-lio/blob/master/M%C3%B3dulo_02_Plant%C3%A3o_de_D%C3%BAvidas_do_Relat%C3%B3rios_da_Empresa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---

## Relatórios da Empresa

Agora que temos as ferramentas e o conhecimento para usá-las, é hora de botar a mão na massa, e botar todo o poder de tudo que aprendemos pra funcionar na prática.


<center><img width="50%" src="https://image.freepik.com/free-photo/workplace-results-professional-report-accounting-during_1418-61.jpg"></center>

Em nossa jornada rumo à automação de tarefas repetitivas em nossa rotina de trabalho, vamos aprender a extrair e utilizar informações úteis de nossos documentos.

Mais uma vez utilizando a biblioteca [PDF Plumber](https://github.com/jsvine/pdfplumber) vamos extrair e manipular informações de diversos relatórios em pdf ao mesmo tempo.

Para isso, vamos precisar fazer o download dos arquivos de apoio que foram disponibilizados como material complementar dessa aula. 

Lembrando: Nativamente, o Google Colab não possui essa biblioteca instalada, então nós precisamos instalar a mesma no nosso ambiente.

Para isso, vamos utilizar o gerenciador de pacotes `pip`, e com o comando `install` vamos instalar a biblioteca.

In [None]:
# instalando o pdfplumber
!pip install pdfplumber

In [None]:
# importando os pacotes necessários
from google.colab import drive
import pdfplumber
import os

# montando o drive
drive.mount('/content/gdrive')

Assim que montamos o nosso drive, estamos na raiz dele. Atente-se sempre para o caminho que leva ao arquivo que você deseja acessar.

Você pode fazer o upload em qualquer lugar no seu drive. Sabendo o caminho, fica fácil acessar. 

Normalmente, aquela tela inicial do seu drive é `/content/gdrive/My Drive`. 

Aqui, eu criei uma pasta `relatorios`, onde todos os arquivos de relatórios estão. Para acessar essa pasta, o caminho é:

<center> /content/gdrive/My Drive/relatorios</center>

Portanto, usando o método *Change Directory* através do comando `chdir` da biblioteca `os`, vamos navegar até a pasta onde se encontram os arquivos que desejamos usar.

In [None]:
# mudar para diretório com pdfs da semana
os.chdir("/content/gdrive/My Drive/relatorios")

É sempre bom garantir logo que você chegou ao diretório que deseja, antes de dar continuidade ao projeto e se deparar com erros que você não saberão a origem. Ela pode estar aqui.

Para isso, mais uma vez utilizamos a biblioteca `os`, com o comando `getcwd`.

In [None]:
# checar se estou no diretório correto
os.getcwd()

Estamos no repositório correto. Para conferir os arquivos que temos dentro desse diretório, podemos usar o método `listdir`, que nos retorna uma lista do conteúdo do repositórios em que estamos.

Vamos salvar essa informação em uma variável para que possamos acessar esses arquivos facilmente mais pra frente.

In [None]:
# imprimir lista com arquivos no diretório
arquivos_semana = os.listdir()
print(arquivos_semana)

## Manipulando Relatórios

Com todo o conteúdo à disposição, é hora de começar a manipular esses arquivos.

Aqui, voltaremos a usar a biblioteca `pdfplumber`, que irá nos ajudar a manipular arquivos no formato pdf.

In [None]:
# abrir um relatório de exemplo
relatorio = pdfplumber.open("/content/gdrive/My Drive/relatorios/20200801.pdf")

Lembre-se: Mesmo que o arquivo tenha apenas uma página, sempre precisamos definir em que página iremos trabalhar.

Vamos abrir a primeira página, e gravar essa informação em uma variável.

Como a contagem começa em `0`, a primeira página do nosso arquivo está na posição `[0]`.

In [None]:
# abrir a primeira pagina do relatorio
pagina = relatorio.pages[0]

Mais uma vez, utilizaremos a função `extract_text()` para extrair as informações contidas no arquivo.

In [None]:
# extrair o texto da primeira página do primeiro relatório
texto = pagina.extract_text()
print(texto)

Para visualização, o processo feito acima já nos atende perfeitamente. Todas as informações estão visíveis e claras, facilitando muito a leitura das informações.

Entretanto, não é assim que o Phython enxerga o que foi mostrado acima. E para que possamos manipular os dados contidos nesse arquivo e extrair deles as informações que precisamos, é necessário entender como o Python lida com esses dados.

## Strings
O tipo de dado que estamos utilizando aqui chama-se `String`, como já vimos em aulas anteriores. 

`Strings` são o tipo de dado que utilizamos para lidar com palavras, letras, textos, enfim, nossa linguagem natural.

Nós ainda iremos ver em mais detalhes as formas de manipular as strings, mas em bom estilo Sigmoidal, vamos ver como utilizaremos essas manipulações na prática, para que possamos nos aprofundar em seguida.

O texto é recebido pelo Python incluindo símbolos que representam:
* `\t` : a telca tab (Espaço entre palavras)
* `\n`: a tecla enter (Quebra de linha)

In [None]:
# olhe como chega o texto
texto

### split()

Utilizando o método split, nós podemos dizer ao Python que separe o texto a partir de um argumento que passaremos dentro dos parênteses. Nesse caso, vamos ver como ficaria o texto, caso fizéssemos o split a partir das linhas.

In [None]:
# dividindo o texto por linhas
texto.split("\n")

Agora que sabemos uma forma de separar os dados, vamos buscar a informação que estamos buscando: a receita do dia.

Analisando o output de cima, conseguimos identificar que essa informação está contida na sétima posição, que se encontra no índice 6, já que começamos a contagem do 0.

Aqui, vamos fazer o split, como havíamos feito anteriormente, mas somente na linha [6].

In [None]:
# vendas sempre aparecem na 7a posição (indice 6)
texto.split("\n")[6]

### replace()

Em inglês, `replace` significar substituir, e é exatamente isso que esse método faz. Utilizaremos ele para apagar as tabulações, que estão atrapalhando nossa visualização.

In [None]:
# retirando tabulações
texto.split("\n")[6].replace("\t", "")

Avançando na extração da informação, podemos utilizar o split para separar o que vem antes e depois do R$. 

Nós sabemos que esses dados estão em reais brasileiros, e estamos interessados apenas na parte numérica, por isso, ele não é relevante nesse momento. Vamos retirá-lo.

In [None]:
# como queremos o que vem depois do R$, pode ser usado str.split("R$")
texto.split("\n")[6].replace("\t", "").split("R$")

Como mencionamos anteriormente, estamos lidando com `strings`. 

Entretanto, estamos aqui para extrair e manipular números. Para que possamos fazer as operações necessárias, precisamos converter nosso resultado para uma forma numérica.

Como estamos lidando com moedas, que possuem casa decimal, vamos utilizar o formato `float`.

Veja a difereneça no resultado das operações caso não façamos a conversão:

In [None]:
# somando strings
strings = "1" + "1"
print('Soma de Strings: ', strings)

# somando floats
floats = 1.0 + 1.0
print('Soma de Floats: ', floats)

Para que possamos realizar operações matemáticas, precisamos converter esses números de strings, para um formato numérico.

No nosso caso, como mencionamos, utilizaremos o formato float.

In [None]:
# valor ainda é string
texto.split("\n")[6].replace("\t", "").split("R$")[1]

In [None]:
# transformando em float
float(texto.split("\n")[6].replace("\t", "").split("R$")[1])

1297.0

## Automatizando a Soma de Receita dos Relatórios

Agora que sabemos como abrir, ler, e manipular os relatórios para extrair a receita de cada arquivo, é hora de criarmos uma função para fazer tudo isso pra nós.

Basicamente, essa função vai iterar sobre nossos relatórios, fazer todos os passos que fizemos anteriormente, e extrair o valor de receita contido em cada um desses. Após receber os valores, ela vai somá-los, e nos retornar a receita total dos últimos 5 dias.

In [None]:
soma_teste = 0

for letra in [1, 10, 34, 99]:
    soma_teste = soma_teste + letra
    print(soma_teste)

In [None]:
# criando um contador
soma = 0

# criando a função
for arquivo in arquivos_semana:
    relatorio = pdfplumber.open(arquivo)
    pagina = relatorio.pages[0]
    texto = pagina.extract_text()
    valor = texto.split("\n")[6].replace("\t", "").split("R$")[1]
    valor = float(valor)
    soma = soma + valor
    print(arquivo, "--->", valor)


Após visualizar o total de cada dia, vamos ver como ficou a soma:

In [None]:
#soma total
print('Receita dos Últimos 5 dias: R$',soma)

## Dúvidas

### Leitura de arquivos
* https://pypi.org/project/gdoc-down/ - Biblioteca para ler arquivos gdoc, html,LaTeX, word, pdf, etc.
* Pandas - csv, excel, etc.



### Manipular Strings

* split vs strip (Separador vs "retirador")
* revisão do notebook

In [None]:
import pandas as pd

In [None]:
texto_1 = 'Receita: R$200,00'
texto_2 = 'R$200,00'

In [None]:
texto_1.split('R$')[1]

In [None]:
texto_2.strip('R$')

## Booleanos
* Função de string + Booleanos/Condicionais - Uso

In [None]:
x = 'Carlos'
y = 'carlos'

x == y

In [None]:
x = x.lower()

x == y

### Inglês pra DS
