### Importar Bibliotecas

Nesta célula, importamos as bibliotecas necessárias para o projeto. São elas:

- **PyPDF2:** Uma biblioteca para lidar com arquivos PDF no Python.
- **pandas:** Uma poderosa biblioteca para manipulação e análise de dados.

Vamos importá-las agora:

In [1]:
import os
import PyPDF2
import pandas as pd

### Definir Caminho e Listar Arquivos

Nesta célula, definimos um caminho para um diretório e listamos os arquivos contidos nesse diretório.


In [2]:
caminho = f'C://Users/Rafael/arquivos_2024/janeiro/rivaldo/'
arquivos = os.listdir(caminho)

In [3]:
len(arquivos)

100

### Imprimir Lista de Arquivos

Nesta célula, imprimimos a lista de arquivos obtida anteriormente.


In [6]:
print(arquivos)

['ordens de placa 24.01.24.pdf', 'SNT2F26 DOC - MOB.pdf', 'SNU0A05 DOC - MOB.pdf', 'SNU1E44 DOC - MOB.pdf', 'SNU1E94 DOC - MOB.pdf', 'SNU1F44 DOC - MOB.pdf', 'SNU1G04 DOC - MOB.pdf', 'SNU1H04 DOC - MOB.pdf', 'SNU1J84 DOC - MOB.pdf', 'SNU2G12 DOC - MOB.pdf', 'SNU2G82 DOC - MOB.pdf', 'SNU2I42 DOC - MOB.pdf', 'SNU4B34 DOC - MOB.pdf', 'SNU4B44 DOC - MOB.pdf', 'SNU4B54 DOC - MOB.pdf', 'SNU6D85 DOC - CARLOS.pdf', 'SNU7D59 DOC - MOB (1).pdf', 'SNU7D59 DOC - MOB.pdf', 'SNU7D89 DOC - MOB.pdf', 'SNU7D99 DOC - MOB.pdf', 'SNU7E09 DOC - MOB (1).pdf', 'SNU7E09 DOC - MOB.pdf', 'SNU7H48  DOC - HIGOR (1).pdf', 'SNU7H48  DOC - HIGOR.pdf', 'SNU7H98 DOC - HIGOR (1).pdf', 'SNU7H98 DOC - HIGOR.pdf', 'SNU7J38 DOC - CHICO PIRES (1).pdf', 'SNU7J38 DOC - CHICO PIRES.pdf', 'SNU8D34 DOC - MOB.pdf', 'SNU8E68 DOC - MOB.pdf', 'SNU8G68 DOC - MOB (1).pdf', 'SNU8G68 DOC - MOB.pdf', 'SNU8H28 DOC - MOB (1).pdf', 'SNU8H28 DOC - MOB.pdf', 'SNU8H68 DOC - MOB (1).pdf', 'SNU8H68 DOC - MOB.pdf', 'SNU9D04 DOC - MOB.pdf', 'SNU9D

### Iterar sobre Arquivos PDF e Extrair Informações

Nesta célula, iteramos sobre os arquivos PDF da lista `arquivos`, extraímos informações específicas de cada arquivo e as armazenamos em uma lista.

In [7]:
lista = []
for arquivo in arquivos:
    if  '.pdf' in arquivo:
        try:
            with open(caminho + arquivo, "rb") as doc:
                pdf = PyPDF2.PdfReader(doc)
                num_paginas = len(pdf.pages)
                pagina = pdf.pages[0]
                texto = pagina.extract_text()        
                lista_texto = texto.upper().split('\n')
                placa, renavam = lista_texto[33][:7], lista_texto[36][:11]
                quantidade_passageiro = lista_texto[43][-3:]
                crv, cpfcnpj = lista_texto[35], lista_texto[46] 
                nome, data = lista_texto[45], lista_texto[47][-10:]
                lista.append([data, placa, renavam , crv, cpfcnpj, nome, quantidade_passageiro])
        except:
            print(f"{arquivo} not found")

ordens de placa 24.01.24.pdf not found


In [8]:
# tamanho da lista de 100 para 99 
len(lista)

99

### Criar DataFrame e Calcular Valor Unitário

Nesta célula, criamos um DataFrame do Pandas com base na lista de informações extraídas dos arquivos PDF. Além disso, calculamos o valor unitário com base na quantidade de passageiros.

In [9]:
tabela_rivaldo = pd.DataFrame(lista, columns=['data', 'placas', 'renavam' , 'crv', 'cpfcnpj', 'nome', 'quantidade_passageiro'])
tabela_rivaldo['valor_unitario'] = tabela_rivaldo['quantidade_passageiro'].apply(lambda x: 60 if "02P" in x else 90 ) #pd.to_numeric("60.00")

display(tabela_rivaldo)

Unnamed: 0,data,placas,renavam,crv,cpfcnpj,nome,quantidade_passageiro,valor_unitario
0,08/01/2024,SNT2F26,50386461315,243923856776,077.643.154-43,JACILENE MARIA DO NASCIMENTO,02P,60
1,09/01/2024,SNU0A05,83746981160,243925020560,095.202.174-95,LUANA SANTOS DE LIMA,02P,60
2,09/01/2024,SNU1E44,00031569863,243925016040,121.095.934-82,VINICIUS DE OLIVEIRA HONORATO,02P,60
3,08/01/2024,SNU1E94,89470868826,243923873336,061.186.374-07,EDANIEL RAMOS DA SILVA,02P,60
4,08/01/2024,SNU1F44,88686415146,243923873760,582.605.794-72,VERA LUCIA DA SILVA FERREIRA,02P,60
...,...,...,...,...,...,...,...,...
94,25/01/2024,SNV9H61,65151187285,243938045817,15.098.203/0001-30,TROPICAL ADMINISTRACAO E LOCACAO LTDA,02P,60
95,25/01/2024,SNV9I21,54636511813,243938046694,15.098.203/0001-30,TROPICAL ADMINISTRACAO E LOCACAO LTDA,02P,60
96,25/01/2024,SNV9I61,34872000649,243938047992,15.098.203/0001-30,TROPICAL ADMINISTRACAO E LOCACAO LTDA,02P,60
97,25/01/2024,SNV9I70,72688903316,243938162058,108.725.394-23,PAULO VINICIOS LINS DOS SANTOS,05P,90


In [10]:
# Filtrar Carros com Valor Unitário de 90
# Nesta célula, filtramos o DataFrame `tabela_rivaldo` para incluir apenas os registros onde
# o valor unitário é igual a 90 e exibimos o DataFrame resultante.

carros = tabela_rivaldo[tabela_rivaldo['valor_unitario'] == 90]
display(carros)

Unnamed: 0,data,placas,renavam,crv,cpfcnpj,nome,quantidade_passageiro,valor_unitario
25,19/01/2024,SNU7J38,91292369424,243933439396,490.871.934-91,NADJANE SIMONE ALBERT,05P,90
26,19/01/2024,SNU7J38,91292369424,243933439396,490.871.934-91,NADJANE SIMONE ALBERT,05P,90
58,26/01/2024,SNV0F51,47571550753,243939003808,256.124.257-91,ANTONIO CARLOS PINTO DA ROCHA RODRIGUES,05P,90
97,25/01/2024,SNV9I70,72688903316,243938162058,108.725.394-23,PAULO VINICIOS LINS DOS SANTOS,05P,90


In [11]:
# Somando total da coluna 'valor_unitario' antes de tirar a duplicidade da coluna de 'placas'
tabela_rivaldo.valor_unitario.sum()

6060

In [12]:
# informaçoes da tabela antes de tirar a duplicidade
tabela_rivaldo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 8 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   data                   99 non-null     object
 1   placas                 99 non-null     object
 2   renavam                99 non-null     object
 3   crv                    99 non-null     object
 4   cpfcnpj                99 non-null     object
 5   nome                   99 non-null     object
 6   quantidade_passageiro  99 non-null     object
 7   valor_unitario         99 non-null     int64 
dtypes: int64(1), object(7)
memory usage: 6.3+ KB


In [13]:
# tamanho da tabela antes de tirar a duplicidade
tabela_rivaldo.shape

(99, 8)

In [14]:
# Verificar Linhas Duplicadas
# Nesta célula, verificamos se há linhas duplicadas no DataFrame `tabela_rivaldo`.
duplicada = tabela_rivaldo.duplicated()

In [15]:
# Contar Linhas Duplicadas e Não Duplicadas
# Nesta célula, contamos o número de linhas duplicadas e não duplicadas no DataFrame `tabela_rivaldo`.
duplicada.value_counts()

False    78
True     21
Name: count, dtype: int64

In [16]:
# Identificar a placa repetida
placas_repetidas = tabela_rivaldo[tabela_rivaldo.duplicated(subset='placas', keep=False)]
print(placas_repetidas.index)
display(placas_repetidas.head(8))

Index([15, 16, 19, 20, 21, 22, 23, 24, 25, 26, 29, 30, 31, 32, 33, 34, 40, 41,
       42, 43, 46, 47, 49, 50, 51, 52, 53, 54, 71, 72, 73, 74, 75, 76, 77, 78,
       80, 81, 82, 83, 84, 85],
      dtype='int64')


Unnamed: 0,data,placas,renavam,crv,cpfcnpj,nome,quantidade_passageiro,valor_unitario
15,22/01/2024,SNU7D59,45086675440,243934900496,046.588.054-13,GILMAR CARDOSO DE ARANTES,02P,60
16,22/01/2024,SNU7D59,45086675440,243934900496,046.588.054-13,GILMAR CARDOSO DE ARANTES,02P,60
19,22/01/2024,SNU7E09,61422726388,243934970494,012.297.994-00,NATANAEL BARNABE DA SILVA NETO,02P,60
20,22/01/2024,SNU7E09,61422726388,243934970494,012.297.994-00,NATANAEL BARNABE DA SILVA NETO,02P,60
21,19/01/2024,SNU7H48,9142101460,243933436338,066.253.524-38,DANIELE DE FATIMA DE ALMEIDA AGUIAR,02P,60
22,19/01/2024,SNU7H48,9142101460,243933436338,066.253.524-38,DANIELE DE FATIMA DE ALMEIDA AGUIAR,02P,60
23,19/01/2024,SNU7H98,61540160675,243933438233,976.538.294-49,WILSON MEDEIROS E SILVA,02P,60
24,19/01/2024,SNU7H98,61540160675,243933438233,976.538.294-49,WILSON MEDEIROS E SILVA,02P,60


In [17]:
len(placas_repetidas)

42

### Remover Linhas Duplicadas

Nesta célula, removemos as linhas duplicadas com base na coluna "placas" do DataFrame `tabela_rivaldo` e redefinimos os índices.

```python
tabela_rivaldo = tabela_rivaldo.drop_duplicates(subset=['placas'], keep='first', ignore_index=True)


In [18]:
tabela_rivaldo = tabela_rivaldo.drop_duplicates(subset= ['placas'], keep='first', ignore_index=True)

In [19]:
# tamanho da tabela depois de tirar a duplicidade
tabela_rivaldo.shape

(78, 8)

In [20]:
# Verificar noavmente se tem Linhas Duplicadas
duplicada = tabela_rivaldo.placas.duplicated()

In [21]:
# agora nao achamos nenhuma duplicada caso tivesse tinhamos 'True' > 0
duplicada.value_counts()

placas
False    78
Name: count, dtype: int64

### Calcular Faturamento Mensal

Nesta célula, calculamos o faturamento total mensal com base no valor unitário do DataFrame `tabela_rivaldo` e imprimimos o resultado formatado em reais.

In [22]:
faturamento = tabela_rivaldo.valor_unitario.sum()
print(f'O faturamento mensal foi de R$ {faturamento:,.2f}')

O faturamento mensal foi de R$ 4,770.00


### Contar Quantidade de Placas

Nesta célula, contamos a quantidade de placas únicas no DataFrame `tabela_rivaldo` e imprimimos o resultado.

In [23]:
quantidade = tabela_rivaldo.placas.count()
print(f'Quantidade de placas {quantidade}')

Quantidade de placas 78


In [25]:
# Salvar DataFrame em Excel
# Nesta célula, salvamos o DataFrame `tabela_rivaldo` em um arquivo Excel 
#chamado "output.xlsx", sem incluir o índice.
tabela_rivaldo.to_excel('output.xlsx', index=False)