### Automatização de Processos em Arquivos PDFs

Este notebook tem como objetivo demonstrar o processo de Automatização de Processos Robóticos (RPA) utilizando Python para coletar dados de um arquivo PDF, integrar esses dados em um único repositório, criar novas características a partir desses dados e extrair informações relevantes.

Exemplo de um arquivo de .env

<Center><h5><font>Fluxograma da Automatização do Processos em Arquivos PDFs </font></h5></center>

<center>



<img src="../img/Automatização_Processos_PDF_python.png" width="40%">
</center>


<font color="yellow">Requisitos</font>
***
Instalação da biblioteca
- PyPDF2 (pip install pyPDF2)

#### Importação das Bibliotecas

In [5]:
pip install pandas

Collecting pandas
  Downloading pandas-2.2.3-cp312-cp312-win_amd64.whl.metadata (19 kB)
Collecting numpy>=1.26.0 (from pandas)
  Downloading numpy-2.1.1-cp312-cp312-win_amd64.whl.metadata (59 kB)
Collecting pytz>=2020.1 (from pandas)
  Downloading pytz-2024.2-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas)
  Downloading tzdata-2024.2-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading pandas-2.2.3-cp312-cp312-win_amd64.whl (11.5 MB)
   ---------------------------------------- 0.0/11.5 MB ? eta -:--:--
    --------------------------------------- 0.3/11.5 MB ? eta -:--:--
   ---- ----------------------------------- 1.3/11.5 MB 3.4 MB/s eta 0:00:04
   ------- -------------------------------- 2.1/11.5 MB 3.3 MB/s eta 0:00:03
   ---------- ----------------------------- 2.9/11.5 MB 3.5 MB/s eta 0:00:03
   -------------- ------------------------- 4.2/11.5 MB 4.1 MB/s eta 0:00:02
   ----------------- ---------------------- 5.0/11.5 MB 3.9 MB/s eta 0:00:02
   ------

#### Leitura e Extração do Conteúdo dos Arquivos do PDF
***

In [2]:
import os
import pandas as pd
import PyPDF2

In [3]:
DIRETORIO = "../datasets/Sistema de RH/"
list_dir = os.listdir(DIRETORIO)

try:
    conteudo_pdf = []
    for arquivo in list_dir:
        local_arquivo = DIRETORIO + arquivo

        with open(local_arquivo, "rb") as file:
            reader = PyPDF2.PdfReader(file)
            num_pages = len(reader.pages)
            for page_num in range(num_pages):
                page = reader.pages[page_num]
                texto = page.extract_text()
            conteudo_pdf.append(texto)
            # O conteúdo_pdf tem varias linhas e cada linha corresponde a uma 
            # página pdf, que por sua vez tem somente um colaborador, 
        
except Exception as e:
    print(f"Não foi possível realizar a leitura do PDF. ERRO {e}")

#### Visualizando Conteúdo Coletado

In [19]:
conteudo_pdf[5].split('\n')


['Registro de Pessoa',
 'Nome: Ana Carolina Gonçalves',
 'Data de Nascimento: 10/04/1993',
 'Estado Civil: Divorciado',
 'Cargo: Junior',
 'Função de Trabalho: Desenvolvedor Full Stack',
 'Data de Admissão: 28/10/2004',
 'Tipo de Contrato: Presencial',
 'Salário: 7662.56']

In [28]:
def extrair_dados_pdf_para_dataframe(texto):
    
    #Essa função tem o parametro "texto" que recebe uma linha apenas, da lista conteúdo_pdf, que deverá ser quebrada pelo split('\n')
    #Posteriormente, as partes deverão serem separadas pelo split(':')
    #Essas partes que representam chave e valor, serão iteradas no dicionario "dados" e posteriormente injetadas no dataframe
    
    dados = {}
    linhas = texto.split("\n")
    for linha in linhas[1:]:
        partes = linha.split(":")
        if len(partes) == 2:
            chave = partes[0].strip()
            valor = partes[1].strip()
            dados[chave] = valor
    dataframe = pd.DataFrame([dados])
    return dataframe

#### Tratamento de Texto / Integração de Dados
***

In [29]:
extrair_dados_pdf_para_dataframe(conteudo_pdf[5])


Unnamed: 0,Nome,Data de Nascimento,Estado Civil,Cargo,Função de Trabalho,Data de Admissão,Tipo de Contrato,Salário
0,Ana Carolina Gonçalves,10/04/1993,Divorciado,Junior,Desenvolvedor Full Stack,28/10/2004,Presencial,7662.56


#### Validação da Extração do Texto

Unnamed: 0,Nome,Data de Nascimento,Estado Civil,Cargo,Função de Trabalho,Data de Admissão,Tipo de Contrato,Salário
0,Ana Carolina Gonçalves,10/04/1993,Divorciado,Junior,Desenvolvedor Full Stack,28/10/2004,Presencial,7662.56


#### Automatizando Fluxo de Dados
***

In [7]:
lista_df = []
for texto in conteudo_pdf:
    dataframe = extrair_dados_pdf_para_dataframe(texto)
    lista_df.append(dataframe)
    
df = pd.concat(lista_df)
    
    

#### Vizualizando dados Integrados

In [8]:
df.head()

Unnamed: 0,Nome,Data de Nascimento,Estado Civil,Cargo,Função de Trabalho,Data de Admissão,Tipo de Contrato,Salário
0,Agatha Fogaça,16/01/1999,Viúvo,Junior,Desenvolvedor de Software,15/04/2019,Híbrido,4542.04
0,Alexandre da Mota,10/11/1986,Casado,Junior,Desenvolvedor de Software,27/11/2014,Híbrido,9955.96
0,Alexia Aragão,19/03/1997,Casado,Especialista,Engenheiro de Machine Learning e Inteligência ...,09/07/2005,Híbrido,20627.7
0,Amanda Duarte,18/06/1994,Viúvo,Especialista,Cientista de Dados,13/07/2006,Remoto,18824.550000000003
0,Amanda Fernandes,26/09/1989,Casado,Junior,Desenvolvedor Full Stack,17/11/2023,Presencial,3511.46


#### Tratamento de Dados
***


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 149 entries, 0 to 0
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Nome                149 non-null    object
 1   Data de Nascimento  149 non-null    object
 2   Estado Civil        149 non-null    object
 3   Cargo               149 non-null    object
 4   Função de Trabalho  149 non-null    object
 5   Data de Admissão    149 non-null    object
 6   Tipo de Contrato    149 non-null    object
 7   Salário             149 non-null    object
dtypes: object(8)
memory usage: 10.5+ KB


In [82]:
df.isna().sum()

Nome                  0
Data de Nascimento    0
Estado Civil          0
Cargo                 0
Função de Trabalho    0
Data de Admissão      0
Tipo de Contrato      0
Salário               0
dtype: int64

#### Corrigindo Tipo de Dados

In [10]:
df['Salário'] = df['Salário'].astype(float).round(2)
df['Data de Nascimento'] = pd.to_datetime(df['Data de Nascimento'], format='%d/%m/%Y').dt.floor('d')
df['Data de Admissão'] = pd.to_datetime(df['Data de Admissão'], format='%d/%m/%Y').dt.floor('d')

In [95]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 149 entries, 0 to 0
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Nome                149 non-null    object        
 1   Data de Nascimento  149 non-null    datetime64[ns]
 2   Estado Civil        149 non-null    object        
 3   Cargo               149 non-null    object        
 4   Função de Trabalho  149 non-null    object        
 5   Data de Admissão    149 non-null    datetime64[ns]
 6   Tipo de Contrato    149 non-null    object        
 7   Salário             149 non-null    float64       
dtypes: datetime64[ns](2), float64(1), object(5)
memory usage: 10.5+ KB


In [96]:
df.head()

Unnamed: 0,Nome,Data de Nascimento,Estado Civil,Cargo,Função de Trabalho,Data de Admissão,Tipo de Contrato,Salário
0,Agatha Fogaça,1999-01-16,Viúvo,Junior,Desenvolvedor de Software,2019-04-15,Híbrido,4542.04
0,Alexandre da Mota,1986-11-10,Casado,Junior,Desenvolvedor de Software,2014-11-27,Híbrido,9955.96
0,Alexia Aragão,1997-03-19,Casado,Especialista,Engenheiro de Machine Learning e Inteligência ...,2005-07-09,Híbrido,20627.7
0,Amanda Duarte,1994-06-18,Viúvo,Especialista,Cientista de Dados,2006-07-13,Remoto,18824.55
0,Amanda Fernandes,1989-09-26,Casado,Junior,Desenvolvedor Full Stack,2023-11-17,Presencial,3511.46


#### Enriquecimento de Dados
***

In [111]:
df['Idade'] = ((pd.to_datetime('today') - df['Data de Nascimento']).dt.days / 365.25).astype(int)
df['Anos de Trabalho'] = ((pd.to_datetime('today') - df['Data de Admissão']).dt.days / 365.25).astype(int)

In [112]:
df.head()

Unnamed: 0,Nome,Data de Nascimento,Estado Civil,Cargo,Função de Trabalho,Data de Admissão,Tipo de Contrato,Salário,Idade,Anos de Trabalho
0,Agatha Fogaça,1999-01-16,Viúvo,Junior,Desenvolvedor de Software,2019-04-15,Híbrido,4542.04,25,5
0,Alexandre da Mota,1986-11-10,Casado,Junior,Desenvolvedor de Software,2014-11-27,Híbrido,9955.96,37,9
0,Alexia Aragão,1997-03-19,Casado,Especialista,Engenheiro de Machine Learning e Inteligência ...,2005-07-09,Híbrido,20627.7,27,19
0,Amanda Duarte,1994-06-18,Viúvo,Especialista,Cientista de Dados,2006-07-13,Remoto,18824.55,30,18
0,Amanda Fernandes,1989-09-26,Casado,Junior,Desenvolvedor Full Stack,2023-11-17,Presencial,3511.46,35,0


#### Exportando Dados
***

O Departamento de Recursos Humanos solicitou uma lista de todos os colaboradores que acumularam 10 anos ou mais de experiência na empresa. Esta lista vai identificar os funcionários elegíveis para uma promoção. A listagem deve incluir o nome do colaborador, o tempo de serviço em anos e o salário atual de cada indivíduo.

Adicionalmente, como parte do reconhecimento pelos anos dedicados à empresa, foi estabelecido que os funcionários listados receberão uma bonificação equivalente a 10% de seus salários atuais. Essa bonificação será adicionada aos salários atuais dos colaboradores elegíveis como um gesto de apreço pela sua dedicação e contribuição para a empresa.

In [120]:
colunas = ['Nome', 'Anos de Trabalho', 'Salário']
filtro = df['Anos de Trabalho'] >= 10
df_promocao = df[filtro][colunas]



In [126]:
df_promocao['Salário Bonificação'] = df_promocao['Salário'] * 1.1
df_promocao['Salário Bonificação'] = df_promocao['Salário Bonificação'].round(2)
df_promocao.head()

Unnamed: 0,Nome,Anos de Trabalho,Salário,Salário Bonificação
0,Alexia Aragão,19,20627.7,22690.47
0,Amanda Duarte,18,18824.55,20707.0
0,Ana Carolina Gonçalves,19,7662.56,8428.82
0,Ana Carolina Sales,22,4784.89,5263.38
0,Ana Clara Almeida,24,10448.12,11492.93


#### Criação do Diretório Destino da Extração

In [33]:
def criar_diretorio(diretorio_destino):
    
    # Cria a pasta se não existir
    if not os.path.exists(diretorio_destino):
        os.makedirs(diretorio_destino)
    
    # Define o caminho completo do arquivo
    file_path = os.path.join(diretorio_destino, 'arquivo.csv')
    
    # Exporta o DataFrame para o arquivo .csv
    df.to_csv(file_path, index=False)

folder_path = '../datasets/Promoção Colaborador/'
criar_diretorio(folder_path)