# Automatização de PDFs

## Bibliotecas

In [2]:
import os
import pandas as pd
import PyPDF2 as PDF

## Variaveis

In [3]:
Path = "../datasets/Sistema de RH/"
list_path = os.listdir(Path)

print(list_path)

['Agatha Fogaça.pdf', 'Alexandre da Mota.pdf', 'Alexia Aragão.pdf', 'Amanda Duarte.pdf', 'Amanda Fernandes.pdf', 'Ana Carolina Gonçalves.pdf', 'Ana Carolina Sales.pdf', 'Ana Clara Almeida.pdf', 'Ana Julia Mendes.pdf', 'Ana Julia Nunes.pdf', 'Ana Lívia da Cunha.pdf', 'Ana Vitória Santos.pdf', 'Arthur Cardoso.pdf', 'Augusto Silva.pdf', 'Benjamin Sales.pdf', 'Benício Freitas.pdf', 'Bernardo da Mata.pdf', 'Bianca Porto.pdf', 'Breno Porto.pdf', 'Bruna Cunha.pdf', 'Bryan Fernandes.pdf', 'Bárbara da Rocha.pdf', 'Caroline Peixoto.pdf', 'Caroline Rodrigues.pdf', 'Cauã da Conceição.pdf', 'Cauê Viana.pdf', 'Clara Peixoto.pdf', 'Clarice Barbosa.pdf', 'Davi Lucca Freitas.pdf', 'Dr. André Monteiro.pdf', 'Dr. André Silva.pdf', 'Dr. Gabriel Mendes.pdf', 'Dr. Miguel Nascimento.pdf', 'Dr. Nathan Pereira.pdf', 'Dra. Caroline Dias.pdf', 'Dra. Isis Santos.pdf', 'Dra. Maria Alice Castro.pdf', 'Dra. Maria Alice Pires.pdf', 'Dra. Maria Julia Cardoso.pdf', 'Dra. Sarah Ramos.pdf', 'Emanuel Melo.pdf', 'Emilly Cu

## Leitura dos PDFs

In [4]:
try:
    TextPDF = []
    for file in list_path:
        file_path = Path + file

        with open(file_path, 'rb') as file:
            reader = PDF.PdfReader(file)
            num_pages = len(reader.pages)

            for page_num in range(num_pages):
                page = reader.pages[page_num]
                text = page.extract_text()

            TextPDF.append(text)


except Exception as e:
    print(f"Não foi possivel realizar a leitura do PDF. ERRO: {e}")

In [5]:
print(TextPDF[0])

Registro de Pessoa
Nome: Agatha Fogaça
Data de Nascimento: 16/01/1999
Estado Civil: Viúvo
Cargo: Junior
Função de Trabalho: Desenvolvedor de Software
Data de Admissão: 15/04/2019
Tipo de Contrato: Híbrido
Salário: 4542.04


## Tratamento de texto / Integração de dados

In [6]:
def extract_dados(TextPDF):
    dados = {}
    rows = TextPDF.split('\n')
    for row in rows[1:]:
        part = row.split(':')
        if len(part) == 2:
            key = part[0].strip()
            value = part[1].strip()
            dados[key] = value
    dataframe = pd.DataFrame([dados])
    return dataframe


In [7]:
extract_dados(TextPDF[0])

Unnamed: 0,Nome,Data de Nascimento,Estado Civil,Cargo,Função de Trabalho,Data de Admissão,Tipo de Contrato,Salário
0,Agatha Fogaça,16/01/1999,Viúvo,Junior,Desenvolvedor de Software,15/04/2019,Híbrido,4542.04


## Automação

In [8]:
list_df = []

for text in TextPDF:
    dataframe = extract_dados(text)
    list_df.append(dataframe)

df = pd.concat(list_df)

In [9]:
df.head()

Unnamed: 0,Nome,Data de Nascimento,Estado Civil,Cargo,Função de Trabalho,Data de Admissão,Tipo de Contrato,Salário
0,Agatha Fogaça,16/01/1999,Viúvo,Junior,Desenvolvedor de Software,15/04/2019,Híbrido,4542.04
0,Alexandre da Mota,10/11/1986,Casado,Junior,Desenvolvedor de Software,27/11/2014,Híbrido,9955.96
0,Alexia Aragão,19/03/1997,Casado,Especialista,Engenheiro de Machine Learning e Inteligência ...,09/07/2005,Híbrido,20627.7
0,Amanda Duarte,18/06/1994,Viúvo,Especialista,Cientista de Dados,13/07/2006,Remoto,18824.550000000003
0,Amanda Fernandes,26/09/1989,Casado,Junior,Desenvolvedor Full Stack,17/11/2023,Presencial,3511.46


### code para obter as informações sobre as colunas do DataFrame

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 149 entries, 0 to 0
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Nome                149 non-null    object
 1   Data de Nascimento  149 non-null    object
 2   Estado Civil        149 non-null    object
 3   Cargo               149 non-null    object
 4   Função de Trabalho  149 non-null    object
 5   Data de Admissão    149 non-null    object
 6   Tipo de Contrato    149 non-null    object
 7   Salário             149 non-null    object
dtypes: object(8)
memory usage: 10.5+ KB


### Verificar quantos campos em branco existem em cada coluna

In [11]:
df.isna().sum()

Nome                  0
Data de Nascimento    0
Estado Civil          0
Cargo                 0
Função de Trabalho    0
Data de Admissão      0
Tipo de Contrato      0
Salário               0
dtype: int64

## Corrigindo tipos de valores

In [12]:
#Salario
df['Salário'] = df['Salário'].astype('float').round(2)
#data de nascimento
df['Data de Nascimento'] = pd.to_datetime(df['Data de Nascimento'], format='%d/%m/%Y').dt.floor('d')
# Data de Admissão
df['Data de Admissão'] = pd.to_datetime(df['Data de Admissão'], format='%d/%m/%Y').dt.floor('d')

In [13]:
df.head()

Unnamed: 0,Nome,Data de Nascimento,Estado Civil,Cargo,Função de Trabalho,Data de Admissão,Tipo de Contrato,Salário
0,Agatha Fogaça,1999-01-16,Viúvo,Junior,Desenvolvedor de Software,2019-04-15,Híbrido,4542.04
0,Alexandre da Mota,1986-11-10,Casado,Junior,Desenvolvedor de Software,2014-11-27,Híbrido,9955.96
0,Alexia Aragão,1997-03-19,Casado,Especialista,Engenheiro de Machine Learning e Inteligência ...,2005-07-09,Híbrido,20627.7
0,Amanda Duarte,1994-06-18,Viúvo,Especialista,Cientista de Dados,2006-07-13,Remoto,18824.55
0,Amanda Fernandes,1989-09-26,Casado,Junior,Desenvolvedor Full Stack,2023-11-17,Presencial,3511.46


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 149 entries, 0 to 0
Data columns (total 8 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Nome                149 non-null    object        
 1   Data de Nascimento  149 non-null    datetime64[ns]
 2   Estado Civil        149 non-null    object        
 3   Cargo               149 non-null    object        
 4   Função de Trabalho  149 non-null    object        
 5   Data de Admissão    149 non-null    datetime64[ns]
 6   Tipo de Contrato    149 non-null    object        
 7   Salário             149 non-null    float64       
dtypes: datetime64[ns](2), float64(1), object(5)
memory usage: 10.5+ KB


## Enriquecimento de Dados

In [15]:
df['Idade'] = ((pd.to_datetime('today') - df['Data de Nascimento']).dt.days / 365.25).astype(int)
df['Anos de Trabalho'] = ((pd.to_datetime('today') - df['Data de Admissão']).dt.days / 365.25).astype(int)

In [16]:
df.head()

Unnamed: 0,Nome,Data de Nascimento,Estado Civil,Cargo,Função de Trabalho,Data de Admissão,Tipo de Contrato,Salário,Idade,Anos de Trabalho
0,Agatha Fogaça,1999-01-16,Viúvo,Junior,Desenvolvedor de Software,2019-04-15,Híbrido,4542.04,25,5
0,Alexandre da Mota,1986-11-10,Casado,Junior,Desenvolvedor de Software,2014-11-27,Híbrido,9955.96,37,9
0,Alexia Aragão,1997-03-19,Casado,Especialista,Engenheiro de Machine Learning e Inteligência ...,2005-07-09,Híbrido,20627.7,27,19
0,Amanda Duarte,1994-06-18,Viúvo,Especialista,Cientista de Dados,2006-07-13,Remoto,18824.55,30,18
0,Amanda Fernandes,1989-09-26,Casado,Junior,Desenvolvedor Full Stack,2023-11-17,Presencial,3511.46,34,0


# Exportando dados

<p> O RH solicitou uma lista de colaboradores com mais de 10 anos de casa, essa lista vai indentificar funcionarios elegiveis a promoção.</p>
<p>a listagem deve incluir:</p>
<li>Nome do colaborador</li>
<li>Tempo de serviço em anos</li>
<li>Salário individual</li>
<p>Adicionalmente, adicionar uma bonifição equivalente a 10% de seu salário atual.</p>

In [21]:
columns = ['Nome','Anos de Trabalho','Salário']
filter = df['Anos de Trabalho'] >= 10
df_promocao = df[filter][columns]

In [23]:
df_promocao['Salário Bonificação'] = df_promocao['Salário'] *1.1
df_promocao['Salário Bonificação'] = df_promocao['Salário Bonificação'].round(2)
df_promocao.head()

Unnamed: 0,Nome,Anos de Trabalho,Salário,Salário Bonificação
0,Alexia Aragão,19,20627.7,22690.47
0,Amanda Duarte,18,18824.55,20707.0
0,Ana Carolina Gonçalves,19,7662.56,8428.82
0,Ana Carolina Sales,22,4784.89,5263.38
0,Ana Clara Almeida,24,10448.12,11492.93


### Criação do diretório de destino

In [25]:
def new_dir(dir):
    if not os.path.exists(dir):
        os.makedirs(dir)

new_dir('../datasets/Promocoes')

In [26]:
df_promocao.to_csv('../datasets/Promocoes/lista_promocao.csv',
                   sep=';', encoding='latin1', index=False)
