# ETL - Relação de Servidores - IFPB

## Extract

### Fonte:  https://dados.gov.br/dados/conjuntos-dados/ifpb-servidores

## Transform

- Importando biblioteca para manipulação dos dados

In [3]:
import pandas as pd

- Carregando arquivo .csv

In [68]:
df = pd.read_csv("servidores.csv")

- Explorando dados

In [69]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2976 entries, 0 to 2975
Data columns (total 9 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   matricula              2976 non-null   int64  
 1   nome                   2976 non-null   object 
 2   cargo_emprego          2948 non-null   object 
 3   jornada_trabalho       2973 non-null   object 
 4   lotacao_siape.sigla    2461 non-null   object 
 5   lotacao_suap.sigla     2601 non-null   object 
 6   setor_exercicio.sigla  2927 non-null   object 
 7   funcao_codigo          516 non-null    float64
 8   disciplina_ingresso    1219 non-null   object 
dtypes: float64(1), int64(1), object(7)
memory usage: 209.4+ KB


In [70]:
print("Valores nulos por coluna:")
print(df.isnull().sum())

Valores nulos por coluna:
matricula                   0
nome                        0
cargo_emprego              28
jornada_trabalho            3
lotacao_siape.sigla       515
lotacao_suap.sigla        375
setor_exercicio.sigla      49
funcao_codigo            2460
disciplina_ingresso      1757
dtype: int64


- Removendo colunas desnecessárias

In [71]:
df = df.drop(columns=['lotacao_siape.sigla', 'lotacao_suap.sigla', 'funcao_codigo','disciplina_ingresso'])
df.columns

Index(['matricula', 'nome', 'cargo_emprego', 'jornada_trabalho',
       'setor_exercicio.sigla'],
      dtype='object')

- Verificando valores nulos para tratamento

In [72]:
print("Valores nulos por coluna:")
print(df.isnull().sum())

Valores nulos por coluna:
matricula                 0
nome                      0
cargo_emprego            28
jornada_trabalho          3
setor_exercicio.sigla    49
dtype: int64


In [73]:
# Exibir as linhas onde há valores nulos em qualquer coluna
linhas_com_nulos = df[df.isnull().any(axis=1)]

# Mostrar as primeiras 20 linhas com valores nulos
print(linhas_com_nulos.head(50))


      matricula                                     nome  \
1239    1625140                   Sonia Ribeiro da Silva   
1285  123456789                                    teste   
1350    1735601                     Antonio Barbosa Neto   
1390  273978001                        CARLOS VIDAL LIMA   
1514    3609942             Joao Alves de Medeiros Filho   
1515    3625160               Veralucia Martins da Silva   
1605   20303424                       Eder Pires Batista   
1688       1234                         inventariojp2013   
2147    1255506        Claudio Emilio Santos de Oliveira   
2148    1047023            Bruno Wagner Pereira de Souza   
2376    1813396                 Andrey Oliveira de Souza   
2475    1085373                  Elisane de Lima Serafim   
2481    1418670                       Alex Dias da Silva   
2488    1576996                    Radamir Lira de Sousa   
2523    1025095  Rebeka Maria de Carvalho Santos Godeiro   
2525    1818258        Claudia Maria Alv

In [74]:
df.head(20)

Unnamed: 0,matricula,nome,cargo_emprego,jornada_trabalho,setor_exercicio.sigla
0,39810,Hercilio Matias de Oliveira,TECNICO EM CONTABILIDADE,40 HORAS SEMANAIS,PRAF-RE
1,41894,Jose Dutra Amorim,CONTADOR,40 HORAS SEMANAIS,PRAF-RE
2,41933,Marcos Antonio Petrucci de Assis,ASSISTENTE EM ADMINISTRACAO,40 HORAS SEMANAIS,DAPF-CZ
3,41938,Jansen Tinoco de Medeiros,VIGILANTE,40 HORAS SEMANAIS,CSEINT-JP
4,47258,Eugenio Pacelli Fernandes Leite,PROFESSOR ENS BASICO TECN TECNOLOGICO,DEDICACAO EXCLUSIVA,PRAF-RE
5,47333,Maria Osmarina Nogueira de Mendonca,ASSISTENTE EM ADMINISTRACAO,40 HORAS SEMANAIS,DAPF-GB
6,48566,Quenafles Vasconcelos Lopes,PROFESSOR ENS BASICO TECN TECNOLOGICO,DEDICACAO EXCLUSIVA,PRAF-RE
7,48870,Moacir Veloso Filho,PROFESSOR ENS BASICO TECN TECNOLOGICO,DEDICACAO EXCLUSIVA,PRAF-RE
8,49296,Maria Dozinha Geronimo de Souza,PROFESSOR ENS BASICO TECN TECNOLOGICO,DEDICACAO EXCLUSIVA,PRAF-RE
9,50421,Eliane Rezende Teles Araujo,ASSISTENTE EM ADMINISTRACAO,40 HORAS SEMANAIS,PRAF-RE


- Tratando valores nulos

In [75]:
df.fillna({
    'cargo_emprego': 'NAO INFORMADO',
    'jornada_trabalho': 'NAO INFORMADO',
    'setor_exercicio.sigla': 'NAO INFORMADO'
}, inplace=True)

In [76]:
print("Valores nulos por coluna:")
print(df.isnull().sum())

Valores nulos por coluna:
matricula                0
nome                     0
cargo_emprego            0
jornada_trabalho         0
setor_exercicio.sigla    0
dtype: int64


In [77]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2976 entries, 0 to 2975
Data columns (total 5 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   matricula              2976 non-null   int64 
 1   nome                   2976 non-null   object
 2   cargo_emprego          2976 non-null   object
 3   jornada_trabalho       2976 non-null   object
 4   setor_exercicio.sigla  2976 non-null   object
dtypes: int64(1), object(4)
memory usage: 116.4+ KB


In [78]:
df.head(2976)

Unnamed: 0,matricula,nome,cargo_emprego,jornada_trabalho,setor_exercicio.sigla
0,39810,Hercilio Matias de Oliveira,TECNICO EM CONTABILIDADE,40 HORAS SEMANAIS,PRAF-RE
1,41894,Jose Dutra Amorim,CONTADOR,40 HORAS SEMANAIS,PRAF-RE
2,41933,Marcos Antonio Petrucci de Assis,ASSISTENTE EM ADMINISTRACAO,40 HORAS SEMANAIS,DAPF-CZ
3,41938,Jansen Tinoco de Medeiros,VIGILANTE,40 HORAS SEMANAIS,CSEINT-JP
4,47258,Eugenio Pacelli Fernandes Leite,PROFESSOR ENS BASICO TECN TECNOLOGICO,DEDICACAO EXCLUSIVA,PRAF-RE
...,...,...,...,...,...
2971,1958765,Elmano Ramalho Cavalcanti,PROFESSOR ENS BASICO TECN TECNOLOGICO,DEDICACAO EXCLUSIVA,CEOR
2972,3237817,Eugenia Ribeiro Teles,PROF ENS BAS TEC TECNOLOGICO-SUBSTITUTO,40 HORAS SEMANAIS,DDE-IB
2973,1956010,Vitor Angelo Villar Barreto,NAO INFORMADO,DEDICACAO EXCLUSIVA,NAO INFORMADO
2974,1212038,Yagor Marco Mota de Lima,ASSISTENTE EM ADMINISTRACAO,40 HORAS SEMANAIS,CODAE-RE


- Verificando duplicatas para tratamento

In [79]:
# Verificar se há duplicatas
df.duplicated()

# Exibir as linhas duplicadas
df[df.duplicated()]


Unnamed: 0,matricula,nome,cargo_emprego,jornada_trabalho,setor_exercicio.sigla


In [80]:
df.dtypes

matricula                 int64
nome                     object
cargo_emprego            object
jornada_trabalho         object
setor_exercicio.sigla    object
dtype: object

- Salvando dados manipulados

In [81]:
df.to_csv('servidores_ifpb.csv', index=False)

- ## Load

- Importando bibliotecas

In [24]:
from sqlalchemy import create_engine
from dotenv import load_dotenv
import os

In [25]:
df = pd.read_csv("servidores_ifpb.csv")
df.head(20)

Unnamed: 0,matricula,nome,cargo_emprego,jornada_trabalho,setor_exercicio.sigla
0,39810,Hercilio Matias de Oliveira,TECNICO EM CONTABILIDADE,40 HORAS SEMANAIS,PRAF-RE
1,41894,Jose Dutra Amorim,CONTADOR,40 HORAS SEMANAIS,PRAF-RE
2,41933,Marcos Antonio Petrucci de Assis,ASSISTENTE EM ADMINISTRACAO,40 HORAS SEMANAIS,DAPF-CZ
3,41938,Jansen Tinoco de Medeiros,VIGILANTE,40 HORAS SEMANAIS,CSEINT-JP
4,47258,Eugenio Pacelli Fernandes Leite,PROFESSOR ENS BASICO TECN TECNOLOGICO,DEDICACAO EXCLUSIVA,PRAF-RE
5,47333,Maria Osmarina Nogueira de Mendonca,ASSISTENTE EM ADMINISTRACAO,40 HORAS SEMANAIS,DAPF-GB
6,48566,Quenafles Vasconcelos Lopes,PROFESSOR ENS BASICO TECN TECNOLOGICO,DEDICACAO EXCLUSIVA,PRAF-RE
7,48870,Moacir Veloso Filho,PROFESSOR ENS BASICO TECN TECNOLOGICO,DEDICACAO EXCLUSIVA,PRAF-RE
8,49296,Maria Dozinha Geronimo de Souza,PROFESSOR ENS BASICO TECN TECNOLOGICO,DEDICACAO EXCLUSIVA,PRAF-RE
9,50421,Eliane Rezende Teles Araujo,ASSISTENTE EM ADMINISTRACAO,40 HORAS SEMANAIS,PRAF-RE


- Carregando variaveis de ambiente

In [26]:
load_dotenv()

True

In [27]:
username = os.getenv('DB_USERNAME')
password = os.getenv('DB_PASSWORD')
dbname = os.getenv('DB_NAME')
dbport = os.getenv('DB_PORT')
# print(f"Username: {username}"
#      f"\nPassword: {password}"
#      f"\nDatabase name: {dbname}")

- Conectando ao Banco de Dados

In [28]:
engine = create_engine(f"postgresql://{username}:{password}@localhost:{dbport}/{dbname}")

- Salvando o arquivo com os dados manipulados no banco de dados

In [29]:
df.to_sql('servidores', engine, if_exists='replace', index=False)

976