## Libs

In [15]:
import os
import pandas as pd
from utils.general import get_date, aux

pd.set_option('display.max_columns', 50)

## Dictionary
##### BASE APOSENTADOS
- **NOME**: Nome do aposentado.
- **CPF**: Número de inscrição no Cadastro de Pessoas Físicas da Receita Federal do Brasil.
- **MAT_SERVIDOR**: Matrícula servidor
- **NM_ORGAO**: Nome do órgão público federal com dotação orçamentária ao qual o servidor aposentado está vinculado.
- **SIGLA_ORGAO**: Sigla do órgão público federal com dotação orçamentária ao qual o servidor aposentado está vinculado.
- **CD_ORGAO**: Código do órgão público federal de direção ao qual o servidor aposentado está vinculado.
- **CARGO**: Nome do Cargo do qual se deu a aposentadoria de acordo com o plano de cargos e salários da carreira que estiver enquadrado.
- **CLASSE**: Patamares em que o cargo efetivo ocupado pelo servidor aposentado encontrava-se dividido, podendo ser subdivididos em padrões, quando existentes.
- **PADRAO**: Subdivisão que determina o posicionamento do servidor aposentado na estrutura remuneratória do cargo.
- **REF**: Patamares em que o cargo efetivo que era ocupado pelo servidor aposentado encontrava-se dividido quando se deu o ato de aposentadoria.
- **NIVEL**: Nível em que determina o posicionamento do servidor aposentado na estrutura remuneratória do cargo.
- **TP_APOSENTADORIA**: Classificação sistêmica do tipo de aposentadoria conforme a legislação.
- **FUND_INATIVIDADE**: Legislação que fundamentou a aposentadoria.
- **NM_DIPLO_LEGAL**: Título do documento legal de aposentadoria no serviço público
- **DT_PUBLI_DO_DL**: Data de publicação do documento legal de aposentadoria do servidor público.
- **OC_INGRESSO_SVP**: Tipo de ingresso do servidor aposentado no serviço público.
- **DT_OC_INGRESSO_SVP**: Data efetiva em que o servidor aposentado ingressou no serviço público, podendo ter sido em outro órgão.
- **VL_RENDIMENTO_LIQUIDO**: Valor do provento

##### BASE ABONO
- **NOME**: Nome do servidor 
- **CPF**:  Número de inscrição no Cadastro de Pessoas Físicas da Receita Federal do Brasil
- **DSC_CARGO_EMPREGO**: Nome do Cargo ocupado de acordo com o plano de cargos e salários da carreira que estiver enquadrado.
- **NV_ESCOLARIDADE**: Nível escolaridade do cargo.
- **DN_ORGAO_ATUACAO**: Nome do órgão público federal com dotação orçamentária ao qual o servidor está vinculado
- **UF_UPAG**: Unidade da Federação da Unidade Pagadora.
- **DN_UNIDADE_ORGANIZACIONAL**: Unidade organizacional de exercício do servidor.
- **UF_RESIDENCIA**: Sigla da Unidade Federativa onde de residência do servidor.
- **CIDADE_RESIDENCIA**: Cidade de residência do servidor.
- **SITUACAO_SVR**: Classificação sistêmica aplicável ao servidor relativamente às ocorrências de sua vida funcional.
- **QT_ANOS_SVR_PUBLICOS**: Quantidade de anos no serviço público.
- **QT_MESES_SVR_PUBLICOS**: Quantidade de meses no serviço público.
- **ANO-MES_INICIO_ABONO_PERMANE**: Ano e mês do início do Abono Permanência.
- **VAL**: Remuneração do Abono Permanência.

## Data Ingestion

In [3]:
DATA_RAW_PATH = os.path.join('..','data','raw')
DATA_RAW_NAME = ['abono.csv', 'aposentados.csv']

In [4]:
df_abono = pd.read_csv(os.path.join(DATA_RAW_PATH, DATA_RAW_NAME[0]), sep=';')
df_aposentado = pd.read_csv(os.path.join(DATA_RAW_PATH, DATA_RAW_NAME[1]), sep=';')

## Process

In [5]:
df_abono.head(2)

Unnamed: 0,NOME,CPF,DSC_CARGO_EMPREGO,NV_ESCOLARIDADE,DN_ORGAO_ATUACAO,UF_UPAG,DN_UNIDADE_ORGANIZACIONAL,UF_RESIDENCIA,CIDADE_RESIDENCIA,SITUACAO_SVR,QT_ANOS_SVR_PUBLICOS,QT_MESES_SVR_PUBLICOS,ANO-MES_INICIO_ABONO_PERMANE,VAL
0,CICERO JOAQUIM DOS SANTOS FILHO ...,***204574**,AUDITOR FISCAL FEDERAL AGROPECUARIO,ENSINO SUPERIOR,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",PE,SUP FED AGRIC PEC ABAST EST PERNAMBUCO,PE,CARUARU,ATIVO PERMANENTE,43,8,200312,224138
1,PAULO ELISIO DE FARIA ...,***402121**,AGENTE ADMINISTRATIVO,ENSINO SUPERIOR,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",DF,COORD GERAL ADM DE PESSOAS,DF,BRASILIA,ATIVO PERMANENTE,41,7,201001,55832


In [6]:
df_aposentado.head(2)

Unnamed: 0,NOME,CPF,MAT_SERVIDOR,NM_ORGAO,SIGLA_ORGAO,CD_ORGAO,CARGO,CLASSE,PADRAO,REF,NIVEL,TP_APOSENTADORIA,FUND_INATIVIDADE,NM_DIPLO_LEGAL,DT_PUBLI_DO_DL,OC_INGRESSO_SVP,DT_OC_INGRESSO_SVP,VL_RENDIMENTO_LIQUIDO
0,IVAN DAS GRACAS FERNANDES ...,***557741**,130000001102,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",MAPA,0,AGENTE DE INSP SANIT IND PROD ORIGEM ANI,S,IV,0,0,VOLUNTARIA,EC103 3Ì EC47 3Ì,"PORT 005915/2019, CGAP PUB: DO 31DEZ2019 ...",31122019,ADMISSAO SEM CONCURSO PUBLICO ...,9051978,"5.007,99"
1,JESUS ANANIAS BORGES ...,***279221**,130000004957,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",MAPA,0,AGENTE DE INSP SANIT IND PROD ORIGEM ANI,S,IV,0,0,VOLUNTARIA,EC103 3Ì EC47 3Ì,"PORT 000287/2019, SFA-GO PUB: DO 12DEZ2019 ...",12122019,ADMISSAO SEM CONCURSO PUBLICO ...,1101975,"7.338,88"


In [7]:
aux(df_abono)

Unnamed: 0,colunas,tipo,missing,size,unicos,percentual%
NOME,NOME,object,0,1449824,92538,0.0
CPF,CPF,object,0,1449824,88605,0.0
DSC_CARGO_EMPREGO,DSC_CARGO_EMPREGO,object,0,1449824,918,0.0
NV_ESCOLARIDADE,NV_ESCOLARIDADE,object,0,1449824,11,0.0
DN_ORGAO_ATUACAO,DN_ORGAO_ATUACAO,object,0,1449824,209,0.0
UF_UPAG,UF_UPAG,object,0,1449824,27,0.0
DN_UNIDADE_ORGANIZACIONAL,DN_UNIDADE_ORGANIZACIONAL,object,0,1449824,845,0.0
UF_RESIDENCIA,UF_RESIDENCIA,object,0,1449824,28,0.0
CIDADE_RESIDENCIA,CIDADE_RESIDENCIA,object,0,1449824,2999,0.0
SITUACAO_SVR,SITUACAO_SVR,object,0,1449824,11,0.0


In [8]:
aux(df_aposentado)

Unnamed: 0,colunas,tipo,missing,size,unicos,percentual%
NOME,NOME,object,0,19084,18177,0.0
CPF,CPF,object,0,19084,18101,0.0
MAT_SERVIDOR,MAT_SERVIDOR,int64,0,19084,18371,0.0
NM_ORGAO,NM_ORGAO,object,0,19084,198,0.0
SIGLA_ORGAO,SIGLA_ORGAO,object,0,19084,206,0.0
CD_ORGAO,CD_ORGAO,int64,0,19084,16,0.0
CARGO,CARGO,object,0,19084,573,0.0
CLASSE,CLASSE,object,0,19084,30,0.0
PADRAO,PADRAO,object,0,19084,67,0.0
REF,REF,int64,0,19084,1,0.0


In [9]:
df_full = df_abono.merge(df_aposentado, on=['NOME', 'CPF'], how='inner')

In [10]:
df_full.head(2)

Unnamed: 0,NOME,CPF,DSC_CARGO_EMPREGO,NV_ESCOLARIDADE,DN_ORGAO_ATUACAO,UF_UPAG,DN_UNIDADE_ORGANIZACIONAL,UF_RESIDENCIA,CIDADE_RESIDENCIA,SITUACAO_SVR,QT_ANOS_SVR_PUBLICOS,QT_MESES_SVR_PUBLICOS,ANO-MES_INICIO_ABONO_PERMANE,VAL,MAT_SERVIDOR,NM_ORGAO,SIGLA_ORGAO,CD_ORGAO,CARGO,CLASSE,PADRAO,REF,NIVEL,TP_APOSENTADORIA,FUND_INATIVIDADE,NM_DIPLO_LEGAL,DT_PUBLI_DO_DL,OC_INGRESSO_SVP,DT_OC_INGRESSO_SVP,VL_RENDIMENTO_LIQUIDO
0,CICERO JOAQUIM DOS SANTOS FILHO ...,***204574**,AUDITOR FISCAL FEDERAL AGROPECUARIO,ENSINO SUPERIOR,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",PE,SUP FED AGRIC PEC ABAST EST PERNAMBUCO,PE,CARUARU,ATIVO PERMANENTE,43,8,200312,224138,130000000551,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",MAPA,0,AUDITOR FISCAL FEDERAL AGROPECUARIO,S,IV,0,0,VOLUNTARIA,EC103 3Ì EC47 3Ì,"PORT 000077/2020, SFA-PE PUB: DO 01ABR2020 ...",1042020,ADMISSAO POR CONCURSO PUBLICO ...,30041976,"14.566,00"
1,CICERO JOAQUIM DOS SANTOS FILHO ...,***204574**,AUDITOR FISCAL FEDERAL AGROPECUARIO,ENSINO SUPERIOR,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",PE,SUP FED AGRIC PEC ABAST EST PERNAMBUCO,PE,CARUARU,ATIVO PERMANENTE,43,10,200312,224138,130000000551,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",MAPA,0,AUDITOR FISCAL FEDERAL AGROPECUARIO,S,IV,0,0,VOLUNTARIA,EC103 3Ì EC47 3Ì,"PORT 000077/2020, SFA-PE PUB: DO 01ABR2020 ...",1042020,ADMISSAO POR CONCURSO PUBLICO ...,30041976,"14.566,00"


In [12]:
df_full['DT_PUBLI_DO_DL'] = df_full['DT_PUBLI_DO_DL'].apply(lambda x: get_date(x))
df_full['DT_OC_INGRESSO_SVP'] = df_full['DT_OC_INGRESSO_SVP'].apply(lambda x: get_date(x))

df_full['MES_INICIO_ABONO_PERMANE'] = df_full['ANO-MES_INICIO_ABONO_PERMANE'].apply(lambda x: str(x)[4:6])
df_full['ANO_INICIO_ABONO_PERMANE'] = df_full['ANO-MES_INICIO_ABONO_PERMANE'].apply(lambda x: str(x)[:4])
df_full['ANO-MES_INICIO_ABONO_PERMANE'] = df_full['ANO_INICIO_ABONO_PERMANE'] + '-' + df_full['MES_INICIO_ABONO_PERMANE']
df_full['ANO-MES_INICIO_ABONO_PERMANE'] = pd.to_datetime(df_full['ANO-MES_INICIO_ABONO_PERMANE'], format='%Y-%m')
df_full.drop(['ANO_INICIO_ABONO_PERMANE', 'MES_INICIO_ABONO_PERMANE'], axis=1, inplace=True)

df_full['ANO_PUBLI_DO_DL'] = df_full['DT_PUBLI_DO_DL'].apply(lambda x: str(x)[4:8])
df_full['MES_PUBLI_DO_DL'] = df_full['DT_PUBLI_DO_DL'].apply(lambda x: str(x)[2:4])
df_full['DIA_PUBLI_DO_DL'] = df_full['DT_PUBLI_DO_DL'].apply(lambda x: str(x)[:2])
df_full['DT_PUBLI_DO_DL'] = df_full['ANO_PUBLI_DO_DL'] + '-' + df_full['MES_PUBLI_DO_DL'] + '-' + df_full['DIA_PUBLI_DO_DL']
df_full['DT_PUBLI_DO_DL'] = pd.to_datetime(df_full['DT_PUBLI_DO_DL'], format='%Y-%m-%d')
df_full.drop(['ANO_PUBLI_DO_DL', 'MES_PUBLI_DO_DL', 'DIA_PUBLI_DO_DL'], axis=1, inplace=True)

df_full['ANO_OC_INGRESSO_SVP'] = df_full['DT_OC_INGRESSO_SVP'].apply(lambda x: str(x)[4:8])
df_full['MES_OC_INGRESSO_SVP'] = df_full['DT_OC_INGRESSO_SVP'].apply(lambda x: str(x)[2:4])
df_full['DIA_OC_INGRESSO_SVP'] = df_full['DT_OC_INGRESSO_SVP'].apply(lambda x: str(x)[:2])
df_full['DT_OC_INGRESSO_SVP'] = df_full['ANO_OC_INGRESSO_SVP'] + '-' + df_full['MES_OC_INGRESSO_SVP'] + '-' + df_full['DIA_OC_INGRESSO_SVP']
df_full['DT_OC_INGRESSO_SVP'] = pd.to_datetime(df_full['DT_OC_INGRESSO_SVP'], format='%Y-%m-%d')
df_full.drop(['ANO_OC_INGRESSO_SVP', 'MES_OC_INGRESSO_SVP', 'DIA_OC_INGRESSO_SVP'], axis=1, inplace=True)

In [14]:
df_full.head(2)

Unnamed: 0,NOME,CPF,DSC_CARGO_EMPREGO,NV_ESCOLARIDADE,DN_ORGAO_ATUACAO,UF_UPAG,DN_UNIDADE_ORGANIZACIONAL,UF_RESIDENCIA,CIDADE_RESIDENCIA,SITUACAO_SVR,QT_ANOS_SVR_PUBLICOS,QT_MESES_SVR_PUBLICOS,ANO-MES_INICIO_ABONO_PERMANE,VAL,MAT_SERVIDOR,NM_ORGAO,SIGLA_ORGAO,CD_ORGAO,CARGO,CLASSE,PADRAO,REF,NIVEL,TP_APOSENTADORIA,FUND_INATIVIDADE,NM_DIPLO_LEGAL,DT_PUBLI_DO_DL,OC_INGRESSO_SVP,DT_OC_INGRESSO_SVP,VL_RENDIMENTO_LIQUIDO
0,CICERO JOAQUIM DOS SANTOS FILHO ...,***204574**,AUDITOR FISCAL FEDERAL AGROPECUARIO,ENSINO SUPERIOR,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",PE,SUP FED AGRIC PEC ABAST EST PERNAMBUCO,PE,CARUARU,ATIVO PERMANENTE,43,8,2003-12-01,224138,130000000551,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",MAPA,0,AUDITOR FISCAL FEDERAL AGROPECUARIO,S,IV,0,0,VOLUNTARIA,EC103 3Ì EC47 3Ì,"PORT 000077/2020, SFA-PE PUB: DO 01ABR2020 ...",2020-04-01,ADMISSAO POR CONCURSO PUBLICO ...,1976-04-30,"14.566,00"
1,CICERO JOAQUIM DOS SANTOS FILHO ...,***204574**,AUDITOR FISCAL FEDERAL AGROPECUARIO,ENSINO SUPERIOR,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",PE,SUP FED AGRIC PEC ABAST EST PERNAMBUCO,PE,CARUARU,ATIVO PERMANENTE,43,10,2003-12-01,224138,130000000551,"MINIST.DA AGRICULTURA,PECUARIA E ABAST.",MAPA,0,AUDITOR FISCAL FEDERAL AGROPECUARIO,S,IV,0,0,VOLUNTARIA,EC103 3Ì EC47 3Ì,"PORT 000077/2020, SFA-PE PUB: DO 01ABR2020 ...",2020-04-01,ADMISSAO POR CONCURSO PUBLICO ...,1976-04-30,"14.566,00"


## Outliers

## Conclusões

1. Base possui colunas de datas fora de padrão;
2. Base não possui valores faltantes;
