## Organograma

Evolução história dos vencimentos dos servidores

### Data Sources
- file1 : Description of where this file came from

### Changes
- 07-01-2023 : Started project

In [242]:
import pandas as pd
from pathlib import Path
from datetime import datetime
import chardet

### File Locations

In [243]:
today = datetime.today()
raw_dir = Path.cwd() / "data" / "raw"
summary_file = Path.cwd() / "data" / "processed" / f"summary_file.pkl"
processed_dir = Path.cwd() / "data" / "processed" 

In [244]:
lista_folhas_xlsx = list(raw_dir.glob('*.xlsx'))
print('Qtde arquivos encontrados', len([f.name for f in lista_folhas_xlsx]))
print('Nome primeiro arquivo:', ([f.name for f in lista_folhas_xlsx])[0])
print('Nome último arquivo:', ([f.name for f in lista_folhas_xlsx])[-1])

Qtde arquivos encontrados 115
Nome primeiro arquivo: 2014-01.xlsx
Nome último arquivo: 2023-07.xlsx


In [245]:
with lista_folhas_xlsx[0].open(mode='rb') as file:
    print(chardet.detect(file.read()))

{'encoding': None, 'confidence': 0.0, 'language': None}


In [246]:
dtypes = {
    'Matrícula' : str,
}

df_dict ={f"df_{xlsx.name.split('.')[0].replace('-', '_')}": pd.read_excel(xlsx, skiprows=11, dtype=dtypes) for xlsx in lista_folhas_xlsx}

In [247]:
df_dict['df_2014_01']

Unnamed: 0,Matrícula,Nome,Secretaria,Local de Trabalho,Cargo,Escolaridade,Tempo de Casa,Data Admissão,Data Demissão,Tipo Folha,Condição,Fun_Id,Tpf_Id,Cnd_Id,Remuneração
0,000239,SUNAO ANRAKU,Secretaria Municipal Planejamento,Secretaria de Planejamento,Assessor de Planejamento,SUPERIOR COMPLETO,24 ano(s),01/10/1993,03/01/2017,Pagamento Mensal,NORMAL,239,6,1,2540.85
1,000255,DELMO DE SOUZA OLIVEIRA,Secretaria Municipal de Saude,Contabilidade,Chefe Sec,SUPERIOR COMPLETO,38 ano(s),23/03/1976,01/05/2014,Pagamento Mensal,NORMAL,255,6,1,2107.69
2,000407,LUIZ GERALDO DOS SANTOS,Secret de Administracao e Modernizacaoç,DIV Materiais e Patrimonio,Dir DIV Patrimonio Mobiliario,ENSINO MEDIO COMPLETO,40 ano(s),18/11/1977,01/08/2017,Pagamento Mensal,NORMAL,407,6,1,3393.53
3,000450,JOSE DE ASSIS SOLANO,Secretaria de Financas,Contabilidade,Chefe Sec Apoio Adm Financas,ENSINO MEDIO COMPLETO,28 ano(s),01/09/1995,,Pagamento Mensal,NORMAL,450,6,1,1517.85
4,000464,JOSE FRANCISCO DA SILVA,Secret de Educacao. Ciencia. Tec e Inova,Secret Mun Desenvol Social,Chefe Sec,ENSINO MEDIO INCOMPLETO,37 ano(s),15/06/1978,01/04/2015,Pagamento Mensal,NORMAL,464,6,1,2107.69
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5009,048037,MARCELO RODRIGO DA SILVA,Secret de Educacao. Ciencia. Tec e Inova,Educacao (novos),Chefe Sec Nucleo Inform Pesq,ENSINO MEDIO COMPLETO,2 mes(es),06/01/2014,11/03/2014,Pagamento Mensal,NORMAL,48037,6,1,1517.85
5010,048038,MIKE ROBERTO DA SILVA,Secret de Educacao. Ciencia. Tec e Inova,Educacao (novos),Chefe Sec Almoxarifado Educ,SUPERIOR COMPLETO,3 ano(s),06/01/2014,03/01/2017,Pagamento Mensal,NORMAL,48038,6,1,1517.85
5011,048039,RUDE LEANDRO DE FREITAS DA SILVA,Secret de Educacao. Ciencia. Tec e Inova,Secretaria de Servicos Urbanos,Chefe Set Eletricidade Educ,FUNDAMENTAL INCOMPLETO (6o-9o),4 mes(es),07/01/2014,09/05/2014,Pagamento Mensal,NORMAL,48039,6,1,1245.63
5012,048040,ALEXANDRE DE OLIVEIRA SILVA,Secret de Educacao. Ciencia. Tec e Inova,Educacao (novos),Dir DIV Edific Manut Escolar,ENSINO MEDIO COMPLETO,2 ano(s),15/01/2014,23/06/2016,Pagamento Mensal,NORMAL,48040,6,1,2018.70


### Column Cleanup

- Remove all leading and trailing spaces
- Rename the columns for consistency.

In [248]:
# https://stackoverflow.com/questions/30763351/removing-space-in-dataframe-python
for df in df_dict.values():
    df.columns = [x.strip() for x in df.columns]
{col: '' for col in df_dict[list(df_dict.keys())[0]].columns}

{'Matrícula': '',
 'Nome': '',
 'Secretaria': '',
 'Local de Trabalho': '',
 'Cargo': '',
 'Escolaridade': '',
 'Tempo de Casa': '',
 'Data Admissão': '',
 'Data Demissão': '',
 'Tipo Folha': '',
 'Condição': '',
 'Fun_Id': '',
 'Tpf_Id': '',
 'Cnd_Id': '',
 'Remuneração': ''}

In [249]:
cols_to_rename = {
    'Matrícula': 'matricula',
    'Nome': 'nome',
    'Secretaria': 'secretaria',
    'Local de Trabalho': 'local',
    'Cargo': 'cargo',
    'Escolaridade': 'escolaridade',
    'Tempo de Casa': 'tempo',
    'Data Admissão': 'admissao',
    'Data Demissão': 'demissao',
    'Tipo Folha': 'tipo_folha',
    'Condição': 'condicao',
    'Fun_Id': 'id_matricula',
    'Remuneração': 'valor_bruto'
}


for df in df_dict.values():
    df.rename(columns=cols_to_rename, inplace=True)

In [250]:
from pprint import pprint

contador_dict = dict()
for df in df_dict.values():
    for col in df.columns:
        contador_dict.setdefault(col, 0)
        contador_dict[col] += 1
pprint(contador_dict)

{'Cnd_Id': 115,
 'Tpf_Id': 115,
 'admissao': 115,
 'cargo': 115,
 'condicao': 115,
 'demissao': 115,
 'escolaridade': 115,
 'id_matricula': 115,
 'local': 115,
 'matricula': 115,
 'nome': 115,
 'secretaria': 115,
 'tempo': 115,
 'tipo_folha': 115,
 'valor_bruto': 115}


### Clean Up Data Types

In [251]:
df.dtypes

matricula        object
nome             object
secretaria       object
local            object
cargo            object
escolaridade     object
tempo            object
admissao         object
demissao         object
tipo_folha       object
condicao         object
id_matricula      int64
Tpf_Id            int64
Cnd_Id            int64
valor_bruto     float64
dtype: object

In [252]:
for nome, df in df_dict.items():
    _, df['ano'], df['mes'] = nome.split('_')
    df['competencia'] = f"{nome.split('_')[1]}-{nome.split('_')[-1]}"

df_dict[list(df_dict.keys())[0]].head(3)

Unnamed: 0,matricula,nome,secretaria,local,cargo,escolaridade,tempo,admissao,demissao,tipo_folha,condicao,id_matricula,Tpf_Id,Cnd_Id,valor_bruto,ano,mes,competencia
0,239,SUNAO ANRAKU,Secretaria Municipal Planejamento,Secretaria de Planejamento,Assessor de Planejamento,SUPERIOR COMPLETO,24 ano(s),01/10/1993,03/01/2017,Pagamento Mensal,NORMAL,239,6,1,2540.85,2014,1,2014-01
1,255,DELMO DE SOUZA OLIVEIRA,Secretaria Municipal de Saude,Contabilidade,Chefe Sec,SUPERIOR COMPLETO,38 ano(s),23/03/1976,01/05/2014,Pagamento Mensal,NORMAL,255,6,1,2107.69,2014,1,2014-01
2,407,LUIZ GERALDO DOS SANTOS,Secret de Administracao e Modernizacaoç,DIV Materiais e Patrimonio,Dir DIV Patrimonio Mobiliario,ENSINO MEDIO COMPLETO,40 ano(s),18/11/1977,01/08/2017,Pagamento Mensal,NORMAL,407,6,1,3393.53,2014,1,2014-01


In [253]:
# Concatena todos os dataframes
df = pd.concat(df_dict.values())
print('df.shape', df.shape)
df.head()


df.shape (599536, 18)


Unnamed: 0,matricula,nome,secretaria,local,cargo,escolaridade,tempo,admissao,demissao,tipo_folha,condicao,id_matricula,Tpf_Id,Cnd_Id,valor_bruto,ano,mes,competencia
0,239,SUNAO ANRAKU,Secretaria Municipal Planejamento,Secretaria de Planejamento,Assessor de Planejamento,SUPERIOR COMPLETO,24 ano(s),01/10/1993,03/01/2017,Pagamento Mensal,NORMAL,239,6,1,2540.85,2014,1,2014-01
1,255,DELMO DE SOUZA OLIVEIRA,Secretaria Municipal de Saude,Contabilidade,Chefe Sec,SUPERIOR COMPLETO,38 ano(s),23/03/1976,01/05/2014,Pagamento Mensal,NORMAL,255,6,1,2107.69,2014,1,2014-01
2,407,LUIZ GERALDO DOS SANTOS,Secret de Administracao e Modernizacaoç,DIV Materiais e Patrimonio,Dir DIV Patrimonio Mobiliario,ENSINO MEDIO COMPLETO,40 ano(s),18/11/1977,01/08/2017,Pagamento Mensal,NORMAL,407,6,1,3393.53,2014,1,2014-01
3,450,JOSE DE ASSIS SOLANO,Secretaria de Financas,Contabilidade,Chefe Sec Apoio Adm Financas,ENSINO MEDIO COMPLETO,28 ano(s),01/09/1995,,Pagamento Mensal,NORMAL,450,6,1,1517.85,2014,1,2014-01
4,464,JOSE FRANCISCO DA SILVA,Secret de Educacao. Ciencia. Tec e Inova,Secret Mun Desenvol Social,Chefe Sec,ENSINO MEDIO INCOMPLETO,37 ano(s),15/06/1978,01/04/2015,Pagamento Mensal,NORMAL,464,6,1,2107.69,2014,1,2014-01


In [254]:
df.dtypes

matricula        object
nome             object
secretaria       object
local            object
cargo            object
escolaridade     object
tempo            object
admissao         object
demissao         object
tipo_folha       object
condicao         object
id_matricula      int64
Tpf_Id            int64
Cnd_Id            int64
valor_bruto     float64
ano              object
mes              object
competencia      object
dtype: object

### Data Manipulation

In [255]:
# Separa os valores de matricula/digio, mes/ano 
df['matricula'] = df['matricula'].str[1:]
df['matricula']

0       00239
1       00255
2       00407
3       00450
4       00464
        ...  
5172    86111
5173    86112
5174    86126
5175    86129
5176    86130
Name: matricula, Length: 599536, dtype: object

In [256]:
df['matric'] = df['matricula'].astype(float)
df

Unnamed: 0,matricula,nome,secretaria,local,cargo,escolaridade,tempo,admissao,demissao,tipo_folha,condicao,id_matricula,Tpf_Id,Cnd_Id,valor_bruto,ano,mes,competencia,matric
0,00239,SUNAO ANRAKU,Secretaria Municipal Planejamento,Secretaria de Planejamento,Assessor de Planejamento,SUPERIOR COMPLETO,24 ano(s),01/10/1993,03/01/2017,Pagamento Mensal,NORMAL,239,6,1,2540.85,2014,01,2014-01,239.0
1,00255,DELMO DE SOUZA OLIVEIRA,Secretaria Municipal de Saude,Contabilidade,Chefe Sec,SUPERIOR COMPLETO,38 ano(s),23/03/1976,01/05/2014,Pagamento Mensal,NORMAL,255,6,1,2107.69,2014,01,2014-01,255.0
2,00407,LUIZ GERALDO DOS SANTOS,Secret de Administracao e Modernizacaoç,DIV Materiais e Patrimonio,Dir DIV Patrimonio Mobiliario,ENSINO MEDIO COMPLETO,40 ano(s),18/11/1977,01/08/2017,Pagamento Mensal,NORMAL,407,6,1,3393.53,2014,01,2014-01,407.0
3,00450,JOSE DE ASSIS SOLANO,Secretaria de Financas,Contabilidade,Chefe Sec Apoio Adm Financas,ENSINO MEDIO COMPLETO,28 ano(s),01/09/1995,,Pagamento Mensal,NORMAL,450,6,1,1517.85,2014,01,2014-01,450.0
4,00464,JOSE FRANCISCO DA SILVA,Secret de Educacao. Ciencia. Tec e Inova,Secret Mun Desenvol Social,Chefe Sec,ENSINO MEDIO INCOMPLETO,37 ano(s),15/06/1978,01/04/2015,Pagamento Mensal,NORMAL,464,6,1,2107.69,2014,01,2014-01,464.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5172,86111,RITA RUFINO DE SOUSA,Secret de Administracao e Modernizacaoç,Copa do Predio,CHEFE GAB DIR DE ADMINISTRACAO,ENSINO MEDIO COMPLETO,1 mes(es),17/07/2023,,Pagamento Mensal,NORMAL,86111,6,1,1499.68,2023,07,2023-07,86111.0
5173,86112,ROBERTO JOSE DE OLIVEIRA,Secretaria Municipal Planejamento,Secretaria de Saude,CHEFE SET INFORMATICA,SUPERIOR COMPLETO,1 mes(es),17/07/2023,,Pagamento Mensal,NORMAL,86112,6,1,2186.51,2023,07,2023-07,86112.0
5174,86126,GABRIEL CANDELARIA GARRIDO,Secretaria de Esportes e Lazer,Secretaria de Esportes e Lazer,DIR DEP ESPORTES,SUPERIOR COMPLETO,1 mes(es),18/07/2023,,Pagamento Mensal,NORMAL,86126,6,1,4333.27,2023,07,2023-07,86126.0
5175,86129,MARIO FERREIRA DA COSTA,Secret de Educacao. Ciencia. Tec e Inova,Secretaria de Educacao,CHEFE AUXILIAR SECR EMEF,ENSINO MEDIO COMPLETO,1 mes(es),24/07/2023,,Pagamento Mensal,NORMAL,86129,6,1,2010.14,2023,07,2023-07,86129.0


### Normalização de cargos

In [257]:
df['cargo'] = df['cargo'].str.upper()
df['cargo_normalizado'] = df['cargo']

In [258]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'PROFESSOR TITUL EDUC INFANTIL' : 'PROFESSOR EDUC INFANTIL',
    'PROFESSOR TITUL ENS FUNDAM'     : 'PROFESSOR ENSINO FUND',
    'PROF EDUCACAO FISICA'           : 'PROFESSOR EDUC FISICA',
    'PROFESSOR TITUL EDUC ESPECIAL'  : 'PROFESSOR EDUC ESPECIAL',
    'PROFESSOR ADJUNTO ENS FUNDAM'   : 'PROFESSOR ENSINO FUND',
    'PROFESSOR EDUCACAO FISICA'      : 'PROFESSOR EDUC FISICA',
    'PROFESSOR DE ARTES'             : 'PROFESSOR DE ARTES',
    'PROF EDUCACAO INFANTIL (E.T)'   : 'PROFESSOR EDUC INFANTIL',
    'PROF ENSINO FUNDAMENTAL (E.T)'  : 'PROFESSOR ENSINO FUND',
    'PROFESSOR DE EDUCACAO ESPECIAL' : 'PROFESSOR EDUC ESPECIAL',
    'PROF TIT AREAS ESPECIF(ED FIS)' : 'PROFESSOR EDUC FISICA',
    'PROF TIT AREAS ESPECIF (ARTES)' : 'PROFESSOR DE ARTES'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'PROF', regex=True)]['cargo_normalizado'].unique()}

{'PROFESSOR EDUC INFANTIL': '',
 'PROFESSOR ENSINO FUND': '',
 'PROFESSOR EDUC FISICA': '',
 'PROFESSOR EDUC ESPECIAL': '',
 'PROFESSOR DE ARTES': '',
 'DIR DIV COLOC PROF APOIO DOCUM': '',
 'CHEFE SEC EXPEDICAO CART PROFI': '',
 'CHEFE SEC DOCUM COLOCACAO PROF': ''}

In [259]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'TEC ENFERMAGEM SALA DE GESSO' : 'TECNICO DE ENFERMAGEM',
    'TEC ENFERMAGEM'                : 'TECNICO DE ENFERMAGEM'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'TEC ENF|TECNICO DE ENFERMAGEM', regex=True)]['cargo_normalizado'].unique()}

{'TECNICO DE ENFERMAGEM': '', 'TEC ENFERMAGEM SALA GESSO (E.T': ''}

In [260]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'ENFERMEIRO - 30H'             : 'ENFERMEIRO',
    'ENFERMEIRO PLANTONISTA - 36H'  : 'ENFERMEIRO',
    'ENFERMEIRO PADRAO P S FAMILIA' : 'ENFERMEIRO',
    'ENFERMEIRO SAMU'               : 'ENFERMEIRO'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'ENFERMEIRO', regex=True)]['cargo_normalizado'].unique()}

{'ENFERMEIRO': '',
 'ENFERMEIRO SAMU (E.T)': '',
 'ENFERMEIRO PLANT 36H (E.T)': '',
 'ENFERMEIRO 30H (E.T)': '',
 'ENFERMEIRO PADRAO PSF (E.T)': ''}

In [261]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'CHEFE GABINETE'                 : 'CHEFE GABINETE',
    'CHEFE GAB DIRETORIA OBRAS'      : 'CHEFE GABINETE',
    'CHEFE GAB DIR EDUCACAO'         : 'CHEFE GABINETE',
    'CHEFE GAB ASSESSORIA JURIDICA'  : 'CHEFE GABINETE',
    'CHEFE GAB DIR DE ADMINISTRACAO' : 'CHEFE GABINETE',
    'CHEFE GAB DIRETORIA SAUDE'      : 'CHEFE GABINETE',
    'CHEFE GAB PREFEITO'             : 'CHEFE GABINETE',
    'CHEFE GAB DIRETORIA'            : 'CHEFE GABINETE',
    'CHEFE GAB DIR FINANCAS'         : 'CHEFE GABINETE',
    'CHEFE GAB DIRETORIA ESP E LAZE' : 'CHEFE GABINETE',
    'CHEFE GAB DIR PROMOCAO SOCIAL'  : 'CHEFE GABINETE',
    'CHEFE GAB DIRET HABITACAO'      : 'CHEFE GABINETE'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'CHEFE GAB', regex=True)]['cargo_normalizado'].unique()}

{'CHEFE GABINETE': ''}

In [262]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'ASSESSOR DE PLANEJAMENTO'      : 'ASSESSOR',
    'ASSES SUPERVISAO ENSINO'        : 'ASSESSOR',
    'ASSES COORD TEC EDUCACIONAL'    : 'ASSESSOR',
    'ASSES DE COORD PEDAGOGICA'      : 'ASSESSOR',
    'ASSESSOR TEC EXEC ADMINISTRAT'  : 'ASSESSOR',
    'ASSESSOR PARLAMENTAR'           : 'ASSESSOR',
    'ASSESSOR TECNICO EXECUTIVO'     : 'ASSESSOR',
    'ASSES OPERAC TRANSP FISCALIZAC' : 'ASSESSOR',
    'ASSESSOR IMPRENSA'              : 'ASSESSOR',
    'ASSESSOR ESPECIAL DE GESTAO'    : 'ASSESSOR',
    'SUPERVISOR DE ENSINO(ASSESSOR)' : 'ASSESSOR',
    'ASSES TEC SECRET RECEITA'       : 'ASSESSOR'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'ASSES', regex=True)]['cargo_normalizado'].unique()}

{'ASSESSOR': ''}

In [263]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'CHEFE ASSIST TEC'              : 'CHEFE ASSIST TEC',
    'CHEFE ASSISTENCIA TEC ADM'      : 'CHEFE ASSIST TEC',
    'CHEFE ASSIST TEC ESP LAZER'     : 'CHEFE ASSIST TEC',
    'CHEFE ASSIST TEC EDUCACIONAL'   : 'CHEFE ASSIST TEC',
    'CHEFE ASSISTENCIA TEC ADM II'   : 'CHEFE ASSIST TEC',
    'CHEFE ASSISTENCIA TEC M AMB'    : 'CHEFE ASSIST TEC',
    'CHEFE ASSIST TEC EDUC II'       : 'CHEFE ASSIST TEC',
    'CHEFE ASSIST TEC II'            : 'CHEFE ASSIST TEC',
    'CHEFE ASSISTENCIA TEC SERVIC'   : 'CHEFE ASSIST TEC',
    'CHEFE ASSIST TEC FINANCAS II'   : 'CHEFE ASSIST TEC',
    'CHEFE ASSIST TEC RECEITA'       : 'CHEFE ASSIST TEC',
    'CHEFE ASSISTENCIA TEC OBRAS II' : 'CHEFE ASSIST TEC',
    'CHEFE ASSIST TEC GAB PREF II'   : 'CHEFE ASSIST TEC',
    'CHEFE ASSISTENCIA TEC ADM I'    : 'CHEFE ASSIST TEC',
    'CHEFE ASSIST TEC ESP LAZER I'   : 'CHEFE ASSIST TEC',
    'CHEFE ASSIST TEC RECEITA I'     : 'CHEFE ASSIST TEC',
    'CHEFE ASSIST TEC EDUCACIONAL I' : 'CHEFE ASSIST TEC',
    'CHEFE ASSISTENCIA TEC SERVIC I' : 'CHEFE ASSIST TEC',
    'CHEFE ASSISTENCIA TEC M AMB I'  : 'CHEFE ASSIST TEC'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'CHEFE ASSIST TEC|CHEFE ASSISTENCIA TEC', regex=True)]['cargo_normalizado'].unique()}

{'CHEFE ASSIST TEC': ''}

In [264]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'CHEFE GERAL COMPRAS'           : 'CHEFE GERAL',
    'CHEFE GERAL TESOURARIA'         : 'CHEFE GERAL',
    'CHEFE GERAL CONTROLE DE CONTAS' : 'CHEFE GERAL',
    'CHEFE GERAL PATRIM  MOBILIARIO' : 'CHEFE GERAL',
    'CHEFE GERAL PESSOAL'            : 'CHEFE GERAL',
    'CHEFE GERAL CONTABILIDADE'      : 'CHEFE GERAL',
    'CHEFE GERAL MERENDA ESCOLAR'    : 'CHEFE GERAL',
    'CHEFE GERAL ALMOXARIFADO EDUC'  : 'CHEFE GERAL'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'CHEFE GERAL', regex=True)]['cargo_normalizado'].unique()}

{'CHEFE GERAL': ''}

In [265]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'CHEFE SEC'                                                  : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO ADM FINANCAS'                                : 'CHEFE DE SECAO',
    'CHEFE SEC DIAGNOSTICO'                                       : 'CHEFE DE SECAO',
    'CHEFE SEC LANC CAD TRIB IMOB'                                : 'CHEFE DE SECAO',
    'CHEFE SEC GEOPROCESSAMENTO'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC LAB ANALIS OBRAS PUB'                              : 'CHEFE DE SECAO',
    'CHEFE SEC MATERIAL E ALMOXARIF'                              : 'CHEFE DE SECAO',
    'CHEFE SEC CONTABILIDADE'                                     : 'CHEFE DE SECAO',
    'CHEFE SEC CONTR LIXOS ESPECIAI'                              : 'CHEFE DE SECAO',
    'CHEFE SEC ARQUIVO GERAL'                                     : 'CHEFE DE SECAO',
    'CHEFE SEC EXECUCAO DIV ATIVA'                                : 'CHEFE DE SECAO',
    'CHEFE SEC BIBLIOTECA'                                        : 'CHEFE DE SECAO',
    'CHEFE SEC CEMITERIO'                                         : 'CHEFE DE SECAO',
    'CHEFE SEC EXPEDIENTE'                                        : 'CHEFE DE SECAO',
    'CHEFE SEC CONTAS A PAGAR'                                    : 'CHEFE DE SECAO',
    'CHEFE SEC DESENHO PLANEJAMENTO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC CONTR PARQ MUNICIPAL'                              : 'CHEFE DE SECAO',
    'CHEFE SEC ZELADORIA'                                         : 'CHEFE DE SECAO',
    'CHEFE SEC GARAGENS'                                          : 'CHEFE DE SECAO',
    'CHEFE SEC VIGILANCIA SANITARIA'                              : 'CHEFE DE SECAO',
    'CHEFE SEC UNIDADE BASICA SAUDE'                              : 'CHEFE DE SECAO',
    'CHEFE SEC ADMINISTRACAO'                                     : 'CHEFE DE SECAO',
    'CHEFE SEC FARM HOSP MUNIC'                                   : 'CHEFE DE SECAO',
    'CHEFE SEC ABASTECIMENTO SAUDE'                               : 'CHEFE DE SECAO',
    'CHEFE SEC COLETA LIXO'                                       : 'CHEFE DE SECAO',
    'CHEFE SEC FISCALIZ DO TRANSITO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO VIG EPIDEMIOL'                               : 'CHEFE DE SECAO',
    'CHEFE SEC PROJETOS EDUC'                                     : 'CHEFE DE SECAO',
    'CHEFE SEC CONTR FINANC SAUDE'                                : 'CHEFE DE SECAO',
    'CHEFE SEC TRANSPORTE SAUDE'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC PINTURA FUNILARIA'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC FISC CONTR DIPAM'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC MANUT CONS VIAS PUBL'                              : 'CHEFE DE SECAO',
    'CHEFE SEC APROPRIAC E MEDICOES'                              : 'CHEFE DE SECAO',
    'CHEFE SEC PARQUES'                                           : 'CHEFE DE SECAO',
    'CHEFE SEC ESTATIST AMBIENTAIS'                               : 'CHEFE DE SECAO',
    'CHEFE SEC CONCIL CONTAS BANCAR'                              : 'CHEFE DE SECAO',
    'CHEFE SEC COMERCIO'                                          : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO TECNICO'                                     : 'CHEFE DE SECAO',
    'CHEFE SEC EMPLAC LOGRADOURO'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC LAB GERAL SAUDE'                                   : 'CHEFE DE SECAO',
    'CHEFE SEC MANUT ESCOLAS'                                     : 'CHEFE DE SECAO',
    'CHEFE SEC ALMOXARIFADO EDUC'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO VIG SANIT ALIM'                              : 'CHEFE DE SECAO',
    'CHEFE SEC ATEND EDIF PLANEJAM'                               : 'CHEFE DE SECAO',
    'CHEFE SEC RECEPCAO SAUDE'                                    : 'CHEFE DE SECAO',
    'CHEFE SEC CADASTRO'                                          : 'CHEFE DE SECAO',
    'CHEFE SEC CONTROLE LICITACAO'                                : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO ADM SAUDE BAS'                               : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO TEC EDUC'                                    : 'CHEFE DE SECAO',
    'CHEFE SEC AREA IV'                                           : 'CHEFE DE SECAO',
    'CHEFE SEC CONSULTORIA JURIDICA'                              : 'CHEFE DE SECAO',
    'CHEFE SEC VIVEIROS PLANTAS'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC CONSTR VIAS PUBLICAS'                              : 'CHEFE DE SECAO',
    'CHEFE SEC USINAS DE ASFALTO'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC ESPACO LAZER ADOLESC'                              : 'CHEFE DE SECAO',
    'CHEFE SEC PROGRAMAS DE LAZER'                                : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO ADMINISTRATIVO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC LIMPEZA GALERIAS'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC ASSUNTOS TRABALHISTA'                              : 'CHEFE DE SECAO',
    'CHEFE SEC INDUSTRIA'                                         : 'CHEFE DE SECAO',
    'CHEFE SEC ATENDIMENTO SOCIAL'                                : 'CHEFE DE SECAO',
    'CHEFE SEC PESQ E ANALISE LAUDO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC AT DAD DIGIT PLANEJA'                              : 'CHEFE DE SECAO',
    'CHEFE SEC DESENHO'                                           : 'CHEFE DE SECAO',
    'CHEFE SEC PATRIMONIO IMOB'                                   : 'CHEFE DE SECAO',
    'CHEFE SEC ESPACO LAZER DA CCA'                               : 'CHEFE DE SECAO',
    'CHEFE SEC LANC CAD TRIB MOB'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC PROJETOS JURIDICOS'                                : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO ADM AUTOS INFR'                              : 'CHEFE DE SECAO',
    'CHEFE SEC AREA VI'                                           : 'CHEFE DE SECAO',
    'CHEFE SEC PROCEDIMENTOS ADMINI'                              : 'CHEFE DE SECAO',
    'CHEFE SEC EXP HABITACAO'                                     : 'CHEFE DE SECAO',
    'CHEFE SEC INFORMACOES E ARQUIV'                              : 'CHEFE DE SECAO',
    'CHEFE SEC CADASTRO HABITACAO'                                : 'CHEFE DE SECAO',
    'CHEFE SEC FISC TRIBUTOS IMOB'                                : 'CHEFE DE SECAO',
    'CHEFE SEC ASSIS SOC DEF MENTAL'                              : 'CHEFE DE SECAO',
    'CHEFE SEC AREA II'                                           : 'CHEFE DE SECAO',
    'CHEFE SEC LIGA DE ESPORTE'                                   : 'CHEFE DE SECAO',
    'CHEFE SEC TRE CAP DE RH SAU BA'                              : 'CHEFE DE SECAO',
    'CHEFE SEC TOPOGRAFIA PLANEJAM'                               : 'CHEFE DE SECAO',
    'CHEFE SEC ENGENHARIA HABITACAO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC OFICINA MEC MANUT'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC APREND PEDAG ED ESP'                               : 'CHEFE DE SECAO',
    'CHEFE SEC CONTROLE DE ANIMAIS'                               : 'CHEFE DE SECAO',
    'CHEFE SEC CONTR DESP ORCAM EDU'                              : 'CHEFE DE SECAO',
    'CHEFE SEC TRAFEGO'                                           : 'CHEFE DE SECAO',
    'CHEFE SEC FISC CONTR MEIO AMBI'                              : 'CHEFE DE SECAO',
    'CHEFE SEC RECEP HOSPITAL MUNIC'                              : 'CHEFE DE SECAO',
    'CHEFE SEC ARTES INTEGRADAS'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO ADM EDUC'                                    : 'CHEFE DE SECAO',
    'CHEFE SEC PROMO DIVULG ESP AMA'                              : 'CHEFE DE SECAO',
    'CHEFE SEC FAT HOSP MUNIC'                                    : 'CHEFE DE SECAO',
    'CHEFE SEC LIMP LAVAND HOSP MUN'                              : 'CHEFE DE SECAO',
    'CHEFE SEC POLITICAS P/MULHERES'                              : 'CHEFE DE SECAO',
    'CHEFE SEC COORD DEMANDA ESC'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO TEC PLANEJAMEN'                              : 'CHEFE DE SECAO',
    'CHEFE SEC TEC E ADM ZOON PRAGA'                              : 'CHEFE DE SECAO',
    'CHEFE SEC CEN DE VAGAS HOSP MU'                              : 'CHEFE DE SECAO',
    'CHEFE SEC CONTR AUTOS INFRACAO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC LAB HOSPITAL MUNICIP'                              : 'CHEFE DE SECAO',
    'CHEFE SEC VELORIO'                                           : 'CHEFE DE SECAO',
    'CHEFE SEC LIMPEZA PUBLICA'                                   : 'CHEFE DE SECAO',
    'CHEFE SEC ATEND DOCUM PESSOAL'                               : 'CHEFE DE SECAO',
    'CHEFE SEC SELECAO E TREINAMENT'                              : 'CHEFE DE SECAO',
    'CHEFE SEC EXPEDICAO CART PROFI'                              : 'CHEFE DE SECAO',
    'CHEFE SEC COORDENACAO CRECHES'                               : 'CHEFE DE SECAO',
    'CHEFE SEC FISC TRIBUTOS MOB'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC ELAB ACOMPANH ORCAME'                              : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO TEC ENG PLANEJ'                              : 'CHEFE DE SECAO',
    'CHEFE SEC PESQUISA ADMINISTRAT'                              : 'CHEFE DE SECAO',
    'CHEFE SEC PLANEJ CONTR LICENC'                               : 'CHEFE DE SECAO',
    'CHEFE SEC EXPEDIENTE PROTOCOLO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO VIG SANITARIA'                               : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO TEC EDIF EDUC'                               : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO'                                             : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO PEDAGOGICO'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC PAVIMENTACAO'                                      : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO EXECUC FISCAL'                               : 'CHEFE DE SECAO',
    'CHEFE SEC RUAS DE LAZER'                                     : 'CHEFE DE SECAO',
    'CHEFE SEC ARQUIVO'                                           : 'CHEFE DE SECAO',
    'CHEFE SEC BIBLIOT DOCUMENT GAB'                              : 'CHEFE DE SECAO',
    'CHEFE SEC FUNIL PINT PLANEJ'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC FISCALIZACAO OBRAS'                                : 'CHEFE DE SECAO',
    'CHEFE SEC ATEND PRO-MENOR'                                   : 'CHEFE DE SECAO',
    'CHEFE SEC CENTROS DE CONVIVENC'                              : 'CHEFE DE SECAO',
    'CHEFE SEC PORT SEG HOSP MUNIC'                               : 'CHEFE DE SECAO',
    'CHEFE SEC PROJETOS PLANEJAMEN'                               : 'CHEFE DE SECAO',
    'CHEFE SEC COORDENACAO CONVENIO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC ESTATISTICA TRANSITO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO TEC'                                         : 'CHEFE DE SECAO',
    'CHEFE SEC FISC OBRAS CONTRATAD'                              : 'CHEFE DE SECAO',
    'CHEFE SEC EXPEDIENTE SERVICOS'                               : 'CHEFE DE SECAO',
    'CHEFE SEC ARQUITETURA'                                       : 'CHEFE DE SECAO',
    'CHEFE SEC OBRAS'                                             : 'CHEFE DE SECAO',
    'CHEFE SEC REGUL FUND URBANISTI'                              : 'CHEFE DE SECAO',
    'CHEFE SEC ENF PES AUX HOSP MUN'                              : 'CHEFE DE SECAO',
    'CHEFE SEC CONTROLE DE VETORES'                               : 'CHEFE DE SECAO',
    'CHEFE SEC ADM HABITACAO'                                     : 'CHEFE DE SECAO',
    'CHEFE SEC PROJETOS'                                          : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO ADM ORCAMENT'                                : 'CHEFE DE SECAO',
    'CHEFE SEC MUSEU'                                             : 'CHEFE DE SECAO',
    'CHEFE SEC PROJETOS COMUNIT'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC AREA III'                                          : 'CHEFE DE SECAO',
    'CHEFE SEC SINALIZ DO TRANSITO'                               : 'CHEFE DE SECAO',
    'CHEFE SEC ATIVIDADES TEATRAIS'                               : 'CHEFE DE SECAO',
    'CHEFE SEC FISC COM VIAS LOG PU'                              : 'CHEFE DE SECAO',
    'CHEFE SEC DOCUM COLOCACAO PROF'                              : 'CHEFE DE SECAO',
    'CHEFE SEC VIAS URBANAS'                                      : 'CHEFE DE SECAO',
    'CHEFE SEC ATENDIM A CRIANCAS'                                : 'CHEFE DE SECAO',
    'CHEFE SEC JARDINS'                                           : 'CHEFE DE SECAO',
    'CHEFE SEC MANUT PAVIMENTACAO'                                : 'CHEFE DE SECAO',
    'CHEFE SEC ESTUDOS PROJ AMBIENT'                              : 'CHEFE DE SECAO',
    'CHEFE SEC ATENDIMENTO MOVEL'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC COORD TEC EDUCACION'                               : 'CHEFE DE SECAO',
    'CHEFE SEC FISCAL AREA'                                       : 'CHEFE DE SECAO',
    'CHEFE SEC ADM ENG HABITACAO'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC PRESER PATR HIST CUL'                              : 'CHEFE DE SECAO',
    'CHEFE SEC PLANEJ ACOMP PROCES'                               : 'CHEFE DE SECAO',
    'CHEFE SEC ELETRICIDADE'                                      : 'CHEFE DE SECAO',
    'CHEFE SEC PRE MOLDADOS'                                      : 'CHEFE DE SECAO',
    'CHEFE SEC CURSOS TREINAMENTOS'                               : 'CHEFE DE SECAO',
    'CHEFE SEC CARPINTARIA'                                       : 'CHEFE DE SECAO',
    'CHEFE SEC ASSUNTOS JUDICIAIS'                                : 'CHEFE DE SECAO',
    'CHEFE SEC VIGILANCIA'                                        : 'CHEFE DE SECAO',
    'CHEFE SEC ORG EVENT ESPOR AMAD'                              : 'CHEFE DE SECAO',
    'CHEFE SEC FISC CONTR AMBIENTAL'                              : 'CHEFE DE SECAO',
    'CHEFE SEC EXPEDIENTE OBRAS'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC TOPOGRAFIA HABITACAO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC AREA'                                              : 'CHEFE DE SECAO',
    'CHEFE SEC CONTR FROTA SAUDE'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC MOBILIA ESCOLAR'                                   : 'CHEFE DE SECAO',
    'CHEFE SEC INTEGR SOC DEFIC FIS'                              : 'CHEFE DE SECAO',
    'CHEFE SEC REC HUMANOS SAUDE'                                 : 'CHEFE DE SECAO',
    'CHEFE SEC EXPED GERAL EDUCAC'                                : 'CHEFE DE SECAO',
    'CHEFE SEC EXPEDIENTE EDUC'                                   : 'CHEFE DE SECAO',
    'CHEFE SEC CONTR PESSOAL MEREND'                              : 'CHEFE DE SECAO',
    'CHEFE SEC NUCLEO INFORM PESQ'                                : 'CHEFE DE SECAO',
    'CHEFE SEC DISTR MERENDA ESCOL'                               : 'CHEFE DE SECAO',
    'CHEFE SEC ATIVIDADES MUSICAIS'                               : 'CHEFE DE SECAO',
    'CHEFE SEC APOIO PEDAG NAJI'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC MANUT HOSP MUNIC'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC CULTURA CLASSICA'                                  : 'CHEFE DE SECAO',
    'CHEFE SEC EXPEDIENTE E PROTOCO'                              : 'CHEFE DE SECAO',
    'CHEFE SEC LAB AN CLIN VET EDUC'                              : 'CHEFE DE SECAO',
    'CHEFE SEC PREP MERENDA ESCOLAR'                              : 'CHEFE DE SECAO',
    'CHEFE SEC TURISMO'                                           : 'CHEFE DE SECAO',
    'CHEFE SEC AREA V'                                            : 'CHEFE DE SECAO',
    'CHEFE SEC SERV ELETRICOS'                                    : 'CHEFE DE SECAO',
    'CHEFE DE SECAO'                                              : 'CHEFE DE SECAO',
    'CHEFE SEC POLITICAS P-MULHERES'                              : 'CHEFE DE SECAO',
    'CHEFE SECAO ESPEC EM ASSUNTOS DA MULHER,DIR HUM E CIDADANIA' : 'CHEFE DE SECAO'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'CHEFE SEC|CHEFE DE SECAO', regex=True)]['cargo_normalizado'].unique()}

{'CHEFE DE SECAO': '',
 'CHEFE SECRET ESC ENSI FUNDAM': '',
 'CHEFE SECRET ESC EDUC INFANTIL': ''}

In [266]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'CHEFE SET CARPINTARIA'         : 'CHEFE DE SETOR',
    'CHEFE SET CAD TRIBUT IMOB'      : 'CHEFE DE SETOR',
    'CHEFE SET EXP SEC LAN CAD TR'   : 'CHEFE DE SETOR',
    'CHEFE SET JUNTA DE SERV MILITA' : 'CHEFE DE SETOR',
    'CHEFE SET APOIO ADMINISTRATIVO' : 'CHEFE DE SETOR',
    'CHEFE SET PAVIMENTACAO'         : 'CHEFE DE SETOR',
    'CHEFE SET LIMPEZA PUBLICA'      : 'CHEFE DE SETOR',
    'CHEFE SET ATENDIMENTO'          : 'CHEFE DE SETOR',
    'CHEFE SET EXPEDIENTE II'        : 'CHEFE DE SETOR',
    'CHEFE SET FUNILARIA'            : 'CHEFE DE SETOR',
    'CHEFE SET ALVENARIA EDUC'       : 'CHEFE DE SETOR',
    'CHEFE SET COLETA LIXO'          : 'CHEFE DE SETOR',
    'CHEFE SET INDUSTRIA'            : 'CHEFE DE SETOR',
    'CHEFE SET ZELADORIA'            : 'CHEFE DE SETOR',
    'CHEFE SET PRE-MOLDADOS'         : 'CHEFE DE SETOR',
    'CHEFE SET PINTURA EDUCACAO'     : 'CHEFE DE SETOR',
    'CHEFE SET APOIO TECNICO'        : 'CHEFE DE SETOR',
    'CHEFE SET BANDAS E FANFARRAS'   : 'CHEFE DE SETOR',
    'CHEFE SET FINANCAS'             : 'CHEFE DE SETOR',
    'CHEFE SET SERVICOS EDUCACAO'    : 'CHEFE DE SETOR',
    'CHEFE SET ELETRICIDADE EDUC'    : 'CHEFE DE SETOR',
    'CHEFE SET CONSTR VIAS PUBLICAS' : 'CHEFE DE SETOR',
    'CHEFE SET ACOMPANHAM PROCESSOS' : 'CHEFE DE SETOR',
    'CHEFE SET ATEND PROMOC SOCIAL'  : 'CHEFE DE SETOR',
    'CHEFE SET EXP SEC FISC TR MOB'  : 'CHEFE DE SETOR',
    'CHEFE SET CADAST TRIBUTOS MOB'  : 'CHEFE DE SETOR',
    'CHEFE SET EXP DIV FISC TRIB'    : 'CHEFE DE SETOR',
    'CHEFE SET EXP MEIO AMBIENTE'    : 'CHEFE DE SETOR',
    'CHEFE SET EXPEDIENTE CADASTRO'  : 'CHEFE DE SETOR',
    'CHEFE SET EXP S LAN CAD TR MOB' : 'CHEFE DE SETOR',
    'CHEFE SET CARPINTARIA EDUC'     : 'CHEFE DE SETOR',
    'CHEFE SET JARDINAGEM EDUC'      : 'CHEFE DE SETOR',
    'CHEFE SET ATENDIMENTO SAUDE'    : 'CHEFE DE SETOR',
    'CHEFE SET APOIO TEC VIG EPIDEM' : 'CHEFE DE SETOR',
    'CHEFE SET MANUTENCAO ESCOLAR'   : 'CHEFE DE SETOR',
    'CHEFE SET HIDRAULICA EDUC'      : 'CHEFE DE SETOR',
    'CHEFE SET DOCUMENTACAO BIBLIOT' : 'CHEFE DE SETOR',
    'CHEFE SET MARCENARIA EDUC'      : 'CHEFE DE SETOR',
    'CHEFE SET CAPT MANUT ANIMAIS'   : 'CHEFE DE SETOR',
    'CHEFE SET APOIO ESTAT TRIB MOB' : 'CHEFE DE SETOR',
    'CHEFE SET BIBLIOTECA'           : 'CHEFE DE SETOR',
    'CHEFE SET TRANSPORTE SAUDE'     : 'CHEFE DE SETOR',
    'CHEFE SET LANCAM TRIB IMOB'     : 'CHEFE DE SETOR',
    'CHEFE SET TRAFEGO SAUDE'        : 'CHEFE DE SETOR',
    'CHEFE SET COMUNICACAO GOVERNO'  : 'CHEFE DE SETOR',
    'CHEFE SET PROTOCOLO'            : 'CHEFE DE SETOR',
    'CHEFE SET APOIO DIAGNOSE'       : 'CHEFE DE SETOR',
    'CHEFE SET SERVICOS GERAIS EDUC' : 'CHEFE DE SETOR',
    'CHEFE SET EXP SEC FIS TR IMOB'  : 'CHEFE DE SETOR',
    'CHEFE SET TRATAM E DIAGNOSTICO' : 'CHEFE DE SETOR',
    'CHEFE SET FISCALIZACAO'         : 'CHEFE DE SETOR',
    'CHEFE SET ESTERILIZ E LAVANDER' : 'CHEFE DE SETOR',
    'CHEFE SET CULTURA POPULAR'      : 'CHEFE DE SETOR',
    'CHEFE SET CAPTURA VETORES'      : 'CHEFE DE SETOR',
    'CHEFE SET TRAM EXP MEIO AMBIEN' : 'CHEFE DE SETOR',
    'CHEFE SET AMBULANCIA'           : 'CHEFE DE SETOR',
    'CHEFE SET PINTURA'              : 'CHEFE DE SETOR',
    'CHEFE SET ATEND EDUCACAO'       : 'CHEFE DE SETOR',
    'CHEFE SET MANUT HABITACAO'      : 'CHEFE DE SETOR',
    'CHEFE SET APOIO OPERACIONAL'    : 'CHEFE DE SETOR',
    'CHEFE SET ALMOXARIF FARMACIA'   : 'CHEFE DE SETOR',
    'CHEFE SET TRAFEGO - AREA'       : 'CHEFE DE SETOR',
    'CHEFE SET CULTURA CLASSICA'     : 'CHEFE DE SETOR',
    'CHEFE SET ESTATISTICA TRANSITO' : 'CHEFE DE SETOR',
    'CHEFE SET ESTAT MEIO AMBIENE'   : 'CHEFE DE SETOR',
    'CHEFE SET ATENDIMENTO FINANCAS' : 'CHEFE DE SETOR',
    'CHEFE SET APOIO ADM MEIO AMBIE' : 'CHEFE DE SETOR',
    'CHEFE SET ARQUIVO PATRIMONIAL'  : 'CHEFE DE SETOR',
    'CHEFE SET ESTERIL E LAVANDERIA' : 'CHEFE DE SETOR',
    'CHEFE SET DOCUMENTACAO'         : 'CHEFE DE SETOR',
    'CHEFE SET VIAS PUBLICAS'        : 'CHEFE DE SETOR',
    'CHEFE SET ELETRICIDADE'         : 'CHEFE DE SETOR',
    'CHEFE SET OFICINA'              : 'CHEFE DE SETOR',
    'CHEFE SET COMERCIO'             : 'CHEFE DE SETOR',
    'CHEFE SET PRONTO ATEND EDUCAC'  : 'CHEFE DE SETOR',
    'CHEFE SET CAMPO'                : 'CHEFE DE SETOR',
    'CHEFE SET ALMOXARIF EDUCACAO'   : 'CHEFE DE SETOR',
    'CHEFE SET ACOMPANH DE PROJETOS' : 'CHEFE DE SETOR',
    'CHEFE SET TRANSITO'             : 'CHEFE DE SETOR',
    'CHEFE SET EXP DIVISAO TRANSITO' : 'CHEFE DE SETOR',
    'CHEFE SET PESSOAL'              : 'CHEFE DE SETOR',
    'CHEFE SET SINALIZACAO'          : 'CHEFE DE SETOR',
    'CHEFE SET HABITACAO'            : 'CHEFE DE SETOR',
    'CHEFE SET CAD ESTAB COMERCIAL'  : 'CHEFE DE SETOR',
    'CHEFE SET OBRAS'                : 'CHEFE DE SETOR',
    'CHEFE SET JARDINS'              : 'CHEFE DE SETOR',
    'CHEFE SET LANC CAD TRIB MOBILI' : 'CHEFE DE SETOR',
    'CHEFE SET LEVANTAMENTOS'        : 'CHEFE DE SETOR',
    'CHEFE SET APOIO ESTAT TRIBUTOS' : 'CHEFE DE SETOR',
    'CHEFE SET HORTA ESCOLAR'        : 'CHEFE DE SETOR',
    'CHEFE SET TRAFEGO - AREA II'    : 'CHEFE DE SETOR',
    'CHEFE SET LEVANT MEIO AMB'      : 'CHEFE DE SETOR',
    'CHEFE SET VIVEIROS E PLANTAS'   : 'CHEFE DE SETOR',
    'CHEFE SET APOIO TECNICO VIG SA' : 'CHEFE DE SETOR',
    'CHEFE SET LABORATORIO CLINICO'  : 'CHEFE DE SETOR',
    'CHEFE SET FISCALIZACAO TAXI'    : 'CHEFE DE SETOR',
    'CHEFE SET PROTOC ARQUIVO GERAL' : 'CHEFE DE SETOR',
    'CHEFE SET ARBORIZACAO'          : 'CHEFE DE SETOR',
    'CHEFE SET INFORMATICA'          : 'CHEFE DE SETOR',
    'CHEFE SET CEMITERIO'            : 'CHEFE DE SETOR',
    'CHEFE SET EXP JURIDICO'         : 'CHEFE DE SETOR',
    'CHEFE SET DISTRIB MERENDA ESC'  : 'CHEFE DE SETOR',
    'CHEFE SET EXP TRANSITO'         : 'CHEFE DE SETOR',
    'CHEFE SET EXECUCAO FISCAL'      : 'CHEFE DE SETOR',
    'CHEFE SET PANIFICACAO ESCOLAR'  : 'CHEFE DE SETOR',
    'CHEFE SET CONTABILIDADE'        : 'CHEFE DE SETOR',
    'CHEFE SET LANC TRIBUTOS MOB'    : 'CHEFE DE SETOR',
    'CHEFE SET LANC CAD TRIB IMOBIL' : 'CHEFE DE SETOR',
    'CHEFE SET ACOMPANHAM PROJETOS'  : 'CHEFE DE SETOR',
    'CHEFE SET PREPARAC MERENDA ESC' : 'CHEFE DE SETOR',
    'CHEFE SET PROJETOS'             : 'CHEFE DE SETOR',
    'CHEFE SET APOIO ESTAT TRIB IMO' : 'CHEFE DE SETOR',
    'CHEFE DE SETOR'                 : 'CHEFE DE SETOR',
    'CHEFE SET TRAFEGO - AREA I'     : 'CHEFE DE SETOR',
    'CHEFE SETOR SERV ELETRICOS'     : 'CHEFE DE SETOR',
    'CHEFE SET LIMPEZA PUBLICA I'    : 'CHEFE DE SETOR',
    'CHEFE SET EXP SEC LAN CAD TR I' : 'CHEFE DE SETOR',
    'CHEFE SET TURISMO'              : 'CHEFE DE SETOR',
    'CHEFE SETOR DE TURISMO'         : 'CHEFE DE SETOR'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'CHEFE SET|CHEFE DE SETOR', regex=True)]['cargo_normalizado'].unique()}

{'CHEFE DE SETOR': ''}

In [267]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'DENTISTA'                       : 'MEDICO',
    'MED DERMATOLOGISTA - 20H'       : 'MEDICO - 20H',
    'MED PEDIATRA - 20H'             : 'MEDICO - 20H',
    'MED GINECOLOGISTA - 20H'        : 'MEDICO - 20H',
    'MED CLINICO GERAL - 20H'        : 'MEDICO - 20H',
    'MEDICO'                         : 'MEDICO',
    'MED INFECTOLOGISTA - 20H'       : 'MEDICO - 20H',
    'MED CLINICO GERAL PLANT - 12H'  : 'MEDICO - 12H',
    'MED PEDIATRA PLANT - 12H'       : 'MEDICO - 12H',
    'MED ORTOPEDISTA PLANT - 12H'    : 'MEDICO - 12H',
    'MED CARDIOLOGISTA - 20H'        : 'MEDICO - 20H',
    'CIRURGIAO DENTISTA'             : 'MEDICO',
    'MED VETERINARIO'                : 'MEDICO',
    'MED ANESTESIOLOGISTA PLANT-24H' : 'MEDICO - 24H',
    'MED GINECOL OBSTETRA PLANT-24H' : 'MEDICO - 24H',
    'MED PSIQUIATRA - 20H'           : 'MEDICO - 20H',
    'MED CIRURGIAO GERAL PLANT-12H'  : 'MEDICO - 12H',
    'MED OFTALMOLOGISTA - 20H'       : 'MEDICO - 20H',
    'CIRURGIAO DENTISTA P S FAMILIA' : 'MEDICO',
    'MED NEUROLOGISTA - 20H'         : 'MEDICO - 20H',
    'MED OTORRINOLARINGOLOGISTA'     : 'MEDICO',
    'MED TRABALHO - 20H'             : 'MEDICO - 20H',
    'MED PROGRAMA SAUDE FAMILIA'     : 'MEDICO',
    'MED INTERVENCIONISTA 24H-SAMU'  : 'MEDICO - 24H',
    'MEDICO INTERVENCIONISTA-12H'    : 'MEDICO - 12H',
    'MEDICO REGULADOR-12H'           : 'MEDICO - 12H',
    'MED CLIN GER 20H'               : 'MEDICO - 20H',
    'MED CLIN GER PLANT 12H (E.T)'   : 'MEDICO - 12H'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'MED|MEDICO|CIRURG|DENT', regex=True)]['cargo_normalizado'].unique()}

{'DIR DIV CART MED PLANEJAMENTO': '',
 'MEDICO': '',
 'MEDICO - 20H': '',
 'MEDICO - 12H': '',
 'ATENDENTE ODONTOLOGIA': '',
 'TEC RADIOLOGIA MEDICA - 24H': '',
 'ATENDENTE CONSULTORIO': '',
 'MEDICO - 24H': '',
 'DIR DIV MEDICA REDE BAS SAUDE': '',
 'BIOMEDICO': '',
 'TEC AUX DE REGUL MEDICA': '',
 'MED CIR GER PLANT 12H (E.T)': '',
 'MED ORTOPEDISTA PLANT 12H (E.T': '',
 'MED PEDIATRA PLANT 12H (E.T)': '',
 'MED GINECOLOGISTA 20H (E.T)': '',
 'MED PSIQUIATRA 20H (E.T)': '',
 'TEC AUX REGUL MEDICA (E.T)': '',
 'MED PEDIATRA 20H (E.T)': '',
 'MED INTERVENCIONISTA (E.T)': '',
 'CIRURGIAO DENTISTA PSF (E.T)': '',
 'MED NEUROLOGISTA 20H (E.T)': '',
 'MEDICO REGULADOR (E.T)': '',
 'MED OFTALMOLOGISTA 20H (E.T)': '',
 'COORDENADOR MEDICO DO SAMU': ''}

In [268]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'DIR DEP JURID CONTR PROCES ADM' : 'DIRETOR DE DEPTO',
    'DIR DEP LAZER'                   : 'DIRETOR DE DEPTO',
    'DIR DEP ADMINIST PESSOAL'        : 'DIRETOR DE DEPTO',
    'DIR DEP DOCUMENT PESSOAL EDUC'   : 'DIRETOR DE DEPTO',
    'DIR DEP ADMINIST REGIONAIS'      : 'DIRETOR DE DEPTO',
    'DIR DEP VIGILANCIA SAUDE'        : 'DIRETOR DE DEPTO',
    'DIR DEP COMERCIO'                : 'DIRETOR DE DEPTO',
    'DIR DEP EDUCACAO ESPECIAL'       : 'DIRETOR DE DEPTO',
    'DIR DEP OBRAS'                   : 'DIRETOR DE DEPTO',
    'DIR DEP INDUSTRIA'               : 'DIRETOR DE DEPTO',
    'DIR DEP ESPORTES'                : 'DIRETOR DE DEPTO',
    'DIR DEP COORDENACAO CONVENIOS'   : 'DIRETOR DE DEPTO',
    'DIR DEP SANEAMENTO BASICO'       : 'DIRETOR DE DEPTO',
    'DIR DEP POLITICAS P/ MULHERES'   : 'DIRETOR DE DEPTO',
    'DIR DEP ORIENTACAO TEC EDUC'     : 'DIRETOR DE DEPTO',
    'DIR DEP HIGIENE E SAUDE'         : 'DIRETOR DE DEPTO',
    'DIR DEP ORC GESTAO PLANEJAMENT'  : 'DIRETOR DE DEPTO',
    'DIR DEP RECEITA'                 : 'DIRETOR DE DEPTO',
    'DIR DEP PLANEJ TERRITORIAL'      : 'DIRETOR DE DEPTO',
    'DIR DEP COORD POLITICA GOVERNO'  : 'DIRETOR DE DEPTO',
    'DIR DEP PROGR ASSISTENCIAIS'     : 'DIRETOR DE DEPTO',
    'DIR DEP ADM SERVICO SOCIAL'      : 'DIRETOR DE DEPTO',
    'DIR DEP NUTRICAO EDUC'           : 'DIRETOR DE DEPTO',
    'DIR DEP COORD ADMINIST GOVERNO'  : 'DIRETOR DE DEPTO',
    'DIR DEP COORD ADM EDUCACAO'      : 'DIRETOR DE DEPTO',
    'DIR DEP ADMINIST SAUDE'          : 'DIRETOR DE DEPTO',
    'DIR DEP ENGEN PROJ EDIFIC EDUC'  : 'DIRETOR DE DEPTO',
    'DIR DEP ADMINIST FINANCEIRA'     : 'DIRETOR DE DEPTO',
    'DIR DEP ADMINIST PLANEJAMENTO'   : 'DIRETOR DE DEPTO',
    'DIR DEP LIMPEZA PUBLICA'         : 'DIRETOR DE DEPTO',
    'DIR DEP GERAL ASSUNT HABITAC'    : 'DIRETOR DE DEPTO',
    'DIR DEP DES HABITACIONAL'        : 'DIRETOR DE DEPTO',
    'DIR DEP REGUL FUNDIARIA URBANI'  : 'DIRETOR DE DEPTO',
    'DIR DEP SERVICOS PUBLICOS'       : 'DIRETOR DE DEPTO',
    'DIR DEP ASSISTENCIA HOSPITALAR'  : 'DIRETOR DE DEPTO',
    'DIR DEP TRANSITO'                : 'DIRETOR DE DEPTO',
    'DIR DEP C A I E'                 : 'DIRETOR DE DEPTO',
    'DIR DEP CAD TEC INF PLANEJAMEN'  : 'DIRETOR DE DEPTO',
    'DIR DEP ADMINISTRACAO GERAL'     : 'DIRETOR DE DEPTO',
    'DIR DEP COMPRAS CONT PAT E LIC'  : 'DIRETOR DE DEPTO',
    'DIR DEP CULTURA'                 : 'DIRETOR DE DEPTO',
    'DIR DEP FINANCAS'                : 'DIRETOR DE DEPTO',
    'DIR DEP COORD PEDAGOGICA'        : 'DIRETOR DE DEPTO',
    'DIR DEP ASSISTENCIA REDE BASIC'  : 'DIRETOR DE DEPTO',
    'DIR DEP TEC SERVICO SOCIAL'      : 'DIRETOR DE DEPTO',
    'DIR DEP DEFESA MEIO AMBIENTE'    : 'DIRETOR DE DEPTO',
    'DIR DEP GERAL ASSUNTOS HABITAC'  : 'DIRETOR DE DEPTO',
    'DIR DEP DESENVOLVIMENTO SOCIAL'  : 'DIRETOR DE DEPTO',
    'DIR DEP SEGURANCA URBANA'        : 'DIRETOR DE DEPTO',
    'DIRETOR DE DEPARTAMENTO'         : 'DIRETOR DE DEPTO',
    'DIR DEP C A I E A'               : 'DIRETOR DE DEPTO',
    'DIR DEP SERV ELETRICOS'          : 'DIRETOR DE DEPTO',
    'DIR DEP DE TURISMO'              : 'DIRETOR DE DEPTO',
    'DIR DEP POLITICAS P- MULHERES'   : 'DIRETOR DE DEPTO',
    'DIRETOR DEP TURISMO'             : 'DIRETOR DE DEPTO',
    'DIR DA BANDA MUNICIPAL'          : 'DIRETOR DE DEPTO',
    'DIR CENTRO PROCESSAM DADOS'      : 'DIRETOR DE DEPTO'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'DIR DEP|DIRETOR DE DEP|DIRETOR DEP|^DIR ', regex=True)]['cargo_normalizado'].unique()}

{'DIR DIV PATRIMONIO MOBILIARIO': '',
 'DIRETOR DE DEPTO': '',
 'DIR DIV CART MED PLANEJAMENTO': '',
 'DIR DIV': '',
 'DIR DIV CONTR ORCAMENTO EDUC': '',
 'DIR DIV CONTABILIDADE': '',
 'DIR DIV APOIO ADMINISTRATIVO': '',
 'DIR DIV USO OCUPACAO SOLO': '',
 'DIR DIV GEOPROCESSAMENTO': '',
 'DIR DIV FISC OBRAS CONTRATADAS': '',
 'DIR CRECHE - ESTAVEL': '',
 'DIR DIV BIBLIOTECAS PUBLICAS': '',
 'DIR ESCOLA ENSINO FUNDAMENTAL': '',
 'DIR DIV INDUSTRIA': '',
 'DIR CRECHE': '',
 'DIR ESCOLA EDUCACAO INFANTIL': '',
 'DIR DIV ADMINISTRACAO OBRAS': '',
 'DIR DIV TREINAMENTO E SELECAO': '',
 'DIR DIV N A J': '',
 'DIR DIV CONTR RECEITAS E DESPE': '',
 'DIR DIV ESTUDOS PLANEJAMENTO': '',
 'DIR POSTO DE SAUDE': '',
 'DIR DIV MANUT MAQ E VEICULOS': '',
 'DIR CENTRO DE ATEND ORIENT NUT': '',
 'DIR DIV EXP ADMINIST SAUDE': '',
 'DIR TEC UNIDADE BASICA SAUDE': '',
 'DIR DIV COORD DEMANDA ESCOLAR': '',
 'DIR DIV APOIO PEDAGOGICO': '',
 'DIR DIV BANDAS E FANFARRAS': '',
 'DIR DIV EST PROJ PLANEJAMENTO': 

In [269]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'DIR DIV PATRIMONIO MOBILIARIO' : 'DIRETOR DE DIVISAO',
    'DIR DIV CART MED PLANEJAMENTO'  : 'DIRETOR DE DIVISAO',
    'DIR DIV'                        : 'DIRETOR DE DIVISAO',
    'DIR DIV CONTR ORCAMENTO EDUC'   : 'DIRETOR DE DIVISAO',
    'DIR DIV CONTABILIDADE'          : 'DIRETOR DE DIVISAO',
    'DIR DIV APOIO ADMINISTRATIVO'   : 'DIRETOR DE DIVISAO',
    'DIR DIV USO OCUPACAO SOLO'      : 'DIRETOR DE DIVISAO',
    'DIR DIV GEOPROCESSAMENTO'       : 'DIRETOR DE DIVISAO',
    'DIR DIV FISC OBRAS CONTRATADAS' : 'DIRETOR DE DIVISAO',
    'DIR DIV BIBLIOTECAS PUBLICAS'   : 'DIRETOR DE DIVISAO',
    'DIR DIV INDUSTRIA'              : 'DIRETOR DE DIVISAO',
    'DIR DIV ADMINISTRACAO OBRAS'    : 'DIRETOR DE DIVISAO',
    'DIR DIV TREINAMENTO E SELECAO'  : 'DIRETOR DE DIVISAO',
    'DIR DIV N A J'                  : 'DIRETOR DE DIVISAO',
    'DIR DIV CONTR RECEITAS E DESPE' : 'DIRETOR DE DIVISAO',
    'DIR DIV ESTUDOS PLANEJAMENTO'   : 'DIRETOR DE DIVISAO',
    'DIR DIV MANUT MAQ E VEICULOS'   : 'DIRETOR DE DIVISAO',
    'DIR DIV EXP ADMINIST SAUDE'     : 'DIRETOR DE DIVISAO',
    'DIR DIV COORD DEMANDA ESCOLAR'  : 'DIRETOR DE DIVISAO',
    'DIR DIV APOIO PEDAGOGICO'       : 'DIRETOR DE DIVISAO',
    'DIR DIV BANDAS E FANFARRAS'     : 'DIRETOR DE DIVISAO',
    'DIR DIV EST PROJ PLANEJAMENTO'  : 'DIRETOR DE DIVISAO',
    'DIR DIV FISC TRIBUTOS'          : 'DIRETOR DE DIVISAO',
    'DIR DIV FISCALIZACAO TRANSITO'  : 'DIRETOR DE DIVISAO',
    'DIR DIV ATEND DOCUM PESS EDUC'  : 'DIRETOR DE DIVISAO',
    'DIR DIV ENFER REDE BASICA SAUD' : 'DIRETOR DE DIVISAO',
    'DIR DIV SERV COP LIMP VIG ADM'  : 'DIRETOR DE DIVISAO',
    'DIR DIV MEDICA REDE BAS SAUDE'  : 'DIRETOR DE DIVISAO',
    'DIR DIV ODONTOL REDE BAS SAUDE' : 'DIRETOR DE DIVISAO',
    'DIR DIV L CONT ZOONOZES'        : 'DIRETOR DE DIVISAO',
    'DIR DIV FISC CONTR DIPAM'       : 'DIRETOR DE DIVISAO',
    'DIR DIV PARQUES E JARDINS'      : 'DIRETOR DE DIVISAO',
    'DIR DIV ASSIST SOC CCA E ADOL'  : 'DIRETOR DE DIVISAO',
    'DIR DIV ADMINISTRACAO RZN'      : 'DIRETOR DE DIVISAO',
    'DIR DIV CONTR AUTOS INFRACAO'   : 'DIRETOR DE DIVISAO',
    'DIR DIV LIMPEZA PUBLICA'        : 'DIRETOR DE DIVISAO',
    'DIR DIV APOIO TECNICO HOSP MUN' : 'DIRETOR DE DIVISAO',
    'DIR DIV VIGILANCIA SANITARIA'   : 'DIRETOR DE DIVISAO',
    'DIR DIV REG E CONT DE PAGAM'    : 'DIRETOR DE DIVISAO',
    'DIR DIV PROJETOS EDUCACIONAIS'  : 'DIRETOR DE DIVISAO',
    'DIR DIV CEN AP DIAG TER SAUDE'  : 'DIRETOR DE DIVISAO',
    'DIR DIV FISC ESTAB SERV SAUDE'  : 'DIRETOR DE DIVISAO',
    'DIR DIV INFORMATICA ESCOLAR'    : 'DIRETOR DE DIVISAO',
    'DIR DIV ARQUITETURA'            : 'DIRETOR DE DIVISAO',
    'DIR DIV COORDENACAO CONVENIOS'  : 'DIRETOR DE DIVISAO',
    'DIR DIV ELAB CONTR REC E DESPE' : 'DIRETOR DE DIVISAO',
    'DIR DIV COMERCIO'               : 'DIRETOR DE DIVISAO',
    'DIR DIV BIBLIOT E DOCUMENT GAB' : 'DIRETOR DE DIVISAO',
    'DIR DIV EVENTO ESPORTIVO'       : 'DIRETOR DE DIVISAO',
    'DIR DIV FARMACOVIGILANCIA'      : 'DIRETOR DE DIVISAO',
    'DIR DIV ZOONOSE'                : 'DIRETOR DE DIVISAO',
    'DIR DIV PLANEJ SANEAM BASICO'   : 'DIRETOR DE DIVISAO',
    'DIR DIV ADMINISTRACAO RZS'      : 'DIRETOR DE DIVISAO',
    'DIR DIV MANUT DA FROTA ADM'     : 'DIRETOR DE DIVISAO',
    'DIR DIV ALMOXARIFADO CENTRA'    : 'DIRETOR DE DIVISAO',
    'DIR DIV EQUIPAMENTO ESCOLAR'    : 'DIRETOR DE DIVISAO',
    'DIR DIV PROJETOS PLANEJAMENTO'  : 'DIRETOR DE DIVISAO',
    'DIR DIV EXP ADMINISTR E SERVIC' : 'DIRETOR DE DIVISAO',
    'DIR DIV CONT CIRC FROTA ADM'    : 'DIRETOR DE DIVISAO',
    'DIR DIV CONTR DIVIDA ATIVA'     : 'DIRETOR DE DIVISAO',
    'DIR DIV COMPRAS'                : 'DIRETOR DE DIVISAO',
    'DIR DIV ESPORTE AMADOR'         : 'DIRETOR DE DIVISAO',
    'DIR DIV TEC ADM NUTRICAO ESCOL' : 'DIRETOR DE DIVISAO',
    'DIR DIV CAD HABITACIONAL'       : 'DIRETOR DE DIVISAO',
    'DIR DIV COLETA DE LIXO'         : 'DIRETOR DE DIVISAO',
    'DIR DIV VIGIL EPIDEMIOLOGICA'   : 'DIRETOR DE DIVISAO',
    'DIR DIV COORD ADM SERVICO SOC'  : 'DIRETOR DE DIVISAO',
    'DIR DIV ESCOLA ESPECIAL'        : 'DIRETOR DE DIVISAO',
    'DIR DIV COMUNIC SOCIAL GOVERNO' : 'DIRETOR DE DIVISAO',
    'DIR DIV REGUL FUNDIARIA URBANI' : 'DIRETOR DE DIVISAO',
    'DIR DIV EXP SERV PUBLICOS'      : 'DIRETOR DE DIVISAO',
    'DIR DIV ASSIST AO SERVIDOR'     : 'DIRETOR DE DIVISAO',
    'DIR DIV SEG NO TRABALHO'        : 'DIRETOR DE DIVISAO',
    'DIR DIV ADMINISTRACAO'          : 'DIRETOR DE DIVISAO',
    'DIR DIV LICITACAO'              : 'DIRETOR DE DIVISAO',
    'DIR DIV TEC SERVICO SOCIAL'     : 'DIRETOR DE DIVISAO',
    'DIR DIV ADMINISTRAT HOSP MUNIC' : 'DIRETOR DE DIVISAO',
    'DIR DIV COLOC PROF APOIO DOCUM' : 'DIRETOR DE DIVISAO',
    'DIR DIV DIPAM'                  : 'DIRETOR DE DIVISAO',
    'DIR DIV FISCALIZACAO POSTURAS'  : 'DIRETOR DE DIVISAO',
    'DIR DIV SUPERVISAO ENSINO'      : 'DIRETOR DE DIVISAO',
    'DIR DIV PROT BENS MUN GUARDA'   : 'DIRETOR DE DIVISAO',
    'DIR DIV TOPOGRAFIA HABITACAO'   : 'DIRETOR DE DIVISAO',
    'DIR DIV PROT SERV MUN GUARDA'   : 'DIRETOR DE DIVISAO',
    'DIR DIV TRANSPORTE SAUDE'       : 'DIRETOR DE DIVISAO',
    'DIR DIV OBRAS'                  : 'DIRETOR DE DIVISAO',
    'DIR DIV PLANEJ PROJ ORCAMENT'   : 'DIRETOR DE DIVISAO',
    'DIR DIV ENGENHARIA'             : 'DIRETOR DE DIVISAO',
    'DIR DIV FINANCAS SUPRIM SAUDE'  : 'DIRETOR DE DIVISAO',
    'DIR DIV PORT REC E PROT ADM'    : 'DIRETOR DE DIVISAO',
    'DIR DIV OPERACOES DO TRANSITO'  : 'DIRETOR DE DIVISAO',
    'DIR DIV DEFESA MEIO AMBIENTE'   : 'DIRETOR DE DIVISAO',
    'DIR DIV EXP EDUCACAO'           : 'DIRETOR DE DIVISAO',
    'DIR DIV ACAO COMUNIT GOVERNO'   : 'DIRETOR DE DIVISAO',
    'DIR DIV CERIM CONTR E PROG EVE' : 'DIRETOR DE DIVISAO',
    'DIR DIV ENGENHARIA DE TRANSITO' : 'DIRETOR DE DIVISAO',
    'DIR DIV ENGENHARIA HABITACIONA' : 'DIRETOR DE DIVISAO',
    'DIR DIV SOCIAL ATEND TRIAGEM'   : 'DIRETOR DE DIVISAO',
    'DIR DIV ENGENHARIA PLANEJAMENT' : 'DIRETOR DE DIVISAO',
    'DIR DIV ELABORACAO A ORCAMENTO' : 'DIRETOR DE DIVISAO',
    'DIR DIV ASSIST SOCIAL COMUNIT'  : 'DIRETOR DE DIVISAO',
    'DIR DIV SECRET GOVERNO'         : 'DIRETOR DE DIVISAO',
    'DIR DIV PATRIM HISTOR CULTURAL' : 'DIRETOR DE DIVISAO',
    'DIR DIV DES HABITACIONAL'       : 'DIRETOR DE DIVISAO',
    'DIR DIV SECRET ADMINISTRATIVA'  : 'DIRETOR DE DIVISAO',
    'DIR DIV ARTES CENICAS MUSICAIS' : 'DIRETOR DE DIVISAO',
    'DIR DIV SERVICOS FUNERARIOS'    : 'DIRETOR DE DIVISAO',
    'DIR DIV ASSIST SOC PORT DEFIC'  : 'DIRETOR DE DIVISAO',
    'DIR DIV ASSIST SOCIAL IDOSO'    : 'DIRETOR DE DIVISAO',
    'DIR DIV ENGENHARIA EDUCACAO'    : 'DIRETOR DE DIVISAO',
    'DIR DIV ELAB CONTR REG ATOS AD' : 'DIRETOR DE DIVISAO',
    'DIR DIV ACOES ESTRATEG SAUDE'   : 'DIRETOR DE DIVISAO',
    'DIR DIV EDIFIC MANUT ESCOLAR'   : 'DIRETOR DE DIVISAO',
    'DIR DIV COORD PSICOPEDAGOGICA'  : 'DIRETOR DE DIVISAO',
    'DIR DIV POLITICAS P/ MULHERES'  : 'DIRETOR DE DIVISAO',
    'DIR DIV PLANEJ HABITACIONAL'    : 'DIRETOR DE DIVISAO',
    'DIR DIV ARQUIVO GERAL'          : 'DIRETOR DE DIVISAO',
    'DIR DIV ENFER HOSPITAL MUNICIP' : 'DIRETOR DE DIVISAO',
    'DIR DIV NIP NUCLEO INF E PESQ'  : 'DIRETOR DE DIVISAO',
    'DIR DIV CONTR USO E OCUP SOLO'  : 'DIRETOR DE DIVISAO',
    'DIR DIV ENGENHARIA HABITACAO'   : 'DIRETOR DE DIVISAO',
    'DIR DIV CONTR MEIO AMBIENTE'    : 'DIRETOR DE DIVISAO',
    'DIR DIV C A I E'                : 'DIRETOR DE DIVISAO',
    'DIR DIV APOIO ADM SERV JURIDIC' : 'DIRETOR DE DIVISAO',
    'DIR DIV PROT BENS MUN GUARDA M' : 'DIRETOR DE DIVISAO',
    'DIR DIV SERV ELETRICOS'         : 'DIRETOR DE DIVISAO',
    'DIR DIV N A J I'                : 'DIRETOR DE DIVISAO',
    'DIRETOR DE DIVISAO'             : 'DIRETOR DE DIVISAO',
    'DIR DIV C A I E A'              : 'DIRETOR DE DIVISAO',
    'DIR DIV TURISMO'                : 'DIRETOR DE DIVISAO',
    'DIR DIV PROT SERV MUN GUARDA M' : 'DIRETOR DE DIVISAO',
    'DIR DIV POLITICAS P- MULHERES'  : 'DIRETOR DE DIVISAO',
    'DIRETOR DIVISAO TURISMO'        : 'DIRETOR DE DIVISAO'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'DIR DIV|DIRETOR DE DIVISAO|DIRETOR DIV', regex=True)]['cargo_normalizado'].unique()}

{'DIRETOR DE DIVISAO': ''}

In [270]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'MOTORISTA'           : 'MOTORISTA',
    'MOTORISTA AMBULANCIA' : 'MOTORISTA',
    'MOTORISTA CAMINHAO'   : 'MOTORISTA',
    'MOTORISTA - SAMU'     : 'MOTORISTA'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'MOTORISTA', regex=True)]['cargo_normalizado'].unique()}

{'MOTORISTA': '',
 'MOTORISTA AMBULANCIA (E.T)': '',
 'MOTORISTA SAMU (E.T)': '',
 'MOTORISTA (E.T)': ''}

In [271]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'MUSICISTA TROMPISTA'    : 'MUSICISTA',
    'MUSICISTA TUBISTA'       : 'MUSICISTA',
    'MUSICISTA BOMBARDINISTA' : 'MUSICISTA',
    'MUSICISTA TECLADISTA'    : 'MUSICISTA'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'MUSICISTA', regex=True)]['cargo_normalizado'].unique()}

{'MUSICISTA': ''}

In [272]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'OPERADOR MAQUINA'              : 'OPERADOR DE MAQUINA',
    'OPERADOR GUINCHO'               : 'OPERADOR DE MAQUINA',
    'OPERADOR PA CARREGADEIRA'       : 'OPERADOR DE MAQUINA',
    'OPERADOR ESCAVADEIRA ARTICULAD' : 'OPERADOR DE MAQUINA',}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'OPERADOR', regex=True)]['cargo_normalizado'].unique()}

{'OPERADOR DE MAQUINA': '',
 'OPERADOR RADIO - SAMU': '',
 'OPERADOR RADIO SAMU': ''}

In [273]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'COORD VIGILANCIA EPIDEMIOLOGIC'                             : 'COORDENADOR',
    'COORDENADOR GERAL DE SAUDE'                                 : 'COORDENADOR',
    'COORDENADOR ADMINIST GABINETE'                              : 'COORDENADOR',
    'COORDENADOR ASSIST SOCIAL'                                  : 'COORDENADOR',
    'COORDENADOR PROJETO SOCIAL'                                 : 'COORDENADOR',
    'SUB COORDENADOR ADMINISTRATIVO'                             : 'COORDENADOR',
    'COORDENADOR DE PROJETOS'                                    : 'COORDENADOR',
    'COORD DE URGENCIA E EMERGENCIA'                             : 'COORDENADOR',
    'COORDENADOR DE OBRAS'                                       : 'COORDENADOR',
    'COORDENADOR DE CONSERVACAO'                                 : 'COORDENADOR',
    'SUB COORDENADOR DE ODONTOLOGIA'                             : 'COORDENADOR',
    'COORDENADOR PEDAGOGICO'                                     : 'COORDENADOR',
    'COORD ADM DE URGENCIA E EMERGENCIA'                         : 'COORDENADOR',
    'COORD DAS VIGILANCIAS EM SAUDE'                             : 'COORDENADOR',
    'COORDENADOR DA DEFESA CIVIL'                                : 'COORDENADOR',
    'COORD DA ATENCAO BASICA E ESPECIALIZADA'                    : 'COORDENADOR',
    'COORD ADMINISTRATIVO E FINANCEIRO'                          : 'COORDENADOR',
    'COORD DE REGULACAO E PLANEJAMENTO'                          : 'COORDENADOR',
    'COORD DAS URGENCIAS E EMERGENCIAS'                          : 'COORDENADOR',
    'SUBCOORDENADORDA SECRET MUN DA MULHER, DIR HUM E CIDADANIA' : 'COORDENADOR'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'COORD', regex=True)]['cargo_normalizado'].unique()}

{'COORDENADOR': '', 'COORDENADOR MEDICO DO SAMU': ''}

In [274]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'DIR TEC UNIDADE BASICA SAUDE' : 'DIRETOR TECNICO',
    'DIR TEC ADMINISTR DO GABINETE' : 'DIRETOR TECNICO',}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'DIR TEC', regex=True)]['cargo_normalizado'].unique()}

{}

In [275]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'DIR CRECHE - ESTAVEL'           : 'DIRETOR ESCOLA',
    'DIR ESCOLA ENSINO FUNDAMENTAL'  : 'DIRETOR ESCOLA',
    'DIR CRECHE'                     : 'DIRETOR ESCOLA',
    'DIR ESCOLA EDUCACAO INFANTIL'   : 'DIRETOR ESCOLA',
    'DIR C A I'                      : 'DIRETOR ESCOLA',
    'VICE DIRETOR ESCOLA (INFANTIL)' : 'DIRETOR ESCOLA',
    'DIRETOR ESCOLA (INFANTIL)'      : 'DIRETOR ESCOLA',
    'DIRETOR ESCOLA(FUNDAMENTAL)'    : 'DIRETOR ESCOLA',
    'DIRETOR ESCOLA (CRECHE)'        : 'DIRETOR ESCOLA',
    'VICE DIRETOR ESCOLA (FUNDAMEN)' : 'DIRETOR ESCOLA',
    'DIR C A I C'                    : 'DIRETOR ESCOLA'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'DIR |DIRETOR', regex=True)]['cargo_normalizado'].unique()}

{'DIRETOR DE DIVISAO': '',
 'DIRETOR DE DEPTO': '',
 'DIRETOR ESCOLA': '',
 'DIR POSTO DE SAUDE': '',
 'DIR CENTRO DE ATEND ORIENT NUT': '',
 'DIRETOR TECNICO': '',
 'DIR CLINICO HOSPITAL MUNICIPAL': '',
 'DIRETOR ESCOLA(CRECHE ESTAVEL)': ''}

In [276]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'DIR POSTO DE SAUDE'            : 'DIRETOR (SAUDE)',
    'DIR CENTRO DE ATEND ORIENT NUT' : 'DIRETOR (SAUDE)',
    'DIR CLINICO HOSPITAL MUNICIPAL' : 'DIRETOR (SAUDE)'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'DIR |DIRETOR', regex=True)]['cargo_normalizado'].unique()}

{'DIRETOR DE DIVISAO': '',
 'DIRETOR DE DEPTO': '',
 'DIRETOR ESCOLA': '',
 'DIRETOR (SAUDE)': '',
 'DIRETOR TECNICO': '',
 'DIRETOR ESCOLA(CRECHE ESTAVEL)': ''}

In [277]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'CHEFE SERV TEC SAUDE'          : 'CHEFE DE SERVICO',
    'CHEFE SERV EXP FISC POSTURAS'   : 'CHEFE DE SERVICO',
    'CHEFE SERV ASSIST TEC SAUDE II' : 'CHEFE DE SERVICO',
    'CHEFE SERV ZELADORIA'           : 'CHEFE DE SERVICO',
    'CHEFE SERV FISC CONT MATERIAL'  : 'CHEFE DE SERVICO',
    'CHEFE SERV NUT DIET HOSP MUNIC' : 'CHEFE DE SERVICO',
    'CHEFE SERV ASSIST TEC SAUDE'    : 'CHEFE DE SERVICO',
    'CHEFE SERV ATEND ADMINISTRATIV' : 'CHEFE DE SERVICO',
    'CHEFE SERV DE PARTO'            : 'CHEFE DE SERVICO',
    'CHEFE SERV LABOR ANAL CLIN VET' : 'CHEFE DE SERVICO',
    'CHEFE SERV ASSIST TEC SAUDE I'  : 'CHEFE DE SERVICO'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'CHEFE SERV|CHEFE DE SERVICO', regex=True)]['cargo_normalizado'].unique()}

{'CHEFE DE SERVICO': ''}

In [278]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'CHEFE SECRET ESC ENSI FUNDAM'  : 'CHEFE (EDUCACAO)',
    'CHEFE AUXILIAR SECR EMEF'       : 'CHEFE (EDUCACAO)',
    'CHEFE CENTRO EDUC INFANTIL'     : 'CHEFE (EDUCACAO)',
    'CHEFE SECRET ESC EDUC INFANTIL' : 'CHEFE (EDUCACAO)',
    'CHEFE MONITORACAO CURSOS'       : 'CHEFE (EDUCACAO)',
    'CHEFE MONITORACAO EDUCACIONAL'  : 'CHEFE (EDUCACAO)'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'CHEFE [^GD]|CHEFE$|CHEFE\(', regex=True)]['cargo_normalizado'].unique()}

{'CHEFE (EDUCACAO)': '', 'CHEFE ASSIST TEC': ''}

In [279]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'TEC RADIOLOGIA MEDICA - 24H' : 'TECNICO (SAUDE)',
    'TEC SEGURANCA TRABALHO'       : 'TECNICO (SAUDE)',
    'TEC LABORATORIO'              : 'TECNICO (SAUDE)',
    'TEC DE SAUDE BUCAL'           : 'TECNICO (SAUDE)',
    'TEC AUX DE REGUL MEDICA'      : 'TECNICO (SAUDE)',
    'TEC DE SAUDE BUCAL PSF'       : 'TECNICO (SAUDE)'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'^TEC |^TECNICO', regex=True)]['cargo_normalizado'].unique()}

{'TECNICO DESPORTIVO': '',
 'TECNICO (SAUDE)': '',
 'TECNICO DE ENFERMAGEM': '',
 'TEC ENFERMAGEM SALA GESSO (E.T': '',
 'TEC AUX REGUL MEDICA (E.T)': '',
 'TEC SAUDE BUCAL PSF (E.T)': '',
 'TECNICO EM CONTABILIDADE': ''}

In [280]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'GUARDA CIVIL MUNICIPAL'        : 'GUARDA MUNICIPAL',
    'SUB COMANDANTE DA GUARDA MUNIC' : 'GUARDA MUNICIPAL',
    'COMANDANTE DA GUARDA MUNICIPAL' : 'GUARDA MUNICIPAL',
    'GCM CLASSE DISTINTA'            : 'GUARDA MUNICIPAL',
    'GCM 1 CLASSE'                   : 'GUARDA MUNICIPAL',
    'GCM CLASSE ESPECIAL'            : 'GUARDA MUNICIPAL',
    'GCM 2 CLASSE .'                 : 'GUARDA MUNICIPAL',
    'GCM SUBINSPETOR'                : 'GUARDA MUNICIPAL'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'^GCM|GUARDA', regex=True)]['cargo_normalizado'].unique()}

{'GUARDA MUNICIPAL': '', 'GCM 2 CLASSE': '', 'GCM 3 CLASSE': ''}

In [281]:
df['cargo_normalizado'] = df['cargo_normalizado'].replace(
    {'SECRET MUN TRANSPORTES'                                    : 'SECRETARIO MUNICIPAL',
    'SECRET JUNTA DO SERV MILITAR'                               : 'SECRETARIO MUNICIPAL',
    'SECRET ADJUNTO DE OBRAS'                                    : 'SECRETARIO MUNICIPAL',
    'SECRET MUN ADMINISTRACAO'                                   : 'SECRETARIO MUNICIPAL',
    'SECRET MUN RECEITA'                                         : 'SECRETARIO MUNICIPAL',
    'SECRET MUN EDUCACAO'                                        : 'SECRETARIO MUNICIPAL',
    'SECRET MUN GOVERNO'                                         : 'SECRETARIO MUNICIPAL',
    'SECRET MUN SEGURANCA URBANA'                                : 'SECRETARIO MUNICIPAL',
    'SECRET MUN SERVICOS URBANOS'                                : 'SECRETARIO MUNICIPAL',
    'SECRET MUN ESPORTE E LAZER'                                 : 'SECRETARIO MUNICIPAL',
    'SECRET ADJUNTO DE SAUDE'                                    : 'SECRETARIO MUNICIPAL',
    'SECRET MUN DESENVOL ECONOMICO'                              : 'SECRETARIO MUNICIPAL',
    'SECRET MUN PLANEJAMENTO'                                    : 'SECRETARIO MUNICIPAL',
    'SECRET MUN MEIO AMB SANEAMENTO'                             : 'SECRETARIO MUNICIPAL',
    'SECRET MUN OBRAS'                                           : 'SECRETARIO MUNICIPAL',
    'SECRET MUN CULTURA'                                         : 'SECRETARIO MUNICIPAL',
    'SECRET MUN DE DESENVOL SOCIAL'                              : 'SECRETARIO MUNICIPAL',
    'SECRET MUN SAUDE'                                           : 'SECRETARIO MUNICIPAL',
    'SECRET MUN ASSUNTOS JURIDICOS'                              : 'SECRETARIO MUNICIPAL',
    'SECRET MUN POLIT P/ MULHERES'                               : 'SECRETARIO MUNICIPAL',
    'SECRET ADJUNTO DE EDUCACAO'                                 : 'SECRETARIO MUNICIPAL',
    'SECRET MUN ABAST E SEG ALIMENT'                             : 'SECRETARIO MUNICIPAL',
    'SECRET MUN HABITACAO'                                       : 'SECRETARIO MUNICIPAL',
    'SECRET ADJUNTO ASSUNTOS JURIDI'                             : 'SECRETARIO MUNICIPAL',
    'SECRETARIO ADJUNTO HABITACAO'                               : 'SECRETARIO MUNICIPAL',
    'SEC ADJUNTO SERVICOS URBANOS'                               : 'SECRETARIO MUNICIPAL',
    'SECRET MUNIC ADJUNTO'                                       : 'SECRETARIO MUNICIPAL',
    'SECRET MUN FINANCAS E CONTABIL'                             : 'SECRETARIO MUNICIPAL',
    'SECRETARIA MUNICIP DA MULHER, DIREITOS HUMANOS E CIDADANIA' : 'SECRETARIO MUNICIPAL',
    'SECRET MUN DE TURISMO'                                      : 'SECRETARIO MUNICIPAL',
    'SECRET MUN ASSUNT INSTITUCIONA'                             : 'SECRETARIO MUNICIPAL',
    'SECRET MUNIC DE TURISMO'                                    : 'SECRETARIO MUNICIPAL',
    'SEC ADJUNTO DE GOVERNO'                                     : 'SECRETARIO MUNICIPAL',
    'SEC ADJ ABAST E SEG ALIMENTAR'                              : 'SECRETARIO MUNICIPAL',
    'SECRET MUN POLIT P- MULHERES'                               : 'SECRETARIO MUNICIPAL'}
)

{c: '' for c in df[['matricula', 'nome', 'cargo', 'cargo_normalizado']][df['cargo_normalizado'].str.upper().str.contains(r'SEC A|SECRET', regex=True)]['cargo_normalizado'].unique()}

{'SECRETARIO MUNICIPAL': ''}

In [282]:
df['cargo_normalizado'] = (df['cargo_normalizado']
                           .str.replace('"', ' ', regex=False)
                           .str.replace('/', '-', regex=False)                           
                           )

In [283]:
df['comp'] = df['competencia']
df['comp']

0       2014-01
1       2014-01
2       2014-01
3       2014-01
4       2014-01
         ...   
5172    2023-07
5173    2023-07
5174    2023-07
5175    2023-07
5176    2023-07
Name: comp, Length: 599536, dtype: object

In [284]:
df.dtypes

matricula             object
nome                  object
secretaria            object
local                 object
cargo                 object
escolaridade          object
tempo                 object
admissao              object
demissao              object
tipo_folha            object
condicao              object
id_matricula           int64
Tpf_Id                 int64
Cnd_Id                 int64
valor_bruto          float64
ano                   object
mes                   object
competencia           object
matric               float64
cargo_normalizado     object
comp                  object
dtype: object

### Save output file into processed directory

Save a file in the processed directory that is cleaned properly. It will be read in and used later for further analysis.

Other options besides pickle include:
- feather
- msgpack
- parquet

In [285]:
# df.to_pickle(summary_file)
import contextlib
ano = int(max(df['ano'].unique()))
mes = int(max(df[df['ano'] == str(ano)]['mes'].unique()))
ano = f'{ano:0>4}'
mes = f'{mes:0>2}'

matriculas_ultimo_mes = list(df[(df['ano'] == ano) & (df['mes'] == mes)]['matricula'].unique())
print(len(matriculas_ultimo_mes))

configuracoes = ['ano', 'mes', 'cargo_normalizado']
for config in configuracoes:
    unique_values = df[config].unique()
    for value in unique_values:
        if config == 'cargo_normalizado':
            value = value.replace('"', ' ')
            value = value.replace("/", ' ')

        with contextlib.suppress(FileExistsError):
            destino = (Path.cwd() / 'data')
            destino.mkdir()
        with contextlib.suppress(FileExistsError):
            destino = (destino / 'processed')
            destino.mkdir()
        with contextlib.suppress(FileExistsError):
            destino = (destino / config)
            destino.mkdir()
            
        if config == 'matricula':           
            value = f'{value:0<5}'
            
            if value in matriculas_ultimo_mes:
                destino = destino / f"{value}.parquet"
                df[(df[config] == value)].to_parquet(destino)
                
        else:
            destino = destino / f"{value:0>2}.parquet"
            df[df[config] == value].to_parquet(destino)
                

5177
