# Limpeza dos dados brutos

In [39]:
import pandas as pd
from glob import glob

from datetime import datetime as dt

from warnings import filterwarnings
filterwarnings('ignore')

## Limpeza do conjunto de dados sobre os Mapas Mensais do Municiamento de 2019 a 2025

In [40]:
mmm = pd.DataFrame()
mmm = pd.concat([mmm] + [pd.read_excel(arquivo, parse_dates=[['ano', 'mes']]) for arquivo in glob('mmm/*.xlsx')])

In [41]:
mmm.groupby('nome').ano_mes.count().sort_values(ascending=False)

nome
1° BATALHAO DE OPERAÇOES LITORANEAS DE FUZILEIROS NAVAIS    80
COMANDO DO 9º DISTRITO NAVAL                                80
ESTAÇÃO RADIOGONIOMÉTRICA DA MARINHA NO RIO GRANDE          80
ESTAÇÃO RÁDIO DA MARINHA EM BRASÍLIA                        80
ESTAÇÃO RÁDIO DA MARINHA NO RIO DE JANEIRO                  80
                                                            ..
TREINA13                                                     2
TREINA11                                                     2
Embarcação de Desembarque de Carga Geral Guarapari           1
NAVIO PATRULHA FLUVIAL "RONDÔNIA"                            1
Aviso de Apoio Costeiro Almirante Hess                       1
Name: ano_mes, Length: 247, dtype: int64

In [42]:
# Ao todo o conjunto de dados contempla 80 meses. Como será realizada uma análise de série temporal, vou considerar apenas as organizações que possuem dados para todo o período.
mmm = mmm[mmm.codigo.isin(mmm.codigo.value_counts()[mmm.codigo.value_counts() == 80].index)]

In [43]:
mmm.head()

Unnamed: 0,ano_mes,codigo,nome,balanco_paiol_mes_anterior,gen_depsubmrj_depnav_reg,gen_adq_form_extra_mb_licit1,gen_adq_form_extra_mb_licit2,gen_adq_form_extra_mb_slicit,remessa_recebida,remessa_expedida,vale_extra,termo_de_despesa,generos_consumidos,totais_balanco_paiol_receita,totais_balanco_paiol_despesa,saldo
0,2019-01-01,81200,1° BATALHAO DE OPERAÇOES LITORANEAS DE FUZILEI...,98180.1572,73516.14,42111.8,43376.544,1174.4,0.0,0.0,2871.75,0.0,162351.16,258359.0412,165222.91,93136.1312
1,2019-01-01,88200,1º Batalhão de Operações Ribeirinhas,698734.61658,0.0,0.0,0.0,158691.81,0.0,0.0,19335.01,0.0,168038.208,857426.42658,187373.218,670053.20858
2,2019-01-01,82200,2° BATALHÃO DE OPERAÇÕES LITORÂNEAS DE FUZILEI...,63728.7586,31178.35,54681.395,0.0,0.0,0.0,0.0,5469.15,0.0,65744.78,149588.5036,71213.93,78374.5736
4,2019-01-01,83200,3° BATALHÃO DE OPERAÇÕES LITORÂNEAS DE FUZILEI...,94752.65847,9647.28,3400.21,0.0,505.56,0.0,0.0,6570.2,0.0,12721.57279,108305.70847,19291.77279,89013.93568
9,2019-01-01,71100,BASE DE ABASTECIMENTO DA MARINHA NO RIO DE JAN...,170463.4061,101940.79,92793.32,19713.2,12132.2178,0.0,0.0,25542.86,0.0,191597.165033,397042.9339,217140.025033,179902.908867


In [44]:
mmm = mmm[mmm.ano_mes < dt(2025, 7, 1)]

## Limpeza do conjunto de dados sobre informações das OM

In [45]:
om_info = pd.read_csv('om_info.csv')

om_info.head()

Unnamed: 0,DN_ID,AREA_ID,ID,CODIGO,NOME,TIPO,INDICATIVO_NAVAL,SIGLA,COMIMSUP,ODS,...,COD_SQ_LOCAL,TIPO_CONEXAO,CNPJ,ENDERECO,BAIRRO,CIDADE,UF,CEP,TELEFONE,SUB_DN_ID
0,4.0,2.0,10037,84330,CAPITANIA DOS PORTOS DO PIAUI,T,CPPARN,CPPI,,84000.0,...,37.0,C,394502000000.0,"AVENIDA DAS NAÇÕES UNIDAS, Nº 530",NOSSA SENHORA DO CARMO,PARNAIBA,PI,64200040.0,(86) 3321.2770,4.0
1,1.0,2.0,10039,91622,FRAGATA DODSWORTH,N,FDODSW,FDODSWORTH,,,...,39.0,C,,,,,,,,1.0
2,7.0,2.0,10043,10000,COMANDANTE DA MARINHA,T,COMMAR,CM,,,...,43.0,C,,ESPLANADA DOS MINISTERIOS - BLOCO N - 2o e 3o ...,,BRASÍLIA,DF,70055900.0,,7.0
3,1.0,2.0,10044,91901,CENTRO DE ADESTRAMENTO ALMIRANTE MARQUES DE LEÃO,I,CALEAO,CAAML,,,...,44.0,C,394502000000.0,"ILHA DO MOCANGUÊ, S/Nº",NITERÓI,NITERÓI,RJ,24040300.0,(0 XX 21) 2716-1325 Retelma: 8116-1325,30.0
4,1.0,2.0,10045,91600,COMANDO DA FORÇA DE SUPERFÍCIE,T,FORPER,ComForSup,,,...,45.0,C,394502000000.0,ILHA DE MOCANGUÊ,CENTRO,NITERÓI,RJ,24040300.0,,1.0


In [46]:
# # As informações sobre organizações que não pertencem ao conjunto de dados analisados não é útil.
# om_info = om_info[om_info.CODIGO.isin(mmm.codigo.unique())]

In [47]:
# Dados faltosos
(om_info.isna().sum()/len(om_info)).sort_values(ascending=False)

COMIMSUP            1.000000
ODS                 0.500907
TELEFONE            0.377495
BAIRRO              0.183303
CEP                 0.147005
UF                  0.136116
ENDERECO            0.136116
CIDADE              0.125227
CNPJ                0.030853
AREA_ID             0.014519
SUB_DN_ID           0.010889
COD_SQ_LOCAL        0.007260
DN_ID               0.005445
TIPO                0.003630
INDICATIVO_NAVAL    0.001815
TIPO_CONEXAO        0.000000
CRIACAO             0.000000
SIGLA               0.000000
NOME                0.000000
CODIGO              0.000000
ID                  0.000000
MODIFICACAO         0.000000
dtype: float64

In [48]:
om_info.nunique()

DN_ID                 9
AREA_ID              10
ID                  551
CODIGO              550
NOME                550
TIPO                  7
INDICATIVO_NAVAL    499
SIGLA               550
COMIMSUP              0
ODS                  17
CRIACAO             150
MODIFICACAO         115
COD_SQ_LOCAL        497
TIPO_CONEXAO          1
CNPJ                528
ENDERECO            404
BAIRRO              152
CIDADE              119
UF                   26
CEP                 180
TELEFONE            340
SUB_DN_ID            30
dtype: int64

In [49]:
# Informações que não vao agregar conhecimento para o caso em tela, por serem nulos ou por conter informações irrelevantes
om_info.drop(columns=['COMIMSUP', 'CNPJ', 'TELEFONE', 'ODS', 'TIPO_CONEXAO', 'CRIACAO', 'MODIFICACAO'], inplace=True)

In [50]:
om_info[['DN_ID', 'SUB_DN_ID', 'AREA_ID', 'COD_SQ_LOCAL', 'NOME', 'CIDADE']].sort_values(by=['DN_ID', 'SUB_DN_ID', 'AREA_ID', 'COD_SQ_LOCAL'])

Unnamed: 0,DN_ID,SUB_DN_ID,AREA_ID,COD_SQ_LOCAL,NOME,CIDADE
71,1.0,1.0,2.0,0.0,CENTRO DE APOIO A SISTEMAS LOGÍSTICOS DE DEFESA,RIO DE JANEIRO
413,1.0,1.0,2.0,2.0,NAVIO-PATRULHA GUAÍBA,NATAL
163,1.0,1.0,2.0,3.0,SUBMARINO TAMOIO,RIO DE JANEIRO
311,1.0,1.0,2.0,9.0,NAVIO-PATRULHA GUARATUBA,Salvador
168,1.0,1.0,2.0,12.0,COMANDO DA DIVISÃO RIBEIRINHA,DUQUE DE CAXIAS
...,...,...,...,...,...,...
321,9.0,36.0,30.0,409.0,POLICLÍNICA NAVAL DE MANAUS,MANAUS
332,9.0,36.0,30.0,711.0,NAVIO DE ASSISTÊNCIA HOSPITALAR SOARES DE MEIR...,MANAUS
345,,,,1.0,ADIDO DE DEFESA E NAVAL EM PORTUGAL,LISBOA
134,,,,500.0,CENTRO DE INSTRUÇÃO ALMIRANTE GASTÃO MOTTA,


In [51]:
# As colunas SUB_DN_ID, AREA_ID e COD_SQ_LOCAL são pouco ou não descritivas
om_info.drop(columns=['SUB_DN_ID', 'AREA_ID', 'COD_SQ_LOCAL'], inplace=True)

In [52]:
om_info.sort_values(by='TIPO')

Unnamed: 0,DN_ID,ID,CODIGO,NOME,TIPO,INDICATIVO_NAVAL,SIGLA,ENDERECO,BAIRRO,CIDADE,UF,CEP
19,6.0,10092,86010,1º ESQUADRÃO DE HELICÓPTEROS DE EMPREGO GERAL ...,A,HELIEQ,EsqdHu-61,"RUA 14 DE MARÇO, S/No.",CENTRO,LADÁRIO,MS,79370000
144,9.0,10258,88010,1º ESQUADRÃO DE HELICÓPTEROS DE EMPREGO GERAL ...,A,HELIET,EsqdHU-91,"RUA RIO ITAQUAÍ, S/Nº",VILA BURITI,MANAUS,AM,69072080
11,1.0,10074,91140,1º ESQUADRÃO DE HELICÓPTEROS DE ESCLARECIMENTO...,A,HELITQ,EsqdHA-1,RUA COMANDANTE ITURIEL S/Nº,FLUMINENSE,SÃO PEDRO DA ALDEIA,RJ,28940000
178,1.0,10036,91120,1º ESQUADRÃO DE HELICÓPTEROS DE EMPREGO GERAL,A,HELIEU,EsqdHU-1,"RUA COMANDANTE ITURIEL, S/Nº",FLUMINENSE,SÃO PEDRO DA ALDEIA,RJ,28940000
512,1.0,13879,91170,Grupo Aéreo Naval de Manutenção,A,GANMNT,GAerNavMan,RUA COMANDANTE ITURIEL - S/Nº - - FLUMINENSE -...,Base Aero Naval,São Pedro da Aldeia,RJ,28944-05
...,...,...,...,...,...,...,...,...,...,...,...,...
216,1.0,10391,71260,DEPÓSITO DE FARDAMENTO DA MARINHA NO RIO DE JA...,T,DPFARD,DepFMRJ,"AV.BRASIL, 10500",OLARIA,RIO DE JANEIRO,RJ,21012350
353,1.0,10309,91181,CENTRO DE INTENDÊNCIA DA MARINHA EM SÃO PEDRO ...,T,CITSPA,CeIMSPA,RUA COMANDANTE ITURIEL S/N,FLUMINENSE,S.PEDRO ALDEIA,RJ,28940000
550,1.0,14819,18000,Secretaria Naval de Segurança Nuclear e Qualidade,T,SEGNUC,SecNSNQ,"Rua da Ponte, s/nº, Edifício 23",Centro,Rio de Janeiro,RJ,20091000
335,,99999,99999,Outros motivos autorizados pela DFM,,OUTROS,OUTROS,,,,,


In [53]:
# A variável TIPO começa descrevendo os tipo de organizações, como A para bases aeronavais, B para bases, F para fuzileiros navais, N para navios, S para saúde e I para instrução. Porém o T entra em uma categoria geral como se em algum momento essa vaiável deixou de ser utilizada.
# Então se tornou pouco descritiva para os nossos objetivos

om_info.drop(columns=['TIPO'], inplace=True)

In [54]:
om_info.loc[om_info.isna().sum(axis=1) != 0]

Unnamed: 0,DN_ID,ID,CODIGO,NOME,INDICATIVO_NAVAL,SIGLA,ENDERECO,BAIRRO,CIDADE,UF,CEP
1,1.0,10039,91622,FRAGATA DODSWORTH,FDODSW,FDODSWORTH,,,,,
2,7.0,10043,10000,COMANDANTE DA MARINHA,COMMAR,CM,ESPLANADA DOS MINISTERIOS - BLOCO N - 2o e 3o ...,,BRASÍLIA,DF,70055900
10,6.0,10066,86100,COMANDO DA FLOTILHA DE MATO GROSSO,FLTMGS,ComFlotMT,RUA 14 DE MARCO S/Nr.,,LADÁRIO,MS,79370000
34,4.0,10130,88318,AGÊNCIA FLUVIAL DE BOCA DO ACRE,AGACRE,AGBACRE,"AV. QUINZE DE NOVEMBRO, 2221",,BOCA DO ACRE,AC,69850000
37,7.0,10136,70100,COMISSÃO NAVAL BRASILEIRA NA EUROPA,NAVEUR,CNBE,"170, UPPER RICHMOND ROAD - PUTNEY -LONDON - SW...",,LONDRES,,
...,...,...,...,...,...,...,...,...,...,...,...
535,1.0,12701,11119,TREINA19,TREINA,TREINA19,,,,,
536,1.0,12702,11120,TREINA20,TREINA,TREINA20,,,,,
542,1.0,14419,91674,Embarcação de Desembarque de Carga Geral Camboriú,EDCGIU,EDCGCamboriu,"Ilha de Mocanguê, S/N",Ponta D'Areia,Niterói,RJ,
544,1.0,14499,20320,CENTRO DE PROJETOS DE SISTEMAS NAVAIS,CPSNAV,CPSN,Ilha da Madeira,,Itaguai,RJ,


In [55]:
# Preenchendo manualmente os dados faltosos com informações da internet

om_info.loc[om_info.CODIGO==87310, 'BAIRRO'] = 'Plano Diretor Sul'
om_info.loc[om_info.CODIGO==87700, 'BAIRRO'] = 'Asa Sul'

In [56]:
om_info

Unnamed: 0,DN_ID,ID,CODIGO,NOME,INDICATIVO_NAVAL,SIGLA,ENDERECO,BAIRRO,CIDADE,UF,CEP
0,4.0,10037,84330,CAPITANIA DOS PORTOS DO PIAUI,CPPARN,CPPI,"AVENIDA DAS NAÇÕES UNIDAS, Nº 530",NOSSA SENHORA DO CARMO,PARNAIBA,PI,64200040
1,1.0,10039,91622,FRAGATA DODSWORTH,FDODSW,FDODSWORTH,,,,,
2,7.0,10043,10000,COMANDANTE DA MARINHA,COMMAR,CM,ESPLANADA DOS MINISTERIOS - BLOCO N - 2o e 3o ...,,BRASÍLIA,DF,70055900
3,1.0,10044,91901,CENTRO DE ADESTRAMENTO ALMIRANTE MARQUES DE LEÃO,CALEAO,CAAML,"ILHA DO MOCANGUÊ, S/Nº",NITERÓI,NITERÓI,RJ,24040300
4,1.0,10045,91600,COMANDO DA FORÇA DE SUPERFÍCIE,FORPER,ComForSup,ILHA DE MOCANGUÊ,CENTRO,NITERÓI,RJ,24040300
...,...,...,...,...,...,...,...,...,...,...,...
546,1.0,14719,91513,Aviso de Apoio Costeiro Almirante Hess,AVHESS,AvApCoAlteHess,"Ilha de Mocanguê Grande, nº 0",Ponta da Areia,Niterói,RJ,24040300
547,1.0,14799,40034,Estaleiro de Manutenção da Ilha da Madeira,ESTMIM,EMIM,Estrada Prefeito Wilson Pedro Francisco S/Nº,Ilha da Madeira,Itaguaí,RJ,23826640
548,8.0,14459,89015,Navio-Patrulha Maracanã,NPAMRC,NPaMaracana,"Avenida Cidade de Santos, S/N°",Macuco,Santos,SP,11015-05
549,1.0,14599,80021,Centro de Guerra Acústica e Eletrônica da Marinha,CEGAEM,CGAEM,Ilha de Mocanguê Pequeno - S/N°,,Niterói,RJ,24040300


## Limpeza de dados do conjunto de dados sobre centralização do municiamento

In [57]:
centralizadas = pd.read_csv('om_centralizada.csv')

centralizadas.head()

Unnamed: 0,OM_CENTRALIZADA_ID,OM_CENTRALIZADORA_ID,GESTORIA_ID,CONTATO,TELEFONE,CRIACAO,MODIFICACAO,TIPO_CENTRALIZACAO_ID,DATA_INICIO,DATA_FIM
0,10389,10056,2,,,2002-01-01 00:00:00.000,2017-10-20 14:45:29.000,1.0,2004-01-01 00:00:00.000,2015-04-30 00:00:00.000
1,10396,10056,2,,,2002-01-01 00:00:00.000,2017-10-20 14:46:09.000,3.0,2004-01-01 00:00:00.000,2015-04-26 00:00:00.000
2,10124,10137,2,,,2002-01-01 00:00:00.000,2002-01-01 00:00:00.000,2.0,2004-01-01 00:00:00.000,
3,10148,10165,2,,,2002-01-01 00:00:00.000,2020-08-04 10:42:17.000,1.0,2004-01-01 00:00:00.000,2020-05-30 00:00:00.000
4,10293,10125,2,,,2002-01-01 00:00:00.000,2024-05-23 11:02:55.000,1.0,2004-01-01 00:00:00.000,2024-04-01 00:00:00.000


In [58]:
# Primeira transformação a ser feita será padronizar a codificação das organizações por UASG

centralizadas['OM_CENTRALIZADA_ID'] = centralizadas.OM_CENTRALIZADA_ID.map(om_info.set_index('ID').CODIGO)
centralizadas['OM_CENTRALIZADORA_ID'] = centralizadas.OM_CENTRALIZADORA_ID.map(om_info.set_index('ID').CODIGO)


In [59]:
# Mais uma vez, eu só preciso das informações das organizações que estão presentes no conjunto de dados do Mapa Mensal do Municiamento
centralizadas = centralizadas[centralizadas.OM_CENTRALIZADORA_ID.isin(mmm.codigo.unique())]

In [60]:
# Drop de colunas pouco informativas para o problema em tela

centralizadas.drop(columns=['CONTATO', 'TELEFONE', 'CRIACAO', 'MODIFICACAO', 'GESTORIA_ID'], inplace=True)

In [61]:
centralizadas[centralizadas.TIPO_CENTRALIZACAO_ID==4]

Unnamed: 0,OM_CENTRALIZADA_ID,OM_CENTRALIZADORA_ID,TIPO_CENTRALIZACAO_ID,DATA_INICIO,DATA_FIM
5,67000,62000,4.0,2004-01-01 00:00:00.000,
19,80000,81000,4.0,2004-01-01 00:00:00.000,
48,72000,71000,4.0,2012-04-11 00:00:00.000,
55,95370,95380,4.0,2004-01-01 00:00:00.000,2021-03-09 00:00:00.000
72,81402,81000,4.0,2004-01-01 00:00:00.000,2016-02-01 00:00:00.000
150,73200,71000,4.0,2014-02-01 00:00:00.000,
167,73000,71000,4.0,2011-10-01 00:00:00.000,
168,11500,71000,4.0,2011-10-01 00:00:00.000,
169,76000,71000,4.0,2011-10-01 00:00:00.000,
241,71000,71100,4.0,2013-01-02 00:00:00.000,


In [62]:
# Remover do conjunto de dados as movimentações que aconteceram antes do período observado
centralizadas = centralizadas[~(pd.to_datetime(centralizadas.DATA_FIM) < dt(2019, 1, 1))]

In [63]:
om_info[om_info.CODIGO==88701]

Unnamed: 0,DN_ID,ID,CODIGO,NOME,INDICATIVO_NAVAL,SIGLA,ENDERECO,BAIRRO,CIDADE,UF,CEP
321,9.0,10409,88701,POLICLÍNICA NAVAL DE MANAUS,PCLMAN,PNMa,"RODOVIA BR 319,S/N",DISTRITO INDUSTRIAL,MANAUS,AM,69075510


In [64]:
# Verificação manual da coerência dos períodos municiados

centralizadas.groupby('OM_CENTRALIZADA_ID').filter(lambda x: len(x)> 1).sort_values(by=['OM_CENTRALIZADA_ID', 'DATA_INICIO'])

Unnamed: 0,OM_CENTRALIZADA_ID,OM_CENTRALIZADORA_ID,TIPO_CENTRALIZACAO_ID,DATA_INICIO,DATA_FIM
168,11500,71000,4.0,2011-10-01 00:00:00.000,
565,11500,81000,4.0,2017-10-23 00:00:00.000,
499,41000,91613,1.0,2019-12-06 00:00:00.000,2019-12-31 00:00:00.000
779,41000,62600,1.0,2022-08-01 00:00:00.000,2023-09-30 00:00:00.000
464,49000,71000,4.0,2015-07-01 00:00:00.000,
590,49000,81000,4.0,2018-01-18 00:00:00.000,
144,62000,62000,1.0,2004-01-01 00:00:00.000,
618,62000,81000,4.0,2017-12-16 00:00:00.000,
259,62500,62500,4.0,2002-02-01 00:00:00.000,
623,62500,81000,4.0,2017-12-16 00:00:00.000,


In [65]:
# Definindo algumas datas que as organizações passaram a ser centralizadas por outra centralizadora
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==11500) & (centralizadas.OM_CENTRALIZADORA_ID==71000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==11500) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==49000) & (centralizadas.OM_CENTRALIZADORA_ID==71000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==49000) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==62000) & (centralizadas.OM_CENTRALIZADORA_ID==62000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==62000) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==62500) & (centralizadas.OM_CENTRALIZADORA_ID==62500), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==62500) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==64000) & (centralizadas.OM_CENTRALIZADORA_ID==64000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==64000) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==65701) & (centralizadas.OM_CENTRALIZADORA_ID==65701), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==65701) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==65730) & (centralizadas.OM_CENTRALIZADORA_ID==65701), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==65730) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==67000) & (centralizadas.OM_CENTRALIZADORA_ID==62000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==67000) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==71000) & (centralizadas.OM_CENTRALIZADORA_ID==71000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==71000) & (centralizadas.OM_CENTRALIZADORA_ID==71100), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==71000) & (centralizadas.OM_CENTRALIZADORA_ID==71100), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==71000) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==72000) & (centralizadas.OM_CENTRALIZADORA_ID==71000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==72000) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==73000) & (centralizadas.OM_CENTRALIZADORA_ID==71000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==73000) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==73200) & (centralizadas.OM_CENTRALIZADORA_ID==71000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==73200) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==76000) & (centralizadas.OM_CENTRALIZADORA_ID==71000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==76000) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==78000) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==78000) & (centralizadas.OM_CENTRALIZADORA_ID==71000), 'DATA_INICIO']
centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==80000) & (centralizadas.OM_CENTRALIZADORA_ID==80000), 'DATA_FIM'] = centralizadas.loc[(centralizadas.OM_CENTRALIZADA_ID==80000) & (centralizadas.OM_CENTRALIZADORA_ID==81000), 'DATA_INICIO']

# Removendo algumas informações que estavam duplicadas
centralizadas.drop(index=centralizadas[(centralizadas.OM_CENTRALIZADA_ID==62600) & (centralizadas.OM_CENTRALIZADORA_ID==62600) & (centralizadas.TIPO_CENTRALIZACAO_ID.isna())].index, inplace=True)
centralizadas.drop(index=centralizadas[(centralizadas.OM_CENTRALIZADA_ID==87400) & (centralizadas.OM_CENTRALIZADORA_ID==87400) & (centralizadas.TIPO_CENTRALIZACAO_ID.isna())].index, inplace=True)
centralizadas.drop(index=centralizadas[(centralizadas.OM_CENTRALIZADA_ID==88000) & (centralizadas.OM_CENTRALIZADORA_ID==88000) & (centralizadas.TIPO_CENTRALIZACAO_ID.isna())].index, inplace=True)
centralizadas.drop(index=centralizadas[(centralizadas.OM_CENTRALIZADA_ID==88133) & (centralizadas.OM_CENTRALIZADORA_ID==88133) & (centralizadas.TIPO_CENTRALIZACAO_ID.isna())].index, inplace=True)
centralizadas.drop(index=centralizadas[(centralizadas.OM_CENTRALIZADA_ID==88701) & (centralizadas.OM_CENTRALIZADORA_ID==88000) & (centralizadas.DATA_FIM.isna())].index, inplace=True)
centralizadas.drop(index=centralizadas[(centralizadas.OM_CENTRALIZADA_ID==95300) & (centralizadas.OM_CENTRALIZADORA_ID==95380) & (centralizadas.TIPO_CENTRALIZACAO_ID.isna())].index, inplace=True)
centralizadas.drop(index=centralizadas[(centralizadas.OM_CENTRALIZADA_ID==95340) & (centralizadas.OM_CENTRALIZADORA_ID==95380) & (centralizadas.TIPO_CENTRALIZACAO_ID.isna())].index, inplace=True)
centralizadas.drop(index=centralizadas[(centralizadas.OM_CENTRALIZADA_ID==95370) & (centralizadas.OM_CENTRALIZADORA_ID==95380) & (centralizadas.TIPO_CENTRALIZACAO_ID.isna())].index, inplace=True)
centralizadas.drop(index=centralizadas[(centralizadas.OM_CENTRALIZADA_ID==95380) & (centralizadas.OM_CENTRALIZADORA_ID==95380) & (centralizadas.DATA_INICIO==dt(2004, 1, 1))].index, inplace=True)

In [66]:
# Supondo que as relações que não possuem data fim estão em vigor até hoje
centralizadas.DATA_FIM.fillna(dt(2026,1,1), inplace=True)

In [67]:
centralizadas

Unnamed: 0,OM_CENTRALIZADA_ID,OM_CENTRALIZADORA_ID,TIPO_CENTRALIZACAO_ID,DATA_INICIO,DATA_FIM
2,99000,80000,2.0,2004-01-01 00:00:00.000,2026-01-01 00:00:00
5,67000,62000,4.0,2004-01-01 00:00:00.000,2026-01-01 00:00:00
9,65700,65704,1.0,2004-01-01 00:00:00.000,2026-01-01 00:00:00
13,95100,95180,1.0,2004-01-01 00:00:00.000,2026-01-01 00:00:00
19,80000,81000,4.0,2004-01-01 00:00:00.000,2026-01-01 00:00:00
...,...,...,...,...,...
741,40015,62600,1.0,2023-10-01 00:00:00.000,2024-07-27 00:00:00.000
758,91610,91613,1.0,2023-04-28 00:00:00.000,2023-04-30 00:00:00.000
779,41000,62600,1.0,2022-08-01 00:00:00.000,2023-09-30 00:00:00.000
780,85800,85000,1.0,2022-09-01 00:00:00.000,2026-01-01 00:00:00


## Limpeza do conjunto de dados de etapas do municiamento

In [68]:
etapas = pd.DataFrame()

etapas = pd.concat([etapas] + [pd.read_excel(arquivo, parse_dates=[['ano', 'mes']]) for arquivo in glob('etapas/*.xlsx')])

In [69]:
# Filtro para manter apenas etapas que sejam relevantes dado as organizações contantes do conjunto de dados dos Mapas Mensais do Municiamento
etapas = etapas[etapas.uasg.isin(mmm.codigo.unique())]

In [70]:
# Removendo as etapas de complementos, uma vez que o objetivo da contabilização das etapas é contar o número de pessoas de cada organização
etapas = etapas[~(etapas.codigo_etapa//100==6)]

In [71]:
(etapas.groupby(['ano_mes', etapas.codigo_etapa//100]).quantidade.sum()/30).reset_index()

Unnamed: 0,ano_mes,codigo_etapa,quantidade
0,2019-01-01,1,33523.966667
1,2019-01-01,2,32.733333
2,2019-01-01,4,1424.100000
3,2019-02-01,1,31805.000000
4,2019-02-01,2,29.700000
...,...,...,...
232,2025-06-01,2,39.266667
233,2025-06-01,4,982.133333
234,2025-07-01,1,28984.800000
235,2025-07-01,2,47.733333


## Salvando o trabalho

In [72]:
mmm.to_csv('mmm/mmm_limpo.csv', index=False)
om_info.to_csv('om_info_limpo.csv', index=False)
centralizadas.to_csv('om_centralizada_limpo.csv', index=False)
etapas.to_csv('etapas/etapas_limpo.csv', index=False)