In [None]:
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
df_enfase = pd.read_csv('/content/drive/MyDrive/boxenfase.csv')

In [None]:
df = pd.read_csv('/content/drive/MyDrive/boxenfase.csv')
pd.set_option('display.max_rows', None)

In [None]:
df.shape

(1809, 10)

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1809 entries, 0 to 1808
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   ID        1808 non-null   float64
 1   SUBJECT   1729 non-null   object 
 2   CNPJ/CPF  1808 non-null   object 
 3   CONTENT   1729 non-null   object 
 4   DEPTO     1808 non-null   float64
 5   SECTOR    1808 non-null   float64
 6   NUMBER    1808 non-null   object 
 7   LACRE1    1808 non-null   object 
 8   LACRE2    1808 non-null   object 
 9   TYPEID    0 non-null      float64
dtypes: float64(4), object(6)
memory usage: 141.5+ KB


In [None]:
df.tail()

Unnamed: 0,ID,SUBJECT,CNPJ/CPF,CONTENT,DEPTO,SECTOR,NUMBER,LACRE1,LACRE2,TYPEID
1804,226850.0,FISCALIZACAO,10.979.565/0001-16,PROC. COFIS 01/2020. PROC. COFIS 01/2020. PROC...,6.0,13.0,226850.0,1341.0,1342.0,
1805,226851.0,FISCALIZACAO,10.979.565/0001-16,PROC. COFIS 02/2020. PROC. COFIS 03/2020. DILI...,0.0,13.0,226851.0,1347.0,1342.0,
1806,226852.0,FISCALIZACAO,10.979.565/0001-16,DENUNCIAS ARQUIVADAS 2019/2020. DENUNCIAS ARQU...,6.0,13.0,226852.0,1369.0,1303.0,
1807,226853.0,FISCALIZACAO,10.979.565/0001-16,DILIGENCIAS FLAVIO 04/2019. DILIGENCIAS FLAVIO...,6.0,13.0,226853.0,1343.0,1349.0,
1808,,,,,,,,,,


In [None]:
df.columns

Index(['ID', 'SUBJECT', 'CNPJ/CPF', 'CONTENT', 'DEPTO', 'SECTOR', 'NUMBER',
       'LACRE1', 'LACRE2', 'TYPEID'],
      dtype='object')

## **Removendo colunas que não iremos usar para controle.**

In [None]:
drop_columns = ['CNPJ/CPF', 'DEPTO', 'SECTOR', 'NUMBER', 'TYPEID']
df.drop(drop_columns, axis=1, inplace=True)
df.drop(1808, axis=0, inplace=True)

## **Transformando os números de ID em números inteiros para melhor pesquisa**

In [None]:
df['ID'] = df['ID'].astype(int)

## **Caixas com conteúdos em branco, preenchendo os valores nulos com 'SEM IDENTIFICAÇÃO'**

In [None]:
df['SUBJECT'].isnull().sum()

79

In [None]:
df[['SUBJECT', 'CONTENT']] = df[['SUBJECT', 'CONTENT']].fillna('SEM IDENTIFICAÇÃO')

In [None]:
caixas_sem_identificacao = df[(df['SUBJECT'] == 'SEM IDENTIFICAÇÃO') & (df['CONTENT'] == 'SEM IDENTIFICAÇÃO')]
ID_sem_identificacao = caixas_sem_identificacao['ID'].unique()
ID_sem_identificacao

array([226565, 226566, 226567, 226568, 226569, 226570, 226571, 226572,
       226573, 226574, 226625, 226626, 226627, 226628, 226629, 226630,
       226646, 226647, 226648, 226649, 226650, 226651, 226652, 226653,
       226654, 226655, 226656, 226657, 226658, 226659, 226660, 226661,
       226662, 226663, 226664, 226665, 226666, 226667, 226668, 226669,
       226670, 226671, 226672, 226673, 226674, 226675, 226676, 226677,
       226678, 226679, 226680, 226681, 226683, 226684, 226685, 226686,
       226687, 226688, 226689, 226690, 226691, 226692, 226694, 226695,
       226696, 226697, 226698, 226699, 226700, 226701, 226710, 226711,
       226712, 226713, 226714, 226715, 226716, 226717, 226718])

In [None]:
df[df['ID'] == 226565]

Unnamed: 0,ID,SUBJECT,CONTENT,LACRE1,LACRE2
1564,226565,SEM IDENTIFICAÇÃO,SEM IDENTIFICAÇÃO,2256,2255


## **Definindo a função para identificar caixas com títulos muito extensos.**

In [None]:
def starts_with_any(value, prefixes):
    return any(value.startswith(prefix) for prefix in prefixes)

## **Organização Caixas do Registro**

In [None]:
prefixos_registro = ['301130901015', '301052505003', '301130803010', '0301130803009', '0301130703003', '301202903020', '301203001009', '301203001006', '301130703013',
                     '301202903019', '301130703010', '0301203001007', '0301203001003', '0301130901004','0301121709001', '301192904003', '0301181803028', '301203003002',
                     '301120304006','0301181804009', 'SETOR: REGISTRO CX BOX 1', '0301130207010', '0301130204050','301203001010','0301130207024','CAIXA BOX 1 - 0301130207013 - REGISTRO',
                     '0301130207020','0301130207046', '0301203001005', '0301130901011', '0301130901006', '0301130901016', '0301130901009','301120304007', '301192904004',
                     '301192903020','0301181803008','301192903018', '301130901019','301192904005', '301130703004', '0301192903019', '0302031401033', '301130803020', '0301181802008',
                     '301130901020', '0301130901014', '301130803017', '301202903018', '0301130803012', '0301130803004','301130703018', '301130702006', '301130803014', '301130803016',
                     '301130701012','301130701020', '301192904002', '301130702010', '0301130802008', '0301280203007', '0301130802003', '0301112601033', '0301130610039',
                     '301130701010', '0301130803015', 'SETOR: REGISTRO','REQUERIMENTO DE CARTEIRA DE IDENTIDADE PROFISSIONAL - COM FOTO E DIGITAL - 2014','REGISTRO 2010', 'DEPARTAMENTO DE REGISTRO',
                     'REQUERIMENTO DE CARTEIRA DE INDENTIDADE PROFISSIONAL - COM FOTO DIGITAL - 2014','SETOR: REGISTRO REQUERIMENTO DE CARTEIRA DIGITAL PROCESSOS 2008 / 2009 / 2010 / 2011 / 2012 / 2013 / 2016',
                     'DEPARTAMENTO: REGISTRO', 'DEPARTAMENTO: REGISTRO', 'REGISTRO ALBERTO GOMES', 'CAIXA BOX 1 - 0301221208035','REGISTRO ELIEL ALMEIDA', '0301120502018', '0301130303015', '0301130902001',
                     '0301130902002', '0301130802007', '0301130802007', '0301130104008', '301130902004', '301130303020', '0301130104006', '0301112602001', 'REGISTRO ALBERTO GOMES ALVES', '0301130902003',
                     '0301130703014', '0301020507003', '0301113302006', '0301113302008', '301130901001', '0301051607012', '0301192406006', '0301130901005', '0301052504020', '0301130901007', '0301130802001',
                     '0301130801005', '0301030801003', 'SETOR: REGISTRO CX BOX 1', 'REGISTRO ELIEL ALMEIDA', '301130802004', '0301120502028', '0301192406012', 'REQUERIMENTO DE CARTEIRA DE IDENTIDADE PROFISSIONAL',
                     '301130303017', 'REGISTRO PROCESSOS 2009', 'DEPARTAMENTO DE REGISTRO', '301130901002',"0301120501024", "0301120502026", "0301120502007","0301120502040", "0301110306008", "0301120502021","0301130104007",
                     "0301160904009", "0301112601039", "0301021703030", "0301120502033", "301120502023", "0301113302002", "0301130802020", "0301130802006", "0302031401032", "0301130802012", "0301130802010", "0301130801011",
                     "0301130801019", "0301130801002", "0301120502020", "0301120502037", "0301120502034", "0301120502035", "0301130610040", "0301120502017", "0301181803037","0301120502027", "0301120502011","0301120502024",
                     "0301120502005", "0301010304018", 'PLANILHA4', '0301130702020', '301130303016', '301130802009', '301130303016', '301130802009', 'JUSTICATIVA ELEITORAL PELA INTERNET',
                     'RECADASTRAMENTO', 'ARQUIVO TCI']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_registro)), 'SUBJECT'] = 'REGISTRO'

In [None]:
assuntos_registro = len(prefixos_registro)
assuntos_registro

155

**Total de Caixas do Registro**

In [None]:
caixas_registro_total = df[df['SUBJECT'] == 'REGISTRO'].shape[0]
caixas_registro_total

322

## **Organização Caixas da Fiscalização**



In [None]:
prefixos_fiscalizacao = ['FISCALIZAÇAO', 'SETOR: FISCALIZACAO', 'DILIGENCIAS RODOLFO 03-2014', 'DILIGENCIAS GABRIELA 04-2013', 'DILIGENCIAS CLEBER 03-2014',
                         'DILIGENCIAS ANTONIO 01-2014', 'DECORE MAIO 04-2013', 'DILIGENCIAS GABRIELA 2014', 'DILIGENCIAS FRANCISCO 2014', 'DILIGENCIAS FLAVIO 2012/2013',
                         'DILIGENCIAS VALERIO 2011', '0301021704036', 'DECORE NOVEMBRO 2012', 'DILIGENCIAS FLAVIO 01-2014', 'DECORE MAIO 02/-2013', 'DFI PROCESSOS AQUIVADOS CX07/2013',
                         'DFI PROCESSOS AQUIVADOS CX15/2013', 'DILIGENCIAS CLEBER 2012 CX 03', 'DILIGENCIAS HEVERTON 2013', '0301120502025', 'DILIGENCIAS CLEBER 01-2014', '301310401016',
                         'DILIGENCIAS GABRIELA 2013', 'DECORE NOVEMBRO 2012 CX 02', 'DILIGENCIAS GABRIELA 2012 CX 06', 'DFI PROCESSOS AQUIVADOS CX08/2013', 'DFI PROCESSOS AQUIVADOS CX04/2013',
                         'DFI PROCESSOS AQUIVADOS CX02/2013', 'DFI PROCESSOS AQUIVADOS CX01/2013', 'DILIGENCIAS THIANNE 2014 CX 03', 'DECORE ABRIL 01/2013', '0301041506034', 'DECORE NOVEMBRO 2012 CX 01',
                         'DECORE DEZEMBRO 2012 CX 01', 'DILIGENCIAS CLEBER 01-2013']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_fiscalizacao)), 'SUBJECT'] = 'FISCALIZACAO'

**Total de Caixas da Fiscalização**

In [None]:
caixas_fiscalizacao_total = df[df['SUBJECT'] == 'FISCALIZACAO'].shape[0]
caixas_fiscalizacao_total

362

## **Organização Caixas do Controle Interno**

In [None]:
prefixos_controle_interno = ['CONTABILIDADE', 'DEPARTAMENTO CONTROLE INTERNO', 'SETOR: CONTROLE INTERNO', 'DEPARTAMENTO DE CONTROLE INTERNO', '0301083408007',
                             '0301163308022', '0301163308015', '301052503012', '0301030308003', '0301120304005', '0301052504017', '0301052504019', '0301052504016',
                             '0301030306013', '0301052504018', '0301052503013', '0301030306012', '301111207045', '0301083408006', '0301161001016', '0301113205009',
                             'CONTROLE INTERNO / CONTABILIDADE']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_controle_interno)), 'SUBJECT'] = 'CONTROLE INTERNO'

**Total de Caixas da Fiscalização**

In [None]:
caixas_controle_interno_total = df[df['SUBJECT'] == 'CONTROLE INTERNO'].shape[0]
caixas_controle_interno_total

235

## **Organização Caixas do Financeiro**



In [None]:
prefixos_financeiro = ['FINANCERO', '0301163308018', '0301163308013', '0301190501010', '0301190501008', '301193202020', '301190501005']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_financeiro)), 'SUBJECT'] = 'FINANCEIRO'

**Total de Caixas do Financeiro**

In [None]:
caixas_financeiro_total = df[df['SUBJECT'] == 'FINANCEIRO'].shape[0]
caixas_financeiro_total

51

## **Organização Caixas do DDP**

In [None]:
prefixos_ddp = ['SETOR: DDP', 'DPP']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_ddp)), 'SUBJECT'] = 'DDP'

**Total de Caixas do DDP**


In [None]:
caixas_ddp_total = df[df['SUBJECT'] == 'DDP'].shape[0]
caixas_ddp_total

33

## **Organização Caixas do Departamento Pessoal**

In [None]:
prefixos_departamento_pessoal = ['CX 6-DEPARTAMENTO PESSOAL', 'CX 5-DEPARTAMENTO PESSOAL', 'CX 4-DEPARTAMENTO PESSOAL', 'CX 3-DEPARTAMENTO PESSOAL', 'CX 1-DEPARTAMENTO PESSOAL']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_departamento_pessoal)), 'SUBJECT'] = 'DEPARTAMENTO PESSOAL'

**Total de Caixas do Departamento Pessoal**


In [None]:
caixas_departamento_pessoal = df[df['SUBJECT'] == 'DEPARTAMENTO PESSOAL'].shape[0]
caixas_departamento_pessoal

27

## **Organização Caixas da Cobrança**

In [None]:
prefixos_cobranca = ['0301163308028', '0301151704020', 'DEPARTAMENTO: COBRANCA']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_cobranca)), 'SUBJECT'] = 'COBRANCA'

**Total de caixas da Cobrança**

In [None]:
caixas_cobranca = df[df['SUBJECT'] == 'COBRANCA'].shape[0]
caixas_cobranca

10

## **Organização Caixas do Jurídico**

In [None]:
prefixos_juridico = ['0301113301015', '0301113302003', '0301113301017', '0301113301020', '0301280203008', '0301113302010']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_juridico)), 'SUBJECT'] = 'JURIDICO'

**Total de caixas da Jurídico**

In [None]:
caixas_juridico = df[df['SUBJECT'] == 'JURIDICO'].shape[0]
caixas_juridico

21

# **Tratamento de caixas com mais de um setor**

Caixas do Registro e Fiscalização

In [None]:
prefixos_reg_fisc = ['FISCALIZACAO / REGISTRO', 'REGISTRO / FISCALIZACAO', 'FISCALIZACAO REGISTRO', 'REGISTRO /FISCALIZACAO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_reg_fisc)), 'SUBJECT'] = 'REGISTRO E FISCALIZACAO'

Caixas do Registro e Controle Interno

In [None]:
prefixos_reg_cci = ['REGISTRO / CONTABILIDADE', 'CONTROLE INTERNO / REGISTRO', 'REGISTRO / CONTROLE INTERNO', 'REGISTRO E CONTROLE INTERNO / CONTABILIDADE',
                    'REGISTRO/CONTABILIDADE', 'REGISTRO CONTABILIDADE']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_reg_cci)), 'SUBJECT'] = 'REGISTRO E CONTROLE INTERNO'

Caixas do Registro e Financeiro

In [None]:
prefixos_reg_fin = ['REGISTRO / FINANCEIRO', 'FINANCEIRO / REGISTRO', 'FINANCEIRO REGISTRO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_reg_fin)), 'SUBJECT'] = 'REGISTRO E FINANCEIRO'

Caixas do Registro e DDP

In [None]:
prefixos_reg_ddp = ['REGISTRO / DDP', 'DDP / REGISTRO', 'DDP / REGISTRO', 'REGISTRO DDP', 'DDP / REGISTRO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_reg_ddp)), 'SUBJECT'] = 'REGISTRO E DDP'

Caixas do Registro e Cobrança

In [None]:
prefixos_reg_cob = ['REGISTRO/COBRANCA', 'COBRANCA REGISTRO', 'REGISTRO / COBRANCA', '301280202016', 'COBRANCA / REGISTRO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_reg_cob)), 'SUBJECT'] = 'REGISTRO E COBRANCA'

Caixas da Cobrança e Controle Interno

In [None]:
prefixos_cob_cci = ['CONTROLE INTERNO / COBRANCA', 'COBRANCA / CONTABILIDADE', 'COBRANCA / CONTROLE INTERNO',
                    'COBRANCA / CONTROLE INTERNO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_cob_cci)), 'SUBJECT'] = 'COBRANCA E CONTROLE INTERNO'

Caixas da Fiscalização e Presidência

In [None]:
prefixos_fisc_pres = ['PRESIDENCIA / FISCALIZACAO', 'FISCALIZACAO / PRESIDENCIA', 'FISCALIZACAO / PESIDENCIA']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_fisc_pres)), 'SUBJECT'] = 'FISCALIZACAO E PRESIDENCIA'

Caixas da Fiscalização e Financeiro

In [None]:
prefixos_fisc_fin = ['FISCALIZACAO / FINANCEIRO', 'FINANCEIRO / FISCALIZACAO', 'FISCALIZACAO FINANCEIRO', 'FINANCEIRO FISCALIZACAO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_fisc_fin)), 'SUBJECT'] = 'FISCALIZACAO E FINANCEIRO'

Caixas da Fiscalização e DDP

In [None]:
prefixos_fisc_ddp = ['DDP / FISCALIZACAO', 'FISCALIZACAO / DDP', 'FISCALIZACAO DDP', 'DDP/ FISCALIZACAO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_fisc_ddp)), 'SUBJECT'] = 'FISCALIZACAO E DDP'

Caixas da Fiscalização e Cobrança

In [None]:
prefixos_fisc_cobranca = ['FISCALIZACAO / COBRANCA', 'COBRANCA / FISCALIZACAO', 'COBRANCA FISCALIZACAO', 'FISCALIZACAO COBRANCA']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_fisc_cobranca)), 'SUBJECT'] = 'FISCALIZACAO E COBRANCA'

Caixas da Fiscalização e Controle Interno

In [None]:
prefixos_fisc_cci = ['FISCALIZACAO / CONTABILIDADE', 'FISCALIZACAO / CONTROLE INTERNO', 'CONTROLE INTERNO / FISCALIZACAO',
                     'FISCALIZACAO CONTABILIDADE', 'FISCALIZACAO/CONTABILIDADE / CONTROLE INTERNO', 'FISCALIZACAO CONTROLE INTERNO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_fisc_cci)), 'SUBJECT'] = 'FISCALIZACAO E CONTROLE INTERNO'

Caixas do Financeiro e Controle Interno

In [None]:
prefixos_fin_cci = ['FINANCEIRO / CONTABILIDADE', 'CONTROLE INTERNO / FINANCEIRO', 'FINANCEIRO / CONTROLE INTERNO',
                    'FINANCEIRO / CONTABILDADE', 'CONTROLE INTERNO FINANCEIRO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_fin_cci)), 'SUBJECT'] = 'FINANCEIRO E CONTROLE INTERNO'

Caixas do Financeiro e Cobrança

In [None]:
prefixos_fin_cob = ['COBRANCA / FINANCEIRO', 'FINANCEIRO / COBRANCA', 'COBRANCA FINANCEIRO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_fin_cob)), 'SUBJECT'] = 'FINANCEIRO E COBRANCA'

Caixas do Financeiro e DDP

In [None]:
prefixos_fin_ddp = ['DDP / FINANCEIRO', 'DDP/ FINANCEIRO', 'FINANCEIRO / DDP']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_fin_ddp)), 'SUBJECT'] = 'FINANCEIRO E DDP'

Caixas do DDP e Contabilidade

In [None]:
prefixos_ddp_cci = ['DDP / CONTABILIDADE', 'DDP / CONTROLE INTERNO', 'CONTROLE INTERNO / DDP']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_ddp_cci)), 'SUBJECT'] = 'DDP e CONTROLE INTERNO'

Caixas da Presidência e Financeiro

In [None]:
prefixos_pres_fin = ['PRESIDENCIA / FINANCEIRO', 'FINANCEIRO / PRESIDENCIA']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_pres_fin)), 'SUBJECT'] = 'PRESIDENCIA E FINANCEIRO'

Caixas da Presidência e Controle Interno

In [None]:
prefixos_pres_cci = ['PRESIDENCIA / CONTABILIDADE', 'PRESIDENCIA / CONTROLE INTERNO']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_pres_cci)), 'SUBJECT'] = 'PRESIDENCIA E CONTROLE INTERNO'

Caixas da Diretoria e Fiscalização

In [None]:
prefixos_dir_fisc = ['SUPERINTENDENCIA / FISCALIZACAO', 'FISCALIZACAO / SUPERINTENDENCIA']

df.loc[df['SUBJECT'].apply(lambda x: starts_with_any(x, prefixos_dir_fisc)), 'SUBJECT'] = 'DIRETORIA E FISCALIZACAO'

# **Separar datasets para tratamento**

In [None]:
# caixas para identificar o seu setor, através do conteúdo

setores_identificados = [
    "FISCALIZACAO",
    "REGISTRO",
    "CONTROLE INTERNO",
    "REGISTRO E FISCALIZACAO",
    "FISCALIZACAO E FINANCEIRO",
    "FISCALIZACAO E CONTROLE INTERNO",
    "FINANCEIRO",
    "REGISTRO E CONTROLE INTERNO",
    "FISCALIZACAO E DDP",
    "DDP",
    "DEPARTAMENTO PESSOAL",
    "FISCALIZACAO E COBRANCA",
    "REGISTRO E FINANCEIRO",
    "FINANCEIRO E CONTROLE INTERNO",
    "JURIDICO",
    "REGISTRO E COBRANCA",
    "FINANCEIRO E COBRANCA",
    "FISCALIZACAO E PRESIDENCIA",
    "REGISTRO E DDP",
    "COBRANCA E CONTROLE INTERNO",
    "DDP e CONTROLE INTERNO",
    "FINANCEIRO E DDP",
    "COBRANCA",
    "DIRETORIA E FISCALIZACAO",
    "PRESIDENCIA E CONTROLE INTERNO",
    "COBRANCA / DDP",
    "PRESIDENCIA E FINANCEIRO",
    "PRESIDENCIA / DDP",
    "REGISTRO / PRESIDENCIA",
    "FISCALIZACAO / RECEPCAO",
    "JURIDICO/COBRANCA",
    "PRESIDENCIA / REGISTRO",
    "FINANCEIRO / JURIDICO",
    "FISCALIZACAO / LICITACAO",
    "0301133006010 - REGISTRO / JURIDICO",
    "JURIDICO E COBRANCA / REGISTRO",
    "PRESIDENCIA / COBRANCA",
    "SUPERINTENDECIA",
    "REGISTRO / LICITACAO",
    "FISCALIZACAO, FINANCEIRO E REGISTRO",
    "CONTROLE INTERNO / JURIDICO",
    "COBRANCA / PRESIDENCIA",
    "DDP / COBRANCA",
    "PRESIDENCIA / JURIDICO",
    "PRESIDENCIA",
    "PRESIDENCIA / SUPERINTENDENCIA",
    "REGISTRO / SUPERINTENDENCIA",
    "DDP - REGISTRO/COBRANCA",
    "FISCALIZACAO DEPARTAMENTO PESSOAL",
    "DDP / SUPERINTENDENCIA",
    "JURIDICO / FINANCEIRO",
    "COBRANCA / SUPERINTENDENCIA",
    "SUPERINTENDENCIA / FINANCEIRO",
    "FISCALIZACAO / ADMINISTRATIVO",
    "SUPERINTENDENCIA / REGISTRO",
    "SUPERINTENDENCIA / CONTABILIDADE",
    "DEPARTAMENTO PESSOAL / REGISTRO"
]

df_nao_identificadas = df[~df['SUBJECT'].isin(setores_identificados)]
df_nao_identificadas.shape

(135, 5)

In [None]:
# caixas com assuntos identificados por setor

df_caixas_identificadas = df[df['SUBJECT'].isin(setores_identificados)]
df_caixas_identificadas.shape

(1673, 5)

In [None]:
## após tratar df_nao_identificadas é só juntar com df_caixas_identificadas
# e depois fazer um sort values

In [None]:
# caixas com setores únicos

setores_unicos= [
    "FISCALIZACAO",
    "REGISTRO",
    "CONTROLE INTERNO",
    "FINANCEIRO",
    "DDP",
    "DEPARTAMENTO PESSOAL",
    "JURIDICO",
    "COBRANCA",
    "SUPERINTENDECIA",
    "PRESIDENCIA"
]

df_caixas_unicas = df[df['SUBJECT'].isin(setores_unicos)]
df_caixas_unicas.shape

(1063, 5)

In [None]:
df_caixas_unicas['SUBJECT'].value_counts()

Unnamed: 0_level_0,count
SUBJECT,Unnamed: 1_level_1
FISCALIZACAO,362
REGISTRO,322
CONTROLE INTERNO,235
FINANCEIRO,51
DDP,33
DEPARTAMENTO PESSOAL,27
JURIDICO,21
COBRANCA,10
SUPERINTENDECIA,1
PRESIDENCIA,1


In [None]:
# caixas sem os setores unicos

df_caixas_diversas = df[~df['SUBJECT'].isin(setores_unicos)]
df_caixas_diversas.shape

(745, 5)

# **Exportar os dados para tratamento**

In [None]:
arquivo = 'dados_enfase.xlsx'

with pd.ExcelWriter(arquivo) as writer:
    df_enfase.to_excel(writer, sheet_name='Original', index=False)
    df_nao_identificadas.to_excel(writer, sheet_name='Identificar Assunto (Setor)', index=False)
    df_caixas_identificadas.to_excel(writer, sheet_name='Caixas por Setores', index=False)
    df_caixas_unicas.to_excel(writer, sheet_name='Setores Únicos Identificados', index=False)
    df_caixas_diversas.to_excel(writer, sheet_name='Caixas Não Únicas', index=False)

f'Dados exportados para {arquivo}'

'Dados exportados para dados_enfase.xlsx'

In [None]:
df[df['ID'] == 226326]

Unnamed: 0,ID,SUBJECT,CONTENT,LACRE1,LACRE2
1325,226326,0301181803040 - DIVERSOS CONSELHO REGIONAL DE ...,0301130207044 - REGISTRO LUIZ GUEDES ALCOFORAD...,S/L,S/L


In [None]:
import pandas as pd
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
df_nao_identificadas = pd.read_excel('/content/drive/MyDrive/dados_enfase.xlsx', sheet_name='Identificar Assunto (Setor)')
df_identificadas = pd.read_excel('/content/drive/MyDrive/dados_enfase.xlsx', sheet_name='Caixas por Setores')

In [None]:
df_nao_identificadas.shape, df_identificadas.shape

((96, 5), (1712, 5))

In [None]:
df_identificar = df_nao_identificadas.sort_values(by='ID', ascending=True, ignore_index=True)
df_identificadas = df_identificadas.sort_values(by='ID', ascending=True, ignore_index=True)

In [None]:
df_nao_identificadas.shape, df_identificadas.shape

((96, 5), (1712, 5))

In [None]:
arquivo = 'enfase_atualizado.xlsx'

with pd.ExcelWriter(arquivo) as writer:
    df_nao_identificadas.to_excel(writer, sheet_name='Não Identificadas', index=False)
    df_identificadas.to_excel(writer, sheet_name='Identificadas', index=False)

f'Dados exportados para {arquivo}'

'Dados exportados para enfase_atualizado.xlsx'

In [None]:
df_identificadas_unicas = df_identificadas[df_identificadas['SUBJECT'].isin(setores_unicos)]
df_identificadas_unicas.shape

(1093, 5)

In [None]:
df_identificadas_setores = df_identificadas[~df_identificadas['SUBJECT'].isin(setores_unicos)]
df_identificadas_setores.shape

(619, 5)

In [None]:
arquivo = 'enfase_setores.xlsx'

with pd.ExcelWriter(arquivo) as writer:
    df_identificadas_unicas.to_excel(writer, sheet_name='Setores Únicos', index=False)
    df_identificadas_setores.to_excel(writer, sheet_name='Setores Misturados', index=False)

f'Dados exportados para {arquivo}'

'Dados exportados para enfase_setores.xlsx'

In [None]:
df_completo = pd.concat([df_nao_identificadas, df_identificadas], ignore_index=True)
df_completo.shape

(1808, 5)

In [None]:
df_ajustado = df_completo.sort_values(by='ID', ascending=True, ignore_index=True)

In [None]:
df_ajustado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1808 entries, 0 to 1807
Data columns (total 5 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   ID       1808 non-null   int64 
 1   SUBJECT  1808 non-null   object
 2   CONTENT  1808 non-null   object
 3   LACRE1   1808 non-null   object
 4   LACRE2   1808 non-null   object
dtypes: int64(1), object(4)
memory usage: 70.8+ KB


In [None]:
df_ajustado_unicos = df[df_ajustado['SUBJECT'].isin(setores_unicos)]
df_ajustado_unicos.shape

(1093, 5)

In [None]:
df_ajustado_diversos = df[~df_ajustado['SUBJECT'].isin(setores_unicos)]
df_ajustado_diversos.shape

(715, 5)

In [None]:
df_ajustado.to_csv('enfase_tratado.csv', index=True)

### **Incluindo caixas novas na planilha já tratada** (df_atualizando) **Santo Amaro**

In [None]:
dados_dp0 = {
    'ID': [226868, 226867, 226866, 226865, 226864, 226863, 226862, 226861,
           226860, 226859, 226858, 226857, 226869, 226856],
    'SUBJECT': ['DEPARTAMENTO PESSOAL'] * 14,
    'CONTENT': ['INSS 13° 2009 + INSS/FGTS/IRRF/PIS: 01/2014 A 12/2016 E DE 07 A 12/2017','FOLHA DE PAGAMENTO: 11 E 12/2014 + 01/2015 A 07/2016',
                'FOLHA DE PAGAMENTO: 08 A 12/2016 + 01 A 12/2017 + 01 A 11/2018', 'FOLHA DE PAGAMENTO: 01 A 12/2019 + 01 A 12/2020',
                'VT 12/2024 + PLANO DE SAÚDE 07/2015 + DESPESAS DE 01 A 08/2019', 'DESPESAS DE 09 A 12/2019 + 01/2020 A 05/2020',
                'DESPESAS DE 06 A 12/2020 + FÉRIAS: 05 E 11/2015 + 2016 + 2019 + FOLHA DE PAGAMENTO 2008 + PGT HORA EXTRA 2010',
                'RESCISÕES: 2012 / 2014 / 2015 / 2016 / 2017 / 2018', 'RESCISÕES: 2008 /2009 /2010 / HEVERTON BARBOSA',
                'RESCISÕES: 2010 / 2011 + 2003 A 2007', 'ATESTADOS MÉDICOS','PONTO 2019 + DOCUMENTOS E-SOCIAL', 'RAIS / DIRF ATÉ 2008 + CAGED ATÉ 2009',
                'FOLHA DE PAGAMENTO + FÉRIAS + DESPESAS + INSS / FGTS / PIS / IRRF COMPETÊNCIA 12/2018'],
    'LACRE1': [7501609, 96977717, 9585784, 9750536, 9698434, 7500814, 6492073, 4589770, 4700587, 4065178, 4590038, 4758357, 5702713, 6571570],
    'LACRE2': [9698195, 9585389, 7559379, 9584599, 7501344, 9671894, 6945342, 5741517, 6945094, 5702179, 4699792, 5702535, 3994879, 4700322]
}

dp_box_novas0 = pd.DataFrame(dados_dp0)

In [None]:
dados_cci0 = {
    "ID": [
        226870, 226871, 226872, 226873, 226874, 226875, 226876, 226877, 226878, 226879, 226880, 226881, 226882
    ],
    "SUBJECT": ["CONTROLE INTERNO"] * 13,
    "CONTENT": [
        "COMPESA / CELPE - 2020 + LIVRO DIÁRIO/2018 Nº 45 VOL I e II",
        "ALUGUEL/2020 + ISS E INSS-PJ/2020 + FUNDO FIXO/2020 + DESPESAS JAN/2020",
        "DESPESAS JULHO A NOVEMBRO/2020",
        "PROCESSOS RELATADOS - 2020 + DESPESAS DEZEMBRO E ESTOQUE 2020",
        "TELEMAR/20 + DESP FEV/20 + PROC ADM/11 A 13 / REL SOCIOAMBIENTAL/15 A 17 / LIVROS PROT.",
        "PROCESSOS RELATADOS 2019 (ATA 175ª A 180ª)",
        "DIRPF CONSELHEIROS ANOS: 2008/2009/2010/2014/2016/2017/2018/2019",
        "DESPESAS DE MARÇO/2020 A JUNHO/2020",
        "DAM/GPS/19 + ORÇAM E PC/19 + CÓNTRATOS + CRÉD. ADIC/19 + LIVRO ATA/19 + V.REF DEP",
        "TELEMAR JAN A JUN/19 + DARF´S EXEC JUDIC/09/10 + CRÉD ADIC/15 E 18 + INSS-PJ/10 E 11",
        "PROC/19 (ATAS 169ª / 173ª / 174ª) + DARF EXEC/11 + 19º CBC + PROC LICITAÇÃO + DOAÇÃO",
        "LIVRO DIÁRIO 2015 A 2017 - VOL. I E II - Nº 42, 43 E 44",
        "DCTF/2020 + INVENTÁRIO 2001, 2002, 2005, 2008, 2015 E 2016"],
    "LACRE1": [
        "1493761", "4589904", "7501079", "9697956", "9584994", "6491710", "1493627", "3994237", "1493895",
        "3994558", "5702357", "6945218", "4700057"],
    "LACRE2": [
        "1493761", "4589904", "6945466", "9697956", "9584994", "6491710", "1493627", "3994237", "6491347",
        "3994558", "5702357", "6945218", "4700057"]
}

cci_box_novas0 = pd.DataFrame(dados_cci0)

In [None]:
df_atualizando = pd.concat([df_identificadas_unicas, dp_box_novas0, cci_box_novas0], ignore_index=True)
df_atualizando.sort_values(by='ID', inplace=True)

In [None]:
df_atualizando.shape

(1120, 5)

In [None]:
df_atualizando['SUBJECT'].value_counts()

Unnamed: 0_level_0,proportion
SUBJECT,Unnamed: 1_level_1
FISCALIZACAO,0.327679
REGISTRO,0.302679
CONTROLE INTERNO,0.221429
FINANCEIRO,0.051786
DEPARTAMENTO PESSOAL,0.036607
DDP,0.029464
JURIDICO,0.019643
COBRANCA,0.008929
SUPERINTENDECIA,0.000893
PRESIDENCIA,0.000893


## **Precisa tratar essa planilha** (df_ajustado_diversos) Não identificadas + Setores Misturados

In [None]:
df_ajustado_diversos['SUBJECT'].value_counts()

Unnamed: 0_level_0,count
SUBJECT,Unnamed: 1_level_1
REGISTRO E FISCALIZACAO,111
FISCALIZACAO E FINANCEIRO,107
SEM IDENTIFICAÇÃO,79
FISCALIZACAO E CONTROLE INTERNO,79
REGISTRO E CONTROLE INTERNO,40
FISCALIZACAO E DDP,38
FISCALIZACAO E COBRANCA,26
FINANCEIRO E CONTROLE INTERNO,25
REGISTRO E FINANCEIRO,25
REGISTRO E COBRANCA,20


In [None]:
df[df['SUBJECT'] == 'DEPARTAMENTO PESSOAL']

Unnamed: 0,ID,SUBJECT,CONTENT,LACRE1,LACRE2
1594,226602,DEPARTAMENTO PESSOAL,DESPESA COM VALE TRANSPORTE / VALE ALIMENTACAO...,S/L,S/L
1595,226603,DEPARTAMENTO PESSOAL,DESPESAS COM INSS / FGTS / IRRF / PIS (2008 A ...,S/L,S/L
1596,226604,DEPARTAMENTO PESSOAL,DESPESA COM FOLHA DE PAGAMENTO / FERIAS / RESC...,S/L,S/L
1597,226605,DEPARTAMENTO PESSOAL,DESPESA COM VALE TRANSPORTE / VALE ALIMENTACAO...,S/L,S/L
1598,226606,DEPARTAMENTO PESSOAL,DESPESAS COM INSS / FGTS / IRRF / PIS (2011); ...,S/L,S/L
1682,226693,DEPARTAMENTO PESSOAL,PONTO DOS ANOS 2008 / 2009 - 2009.,4360,4361
1691,226702,DEPARTAMENTO PESSOAL,DESPESAS - JANEIRO / FEVEREIRO / MARCO / ABRIL...,4348,4349
1692,226704,DEPARTAMENTO PESSOAL,DESPESAS - JULHO / AGOSTO / SETEMBRO / OUTUBRO...,4386,4387
1693,226706,DEPARTAMENTO PESSOAL,DESPESAS - JANEIRO / FEVEREIRO / MARCO / ABRIL...,4318,4319
1694,226708,DEPARTAMENTO PESSOAL,DESPESAS - MAIO / JUNHO / SETEMBRO / OUTUBRO -...,4368,4369


In [None]:
df['SUBJECT'].value_counts()

Unnamed: 0_level_0,count
SUBJECT,Unnamed: 1_level_1
FISCALIZACAO,362
REGISTRO,322
CONTROLE INTERNO,235
REGISTRO E FISCALIZACAO,111
FISCALIZACAO E FINANCEIRO,107
SEM IDENTIFICAÇÃO,79
FISCALIZACAO E CONTROLE INTERNO,79
FINANCEIRO,51
REGISTRO E CONTROLE INTERNO,40
FISCALIZACAO E DDP,38
