## Script responsável pela remoção dos nome próprios

- Este código pressupõe que a existência do arquivo **.\saida\02_DouSecao0<No Seção>_portarias_mgi_tratado.parquet** 
- Caso não exista, ele pode ser gerado por meio do notebook **02_Tratamento_AnaliseDescritiva.ipynb**
- Processamento deste script:
  - Faz a leitura do arquivo **./saida/01_DOUSecao02_completo.parquet**
  - Filtra apenas portarias
  - Filtra apenas portarias do MGI
  - Cria a coluna Texto a partir da TextHTML, removento das tags html do corpo da portaria
  - Cria a coluna Total_palavras, que exibe o total de palavras da coluna Texto
  - Cria a coluna Ano com o ano da publicação (pubDate)
  - Cria a coluna Mês com o mês da publicação (pubDate)
  - Salva a saída parcial no arquivo **.\saida\02_DouSecao0<No Seção>_portarias_mgi_tratado.parquet** 
 
---


## Biblioteca

In [1]:
import pandas as pd
import string
import spacy
from bs4 import BeautifulSoup
import string
import time
import matplotlib.pyplot as plt

In [2]:
douItem = 2
secao = f'Secao0{douItem}'

# Lê o arquivo Parquet
df_portarias_mgi = pd.read_parquet(f'./saida/02_DOU{secao}_portarias_mgi_tratado.parquet', engine='pyarrow')  # ou engine='fastparquet'

# Exibe as primeiras linhas do DataFrame
df_portarias_mgi.shape


(19258, 31)

In [16]:
# Carregar o modelo de linguagem em português.
nlp = spacy.load('pt_core_news_sm')

def extrair_nomes(texto):
    """
    Extrai nomes (entidades do tipo PER) do texto.
    Exclui nomes que começam com determinados prefixos, desconsiderando o case.
    """
    # Processar o texto com o modelo spaCy
    doc = nlp(texto)

    # Extrair entidades rotuladas como "PER" (Pessoas)
    nomes = [ent.text for ent in doc.ents if ent.label_ == 'PER']

    # Filtrar nomes para excluir aqueles que começam com os prefixos indesejados
    prefixos_indesejados = ('administração', 'administrador', 'analista', 'anexo', 'cargo', 'apto', 'arquiteta', 'arquivista',
                            'arquivologia', 'arquivos', 'arts', 'artífice', 'ascensorista', 'assessor', 'assessora', 'assistente', 
                            'auditor', 'autoriza', 'auxiliar', 'bi', 'bancada', 'bancário', 'carteiro', 'carpinteiro', 
                            'cartório', 'celetista', 'chefe', 'coordenador', 'coordenadora', 'coordenador-geral', 
                            'comissionada', 'inciso')
    nomes_filtrados = [
        nome for nome in nomes 
        if not nome.lower().startswith(prefixos_indesejados)
    ]

    # Retornar os nomes filtrados como uma única string, separados por vírgulas
    return ', '.join(nomes_filtrados)



# Função para remover nomes de pessoas
def remover_nomes(texto):
    doc = nlp(texto)
    tokens_sem_nomes = [token.text for token in doc if token.ent_type_ != 'PER']
    return ' '.join(tokens_sem_nomes)

# Configurar o tamanho do bloco
tamanho_bloco = 200

# Inicializar colunas para os resultados
df_portarias_mgi['Texto_sem_nomes'] = None
df_portarias_mgi['Nomes'] = None

# Medir o tempo total de execução
inicio_tempo_total = time.time()

# Processar em blocos
for inicio in range(0, len(df_portarias_mgi), tamanho_bloco):
    fim = min(inicio + tamanho_bloco, len(df_portarias_mgi))  # Define o limite superior do bloco
    print(f"Tratando de {inicio + 1} a {fim}")
    
    # Selecionar o bloco atual
    bloco = df_portarias_mgi.iloc[inicio:fim]

    # Aplicar as funções ao bloco
    df_portarias_mgi.loc[inicio:fim - 1, 'Texto_sem_nomes'] = bloco['Texto'].apply(remover_nomes)
    df_portarias_mgi.loc[inicio:fim - 1, 'Nomes'] = bloco['Texto'].apply(extrair_nomes)

# Medir o tempo final
fim_tempo_total = time.time()

# Calcular o tempo total de execução
tempo_execucao_total = fim_tempo_total - inicio_tempo_total
print(f"Tempo total de execução: {tempo_execucao_total:.2f} segundos")


Tratando de 1 a 200
Tratando de 201 a 400
Tratando de 401 a 600
Tratando de 601 a 800
Tratando de 801 a 1000
Tratando de 1001 a 1200
Tratando de 1201 a 1400
Tratando de 1401 a 1600
Tratando de 1601 a 1800
Tratando de 1801 a 2000
Tratando de 2001 a 2200
Tratando de 2201 a 2400
Tratando de 2401 a 2600
Tratando de 2601 a 2800
Tratando de 2801 a 3000
Tratando de 3001 a 3200
Tratando de 3201 a 3400
Tratando de 3401 a 3600
Tratando de 3601 a 3800
Tratando de 3801 a 4000
Tratando de 4001 a 4200
Tratando de 4201 a 4400
Tratando de 4401 a 4600
Tratando de 4601 a 4800
Tratando de 4801 a 5000
Tratando de 5001 a 5200
Tratando de 5201 a 5400
Tratando de 5401 a 5600
Tratando de 5601 a 5800
Tratando de 5801 a 6000
Tratando de 6001 a 6200
Tratando de 6201 a 6400
Tratando de 6401 a 6600
Tratando de 6601 a 6800
Tratando de 6801 a 7000
Tratando de 7001 a 7200
Tratando de 7201 a 7400
Tratando de 7401 a 7600
Tratando de 7601 a 7800
Tratando de 7801 a 8000
Tratando de 8001 a 8200
Tratando de 8201 a 8400
Tra

In [8]:
df_portarias_mgi.shape

(19258, 33)

In [17]:
# Salva saída parcial o arquivo completo com novas colunas
df_portarias_mgi.to_parquet(f'./saida/03_DOU{secao}_portarias_mgi_tratado_NER.parquet', engine='pyarrow', index=False)

In [10]:
df_portarias_mgi.head()

Unnamed: 0,id,name,idOficio,pubName,artType,pubDate,artClass,artCategory,artSize,artNotes,...,SubTitulo,TextoHTML,file_name,zip_name,Ano,Mes,Texto,Total_palavras,Texto_sem_nomes,Nomes
0,30266027,PORTARIA DE PESSOAL 529,9368436,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,,"<p class=""identifica"">PORTARIA DE PESSOAL SGP/...",S02012023/529_20230125_20280233.xml.xml,S02012023.zip,2023,1,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 529, DE 17...",358,"PORTARIA DE PESSOAL SGP / SEDGG / ME Nº 529 , ...","Gestão Corporativa do Ministério da Economia, ..."
1,30264410,ATO PORTARIA 655,9368530,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,,"<p class=""identifica"">PORTARIA SGP/SEDGG/ME Nº...",S02012023/529_20230125_20280363.xml.xml,S02012023.zip,2023,1,"PORTARIA SGP/SEDGG/ME Nº 655, DE 23 DE JANEIRO...",245,"PORTARIA SGP / SEDGG / ME Nº 655 , DE 23 DE JA...","MAPA, SÉRGIO EDUARDO ARBULU MENDONÇA"
2,30265009,ATO PORTARIA DE PESSOAL 461,9368536,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,,"<p class=""identifica"">PORTARIA DE PESSOAL SGP/...",S02012023/529_20230125_20280370.xml.xml,S02012023.zip,2023,1,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 461, DE 16...",251,"PORTARIA DE PESSOAL SGP / SEDGG / ME Nº 461 , ...","Priscilla Menezes Alves Farias, Assistente, SÉ..."
3,30265678,ATO PORTARIA DE PESSOAL SGP 606,9368541,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,,"<p class=""identifica"">PORTARIA DE PESSOAL SGP/...",S02012023/529_20230125_20280375.xml.xml,S02012023.zip,2023,1,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 606, DE 19...",251,"PORTARIA DE PESSOAL SGP / SEDGG / ME Nº 606 , ...","Portaria, EDUARDO ARBULU MENDONÇA"
4,30266030,ATO PORTARIA DE PESSOAL SGP 517,9368573,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,,"<p class=""identifica"">PORTARIA DE PESSOAL SGP/...",S02012023/529_20230125_20280390.xml.xml,S02012023.zip,2023,1,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 517, DE 17...",243,"PORTARIA DE PESSOAL SGP / SEDGG / ME Nº 517 , ...","Alterar, ROBERTO JORGE FERREIRA, Portaria, EDU..."


In [18]:
# Separar os nomes individuais, removendo espaços extras e ignorando valores vazios
nomes_distintos = (
    df_portarias_mgi['Nomes']
    .dropna()  # Remover valores NaN
    .str.split(',')  # Dividir os nomes por vírgulas
    .explode()  # Expandir os nomes em linhas separadas
    .str.strip()  # Remover espaços em branco
    .drop_duplicates()  # Remover valores duplicados
    .sort_values()  # Ordenar os nomes
)

# Exibir os nomes distintos
print("Nomes distintos encontrados na coluna 'Nomes':")
# print(nomes_distintos.tolist())


Nomes distintos encontrados na coluna 'Nomes':


In [19]:
# Contar o total de nomes distintos
total_nomes = nomes_distintos.nunique()

# Exibir o total de nomes distintos
print(f"Total de nomes distintos encontrados: {total_nomes}")

Total de nomes distintos encontrados: 14826


In [20]:
# Salvar os nomes distintos em um arquivo Excel
nomes_distintos.to_excel('nomes_distintos.xlsx', index=False, header=['Nomes'])

print("Os nomes distintos foram salvos no arquivo 'nomes_distintos.xlsx'.")


Os nomes distintos foram salvos no arquivo 'nomes_distintos.xlsx'.
