## Script responsável pela remoção dos nome próprios

- Este código pressupõe que a existência do arquivo **.\saida\03_1_DOUSecao02_portarias_mgi_tratado_basico.parquet** 
- Caso não exista, ele pode ser gerado por meio do notebook **03_1_Tratamento_Basico.ipynb**
- Processamento deste script:
  - Faz a leitura do arquivo **./saida/03_1_DOUSecao02_portarias_mgi_tratado_basico.parquet**
  - Remove os nomes próprios da **coluna TextoTratado**
  - Salva a saída parcial no arquivo **.\saida\03_2_DouSecao02_portarias_mgi_tratado_NER.parquet** 
 
---


## Biblioteca

In [None]:
import pandas as pd
import spacy
import time

In [None]:
douItem = 2
secao = f'Secao0{douItem}'

# Lê o arquivo Parquet
df_portarias_mgi = pd.read_parquet(f'./saida/03_1_DOU{secao}_portarias_mgi_tratado_basico.parquet', engine='pyarrow')  # ou engine='fastparquet'

# Exibe as primeiras linhas do DataFrame
df_portarias_mgi.shape


In [None]:
df_portarias_mgi.head()

In [None]:
# Carregar o modelo de linguagem em português.
nlp = spacy.load('pt_core_news_sm')

def extrair_nomes(texto):
    """
    Extrai nomes (entidades do tipo PER) do texto.
    Exclui nomes que começam com determinados prefixos, desconsiderando o case.
    """
    # Processar o texto com o modelo spaCy
    doc = nlp(texto)

    # Extrair entidades rotuladas como "PER" (Pessoas)
    nomes = [ent.text for ent in doc.ents if ent.label_ == 'PER']

    # Filtrar nomes para excluir aqueles que começam com os prefixos indesejados
    prefixos_indesejados = ('administracao', 'administrador', 'analista', 'anexo', 'cargo', 'apto', 'arquiteta', 'arquivista',
                        'arquivologia', 'arquivos', 'arts', 'artifice', 'ascensorista', 'assessor', 'assessora', 'assistente', 
                        'auditor', 'autoriza', 'auxiliar', 'bi', 'bancada', 'bancario', 'carteiro', 'carpinteiro', 
                        'cartorio', 'celetista', 'chefe', 'conceder', 'coordenador', 'coordenadora', 'coordenador-geral', 
                        'comissionada', 'dataprev', 'decreto', 'designar', 'diretor', 'diretoria', 
                        'escrivao', 'especializado', 'iii', 'inciso', 'instituidor', 'lei', 'matricula', 'paragrafo', 'patrimonio', 'professor',
                        'orgao', 'orgaos', 'siape', 'sisg', 'soldo', 'vii', 'xxx', 'uteis')

    nomes_filtrados = [
        nome for nome in nomes 
        if not nome.lower().startswith(prefixos_indesejados)
    ]

    # Retornar os nomes filtrados como uma única string, separados por vírgulas
    return ', '.join(nomes_filtrados)



# Função para remover nomes de pessoas
def remover_nomes(texto):
    doc = nlp(texto)
    # Excluir tokens que são identificados como nomes próprios (entidade do tipo 'PER')
    tokens_sem_nomes = [token.text for token in doc if token.ent_type_ != 'PER']
    return ' '.join(tokens_sem_nomes)

# Configurar o tamanho do bloco
tamanho_bloco = 200

# Inicializar colunas para os resultados
df_portarias_mgi['Texto_sem_nomes'] = None
df_portarias_mgi['Nomes'] = None

# Medir o tempo total de execução
inicio_tempo_total = time.time()

# Processar em blocos
for inicio in range(0, len(df_portarias_mgi), tamanho_bloco):
    fim = min(inicio + tamanho_bloco, len(df_portarias_mgi))  # Define o limite superior do bloco
    print(f"Tratando de {inicio + 1} a {fim}")
    
    # Selecionar o bloco atual
    bloco = df_portarias_mgi.iloc[inicio:fim]

    # Aplicar as funções ao bloco
    df_portarias_mgi.loc[inicio:fim - 1, 'TextoTratadoSemNomes'] = bloco['TextoTratado'].apply(remover_nomes)
    df_portarias_mgi.loc[inicio:fim - 1, 'Nomes'] = bloco['TextoTratado'].apply(extrair_nomes)

# Medir o tempo final
fim_tempo_total = time.time()

# Calcular o tempo total de execução
tempo_execucao_total = fim_tempo_total - inicio_tempo_total
print(f"Tempo total de execução: {tempo_execucao_total:.2f} segundos")


In [None]:
df_portarias_mgi.shape

In [None]:
# Salva saída parcial o arquivo completo com novas colunas
df_portarias_mgi.to_parquet(f'./saida/03_2_DOU{secao}_portarias_mgi_tratado_NER.parquet', engine='pyarrow', index=False)