# Limpeza da Base de Dados para extrair país, cidade, tipo de afastamento, patente e período de afastamento.

In [1]:
import re
import pandas as pd
from bs4 import BeautifulSoup

In [2]:
# Carregando os dados
dados_diario_uniao_militares_afastamentos = pd.read_excel(r"C:\Users\paula\OneDrive\IPEA\Militares_2\bases\dados_diario_uniao_militares_afastamentos.xlsx")

# Armazenando uma cópia do texto original em uma coluna temporária
dados_diario_uniao_militares_afastamentos['Texto_Reduzido'] = dados_diario_uniao_militares_afastamentos['Texto']

# Convertendo o texto para minúsculas apenas para o filtro
dados_diario_uniao_militares_afastamentos['Texto_filtro'] = dados_diario_uniao_militares_afastamentos['Texto'].str.lower()

# Filtrando o DataFrame para manter apenas as observações que contenham as palavras específicas
filtro = dados_diario_uniao_militares_afastamentos['Texto_filtro'].str.contains('nomear|autorizar|designar', case=False)
dados_filtrados_total = dados_diario_uniao_militares_afastamentos[filtro].copy()

# Removendo a coluna de filtro
dados_filtrados_total.drop(columns=['Texto_filtro'], inplace=True)

DROP artCategory THAT CONTAINS "UNIVERSIDADE" 

In [3]:
# Função para extrair o texto das tags <p> com as classes 'identifica pdf-CENTER' e 'identifica'
def extrair_identificacao(texto_html):
    soup = BeautifulSoup(texto_html, 'html.parser')
    identificacoes = soup.find_all('p', class_=lambda x: x and 'identifica' in x.split())
    texto_identificacao = ''
    for identificacao in identificacoes:
        texto_identificacao += identificacao.get_text(strip=True) + '\n'
        identificacao.decompose()  # Remover a identificação do texto original
    return texto_identificacao.strip()

# Função para extrair o texto reduzido, sem a identificação
def extrair_texto_reduzido(texto_html):
    soup = BeautifulSoup(texto_html, 'html.parser')
    # Remover as tags <p> com as classes 'identifica pdf-CENTER' e 'identifica' do texto
    for identificacao in soup.find_all('p', class_=lambda x: x and 'identifica' in x.split()):
        identificacao.decompose()
    texto_reduzido = soup.get_text(separator='\n', strip=True)
    return texto_reduzido.strip()

# Aplicar as funções para criar as variáveis Portaria_Especifica e Texto_Reduzido
dados_filtrados_total['Portaria_Especifica'] = dados_filtrados_total['Texto'].apply(extrair_identificacao)
dados_filtrados_total['Texto_Reduzido'] = dados_filtrados_total['Texto'].apply(extrair_texto_reduzido)

In [4]:
# Salvando os resultados em um arquivo Excel
pasta_base = "C:/Users/paula/OneDrive/IPEA/Militares_2/bases"
dados_filtrados_total.to_excel(f"{pasta_base}/dados_filtrados_total.xlsx", index=False)

### Filtrando a coluna para que as portarias repitidas em uma unica célula sejam consideradas parte do df

In [6]:
# Função para contar o número de ocorrências de 'nomear', 'autorizar' ou 'designar' no texto original
def contar_ocorrencias_reduzido(texto):
    padrao = re.compile(r'\b(nomear|autorizar|designar|autoriza)\b', re.IGNORECASE)
    return len(re.findall(padrao, texto))

# Adicionando uma nova coluna com o número de ocorrências
dados_filtrados_total['n_contagem_texto_original'] = dados_filtrados_total['Texto_Reduzido'].apply(contar_ocorrencias_reduzido)

# Salvando os resultados em um arquivo Excel
pasta_base = "C:/Users/paula/OneDrive/IPEA/Militares_2/bases"
dados_filtrados_total.to_excel(f"{pasta_base}/dados_filtrados_total.xlsx", index=False)

In [7]:
# Função para separar os afastamentos
def separar_afastamentos(texto):
    padrao_regex = r'(\s*(O\s+(CHEFE\s+DO\s+ESTADO-MAIOR\s+DA\s+ARMADA|MINISTRO\s+DE\s+ESTADO\s+DA\s+DEFESA|CHEFE\s+DO\s+ESTADO-MAIOR\s+CONJUNTO\s+DAS\s+FORÇAS\s+ARMADAS|DIRETOR-GERAL\s+DO\s+MATERIAL\s+DA\s+MARINHA|SECRETÁRIO-GERAL\s+DO\s+MINISTÉRIO\s+DA\s+DEFESA|DIRETOR-GERAL\s+DE\s+DESENVOLVIMENTO\s+NUCLEAR\s+E\s+TECNOLÓGICO\s+DA\s+MARINHA|COMANDANTE\s+DA\s+MARINHA|DIRETOR-GERAL\s+DE\s+NAVEGAÇÃO|COMANDANTE\s+DO\s+EXÉRCITO|COMANDANTE\s+DA\s+ESCOLA\s+SUPERIOR\s+DE\s+GUERRA|CHEFE\s+DO\s+ESTADO-MAIOR\s+DA\s+AERONÁUTICA))\s*)'
    partes = re.split(padrao_regex, texto) "O CHEFE DE GABINETE DO MINISTRO DE ESTADO DA DEFESA" "O COMANDANTE DA AERONÁUTICA"
    
    # Lista para armazenar os afastamentos
    afastamentos = []
    afastamento_atual = ""
    
    for parte in partes:
        if parte.strip() in ["O CHEFE DO ESTADO-MAIOR DA ARMADA", "O MINISTRO DE ESTADO DA DEFESA", "O CHEFE DO ESTADO-MAIOR CONJUNTO DAS FORÇAS ARMADAS", "O DIRETOR-GERAL DO MATERIAL DA MARINHA", "O SECRETÁRIO-GERAL DO MINISTÉRIO DA DEFESA", "O DIRETOR-GERAL DE DESENVOLVIMENTO NUCLEAR E TECNOLÓGICO DA MARINHA", "O COMANDANTE DA MARINHA", "O DIRETOR-GERAL DE NAVEGAÇÃO", "O COMANDANTE DO EXÉRCITO", "O COMANDANTE DA ESCOLA SUPERIOR DE GUERRA", "O CHEFE DO ESTADO-MAIOR DA AERONÁUTICA"]:
            # Se a parte atual for uma das marcas, inicia um novo afastamento
            afastamento_atual = parte
        elif afastamento_atual:
            # Se já estiver em um afastamento, adiciona a parte ao afastamento atual
            afastamento_atual += parte
            # Se encontrar o próximo afastamento ou chegar ao final do texto, adiciona o afastamento à lista
            if re.search(padrao_regex, parte.strip()) or parte == partes[-1]:
                afastamentos.append(afastamento_atual.strip())
                afastamento_atual = ""
    
    return afastamentos

# Lista para armazenar as novas linhas
novas_linhas = []

# Iterar sobre as linhas do DataFrame original
for index, row in dados_filtrados_total.iterrows():
    # Separar os afastamentos do texto
    afastamentos = separar_afastamentos(row['Texto'])
    
    # Se houver afastamentos
    if afastamentos:
        # Adicionar a primeira linha com o primeiro afastamento
        afastamento_com_nome = afastamentos[0]
        nova_linha = row.copy()
        nova_linha['Texto'] = afastamento_com_nome
        nova_linha['n_contagem_texto_reduzido'] = contar_ocorrencias_reduzido(afastamento_com_nome)
        novas_linhas.append(nova_linha)
        
        # Para cada afastamento encontrado além do primeiro
        for afastamento in afastamentos[1:]:
            # Criar uma nova linha com as informações da linha original
            nova_linha = row.copy()
            # Atualizar o texto para o afastamento atual
            nova_linha['Texto'] = afastamento
            # Contar ocorrências de 'nomear', 'autorizar' ou 'designar' no novo texto
            nova_linha['n_contagem_texto_reduzido'] = contar_ocorrencias_reduzido(afastamento)
            # Adicionar a nova linha ao dataframe de novas linhas
            novas_linhas.append(nova_linha)
    else:
        # Se não houver afastamentos, manter a linha original
        novas_linhas.append(row)

In [8]:
# Atualizar o DataFrame com as novas linhas
dados_filtrados_split = pd.DataFrame(novas_linhas)
dados_filtrados_split['n_contagem_texto_reduzido'] = dados_filtrados_split['n_contagem_texto_reduzido'].fillna(1)

In [9]:
# Salvando os resultados em um arquivo Excel
pasta_base = "C:/Users/paula/OneDrive/IPEA/Militares_2/bases"
dados_filtrados_split.to_excel(f"{pasta_base}/dados_filtrados_split.xlsx", index=False)

### Limpando a variavel Texto_Reduzido

In [10]:
# Filtrar linhas com contagem diferente de zero
dados_filtrados_split = dados_filtrados_split[dados_filtrados_split['n_contagem_texto_reduzido'] != 0]

# Remover quebras de linha do Texto_Reduzido e substituir por espaços
dados_filtrados_split['Texto_Reduzido'] = dados_filtrados_split['Texto_Reduzido'].str.replace('\n', ' ')

In [11]:
# Salvando os resultados em um arquivo Excel
pasta_base = "C:/Users/paula/OneDrive/IPEA/Militares_2/bases"
dados_filtrados_split.to_excel(f"{pasta_base}/base_afastamentos_militares_final.xlsx", index=False)

### Tratar Base Final e Transformar em texto para Treinamento do Modelo

In [19]:
# Carrega a base de dados
caminho_arquivo = "C:/Users/paula/OneDrive/IPEA/Militares_2/bases/base_afastamentos_militares_final.xlsx"
base_afastamentos_militares_final = pd.read_excel(caminho_arquivo)

# Função para remover tags HTML e deixar o texto corrido
def remover_html(texto):
    if texto:
        # Remove as tags HTML
        soup = BeautifulSoup(texto, 'html.parser')
        texto_sem_html = soup.get_text(separator=' ')
        # Remove espaços extras
        texto_corrido = re.sub(r'\s+', ' ', texto_sem_html).strip()
        return texto_corrido
    return texto

# Aplicar a função de remover HTML à coluna 'Texto'
base_afastamentos_militares_final['Texto'] = base_afastamentos_militares_final['Texto'].apply(remover_html)

# Escolha um nome para o novo arquivo Excel
caminho_novo_arquivo = "C:/Users/paula/OneDrive/IPEA/Militares_2//bases/base_afastamentos_militares_tratados.xlsx"

# Salvar a nova base de dados em um novo arquivo Excel
base_afastamentos_militares_final.to_excel(caminho_novo_arquivo, index=False)

# Concatenar todos os textos tratados em uma única string
texto_unico = '\n'.join(filter(lambda texto: texto is not None, base_afastamentos_militares_final['Texto']))

# Escolha um nome para o arquivo de texto único
nome_arquivo_txt = "C:/Users/paula/OneDrive/IPEA/Militares_2/texto_tratado_unico.txt"

# Salvar a string em um arquivo de texto
with open(nome_arquivo_txt, 'w', encoding='utf-8') as arquivo_txt:
    arquivo_txt.write(texto_unico)

print("Base de dados tratada e arquivo de texto único gerados com sucesso.")

Base de dados tratada e arquivo de texto único gerados com sucesso.


### Criar as bases separadas: NOMEAR, DESIGNAR E AUTORIZAR

In [23]:
# Carregar a base de dados tratada
caminho_arquivo_tratado = "C:/Users/paula/OneDrive/IPEA/Militares_2/base_afastamentos_militares_tratados.xlsx"
base_tratada = pd.read_excel(caminho_arquivo_tratado)

# Função para verificar se uma célula contém duas ou mais palavras-chave diferentes
def contem_multiplas_ocorrencias_diferentes(texto):
    palavras_chave = ['AUTORIZAR', 'AUTORIZA', 'NOMEAR', 'DESIGNAR']
    ocorrencias = set()
    
    for palavra in palavras_chave:
        if re.search(rf'\b{palavra}\b', texto, re.IGNORECASE):
            ocorrencias.add(palavra)
    
    return len(ocorrencias) > 1

# Aplicar a função para encontrar células com múltiplas ocorrências diferentes
multiplas_ocorrencias_diferentes = base_tratada[base_tratada['Texto'].apply(contem_multiplas_ocorrencias_diferentes)]

# Exibir o resultado
print(f"Número de células com duas ou mais ocorrências diferentes: {len(multiplas_ocorrencias_diferentes)}")
print(multiplas_ocorrencias_diferentes[['Texto']])

Número de células com duas ou mais ocorrências diferentes: 126
                                                  Texto
36    PORTARIAS DE 11 DE ABRIL DE 2002 O Reitor da U...
78    PORTARIAS GC1 DE 6 DE JUNHO DE 2002 O COMANDAN...
155   DESPACHO DA REITORA Em 31 de outubro de 2002 N...
157   PORTARIAS GC1, DE 6 DE NOVEMBRO DE 2002 O COMA...
183   O MINISTRO DE ESTADO DA DEFESAMINISTRO DE ESTA...
...                                                 ...
6961  O DIRETOR-GERAL DE DESENVOLVIMENTO NUCLEAR E T...
7652  PORTARIA Nº 335/CTMSP, DE 25 DE SETEMBRO DE 20...
7703  PORTARIA Nº 335/CTMSP, DE 25 DE SETEMBRO DE 20...
7863  PORTARIA Nº 267/CTMSP, DE 12 DE AGOSTO DE 2019...
7963  O DIRETOR-GERAL DE DESENVOLVIMENTO NUCLEAR E T...

[126 rows x 1 columns]


In [None]:

# Função para filtrar o texto com base em palavras-chave
def filtrar_por_palavra_chave(df, palavra_chave):
    return df[df['Texto'].str.contains(palavra_chave, case=False, na=False)]

# Filtra as portarias que contêm "NOMEAR"
base_nomear = filtrar_por_palavra_chave(base_tratada, 'NOMEAR')

# Filtra as portarias que contêm "DESIGNAR"
base_designar = filtrar_por_palavra_chave(base_tratada, 'DESIGNAR')

# Filtra as portarias que contêm "AUTORIZAR" ou "AUTORIZA"
base_autorizar = base_tratada[base_tratada['Texto'].str.contains('AUTORIZAR|AUTORIZA', case=False, na=False)]

# Remove duplicatas após a filtragem para evitar contar linhas repetidas
base_filtrada_unica = pd.concat([base_nomear, base_designar, base_autorizar]).drop_duplicates()

# Salvar as novas bases de dados
caminho_base_nomear = "C:/Users/paula/OneDrive/IPEA/Militares_2/base_nomear.xlsx"
caminho_base_designar = "C:/Users/paula/OneDrive/IPEA/Militares_2/base_designar.xlsx"
caminho_base_autorizar = "C:/Users/paula/OneDrive/IPEA/Militares_2/base_autorizar.xlsx"

base_nomear.to_excel(caminho_base_nomear, index=False)
base_designar.to_excel(caminho_base_designar, index=False)
base_autorizar.to_excel(caminho_base_autorizar, index=False)

# Calcular as perdas de linhas
total_linhas_original = len(base_tratada)
total_linhas_filtradas_unicas = len(base_filtrada_unica)
linhas_perdidas = total_linhas_original - total_linhas_filtradas_unicas

# Imprimir resultados
print(f"Total de linhas na base original: {total_linhas_original}")
print(f"Total de linhas após filtragem (únicas): {total_linhas_filtradas_unicas}")
print(f"Linhas perdidas: {linhas_perdidas}")
print("Bases de dados filtradas foram salvas com sucesso.")