## Script responsável pelo tratamento básico

- Este código pressupõe que a existência do arquivo **.\saida\02_DouSecao0<No Seção>_portarias_mgi_tratado.parquet** 
- Caso não exista, ele pode ser gerado por meio do notebook **02_Tratamento_AnaliseDescritiva.ipynb**
- Processamento deste script:
  - Faz a leitura do arquivo **./saida/01_DOUSecao02_completo.parquet**
  - **Tratamento 01**
  - Coloca em minúsculo
  - Remove espaços extas
  - Remove acentos
  - Remove URLs
  - Remove valores monetários
  - Remove stopover
  - Armazena na **coluna TextoTratado**
  - Cria a **coluna TextoTratado_TotalPalavras** com o total do palavras do texto tratado
  
---


## Bibliotecas

In [1]:
import pandas as pd
import re
import unicodedata
from nltk.corpus import stopwords
import nltk


In [2]:
douItem = 2
secao = f'Secao0{douItem}'

# Lê o arquivo Parquet
df_portarias_mgi = pd.read_parquet(f'./saida/02_DOU{secao}_portarias_mgi_tratado.parquet', engine='pyarrow')  # ou engine='fastparquet'

df_portarias_mgi.shape


(19258, 31)

In [3]:
# Baixar stopwords caso ainda não tenha feito
# nltk.download('stopwords')

# Obter stopwords em português
stop_words = set(stopwords.words('portuguese'))

# Função para remover acentos
def remover_acentos(text):
    """
    Remove acentos de um texto.
    
    Args:
        text (str): Texto com possíveis acentos.
    
    Returns:
        str: Texto sem acentos.
    """
    return ''.join(
        c for c in unicodedata.normalize('NFD', text) 
        if unicodedata.category(c) != 'Mn'
    )

# Função para processar o texto
def process_text(text):
    """
    Processa o texto, removendo URLs, acentos, valores monetários, 
    stopwords e o texto 'portaria de pessoal'.
    
    Args:
        text (str): Texto original.
    
    Returns:
        str: Texto processado.
    """
    text = text.lower()  # Colocar o texto em minúsculas
    text = " ".join(text.split())  # Remove espaços extras
    text = re.sub(r"http\S+|www.\S+", "", text)  # Remove URLs
    # Remover valores monetários
    text = re.sub(r"r\$\s?\d{1,3}(\.\d{3})*,\d{2}", "", text, flags=re.IGNORECASE)
    # Remover o texto 'portaria de pessoal'
    text = re.sub(r"portaria de pessoal", "", text, flags=re.IGNORECASE)
    text = remover_acentos(text)  # Remove os acentos
    text = " ".join([word for word in text.split() if word not in stop_words])  # Remove stopwords
    return text

# Aplicar a função no DataFrame
df_portarias_mgi['TextoTratado'] = df_portarias_mgi['Texto'].apply(process_text)

# Exibir o shape do DataFrame
df_portarias_mgi.shape


(19258, 32)

In [4]:
# Criar a nova coluna com o total de palavras
df_portarias_mgi['TextoTratado_TotalPalavras'] = df_portarias_mgi['TextoTratado'].apply(
    lambda texto: len(str(texto).split())
)

In [5]:
df_portarias_mgi.shape

(19258, 33)

In [6]:
df_portarias_mgi.head()

Unnamed: 0,id,name,idOficio,pubName,artType,pubDate,artClass,artCategory,artSize,artNotes,...,SubTitulo,TextoHTML,file_name,zip_name,Ano,Mes,Texto,Total_palavras,TextoTratado,TextoTratado_TotalPalavras
0,30266027,PORTARIA DE PESSOAL 529,9368436,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,,"<p class=""identifica"">PORTARIA DE PESSOAL SGP/...",S02012023/529_20230125_20280233.xml.xml,S02012023.zip,2023,1,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 529, DE 17...",358,"sgp/sedgg/me nº 529, 17 janeiro 2023 secretari...",231
1,30264410,ATO PORTARIA 655,9368530,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,,"<p class=""identifica"">PORTARIA SGP/SEDGG/ME Nº...",S02012023/529_20230125_20280363.xml.xml,S02012023.zip,2023,1,"PORTARIA SGP/SEDGG/ME Nº 655, DE 23 DE JANEIRO...",245,"portaria sgp/sedgg/me nº 655, 23 janeiro 2023 ...",158
2,30265009,ATO PORTARIA DE PESSOAL 461,9368536,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,,"<p class=""identifica"">PORTARIA DE PESSOAL SGP/...",S02012023/529_20230125_20280370.xml.xml,S02012023.zip,2023,1,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 461, DE 16...",251,"sgp/sedgg/me nº 461, 16 janeiro 2023 secretari...",160
3,30265678,ATO PORTARIA DE PESSOAL SGP 606,9368541,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,,"<p class=""identifica"">PORTARIA DE PESSOAL SGP/...",S02012023/529_20230125_20280375.xml.xml,S02012023.zip,2023,1,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 606, DE 19...",251,"sgp/sedgg/me nº 606, 19 janeiro 2023 secretari...",158
4,30266030,ATO PORTARIA DE PESSOAL SGP 517,9368573,DO2,Portaria,2023-01-25,00028:00006:00000:00000:00000:00000:00000:0000...,Ministério da Gestão e da Inovação em Serviços...,12,,...,,"<p class=""identifica"">PORTARIA DE PESSOAL SGP/...",S02012023/529_20230125_20280390.xml.xml,S02012023.zip,2023,1,"PORTARIA DE PESSOAL SGP/SEDGG/ME Nº 517, DE 17...",243,"sgp/sedgg/me nº 517, 17 janeiro 2023 secretari...",158


In [7]:
# Salva saída parcial o arquivo completo com novas colunas
df_portarias_mgi.to_parquet(f'./saida/03_1_DOU{secao}_portarias_mgi_tratado_basico.parquet', engine='pyarrow', index=False)