## Script responsável por realizar a análise descritiva

- Este código pressupõe que os arquivos do DOU estejam descompactados e se encontrem no arquivo **./saida/01_DOUSecao02_completo.parquet**
- Caso não exista o arquivo, ele pode ser gerado por meio do notebook **01_DOU_LerZips.ipynb**
- Processamento deste script:
  - Faz a leitura do arquivo **./saida/01_DOUSecao02_completo.parquet**
  - Filtra apenas portarias
  - Filtra apenas portarias do MGI
  - Cria a coluna Texto a partir da TextHTML, removento das tags html do corpo da portaria
  - Cria a coluna Total_palavras, que exibe o total de palavras da coluna Texto
  - Cria a coluna Ano com o ano da publicação (pubDate)
  - Cria a coluna Mês com o mês da publicação (pubDate)
  - Salva a saída parcial no arquivo **.\saida\02_DouSecao0<No Seção>_portarias_mgi_tratado.parquet** 
 
---


## Biblioteca

In [8]:
import pandas as pd
import string
import spacy
from bs4 import BeautifulSoup
import string
import time

## Primeira parte do código

- Cria as colunas
    - Texto, a partir da coluna TextoHTML
    - Total_Palavras, conta o total de palavras na coluna Texto
    - Ano, a partir de pubDate
    - Mês, a partir de pubDate
- Salva o arquivo parcial **./saida/02_DOU{secao}_completo_tratado.parquet**

In [2]:
# Função para contar palavras desconsiderando a pontuação
def contar_palavras(texto):
    # Remover pontuação
    texto_sem_pontuacao = texto.translate(str.maketrans('', '', string.punctuation))
    # Dividir o texto em palavras
    palavras = texto_sem_pontuacao.split()
    # Retornar a contagem de palavras
    return len(palavras)

In [3]:
# Função para extrair o texto de um texto HTML
def extract_text_from_html(html):
    soup = BeautifulSoup(html, 'html.parser')
    return soup.get_text(separator=' ')

In [4]:
douItem = 2
secao = f'Secao0{douItem}'

# Lê o arquivo Parquet
df = pd.read_parquet(f'./saida/01_DOU{secao}_completo.parquet', engine='pyarrow')  # ou engine='fastparquet'

# Exibe as primeiras linhas do DataFrame
df.shape


(497325, 27)

In [5]:
df_portaria = df[df['artType'] == 'Portaria']

df_portaria.shape

(425710, 27)

In [6]:
# Filtrar os valores que contenham "ministério da inovação" na coluna 'artCategory', ignorando case
filtro = df_portaria['artCategory'].str.contains("Ministério da Gestão e da Inovação em Serviços Público", case=False, na=False)
df_portaria_mgi = df_portaria[filtro]

# Exibir o DataFrame filtrado
df_portaria_mgi.shape

(20199, 27)

In [11]:
# Início do cronômetro
start_time = time.time()

# Garantir que estamos trabalhando com uma cópia explícita
df_portaria_mgi = df_portaria_mgi.copy()

# Cria uma coluna 'Total_palavras' com o total de palavras da coluna Texto
df_portaria_mgi.loc[:, 'Total_palavras'] = df_portaria_mgi['Texto'].apply(contar_palavras)

# Converte a coluna pubDate para datetime
df_portaria_mgi.loc[:, 'pubDate'] = pd.to_datetime(df_portaria_mgi['pubDate'], format='%d/%m/%Y', errors='coerce')

# Filtrar apenas os valores válidos em pubDate
df_portaria_mgi = df_portaria_mgi[df_portaria_mgi['pubDate'].notna()]

# Extrair ano e mês
df_portaria_mgi.loc[:, 'Ano'] = df_portaria_mgi['pubDate'].dt.year
df_portaria_mgi.loc[:, 'Mês'] = df_portaria_mgi['pubDate'].dt.month

# Exibe o shape do DataFrame final
print(df_portaria_mgi.shape)

# Fim do cronômetro
end_time = time.time()

# Exibir o tempo de execução
execution_time = end_time - start_time
print(f"Tempo de execução: {execution_time:.2f} segundos")


(20199, 31)
Tempo de execução: 2.06 segundos


In [12]:
# Salva saída parcial o arquivo completo com novas colunas
df.to_parquet(f'./saida/02_DOU{secao}_portarias_mgi_tratado.parquet', engine='pyarrow', index=False)