# Caderno de teste para calcular a média do tamanho dos enunciados

## 1. Carrega base de dados

Carrega a lista de documentos com os enunciados.

In [1]:
import pandas as pd

PASTA_DADOS = './dados/'

# A pasta dos JURIS aqui não é a pasta original, e sim o resultado do caderno 1 (os documentos já estão filtrados)
PASTA_JURIS_TCU = f'{PASTA_DADOS}outputs/1_tratamento_juris_tcu/'

# Carrega os arquivos 
def carrega_juris_tcu():
    doc1 = pd.read_csv(f'{PASTA_JURIS_TCU}doc_tratado_parte_1.csv', sep='|')
    doc2 = pd.read_csv(f'{PASTA_JURIS_TCU}doc_tratado_parte_2.csv', sep='|')
    doc3 = pd.read_csv(f'{PASTA_JURIS_TCU}doc_tratado_parte_3.csv', sep='|')
    doc4 = pd.read_csv(f'{PASTA_JURIS_TCU}doc_tratado_parte_4.csv', sep='|')
    doc = pd.concat([doc1, doc2, doc3, doc4], ignore_index=True)
    query = pd.read_csv(f'{PASTA_JURIS_TCU}query_tratado.csv', sep='|')
    qrel = pd.read_csv(f'{PASTA_JURIS_TCU}qrel_tratado.csv', sep='|')

    return doc, query, qrel

docs, queries, qrels = carrega_juris_tcu()

In [25]:
enunciados = docs['ENUNCIADO']
excertos = docs['EXCERTO']
enunciados

0        <b>SÚMULA TCU 43 (REVOGADA) : </b><s>As pensõe...
1        <b>SÚMULA TCU 99 (REVOGADA) :</b> <s>Não pode ...
2        <b>SÚMULA TCU 84 (REVOGADA) :</b> <s>Restabele...
3        <b>SÚMULA TCU 104 (REVOGADA) :</b> <s>Não pode...
4        <b>SÚMULA TCU 63 (REVOGADA) :</b> <s>É lícita ...
                               ...                        
16040    A sanção de declaração de inidoneidade para pa...
16041    <b>SÚMULA TCU 69 (REVOGADA):</b> <s>Não possui...
16042    <b>SÚMULA TCU 165 (REVOGADA):</b> <s>A Lei nº ...
16043    <b>SÚMULA TCU 181 (REVOGADA):</b> <s>Ao Tribun...
16044    <b>SÚMULA TCU 24 (REVOGADA):</b> <s>Para conce...
Name: ENUNCIADO, Length: 16045, dtype: object

In [27]:
from bs4 import BeautifulSoup
from bs4 import MarkupResemblesLocatorWarning
import warnings

# Função para remover tags HTML de um item
def remove_html_tags(text):
    soup = BeautifulSoup(text, "html.parser")
    return soup.get_text()

In [29]:
# Ignorar o aviso MarkupResemblesLocatorWarning
warnings.filterwarnings("ignore", category=MarkupResemblesLocatorWarning)

# Aplicando a função para remover as tags HTML
enunciados_sem_tags = [remove_html_tags(item) for item in enunciados]
excertos_sem_tags = [remove_html_tags(item) for item in excertos]

enunciados_sem_tags

['SÚMULA TCU 43 (REVOGADA) : As pensões deferidas antes de 21/10/69, aos dependentes do pessoal, reformado, ou em atividade, da Polícia Militar e do Corpo de Bombeiros, transferido para o Estado da Guanabara, devem ser custeadas pela União, cabendo, porém, ao referido Estado a responsabilidade integral do pagamento decorrente dos reajustamentos posteriores.',
 'SÚMULA TCU 99 (REVOGADA) : Não pode ser imputado à conta dos Fundos de Participação (Constituição, art. 25) o percentual compulsório que incide sobre as receitas correntes próprias dos Estados, Municípios, Distrito Federal e Territórios, para a constituição do Programa de Formação do Patrimônio do Servidor Público (PASEP) .',
 'SÚMULA TCU 84 (REVOGADA) : Restabelecer-se-á a entrega das quotas provenientes do Fundo de Participação (Constituição, art. 25) , quando ficar comprovado que a omissão ou irregularidade, que deu motivo à suspensão, não pode ser imputada ao atual administrador e que este já adotou providência no sentido de

In [31]:
# Calcula o total de caracteres de cada enunciado
total_caracteres_enunciado = sum(len(enunciado) for enunciado in enunciados_sem_tags)
total_caracteres_excerto = sum(len(excerto) for excerto in excertos_sem_tags)

# Calcula a média da quantidade de caracteres
media_caracteres_enunciado = total_caracteres_enunciado / len(enunciados_sem_tags)
media_caracteres_excerto = total_caracteres_excerto / len(excertos_sem_tags)

# Exibe o resultado
print(f"Média da quantidade de caracteres por enunciado: {media_caracteres_enunciado}")
print(f"Média da quantidade de caracteres por excerto: {media_caracteres_excerto}")

Média da quantidade de caracteres por enunciado: 305.68307884076034
Média da quantidade de caracteres por excerto: 4387.174135244624


In [35]:
# Calcula o total de palavras de cada enunciado
total_palavras_enunciado = sum(len(enunciado.split()) for enunciado in enunciados_sem_tags)
total_palavras_excerto = sum(len(excerto.split()) for excerto in excertos_sem_tags)

# Calcula a média do número de palavras
media_palavras_enunciado = total_palavras_enunciado / len(enunciados_sem_tags)
media_palavras_excerto = total_palavras_excerto / len(excertos_sem_tags)

# Exibe o resultado
print(f"Média do número de palavras por enunciado: {media_palavras_enunciado}")
print(f"Média do número de palavras por excerto: {media_palavras_excerto}")

Média do número de palavras por enunciado: 46.6592084761608
Média do número de palavras por excerto: 660.3132440012465


In [43]:
excertos_sem_tags_minusculo = [texto.lower() for texto in excertos_sem_tags]
enunciados_sem_tags_minusculo = [texto.lower() for texto in enunciados_sem_tags]


In [49]:
import string

def contar_palavras_unicas(lista_textos):
    palavras = set()
    
    for texto in lista_textos:
        texto_limpo = texto.translate(str.maketrans('', '', string.punctuation))  # Remove pontuação
        palavras.update(texto_limpo.lower().split())  # Converte para minúsculas e adiciona ao conjunto
    
    return len(palavras), palavras  # Retorna o total e as palavras únicas

In [51]:
num_palavras_enunciado, palavras_unicas_enunciado = contar_palavras_unicas(enunciados_sem_tags)
num_palavras_excerto, palavras_unicas_excerto = contar_palavras_unicas(excertos_sem_tags)

print("Total de palavras únicas enunciado:", num_palavras_enunciado)
print("Total de palavras únicas excerto:", num_palavras_excerto)

Total de palavras únicas enunciado: 17867
Total de palavras únicas excerto: 217264


In [53]:
print("Palavras únicas:", palavras_unicas_enunciado)

Palavras únicas: {'me14', 'contandose', 'bacias', 'confiadas', 'reside', '120358', 'escolhidas', 'entrega', 'realizála', 'realização', 'alheios', 'sede', 'utilidadenecessidade', 'uniforme', '2852007', 'ministrosubstituto', '421', '176', 'comunica', 'encerrarse', 'imagens', 'ausência', 'societárias', 'incentivo', 'voluntária', 'normativatcu', 'fraudadores', 'amoldam', 'prospera', '33651941', 'uniênios', 'laboral', 'qual', 'fixaram', 'desvinculados', 'divergências', 'reuniões', 'planos', 'instrução', '190661', 'lavajato', '200', 'levantamento', 'quilombo', 'fachada', 'parciais', 'ajudariam', 'exemplificativo', 'considera', 'providenciado', 'comporte', 'aplicandose', 'difere', 'inicialmente', 'merenda', 'senado', 'averbado', '96041998', 'revertidos', 'venceu', '89', 'referência', 'credenciado', 'sintéticos', 'credores', 'exonerando', 'emprestar', 'telefônico', 'consolidálas', '272', 'disponibilização', 'gozam', 'embasada', 'acarrete', 'apelo', 'supere', 'autorizem', 'regência', 'qualquer'