In [1]:
import glob
import os
import pickle

import numpy as np

from itertools import groupby

In [2]:
%load_ext autoreload
%autoreload 2

In [3]:
DATA_PATH="data/"

In [4]:
glob.glob(DATA_PATH + "*")

['data/all_reference_titles_20250204.txt',
 'data/all_reference_titles_not_in_llama_dedup_20250304.txt',
 'data/chunks_normas.pkl',
 'data/chunks_normas_new.pkl',
 'data/drive-download-20250122T172907Z-001.zip',
 'data/extracted_document_matches_20250210.pkl',
 'data/extracted_questions_20250203_final.pkl',
 'data/extracted_questions_20250203_parcial_01.pkl',
 'data/extracted_questions_20250203_parcial_02.pkl',
 'data/extracted_questions_20250203_parcial_03.pkl',
 'data/extracted_questions_20250203_parcial_04.pkl',
 'data/extracted_questions_20250207_final.pkl',
 'data/extracted_questions_with_embedded_references_20250212_before_formatting.pkl',
 'data/llama_deduplicated_20250204.txt',
 'data/llama_deduplicated_20250204_02.txt',
 'data/llama_deduplicated_embedded_and_annoatated_reference_titles_20250213_before_fixes.pkl',
 'data/llama_deduplicated_embedded_reference_titles_20250213_fixed.pkl',
 'data/llama_deduplicated_reference_titles_20250205.txt',
 'data/llama_deduplicated_reference

In [5]:
with open(DATA_PATH + "llama_deduplicated_embedded_reference_titles_20250213_fixed.pkl", "rb") as input_file:
    embedded_references = pickle.load(input_file)

In [6]:
with open(DATA_PATH + "llama_deduplicated_reference_titles_20250210_fixed.pkl", "rb") as input_file:
    annotated_references = pickle.load(input_file)

In [7]:
len(embedded_references)

174

In [8]:
len(annotated_references)

403

In [9]:
sorted_merged_references = np.sort(np.union1d(embedded_references, annotated_references))

In [10]:
sorted_merged_references.shape

(507,)

### Check the effect of clustering the references by number before sending to the LLM for deduplication

Cluster by number after separating by initial letter.

In [11]:
unique_references_by_initial_letter = {key: list(group) for key, group in groupby(sorted_merged_references, key=lambda x: x[0])}

In [12]:
group_counts = {}

for key, value in unique_references_by_initial_letter.items():
    group_counts[key] = len(value)

print(group_counts)

{'A': 63, 'C': 13, 'D': 52, 'E': 1, 'I': 49, 'L': 120, 'M': 9, 'N': 6, 'P': 55, 'R': 7, 'S': 132}


In [16]:
list(unique_references_by_initial_letter.values())

[['AD PGFN nº 3 de 18 de setembro de 2008',
  'ADI RFB nº 12, de 2016',
  'Acordo para Evitar a Dupla Tributação em Matéria de Impostos sobre a Renda e o Capital firmado entre o Brasil e a Alemanha',
  'Acórdão do RE nº 855.091/RS (Tema 808)',
  'Anexo ao Decreto nº 361, de 10 de dezembro de 1991',
  'Ato Declaratório (AD) PGFN nº 3, de 18 de setembro de 2008',
  'Ato Declaratório Cosar nº 47, de 27 de novembro de 2000',
  'Ato Declaratório Executivo Codac nº 23, de 4 de dezembro de 2019',
  'Ato Declaratório Executivo RFB nº 2, de 6 de março de 2024',
  'Ato Declaratório Executivo SRF nº 72, de 22 de dezembro de 2005',
  'Ato Declaratório Interpretativo RFB nº 1, de 18 de janeiro de 2016',
  'Ato Declaratório Interpretativo RFB nº 18, de 6 de dezembro de 2007',
  'Ato Declaratório Interpretativo RFB nº 3, de 27 de abril de 2016',
  'Ato Declaratório Interpretativo SRF nº 14, de 1º de dezembro de 2005',
  'Ato Declaratório Interpretativo SRF nº 14, de 4 de maio de 2004',
  'Ato Declara

In [33]:
from references_normalization import *

In [18]:
clusters_A, cluster_sizes = cluster_legal_references_by_number(unique_references_by_initial_letter['A'])

print(cluster_sizes)

Cluster 0: ['AD PGFN nº 3 de 18 de setembro de 2008', 'ADI RFB nº 12, de 2016', 'Acordo para Evitar a Dupla Tributação em Matéria de Impostos sobre a Renda e o Capital firmado entre o Brasil e a Alemanha', 'Ato Declaratório (AD) PGFN nº 3, de 18 de setembro de 2008', 'Ato Declaratório Cosar nº 47, de 27 de novembro de 2000', 'Ato Declaratório Executivo Codac nº 23, de 4 de dezembro de 2019', 'Ato Declaratório Executivo RFB nº 2, de 6 de março de 2024', 'Ato Declaratório Executivo SRF nº 72, de 22 de dezembro de 2005', 'Ato Declaratório Interpretativo RFB nº 1, de 18 de janeiro de 2016', 'Ato Declaratório Interpretativo RFB nº 18, de 6 de dezembro de 2007', 'Ato Declaratório Interpretativo RFB nº 3, de 27 de abril de 2016', 'Ato Declaratório Interpretativo SRF nº 14, de 1º de dezembro de 2005', 'Ato Declaratório Interpretativo SRF nº 14, de 4 de maio de 2004', 'Ato Declaratório Interpretativo SRF nº 16, de 22 de dezembro de 2005', 'Ato Declaratório Interpretativo SRF nº 2, de 27 de març

In [39]:
clusters_S, cluster_sizes = cluster_legal_references_by_number(unique_references_by_initial_letter['S'], max_cluster_size_reference=8)

print(cluster_sizes)

Cluster 10: ['Sistema de Recolhimento Mensal Obrigatório (Carnê-Leão)', 'Solução de Consulta Cosit nº 14, de 16 de janeiro de 2017', 'Solução de Consulta Cosit nº 4, de 3 de março de 2021', 'Solução de Consulta Cosit nº 6, de 3 de janeiro de 2019', 'Solução de Consulta Cosit nº 7, de 13 de janeiro de 2017', 'Solução de Consulta Interna Cosit nº 10, de 5 de junho de 2014', 'Solução de Consulta Interna Cosit nº 11, de 28 de junho de 2012', 'Solução de Consulta Interna Cosit nº 12, de 15 de maio de 2013', 'Solução de Consulta Interna Cosit nº 2, de 14 de janeiro de 2014', 'Solução de Consulta Interna Cosit nº 3, de 8 de fevereiro de 2012', 'Solução de Consulta Interna Cosit nº 4, de 17 de abril de 2012', 'Solução de Consulta Interna Cosit nº 5, de 15 de fevereiro de 2013', 'Solução de Consulta Interna Cosit nº 5, de 28 de março de 2006', 'Solução de Consulta Interna Cosit nº 6, de 18 de maio de 2015', 'Solução de Consulta Interna Cosit nº 7, de 17 de maio de 2012', 'Solução de Divergência

In [34]:
clusters_P, cluster_sizes = cluster_legal_references_by_number(unique_references_by_initial_letter['P'])

print(cluster_sizes)

Cluster 2: ['PMF nº 227, de 1980', 'PMF nº 454, de 1977', 'PMF nº 80, de 1979', 'Parecer Cosit nº 30, de 28 de setembro de 2001', 'Parecer Normativo CST nº 1, de 4 de fevereiro de 1985', 'Parecer Normativo CST nº 10, de 17 de agosto de 1992', 'Parecer Normativo CST nº 122, de 8 de junho de 1974', 'Parecer Normativo CST nº 129, de 13 de setembro de 1973', 'Parecer Normativo CST nº 130, de 1975', 'Parecer Normativo CST nº 130, de 8 de julho de 1970', 'Parecer Normativo CST nº 173, de 26 de setembro de 1974', 'Parecer Normativo CST nº 179, de 1970', 'Parecer Normativo CST nº 2, de 15 de janeiro de 1980', 'Parecer Normativo CST nº 25, de 1976', 'Parecer Normativo CST nº 250, de 15 de março de 1971', 'Parecer Normativo CST nº 28, de 29 de dezembro de 1983', 'Parecer Normativo CST nº 32, de 17 de agosto de 1981', 'Parecer Normativo CST nº 36, de 30 de maio de 1977', 'Parecer Normativo CST nº 38, de 1975', 'Parecer Normativo CST nº 44, de 30 de junho de 1976', 'Parecer Normativo CST nº 6, de 

### Now use LLM to deduplicate the list

In [20]:
groq_llama33_70b_interface = get_llm_interface()

In [35]:
final_deduplicated_references_list, processing_stats = deduplicate_legal_references_list(sorted_merged_references, groq_llama33_70b_interface)

{'A': 63, 'C': 13, 'D': 52, 'E': 1, 'I': 49, 'L': 120, 'M': 9, 'N': 6, 'P': 55, 'R': 7, 'S': 132}

*****************************************
Processing titles starting with A

*****************************************

>> Titles list longer than 20 elements. Clustering by document number to process.
Cluster 0: ['AD PGFN nº 3 de 18 de setembro de 2008', 'ADI RFB nº 12, de 2016', 'Acordo para Evitar a Dupla Tributação em Matéria de Impostos sobre a Renda e o Capital firmado entre o Brasil e a Alemanha', 'Ato Declaratório (AD) PGFN nº 3, de 18 de setembro de 2008', 'Ato Declaratório Cosar nº 47, de 27 de novembro de 2000', 'Ato Declaratório Executivo Codac nº 23, de 4 de dezembro de 2019', 'Ato Declaratório Executivo RFB nº 2, de 6 de março de 2024', 'Ato Declaratório Executivo SRF nº 72, de 22 de dezembro de 2005', 'Ato Declaratório Interpretativo RFB nº 1, de 18 de janeiro de 2016', 'Ato Declaratório Interpretativo RFB nº 18, de 6 de dezembro de 2007', 'Ato Declaratório Interpretativo R

In [36]:
len(final_deduplicated_references_list)

482

In [37]:
final_deduplicated_references_list = np.sort(final_deduplicated_references_list)

In [38]:
for item in list(final_deduplicated_references_list):
    print(item)

AD PGFN nº 3 de 18 de setembro de 2008
ADI RFB nº 12, de 2016
Acordo para Evitar a Dupla Tributação em Matéria de Impostos sobre a Renda e o Capital firmado entre o Brasil e a Alemanha
Acórdão do RE nº 855.091/RS (Tema 808)
Anexo ao Decreto nº 361, de 10 de dezembro de 1991
Ato Declaratório (AD) PGFN nº 3, de 18 de setembro de 2008
Ato Declaratório Cosar nº 47, de 27 de novembro de 2000
Ato Declaratório Executivo Codac nº 23, de 4 de dezembro de 2019
Ato Declaratório Executivo RFB nº 2, de 6 de março de 2024
Ato Declaratório Executivo SRF nº 72, de 22 de dezembro de 2005
Ato Declaratório Interpretativo RFB nº 1, de 18 de janeiro de 2016
Ato Declaratório Interpretativo RFB nº 18, de 6 de dezembro de 2007
Ato Declaratório Interpretativo RFB nº 3, de 27 de abril de 2016
Ato Declaratório Interpretativo SRF nº 14, de 1º de dezembro de 2005
Ato Declaratório Interpretativo SRF nº 14, de 4 de maio de 2004
Ato Declaratório Interpretativo SRF nº 16, de 22 de dezembro de 2005
Ato Declaratório Int

### Check the differences

Manually check if the missing references should have been really removed.

In [41]:
np.setdiff1d(sorted_merged_references, final_deduplicated_references_list)

array(['Ato Declaratório Interpretativo nº 16, de 22 de dezembro de 2005',
       'Ato Declaratório Normativo CST nº 25, de 1989',
       'Ato Declaratório Normativo Cosit nº 19, de 1998',
       'Ato Declaratório PGFN Nº 2, de 10 de março de 2016',
       'Ato Declaratório PGFN nº 1, de 12 de março de 2018',
       'Ato Declaratório PGFN nº 13, de 20 de dezembro de 2011',
       'Ato Declaratório PGFN nº 14, de 1º de dezembro de 2008',
       'Ato Declaratório PGFN nº 6, de 16 de novembro de 2006',
       'Ação Declaratória de Inconstitucionalidade – ADI nº 5.422',
       'Constituição da República Federativa do Brasil',
       'Instrução Normativa SRF nº 81, de 2001',
       'Instrução Normativa SRF nº 83, de 11 de outubro de 2001',
       'Instrução Normativa SRF nº 84, de 2001',
       'Instrução Normativa nº 1.558, de 31 de março de 2015',
       'Instrução Normativa nº 208, de 27 de setembro de 2002',
       'Lei nº 11.053, de 2004',
       'Lei nº 13.105, de 16 de março de 2015 

In [42]:
WRONGLY_REMOVED_BY_LLM=[
    'Ato Declaratório Normativo Cosit nº 19, de 1998',
    'Ato Declaratório PGFN Nº 2, de 10 de março de 2016', 
    'Ato Declaratório PGFN nº 6, de 16 de novembro de 2006',
    'Solução de Consulta Cosit nº 161, de 27 de setembro de 2021',
    'Solução de Consulta Cosit nº 70, de 30 de dezembro de 2013'
]

SHOULD_HAVE_BEEN_REMOVED=[
    'Regulamento da Receita Federal do Brasil - RIR/2018'
]

In [56]:
for to_remove in SHOULD_HAVE_BEEN_REMOVED:
    remove_position = np.where(final_deduplicated_references_list == to_remove)[0][0]

    final_deduplicated_references_list = np.delete(final_deduplicated_references_list, remove_position)

In [57]:
final_deduplicated_references_list.shape

(481,)

In [67]:
final_deduplicated_references_list = np.sort(np.concatenate([final_deduplicated_references_list, WRONGLY_REMOVED_BY_LLM]))

In [68]:
final_deduplicated_references_list.shape

(486,)

In [69]:
with open(DATA_PATH + "llama_deduplicated_embedded_and_annotated_reference_titles_20250214_fixed.pkl", "wb") as output_file:
    pickle.dump(final_deduplicated_references_list, output_file, pickle.HIGHEST_PROTOCOL)