In [1]:
import glob
import os
import pickle

import numpy as np

from itertools import groupby

In [2]:
%load_ext autoreload
%autoreload 2

In [3]:
DATA_PATH="data/"

In [4]:
glob.glob(DATA_PATH + "*")

['data/all_reference_titles_20250204.txt',
 'data/all_reference_titles_not_in_llama_dedup_20250304.txt',
 'data/chunks_normas.pkl',
 'data/chunks_normas_new.pkl',
 'data/drive-download-20250122T172907Z-001.zip',
 'data/extracted_document_matches_20250210.pkl',
 'data/extracted_questions_20250203_final.pkl',
 'data/extracted_questions_20250203_parcial_01.pkl',
 'data/extracted_questions_20250203_parcial_02.pkl',
 'data/extracted_questions_20250203_parcial_03.pkl',
 'data/extracted_questions_20250203_parcial_04.pkl',
 'data/extracted_questions_20250207_final.pkl',
 'data/extracted_questions_with_embedded_references_20250212_before_formatting.pkl',
 'data/llama_deduplicated_20250204.txt',
 'data/llama_deduplicated_20250204_02.txt',
 'data/llama_deduplicated_embedded_and_annoatated_reference_titles_20250213_before_fixes.pkl',
 'data/llama_deduplicated_embedded_reference_titles_20250213_fixed.pkl',
 'data/llama_deduplicated_reference_titles_20250205.txt',
 'data/llama_deduplicated_reference

In [5]:
with open(DATA_PATH + "llama_deduplicated_embedded_reference_titles_20250213_fixed.pkl", "rb") as input_file:
    embedded_references = pickle.load(input_file)

In [6]:
with open(DATA_PATH + "llama_deduplicated_reference_titles_20250210_fixed.pkl", "rb") as input_file:
    annotated_references = pickle.load(input_file)

In [7]:
len(embedded_references)

174

In [8]:
len(annotated_references)

403

In [9]:
sorted_merged_references = np.sort(np.union1d(embedded_references, annotated_references))

In [10]:
sorted_merged_references.shape

(507,)

### Check the effect of clustering the references by number before sending to the LLM for deduplication

Cluster by number after separating by initial letter.

In [11]:
unique_references_by_initial_letter = {key: list(group) for key, group in groupby(sorted_merged_references, key=lambda x: x[0])}

In [12]:
group_counts = {}

for key, value in unique_references_by_initial_letter.items():
    group_counts[key] = len(value)

print(group_counts)

{'A': 63, 'C': 13, 'D': 52, 'E': 1, 'I': 49, 'L': 120, 'M': 9, 'N': 6, 'P': 55, 'R': 7, 'S': 132}


In [16]:
list(unique_references_by_initial_letter.values())

[['AD PGFN nº 3 de 18 de setembro de 2008',
  'ADI RFB nº 12, de 2016',
  'Acordo para Evitar a Dupla Tributação em Matéria de Impostos sobre a Renda e o Capital firmado entre o Brasil e a Alemanha',
  'Acórdão do RE nº 855.091/RS (Tema 808)',
  'Anexo ao Decreto nº 361, de 10 de dezembro de 1991',
  'Ato Declaratório (AD) PGFN nº 3, de 18 de setembro de 2008',
  'Ato Declaratório Cosar nº 47, de 27 de novembro de 2000',
  'Ato Declaratório Executivo Codac nº 23, de 4 de dezembro de 2019',
  'Ato Declaratório Executivo RFB nº 2, de 6 de março de 2024',
  'Ato Declaratório Executivo SRF nº 72, de 22 de dezembro de 2005',
  'Ato Declaratório Interpretativo RFB nº 1, de 18 de janeiro de 2016',
  'Ato Declaratório Interpretativo RFB nº 18, de 6 de dezembro de 2007',
  'Ato Declaratório Interpretativo RFB nº 3, de 27 de abril de 2016',
  'Ato Declaratório Interpretativo SRF nº 14, de 1º de dezembro de 2005',
  'Ato Declaratório Interpretativo SRF nº 14, de 4 de maio de 2004',
  'Ato Declara

In [186]:
from references_normalization import *

In [18]:
clusters_A, cluster_sizes = cluster_legal_references_by_number(unique_references_by_initial_letter['A'])

print(cluster_sizes)

Cluster 0: ['AD PGFN nº 3 de 18 de setembro de 2008', 'ADI RFB nº 12, de 2016', 'Acordo para Evitar a Dupla Tributação em Matéria de Impostos sobre a Renda e o Capital firmado entre o Brasil e a Alemanha', 'Ato Declaratório (AD) PGFN nº 3, de 18 de setembro de 2008', 'Ato Declaratório Cosar nº 47, de 27 de novembro de 2000', 'Ato Declaratório Executivo Codac nº 23, de 4 de dezembro de 2019', 'Ato Declaratório Executivo RFB nº 2, de 6 de março de 2024', 'Ato Declaratório Executivo SRF nº 72, de 22 de dezembro de 2005', 'Ato Declaratório Interpretativo RFB nº 1, de 18 de janeiro de 2016', 'Ato Declaratório Interpretativo RFB nº 18, de 6 de dezembro de 2007', 'Ato Declaratório Interpretativo RFB nº 3, de 27 de abril de 2016', 'Ato Declaratório Interpretativo SRF nº 14, de 1º de dezembro de 2005', 'Ato Declaratório Interpretativo SRF nº 14, de 4 de maio de 2004', 'Ato Declaratório Interpretativo SRF nº 16, de 22 de dezembro de 2005', 'Ato Declaratório Interpretativo SRF nº 2, de 27 de març

In [39]:
clusters_S, cluster_sizes = cluster_legal_references_by_number(unique_references_by_initial_letter['S'], max_cluster_size_reference=8)

print(cluster_sizes)

Cluster 10: ['Sistema de Recolhimento Mensal Obrigatório (Carnê-Leão)', 'Solução de Consulta Cosit nº 14, de 16 de janeiro de 2017', 'Solução de Consulta Cosit nº 4, de 3 de março de 2021', 'Solução de Consulta Cosit nº 6, de 3 de janeiro de 2019', 'Solução de Consulta Cosit nº 7, de 13 de janeiro de 2017', 'Solução de Consulta Interna Cosit nº 10, de 5 de junho de 2014', 'Solução de Consulta Interna Cosit nº 11, de 28 de junho de 2012', 'Solução de Consulta Interna Cosit nº 12, de 15 de maio de 2013', 'Solução de Consulta Interna Cosit nº 2, de 14 de janeiro de 2014', 'Solução de Consulta Interna Cosit nº 3, de 8 de fevereiro de 2012', 'Solução de Consulta Interna Cosit nº 4, de 17 de abril de 2012', 'Solução de Consulta Interna Cosit nº 5, de 15 de fevereiro de 2013', 'Solução de Consulta Interna Cosit nº 5, de 28 de março de 2006', 'Solução de Consulta Interna Cosit nº 6, de 18 de maio de 2015', 'Solução de Consulta Interna Cosit nº 7, de 17 de maio de 2012', 'Solução de Divergência

In [34]:
clusters_P, cluster_sizes = cluster_legal_references_by_number(unique_references_by_initial_letter['P'])

print(cluster_sizes)

Cluster 2: ['PMF nº 227, de 1980', 'PMF nº 454, de 1977', 'PMF nº 80, de 1979', 'Parecer Cosit nº 30, de 28 de setembro de 2001', 'Parecer Normativo CST nº 1, de 4 de fevereiro de 1985', 'Parecer Normativo CST nº 10, de 17 de agosto de 1992', 'Parecer Normativo CST nº 122, de 8 de junho de 1974', 'Parecer Normativo CST nº 129, de 13 de setembro de 1973', 'Parecer Normativo CST nº 130, de 1975', 'Parecer Normativo CST nº 130, de 8 de julho de 1970', 'Parecer Normativo CST nº 173, de 26 de setembro de 1974', 'Parecer Normativo CST nº 179, de 1970', 'Parecer Normativo CST nº 2, de 15 de janeiro de 1980', 'Parecer Normativo CST nº 25, de 1976', 'Parecer Normativo CST nº 250, de 15 de março de 1971', 'Parecer Normativo CST nº 28, de 29 de dezembro de 1983', 'Parecer Normativo CST nº 32, de 17 de agosto de 1981', 'Parecer Normativo CST nº 36, de 30 de maio de 1977', 'Parecer Normativo CST nº 38, de 1975', 'Parecer Normativo CST nº 44, de 30 de junho de 1976', 'Parecer Normativo CST nº 6, de 

### Now use LLM to deduplicate the list

In [20]:
groq_llama33_70b_interface = get_llm_interface()

In [35]:
final_deduplicated_references_list, processing_stats = deduplicate_legal_references_list(sorted_merged_references, groq_llama33_70b_interface)

{'A': 63, 'C': 13, 'D': 52, 'E': 1, 'I': 49, 'L': 120, 'M': 9, 'N': 6, 'P': 55, 'R': 7, 'S': 132}

*****************************************
Processing titles starting with A

*****************************************

>> Titles list longer than 20 elements. Clustering by document number to process.
Cluster 0: ['AD PGFN nº 3 de 18 de setembro de 2008', 'ADI RFB nº 12, de 2016', 'Acordo para Evitar a Dupla Tributação em Matéria de Impostos sobre a Renda e o Capital firmado entre o Brasil e a Alemanha', 'Ato Declaratório (AD) PGFN nº 3, de 18 de setembro de 2008', 'Ato Declaratório Cosar nº 47, de 27 de novembro de 2000', 'Ato Declaratório Executivo Codac nº 23, de 4 de dezembro de 2019', 'Ato Declaratório Executivo RFB nº 2, de 6 de março de 2024', 'Ato Declaratório Executivo SRF nº 72, de 22 de dezembro de 2005', 'Ato Declaratório Interpretativo RFB nº 1, de 18 de janeiro de 2016', 'Ato Declaratório Interpretativo RFB nº 18, de 6 de dezembro de 2007', 'Ato Declaratório Interpretativo R

In [36]:
len(final_deduplicated_references_list)

482

In [37]:
final_deduplicated_references_list = np.sort(final_deduplicated_references_list)

In [38]:
for item in list(final_deduplicated_references_list):
    print(item)

AD PGFN nº 3 de 18 de setembro de 2008
ADI RFB nº 12, de 2016
Acordo para Evitar a Dupla Tributação em Matéria de Impostos sobre a Renda e o Capital firmado entre o Brasil e a Alemanha
Acórdão do RE nº 855.091/RS (Tema 808)
Anexo ao Decreto nº 361, de 10 de dezembro de 1991
Ato Declaratório (AD) PGFN nº 3, de 18 de setembro de 2008
Ato Declaratório Cosar nº 47, de 27 de novembro de 2000
Ato Declaratório Executivo Codac nº 23, de 4 de dezembro de 2019
Ato Declaratório Executivo RFB nº 2, de 6 de março de 2024
Ato Declaratório Executivo SRF nº 72, de 22 de dezembro de 2005
Ato Declaratório Interpretativo RFB nº 1, de 18 de janeiro de 2016
Ato Declaratório Interpretativo RFB nº 18, de 6 de dezembro de 2007
Ato Declaratório Interpretativo RFB nº 3, de 27 de abril de 2016
Ato Declaratório Interpretativo SRF nº 14, de 1º de dezembro de 2005
Ato Declaratório Interpretativo SRF nº 14, de 4 de maio de 2004
Ato Declaratório Interpretativo SRF nº 16, de 22 de dezembro de 2005
Ato Declaratório Int

### Check the differences

Manually check if the missing references should have been really removed.

In [41]:
np.setdiff1d(sorted_merged_references, final_deduplicated_references_list)

array(['Ato Declaratório Interpretativo nº 16, de 22 de dezembro de 2005',
       'Ato Declaratório Normativo CST nº 25, de 1989',
       'Ato Declaratório Normativo Cosit nº 19, de 1998',
       'Ato Declaratório PGFN Nº 2, de 10 de março de 2016',
       'Ato Declaratório PGFN nº 1, de 12 de março de 2018',
       'Ato Declaratório PGFN nº 13, de 20 de dezembro de 2011',
       'Ato Declaratório PGFN nº 14, de 1º de dezembro de 2008',
       'Ato Declaratório PGFN nº 6, de 16 de novembro de 2006',
       'Ação Declaratória de Inconstitucionalidade – ADI nº 5.422',
       'Constituição da República Federativa do Brasil',
       'Instrução Normativa SRF nº 81, de 2001',
       'Instrução Normativa SRF nº 83, de 11 de outubro de 2001',
       'Instrução Normativa SRF nº 84, de 2001',
       'Instrução Normativa nº 1.558, de 31 de março de 2015',
       'Instrução Normativa nº 208, de 27 de setembro de 2002',
       'Lei nº 11.053, de 2004',
       'Lei nº 13.105, de 16 de março de 2015 

In [42]:
WRONGLY_REMOVED_BY_LLM=[
    'Ato Declaratório Normativo Cosit nº 19, de 1998',
    'Ato Declaratório PGFN Nº 2, de 10 de março de 2016', 
    'Ato Declaratório PGFN nº 6, de 16 de novembro de 2006',
    'Solução de Consulta Cosit nº 161, de 27 de setembro de 2021',
    'Solução de Consulta Cosit nº 70, de 30 de dezembro de 2013'
]

SHOULD_HAVE_BEEN_REMOVED=[
    'Regulamento da Receita Federal do Brasil - RIR/2018'
]

In [56]:
for to_remove in SHOULD_HAVE_BEEN_REMOVED:
    remove_position = np.where(final_deduplicated_references_list == to_remove)[0][0]

    final_deduplicated_references_list = np.delete(final_deduplicated_references_list, remove_position)

In [57]:
final_deduplicated_references_list.shape

(481,)

In [67]:
final_deduplicated_references_list = np.sort(np.concatenate([final_deduplicated_references_list, WRONGLY_REMOVED_BY_LLM]))

In [68]:
final_deduplicated_references_list.shape

(486,)

#### Save final references list

In [69]:
with open(DATA_PATH + "llama_deduplicated_embedded_and_annotated_reference_titles_20250214_fixed.pkl", "wb") as output_file:
    pickle.dump(final_deduplicated_references_list, output_file, pickle.HIGHEST_PROTOCOL)

## Map extracted reference filenames to one of the deduplicated ones

In [72]:
doc_matcher = legalDocumentsMatcher(DATA_PATH + "llama_deduplicated_embedded_and_annotated_reference_titles_20250214_fixed.pkl")

In [73]:
with open(DATA_PATH + "normas_full.json", 'r') as file:
    normas_json = json.load(file)

all_extracted_docs_titles = np.sort(list(normas_json.keys()))

print(all_extracted_docs_titles.shape)

(332,)


In [74]:
extracted_documents_parts = [split_document_name(which_document.split(".txt")[0]) for which_document in all_extracted_docs_titles]

In [75]:
extracted_documents_matches = []

for extracted_id, extracted_doc in enumerate(extracted_documents_parts):

    result = doc_matcher.get_best_match_for_parts(extracted_doc)

    extracted_documents_matches.append({"extracted_title": all_extracted_docs_titles[extracted_id],
                                        "title_f1": result["title_f1"],
                                        "number_f1": result["number_f1"],
                                        "date_f1": result["date_f1"],
                                        "best_matches": result["best_matches"],})

### Check documents matches

In [76]:
exact_matches = []
multiple_matches = []

for doc_match in extracted_documents_matches:
    if len(doc_match['best_matches']) == 1:
        exact_matches.append(doc_match)
    else:
        multiple_matches.append(doc_match)

In [77]:
print(f"Number of exact matches={len(exact_matches)}; number of multiple matches={len(multiple_matches)}")

Number of exact matches=298; number of multiple matches=34


In [78]:
import pandas as pd

In [80]:
pd.set_option("display.max_colwidth", None)
pd.set_option("display.max_rows", 500)

In [81]:
pd.DataFrame(multiple_matches)

Unnamed: 0,extracted_title,title_f1,number_f1,date_f1,best_matches
0,Ato Declaratório PGFN nº 1.txt,1.0,1.0,0,"[Ato Declaratório PGFN Nº 1, de 12 de março de 2018, Ato Declaratório PGFN Nº 1, de 18 de fevereiro de 2005, Ato Declaratório PGFN Nº 1, de 2 de janeiro de 2014, Ato Declaratório PGFN Nº 1, de 27 de março de 2009]"
1,Ato Declaratório PGFN nº 4.txt,1.0,1.0,0,"[Ato Declaratório PGFN nº 4, de 16 de novembro de 2006, Ato Declaratório PGFN nº 4, de 12 de agosto de 2002]"
2,Ato Declaratório PGFN nº 5.txt,1.0,1.0,0,"[Ato Declaratório PGFN nº 5, de 3 de maio de 2016, Ato Declaratório PGFN nº 5, de 16 de novembro de 2006]"
3,Ato Declaratório RFB nº 16.txt,0.666667,1.0,0,"[Ato Declaratório Interpretativo SRF nº 16, de 22 de dezembro de 2005, Ato Declaratório Normativo CST nº 16, de 27 de julho de 1979]"
4,Ato Declaratório SRF nº 14.txt,0.888889,1.0,0,"[Ato Declaratório Interpretativo SRF nº 14, de 1º de dezembro de 2005, Ato Declaratório Interpretativo SRF nº 14, de 4 de maio de 2004]"
5,Instrução Normativa RFB nº 1.131.txt,1.0,1.0,0,"[Instrução Normativa RFB nº 1.131, de 21 de fevereiro de 2011, Instrução Normativa RFB nº 1.131, de 20 de fevereiro de 2011]"
6,Instrução Normativa RFB nº 1.585.txt,1.0,1.0,0,"[Instrução Normativa RFB nº 1.585, de 31 de agosto de 2015, Instrução Normativa RFB nº 1.585, de 31 de dezembro de 2015]"
7,Instrução Normativa RFB nº 118.txt,0.75,1.0,0,"[Instrução Normativa SRF nº 118, de 28 de dezembro de 2000, Instrução Normativa SRF nº 118, de 27 de dezembro de 2000]"
8,Instrução Normativa RFB nº 84.txt,0.75,1.0,0,"[Instrução Normativa SRF nº 84, de 20 de dezembro de 1979, Instrução Normativa SRF nº 84, de 11 de outubro de 2001]"
9,Lei nº 1.428.txt,1.0,0.0,0,"[Lei nº 7.713, de 22 de dezembro de 1988, Lei nº 4.862, de 29 de novembro de 1965, Lei nº 14.286, de 29 de dezembro de 2021, Lei nº 14.754, de 12 de dezembro de 2023, Lei nº 2.579, de 23 de agosto de 1955, Lei nº 4.242, de 1963, Lei nº 4.504, de 30 de novembro de 1964, Lei nº 4.506, de 30 de novembro de 1964, Lei nº 4.591, de 16 de dezembro de 1964, Lei nº 4.886, de 9 de dezembro de 1965, Lei nº 14.119, de 13 de janeiro de 2021, Lei nº 5.172, de 25 de outubro de 1966 - Código Tributário Nacional (CTN), Lei nº 5.809, de 10 de outubro de 1972, Lei nº 6.015, de 31 de dezembro de 1973, Lei nº 6.404, de 15 de dezembro de 1976, Lei nº 6.766, de 19 de dezembro de 1979, Lei nº 7.070, de 20 de dezembro de 1982, Lei nº 7.290, de 19 de dezembro de 1984, Lei nº 14.260, de 8 de dezembro de 2021, Lei nº 13.800, de 4 de janeiro de 2019, Lei nº 12.249, de 11 de junho de 2010, Lei nº 12.973, de 13 de maio de 2014, Lei nº 12.513, de 26 de outubro de 2011, Lei nº 12.594, de 18 de janeiro de 2012, Lei nº 12.618, de 30 de abril de 2012, Lei nº 12.715, de 17 de setembro de 2012, Lei nº 12.794, de 2 de abril de 2013, Lei nº 12.832, de 20 de junho de 2013, Lei nº 12.871, de 22 de outubro de 2013, Lei nº 13.043, de 13 de novembro de 2014, Lei nº 13.466, de 12 de julho de 2017, Lei nº 13.097, de 19 de janeiro de 2015, Lei nº 13.105, de 16 de março de 2015 - Código de Processo Civil - CPC, Lei nº 13.149, de 21 de julho de 2015, Lei nº 13.254, de 13 de janeiro de 2016, Lei nº 13.259, de 16 de março de 2016, Lei nº 13.315, de 20 de julho de 2016, Lei nº 13.428, de 30 de março de 2017, Lei nº 7.713, de 22 de dezembro de 1998, Lei nº 7.739, de 16 de março de 1989, Lei nº 8.023, de 12 de abril de 1990, Lei nº 9.468, de 10 de julho de 1997, Lei nº 9.250, de 26 de dezembro de 1995, Lei nº 9.250, de 26 de dezembro de 2005, Lei nº 9.278, de 10 de maio de 1996, Lei nº 9.307, de 23 de setembro de 1996, Lei nº 9.393, de 19 de dezembro de 1996 - Imposto sobre a Propriedade Territorial Rural (ITR), Lei nº 9.394, de 20 de dezembro de 1996, Lei nº 9.430, de 27 de dezembro de 1996, Lei nº 9.481, de 13 de agosto de 1997, Lei nº 8.036, de 11 de maio de 1990 - Lei do Fundo de Garantia do Tempo de Serviço (FGTS), Lei nº 9.504, de 30 de setembro de 1997, Lei nº 9.532, de 10 de dezembro de 1997, Lei nº 9.615, de 24 de março de 1998, Lei nº 9.718, de 27 de novembro de 1998, Lei nº 9.779, de 19 de janeiro de 1999, Lei nº 9.784, de 29 de janeiro de 1999, Lei nº 9.959, de 27 de janeiro de 2000, Lei nº 9.249, de 26 de dezembro de 1995, Lei nº 9.140, de 4 de dezembro de 1995, Lei nº 9.096, de 19 de setembro de 1995, Lei nº 9.003, de 16 de março de 1995, Lei nº 8.059, de 4 de julho de 1990, Lei nº 8.069, de 13 de julho de 1990 - Estatuto da Criança e do Adolescente, Lei nº 8.112, de 11 de dezembro de 1990, Lei nº 8.134, de 27 de dezembro de 1990, Lei nº 8.242, de 12 de outubro de 1991, Lei nº 8.313, de 23 de dezembro de 1991, Lei nº 8.383, de 30 de dezembro de 1991, Lei nº 8.541, de 23 de dezembro de 1992, Lei nº 8.668, de 25 de junho de 1993, Lei nº 8.685, de 20 de julho de 1993, Lei nº 8.852, de 4 de fevereiro de 1994, Lei nº 8.891, de 20 de janeiro de 1995, Lei nº 8.929, de 22 de agosto de 1994, Lei nº 8.971, de 29 de dezembro de 1994, Lei nº 8.981, de 20 de janeiro de 1995, Lei nº 12.431, de 24 de junho de 2011, Lei nº 12.350, de 20 de dezembro de 2010, Lei nº 11.033, de 21 de dezembro de 2004, Lei nº 11.196, de 21 de novembro de 2005, Lei nº 10.101, de 19 de dezembro de 2000, Lei nº 10.200, de 14 de fevereiro de 2001, Lei nº 10.406, de 10 de janeiro de 2002 - Código Civil, Lei nº 10.451, de 10 de maio de 2002, Lei nº 10.522, de 19 de julho de 2002, Lei nº 10.559, de 13 de novembro de 2002, Lei nº 10.698, de 2 de julho de 2003, Lei nº 10.741, de 1º de outubro de 2003, Lei nº 10.833, de 29 de dezembro de 2003, Lei nº 10.865, de 30 de abril de 2004, Lei nº 10.973, de 2 de dezembro de 2004, Lei nº 11.051, de 29 de dezembro de 2004, Lei nº 11.053, de 29 de dezembro de 2004, Lei nº 12.190, de 13 de janeiro de 2010, Lei nº 11.312, de 27 de junho de 2006, Lei nº 11.727, de 23 de junho de 2008, Lei nº 12.024, de 27 de agosto de 2009, Lei nº 11.945, de 4 de junho de 2009, Lei nº 11.941, de 27 de maio de 2009, ...]"


#### Additional list of legal references to remove

Due to remaining duplications, which need to be manually fixed.

In [174]:
REFERENCES_ADDITIONAL_REMOVALS=[
    'Instrução Normativa RFB nº 1.585, de 31 de dezembro de 2015',
    'Instrução Normativa RFB nº 1.131, de 21 de fevereiro de 2011',
    'Instrução Normativa SRF nº 118, de 27 de dezembro de 2000',
    'Lei nº 7.713, de 22 de dezembro de 1998',
    'Lei nº 9.250, de 26 de dezembro de 2005',
    'Medida Provisória nº 2.159, de 24 de agosto de 2001',
    'Medida Provisória nº 2.189, de 2001',
]

#### References to add

In [175]:
REFERENCES_ADDITIONS=[
    'Parecer Cosit nº 26, de 29 de junho de 2000',
    'Solução de Consulta Cosit nº 153, de 11 de junho de 2014',
]

### Apply fixes in the references list

In [176]:
final_deduplicated_references_list.shape

(486,)

In [177]:
for to_remove in REFERENCES_ADDITIONAL_REMOVALS:
    remove_position = np.where(final_deduplicated_references_list == to_remove)[0][0]

    final_deduplicated_references_list = np.delete(final_deduplicated_references_list, remove_position)

In [178]:
final_deduplicated_references_list.shape

(479,)

In [179]:
final_deduplicated_references_list = np.sort(np.concatenate([final_deduplicated_references_list, REFERENCES_ADDITIONS]))

In [180]:
final_deduplicated_references_list.shape

(481,)

In [181]:
with open(DATA_PATH + "llama_deduplicated_embedded_and_annotated_reference_titles_20250214_fixed_after_match.pkl", "wb") as output_file:
    pickle.dump(final_deduplicated_references_list, output_file, pickle.HIGHEST_PROTOCOL)

In [182]:
doc_matcher_02 = legalDocumentsMatcher(DATA_PATH + "llama_deduplicated_embedded_and_annotated_reference_titles_20250214_fixed_after_match.pkl")

In [187]:
match_results = execute_references_match(doc_matcher_02, all_extracted_docs_titles)

Number of exact matches=306; number of multiple matches=26


In [188]:
match_results.keys()

dict_keys(['extracted_references_matches', 'exact_matches', 'multiple_matches'])

In [226]:
match_results['extracted_references_matches']

[{'extracted_title': 'Ato Declaratório Cosar nº 47.txt',
  'title_f1': 1.0,
  'number_f1': 1.0,
  'date_f1': 0,
  'best_matches': ['Ato Declaratório Cosar nº 47, de 27 de novembro de 2000']},
 {'extracted_title': 'Ato Declaratório Interpretativo RFB nº 1.txt',
  'title_f1': 1.0,
  'number_f1': 1.0,
  'date_f1': 0,
  'best_matches': ['Ato Declaratório Interpretativo RFB nº 1, de 18 de janeiro de 2016']},
 {'extracted_title': 'Ato Declaratório Interpretativo SRF nº 2.txt',
  'title_f1': 1.0,
  'number_f1': 1.0,
  'date_f1': 0,
  'best_matches': ['Ato Declaratório Interpretativo SRF nº 2, de 27 de março de 2007']},
 {'extracted_title': 'Ato Declaratório Interpretativo SRF nº 24.txt',
  'title_f1': 1.0,
  'number_f1': 1.0,
  'date_f1': 0,
  'best_matches': ['Ato Declaratório Interpretativo SRF nº 24, de 4 de outubro de 2004']},
 {'extracted_title': 'Ato Declaratório Interpretativo SRF nº 5.txt',
  'title_f1': 1.0,
  'number_f1': 1.0,
  'date_f1': 0,
  'best_matches': ['Ato Declaratório Int

In [203]:
for e in match_results['multiple_matches']:
    print(e['extracted_title'])

Ato Declaratório PGFN nº 1.txt
Ato Declaratório PGFN nº 4.txt
Ato Declaratório PGFN nº 5.txt
Ato Declaratório RFB nº 16.txt
Ato Declaratório SRF nº 14.txt
Instrução Normativa RFB nº 84.txt
Lei nº 1.428.txt
Lei nº 12.469.txt
Lei nº 9250.txt
Nota PGFN nº 1.1042017.txt
Nota PGFN nº 1.5492012.txt
Nota PGFNCRJ nº 1.0402015.txt
Nota PGFNCRJ nº 9812015.txt
RIR2018.txt
Solução de Consulta Cosit nº 161.txt
Solução de Consulta Cosit nº 19.txt
Solução de Consulta Cosit nº 204.txt
Solução de Consulta Cosit nº 224.txt
Solução de Consulta Cosit nº 240.txt
Solução de Consulta Cosit nº 264.txt
Solução de Consulta Cosit nº 337.txt
Solução de Consulta Cosit nº 48.txt
Solução de Consulta Cosit nº 60.txt
Solução de Consulta Cosit nº 70.txt
Solução de Consulta Cosit nº 82.txt
Solução de Consulta Cosit nº 98.txt


In [205]:
match_results['exact_matches']

[{'extracted_title': 'Ato Declaratório Cosar nº 47.txt',
  'title_f1': 1.0,
  'number_f1': 1.0,
  'date_f1': 0,
  'best_matches': ['Ato Declaratório Cosar nº 47, de 27 de novembro de 2000']},
 {'extracted_title': 'Ato Declaratório Interpretativo RFB nº 1.txt',
  'title_f1': 1.0,
  'number_f1': 1.0,
  'date_f1': 0,
  'best_matches': ['Ato Declaratório Interpretativo RFB nº 1, de 18 de janeiro de 2016']},
 {'extracted_title': 'Ato Declaratório Interpretativo SRF nº 2.txt',
  'title_f1': 1.0,
  'number_f1': 1.0,
  'date_f1': 0,
  'best_matches': ['Ato Declaratório Interpretativo SRF nº 2, de 27 de março de 2007']},
 {'extracted_title': 'Ato Declaratório Interpretativo SRF nº 24.txt',
  'title_f1': 1.0,
  'number_f1': 1.0,
  'date_f1': 0,
  'best_matches': ['Ato Declaratório Interpretativo SRF nº 24, de 4 de outubro de 2004']},
 {'extracted_title': 'Ato Declaratório Interpretativo SRF nº 5.txt',
  'title_f1': 1.0,
  'number_f1': 1.0,
  'date_f1': 0,
  'best_matches': ['Ato Declaratório Int

#### Matches manual fixes

Manual fixes to be done, due to problems in the extracted files naming.

In [274]:
MATCH_FIXES={
    "Ato Declaratório PGFN nº 1.txt": "Ato Declaratório PGFN Nº 1, de 18 de fevereiro de 2005", 
    "Ato Declaratório PGFN nº 4.txt": "Ato Declaratório PGFN nº 4, de 12 de agosto de 2002", 
    "Ato Declaratório PGFN nº 5.txt": "Ato Declaratório PGFN nº 5, de 16 de novembro de 2006",
    "Ato Declaratório SRF nº 14.txt": "Ato Declaratório Interpretativo SRF nº 14, de 1º de dezembro de 2005",
    "Instrução Normativa RFB nº 84.txt": "Instrução Normativa SRF nº 84, de 11 de outubro de 2001",
    "Nota PGFN nº 1.1042017.txt": "Nota PGFN CRJ nº 1.104/2017",
    "Nota PGFN nº 1.5492012.txt": "Nota PGFN CRJ nº 1.549/2012",
    "Nota PGFNCRJ nº 1.0402015.txt": "Nota PGFN/CRJ nº 1.040/2015",
    "Nota PGFNCRJ nº 9812015.txt": "Nota PGFN/CRJ nº 981/2015",
    "RIR2018.txt": "Regulamento do Imposto sobre a Renda - RIR/2018, aprovado pelo Decreto nº 9.580, de 22 de novembro de 2018",
    "Solução de Consulta Cosit nº 161.txt": "Solução de Consulta Cosit nº 161, de 7 de agosto de 2023",
    "Solução de Consulta Cosit nº 204.txt": "Solução de Consulta Cosit nº 204, de 4 de setembro de 2023", 
    "Solução de Consulta Cosit nº 224.txt": "Solução de Consulta Cosit nº 224, de 25 de setembro de 2023", 
    "Solução de Consulta Cosit nº 337.txt": "Solução de Consulta Cosit nº 337, de 28 de dezembro de 2018",
    "Solução de Consulta Cosit nº 48.txt": "Solução de Consulta Cosit nº 48, de 24 de março de 2021", 
    "Solução de Consulta Cosit nº 82.txt": "Solução de Consulta Cosit nº 82, de 4 de abril de 2023",
    "Parecer PGFN nº 1.8882008.txt": "Parecer PGFN/PGA/Nº 1.888/2008",
    "Parecer PGFN nº 21182011.txt": "Parecer PGFN/CRJ/Nº 2118/2011, de 10 de novembro de 2011", 
    "Parecer PGFN nº 26832008.txt": "Parecer PGFN/PGA/Nº 2683/2008, de 28 de novembro de 2008",
    "Parecer PGFN nº 7012016.txt": "Parecer PGFN/CRJ/Nº 701/2016",
    "Parecer PGFNCRJ Nº 22712013.txt": "Parecer PGFN/CRJ Nº 2271/2013, de 10 de dezembro de 2013",
}

### This list contains all the documents already extracted in a wrong version and shall be removed from the corpus

In [275]:
WRONG_EXTRACTED_FILES=[
    "Ato Declaratório RFB nº 16.txt",  
    "Lei nº 9.250.txt",
    "Lei nº 9250.txt",
    "Lei nº 1.428.txt",
    "Lei nº 12.469.txt",
    "Solução de Consulta Cosit nº 19.txt",
    "Solução de Consulta Cosit nº 240.txt",
    "Solução de Consulta Cosit nº 264.txt",
    "Solução de Consulta Cosit nº 60.txt",
    "Solução de Consulta Cosit nº 70.txt",
    "Solução de Consulta Cosit nº 98.txt",
]

### Build extracted documents—references list translation tables

In [276]:
file_to_reference = {}

for exact_match in match_results['exact_matches']:
    if exact_match['extracted_title'] not in WRONG_EXTRACTED_FILES:
        file_to_reference[exact_match['extracted_title']] = exact_match['best_matches'][0]
    else:
        print(f"Removing file {exact_match['extracted_title']}")

Removing file Lei nº 9.250.txt


In [277]:
len(file_to_reference)

305

In [278]:
for additional_file, additional_match in MATCH_FIXES.items():
    if additional_file in file_to_reference:
        print(f"Fix for {additional_file} file replacing previous match!!!")
        
    file_to_reference[additional_file] = additional_match

Fix for Parecer PGFN nº 1.8882008.txt file replacing previous match!!!
Fix for Parecer PGFN nº 21182011.txt file replacing previous match!!!
Fix for Parecer PGFN nº 26832008.txt file replacing previous match!!!
Fix for Parecer PGFN nº 7012016.txt file replacing previous match!!!
Fix for Parecer PGFNCRJ Nº 22712013.txt file replacing previous match!!!


In [279]:
len(file_to_reference)

321

In [280]:
already_extracted = np.sort(list(file_to_reference.values()))

In [281]:
already_extracted.shape

(321,)

In [282]:
still_to_extract = np.setdiff1d(final_deduplicated_references_list, already_extracted)

In [283]:
still_to_extract.shape

(160,)

In [284]:
final_deduplicated_references_list.shape

(481,)

In [285]:
u1 = np.unique(final_deduplicated_references_list, return_counts=True)

In [286]:
u1[0].shape

(481,)

In [287]:
u2 = np.unique(already_extracted, return_counts=True)

In [288]:
u2[0][u2[1] > 1]

array([], dtype='<U144')

In [289]:
for k, v in file_to_reference.items():
    if v in ['Ato Declaratório Interpretativo SRF nº 16, de 22 de dezembro de 2005', 'Parecer nº 93/2018/DECOR/CGU/AGU']:
        print(f"{k}: {v}")

Ato Declaratório SRF nº 16.txt: Ato Declaratório Interpretativo SRF nº 16, de 22 de dezembro de 2005


In [290]:
with open(DATA_PATH + "extracted_reference_match_results_20250214.pkl", "wb") as output_file:
    pickle.dump({'exact_matches': match_results['exact_matches'],
                 'multiple_matches': match_results['multiple_matches'],
                 'file_to_reference': file_to_reference,
                 'already_extracted': already_extracted,
                 'still_to_extract': still_to_extract}, output_file, pickle.HIGHEST_PROTOCOL)
    

### Checking the document versions to verify which ones have been extracted

In [250]:
normas_json["Parecer PGFNCRJ Nº 22712013.txt"]

'Multivigente  Vigente  Original  Relacional\nPARECER PGFN Nº 2271, DE 10 DE DEZEMBRO DE 2013\n(Publicado(a) no DOU de 13/12/2013, seção 1, página 132)  \nTributário. Imposto de Renda e Contribuição Previdenciária.\nReembolso-babá. Não incidência. Jurisprudência pacífica do\nSuperior Tribunal de Justiça. Matéria infraconstitucional.\nAplicação da Lei nº 10.522, de 19 de julho de 2002, e do\nDecreto nº 2.346, de 10 de outubro de 1997. Possibilidade de\na Procuradoria-Geral da Fazenda Nacional não contestar, não\ninterpor recursos e desistir dos já interpostos, quanto à\nmatéria sob análise.\n(Vide Despacho MF nº sn, de 12 de dezembro de 2013)\nO escopo do presente Parecer é analisar a possibilidade de se promover, com base no inciso II do artigo 19\nda Lei nº 10.522, de 19 de julho de 2002, e no Decreto nº 2.346, de 10 de outubro de 1997, a dispensa de interposição\nde recursos ou o requerimento de desistência dos já interpostos, com relação às decisões judiciais que fixam o\nentendimen

In [249]:
normas_json["Parecer PGFN nº 7012016.txt"]

' \n \n \nProcuradoria-Geral da Fazenda Nacional \nCoordenação-Geral da Representação Judicial da Fazenda Nacional – CRJ  \nCoordenação de Consultoria Judicial – COJUD \n \n \n \n \n  \n \n \nPARECER PGFN/CRJ/No 701/2016             \n \n \n \nTributário. Isenção. Imposto de Renda incidente \nsobre os proventos de aposentadoria, pensão ou \nreforma percebidos por portadores de moléstias \ngraves, nos termos do art. 6º, incisos XIV e XXI, \nda Lei nº 7.713, de 1988, independentemente da \ncomprovação \nda \ncontemporaneidade \ndos \nsintomas ou da recidiva da enfermidade. \n \nJurisprudência \npacífica \ndo \nEgrégio \nSuperior \nTribunal de Justiça.  \n \nAplicação do art. 19, II, da Lei nº 10.522, de 19 de \njulho de 2002, e do art. 5º do Decreto nº 2.346, de \n10 de outubro de 1997. Procuradoria-Geral da \nFazenda Nacional autorizada a não contestar, a \nnão interpor recursos e a desistir dos já \ninterpostos. \n \n \nI \n  \nO presente parecer tem por escopo analisar a viabilidade d

In [248]:
normas_json["Parecer PGFN nº 26832008.txt"]

'PARECER  \nPGFN/PGA/Nº   2683/2008 \n \n \n \n \nAto Declaratório do PGFN. Dispensa de contestar e \nrecorrer. Não constituição do crédito tributário. \nDesnecessidade de retenção na fonte. Impossibilidade \nde inscrição em DAU.   \n \n \n \n \n \nTrata-se do Memo RFB/GAB/Nº 138/2008, de 13 de novembro de 2008, o qual \nencaminha a Nota Cosit nº 364, de mesma data. Tal Nota se propôs a analisar as minutas de pareceres \nda PGFN que fundamentarão uma nova leva de atos declaratórios, a serem editados nos termos do art. \n19 da Lei nº 10.522/2002. Tal apreciação foi feita previamente ao encaminhamento dos pareceres ao \nSenhor Ministro de Estado da Fazenda.   \n \n2. \nA questão a ser respondida no presente Parecer foi assim formulada pela RFB:  \n \n9.2. O segundo comentário diz respeito ao procedimento a ser adotado pelas fontes \npagadoras dos rendimentos de que trata a matéria. Tanto a Lei, como os pareceres da \nPGFN não tratam do assunto. \n9.2.1. A questão principal é quanto à obr

In [247]:
normas_json["Parecer PGFN nº 21182011.txt"]

'MINISTÉRIO DA FAZENDA\nPROCURADORIA-GERAL DA FAZENDA NACIONAL\nPARECER PGFN/CRJ/No 2118  /2011\nAnálise interpretativa do Ato Declaratório PGFN \nnº 2, de 27 de agosto de 2010, publicado no DOU \nem 17 de setembro de 2010.\nI\nA Secretaria da Receita Federal do Brasil ─ RFB encaminha à Procuradoria-\nGeral da Fazenda Nacional ─ PGFN, por intermédio do Memorando RFB/GABIN/Nº 1.145, \nde 14 de dezembro de 2010, a Nota Cosit nº 354, de 10 de novembro de 2010, que trata sobre \nquestionamentos relativos à correta interpretação do Ato Declaratório PGFN nº 2, de 27 de \nagosto de 2010, publicado no DOU em 17 de setembro de 20101.\nII\n2.\nDa leitura da Nota Cosit nº 354, de 2010, verifica-se que a RFB requer a \ndefinição e abrangência da expressão auxílio-creche disposta no Ato Declaratório PGFN nº 2, \nde 2010, face às diferentes acepções de tal termo na legislação federal, e indaga sobre o \neventual reflexo ao citado ato declaratório da decisão do Conselho de Justiça Federal nos \nautos

In [246]:
normas_json['Parecer PGFN nº 1.8882008.txt']

'P A R E C E R \nPGFN/PGA/Nº   1888/2008 \n \n \n \nTributário. Imposto de Renda. Parcela indenizatória devida aos \nparlamentares. \nConvocação \npara \nsessão \nlegislativa \nextraordinária. Não incidência. \n  \nJurisprudência pacífica do Egrégio Superior Tribunal de \nJustiça. \n \nAplicação da Lei nº 10.522, de 19 de julho de 2002, e do \nDecreto nº 2.346, de 10 de outubro de 1997. Procuradoria-\nGeral da Fazenda Nacional autorizada a não contestar, a não \ninterpor recursos e a desistir dos já interpostos. \n \n \n \n \nI \n \n \n \nO escopo do presente Parecer é analisar a possibilidade de se promover, com base no \ninciso II do artigo 19 da Lei nº 10.522, de 19/07/2002, e no Decreto n.º 2.346, de 10.10.1997, a \ndispensa de interposição de recursos ou o requerimento de desistência dos já interpostos, com \nrelação às decisões judiciais que fixam o entendimento de que não incide imposto de renda \nsobre o pagamento da parcela indenizatória devida aos parlamentares em face de con

In [244]:
normas_json["Ato Declaratório RFB nº 16.txt"]

'Multivigente  Vigente  Original  Relacional\nATO DECLARATÓRIO INTERPRETATIVO SRF Nº 16, DE 22 DE DEZEMBRO DE 2005\n(Publicado(a) no DOU de 26/12/2005, seção , página 32)  \nDeclara compensável com o imposto devido no Brasil o\nimposto pago na República Federal da Alemanha sobre\nrendimentos auferidos na República Federal da Alemanha,\nna hipótese que especifica.\nO SECRETÁRIO DA RECEITA FEDERAL, no uso da atribuição que lhe confere o inciso III do art. 230 do\nRegimento Interno da Secretaria da Receita Federal, aprovado pela Portaria MF nº 30, de 25 de fevereiro de 2005, tendo\nem vista o disposto no § 3º do art. 1º da Instrução Normativa SRF nº 208, de 27 de setembro de 2002, e o que consta\nno processo nº 10168.004733/2005-87, declara:\nArt. 1º A legislação da República Federal da Alemanha permite a dedução do imposto de renda das pessoas\nfísicas comprovadamente pago no Brasil sobre rendimentos auferidos e tributados no Brasil, o que configura, nos\ntermos do § 2º do art. 1º da Ins

In [245]:
normas_json["Ato Declaratório SRF nº 16.txt"]

'Multivigente  Vigente  Original  Relacional\nATO DECLARATÓRIO INTERPRETATIVO SRF Nº 16, DE 22 DE DEZEMBRO DE 2005\n(Publicado(a) no DOU de 26/12/2005, seção , página 32)  \nDeclara compensável com o imposto devido no Brasil o\nimposto pago na República Federal da Alemanha sobre\nrendimentos auferidos na República Federal da Alemanha,\nna hipótese que especifica.\nO SECRETÁRIO DA RECEITA FEDERAL, no uso da atribuição que lhe confere o inciso III do art. 230 do\nRegimento Interno da Secretaria da Receita Federal, aprovado pela Portaria MF nº 30, de 25 de fevereiro de 2005, tendo\nem vista o disposto no § 3º do art. 1º da Instrução Normativa SRF nº 208, de 27 de setembro de 2002, e o que consta\nno processo nº 10168.004733/2005-87, declara:\nArt. 1º A legislação da República Federal da Alemanha permite a dedução do imposto de renda das pessoas\nfísicas comprovadamente pago no Brasil sobre rendimentos auferidos e tributados no Brasil, o que configura, nos\ntermos do § 2º do art. 1º da Ins

In [195]:
normas_json["Instrução Normativa RFB nº 84.txt"]

'Multivigente  Vigente  Original  Relacional\nINSTRUÇÃO NORMATIVA SRF Nº 84, DE 11 DE OUTUBRO DE 2001\n(Publicado(a) no DOU de 14/10/2001, seção 1, página 27)  \nDispõe sobre a apuração e tributação de ganhos de capital\nnas alienações de bens e direitos por pessoas físicas.\nHistórico de alterações \ue5cf\n(Alterado(a) pelo(a) Instrução Normativa SRF nº 599, de 28 de dezembro de 2005)\nO SECRETÁRIO DA RECEITA FEDERAL, no uso da atribuição que lhe confere o inciso III do art. 209 do\nRegimento Interno da Secretaria da Receita Federal, aprovado pela Portaria MF No 259, de 24 de agosto de 2001, e\ntendo em vista o disposto nas Leis No 7.713, de 22 de dezembro de 1988, No 8.134, de 27 de dezembro de 1990, No\n8.218, de 29 de agosto de 1991, No 8.383, de 30 de dezembro de 1991, No 8.849, de 28 de janeiro de 1994, No 8.981,\nde 20 de janeiro de 1995, No 9.249 e No 9.250, de 26 de dezembro de 1995, No 9.393, de 19 de dezembro de 1996, e\nNo 9.532, de 10 de dezembro de 1997, e nas Medidas Pro

In [199]:
normas_json["Ato Declaratório SRF nº 14.txt"]

'Multivigente  Vigente  Original  Relacional\nATO DECLARATÓRIO INTERPRETATIVO SRF Nº 14, DE 01 DE DEZEMBRO DE 2005\n(Publicado(a) no DOU de 02/12/2005, seção , página 36)  \nDispõe sobre as hipóteses em que se aplica o Ato\nDeclaratório Interpretativo SRF nº 5, de 27 de abril de 2005, no\ncaso de revisão de crédito tributário relativo ao Imposto sobre\na Renda incidente sobre os valores pagos (em pecúnia) a\ntítulo de férias integrais e de licença-prêmio não gozadas por\nnecessidade do serviço, a trabalhadores em geral ou a\nservidores públicos.\nO SECRETÁRIO DA RECEITA FEDERAL, no uso da atribuição que lhe confere o inciso III do art. 230 do\nRegimento Interno da Secretaria da Receita Federal, aprovado pela Portaria MF nº 30, de 25 de fevereiro de 2005, tendo\nem vista o disposto nos §§ 4º e 5º do art. 19 da Lei nº 10.522, de 19 de julho de 2002, e o que consta no processo nº\n10168.004133/2005-19, declara:\nArt. 1º O Ato Declaratório Interpretativo SRF nº 5, de 27 de abril de 2005, e

In [191]:
normas_json["Ato Declaratório PGFN nº 1.txt"]

'Multivigente  Vigente  Original  Relacional\nATO DECLARATÓRIO PGFN Nº 1, DE 18 DE FEVEREIRO DE 2005\n(Publicado(a) no DOU de 25/02/2005, seção , página 0)  \n"Autoriza a dispensa de interposição de recursos e a\ndesistência dos já interpostos com relação às decisões que\nafastaram a incidência do imposto de renda das pessoas\nfísicas sobre os rendimentos especificados."\nRepublicação (publicação anterior em 22/02/2005)\nO PROCURADOR-GERAL DA FAZENDA NACIONAL, no uso da competência que lhe foi conferida nos\ntermos do inciso II do art. 19, da Lei nº 10.522, de 19 de julho de 2002, e do art. 5º do Decreto nº 2.346, de 10 de\noutubro de 1997, tendo em vista a aprovação do Parecer PGFN/CRJ/Nº 1905/2004, desta Procuradoria-Geral da\nFazenda Nacional, pelo Senhor Ministro de Estado da Fazenda, conforme despacho publicado no DOU de 18/02/2005,\ndeclara que fica autorizada a dispensa de interposição de recursos e a desistência dos já interpostos, desde que\ninexista outro fundamento relevante

In [192]:
normas_json["Ato Declaratório PGFN nº 4.txt"]

'Multivigente  Vigente  Original  Relacional\nATO DECLARATÓRIO PGFN Nº 4, DE 12 DE AGOSTO DE 2002\n(Publicado(a) no DOU de 15/08/2002, seção , página 23)  \n" Autoriza a dispensa de interposição de recursos e a\ndesistência dos já interpostos, nas ações que menciona."\nO PROCURADOR-GERAL DA FAZENDA NACIONAL, no uso da competência legal que lhe foi conferida, nos\ntermos do inciso II do art. 19, da Lei nº 10.522, de 19 de julho de 2002, e do art. 5º do Decreto nº 2.346, de 10 de\noutubro de 1997, tendo em vista a aprovação do parecer PGFN/CRJ/Nº 921/99, desta Procuradoria-Geral da Fazenda\nNacional, pelo Senhor Ministro de Estado da Fazenda, conforme despacho publicado no DOU de 06/08/99, Seção I, p.\n11, declara que fica autorizada a dispensa de interposição de recursos e a desistência dos já interpostos, nas ações\nque cuidam, no mérito, exclusivamente, acerca da:\n" cobrança, pela União, do Imposto de Renda sobre o pagamento (in pecunia) de férias não gozadas - por\nnecessidade do se

In [193]:
normas_json["Ato Declaratório PGFN nº 5.txt"]

'Multivigente  Vigente  Original  Relacional\nATO DECLARATÓRIO PGFN Nº 5, DE 16 DE NOVEMBRO DE 2006\n(Publicado(a) no DOU de 17/11/2006, seção , página 18)  \n"Dispensa a apresentação de contestação e a interposição\nde recursos e autoriza a desistência dos já interpostos nas\nações judiciais que especifica."\nO PROCURADOR-GERAL DA FAZENDA NACIONAL, no uso da competência legal que lhe foi conferida, nos\ntermos do inciso II do art. 19, da Lei nº 10.522, de 19 de julho de 2002, e do art. 5º do Decreto nº 2.346, de 10 de\noutubro de 1997, tendo em vista a aprovação do Parecer PGFN/CRJ/Nº 2141/2006, desta Procuradoria-Geral da\nFazenda Nacional, pelo Senhor Ministro de Estado da Fazenda, conforme despacho publicado no DOU de 16 de\nnovembro de 2006, DECLARA que ficam dispensadas a apresentação de contestação, a interposição de recursos e fica\nautorizada a desistência dos já interpostos, desde que inexista outro fundamento relevante:\n"nas ações judiciais que visem obter a declaração de q

In [194]:
normas_json["Ato Declaratório RFB nº 16.txt"]

'Multivigente  Vigente  Original  Relacional\nATO DECLARATÓRIO INTERPRETATIVO SRF Nº 16, DE 22 DE DEZEMBRO DE 2005\n(Publicado(a) no DOU de 26/12/2005, seção , página 32)  \nDeclara compensável com o imposto devido no Brasil o\nimposto pago na República Federal da Alemanha sobre\nrendimentos auferidos na República Federal da Alemanha,\nna hipótese que especifica.\nO SECRETÁRIO DA RECEITA FEDERAL, no uso da atribuição que lhe confere o inciso III do art. 230 do\nRegimento Interno da Secretaria da Receita Federal, aprovado pela Portaria MF nº 30, de 25 de fevereiro de 2005, tendo\nem vista o disposto no § 3º do art. 1º da Instrução Normativa SRF nº 208, de 27 de setembro de 2002, e o que consta\nno processo nº 10168.004733/2005-87, declara:\nArt. 1º A legislação da República Federal da Alemanha permite a dedução do imposto de renda das pessoas\nfísicas comprovadamente pago no Brasil sobre rendimentos auferidos e tributados no Brasil, o que configura, nos\ntermos do § 2º do art. 1º da Ins

In [171]:
normas_json["Solução de Consulta Cosit nº 98.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 98, DE 21 DE JUNHO DE 2021\n(Publicado(a) no DOU de 24/06/2021, seção 1, página 28)  \nAssunto: Imposto sobre a Renda de Pessoa Física - IRPF \nDOAÇÃO EM ADIANTAMENTO DE LEGÍTIMA. COTAS DE\nFUNDO FECHADO DE AÇÕES. \nA doação em adiantamento de legítima de cotas de fundo\nfechado de investimento em ações não resulta em resgate\ndas referidas cotas e deve seguir as regras tributárias do\nganho de capital de bens e direitos, quando efetuada para\nbeneficiário pessoa física; \nCaso a doação em adiantamento de legítima seja efetuada\npor valor superior ao valor constante da DIRPF do doador, a\ndiferença positiva entre esses valores configurará ganho,\ntributado pelo Imposto sobre a Renda à alíquota de 15%,\ndevendo o IR ser retido e recolhido pelo doador, caso seja\nefetuada pelo valor constante da DIRPF do doador, não\nhaverá IR a pagar, nesse momento. \nO donatário deve informar, em sua DIRPF, as cotas de fundo\nfe

In [170]:
normas_json["Solução de Consulta Cosit nº 82.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 82, DE 04 DE ABRIL DE 2023\n(Publicado(a) no DOU de 12/04/2023, seção 1, página 44)  \nAssunto: Imposto sobre a Renda de Pessoa Física - IRPF \nALIENAÇÃO DE PARTICIPAÇÃO SOCIETÁRIA. VALOR DA\nALIENAÇÃO A SER DEFINIDO EM DATA FUTURA.\nRECEBIMENTO \nDE \nANTECIPAÇÃO. \nALÍQUOTAS\nPROGRESSIVAS SOBRE O GANHO DE CAPITAL. \nA parcela do valor da operação de alienação de participação\nsocietária auferida a título de preço complementar, passível\nde determinação em razão do implemento de condição\nsuspensiva, integra o preço de venda da participação\nsocietária. \nPor conta da progressividade das alíquotas do Imposto sobre\na Renda sobre o ganho de capital, quando da determinação\ndas condições de avaliação das ações e do recebimento do\nvalor complementar, recalcula-se o ganho de capital,\nconsiderando-se como valor de alienação o valor total,\ncompreendendo o somatório do valor antecipado com o valor\ncomplementar, e 

In [204]:
normas_json["Solução de Consulta Cosit nº 70.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 70, DE 03 DE ABRIL DE 2024\n(Publicado(a) no DOU de 12/04/2024, seção 1, página 52)  \nAssunto: Imposto sobre a Renda de Pessoa Jurídica - IRPJ \nGORJETAS. LUCRO PRESUMIDO. RECEITA BRUTA.\nEXCLUSÃO DA BASE DE CÁLCULO. \nEm decorrência do Parecer SEI nº 129/2024/MF, as gorjetas\ncompulsórias não compõem a receita bruta auferida pelo\nrestaurante para fins de apuração da base de cálculo do\nIRPJ, no regime de tributação com base no lucro presumido. \nDispositivos Legais: Decreto-lei nº 1.598, de 26 de dezembro\nde 1977, art. 12; Lei nº 9.430, de 27 de dezembro de 1996, art.\n25; Parecer SEI nº 129/2024/MF. \nAssunto: Contribuição Social sobre o Lucro Líquido - CSLL \nGORJETAS. RESULTADO PRESUMIDO. RECEITA BRUTA.\nEXCLUSÃO DA BASE DE CÁLCULO. \nEm decorrência do Parecer SEI nº 129/2024/MF, as gorjetas\ncompulsórias não compõem a receita bruta auferida pelo\nrestaurante para fins de apuração da base de cálculo da\nC

In [169]:
normas_json["Solução de Consulta Cosit nº 60.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 60, DE 13 DE MARÇO DE 2023\n(Publicado(a) no DOU de 23/03/2023, seção 1, página 126)  \nAssunto: Contribuição para o Financiamento da Seguridade\nSocial - Cofins \nNÃO CUMULATIVIDADE. CRÉDITO. INSUMOS. TRATAMENTO\nDE EFLUENTES. POSSIBILIDADE. \nObservadas as demais condições estabelecidas na\nlegislação de regência, os dispêndios com o tratamento de\nefluentes por indústria têxtil, exigido em legislação específica\ncomo medida de controle ambiental, podem gerar crédito da\nCofins na modalidade aquisição de insumos por imposição\nlegal. \nDispositivos Legais: Lei nº 10.833, de 2003, art. 3º, II;\nResolução CONAMA nº 430, de 2011; Resolução CONAMA nº\n237, de 1997 e seu ANEXO I; Parecer Normativo Cosit/RFB nº\n5, de 2018. \nAssunto: Contribuição para o PIS/Pasep \nNÃO CUMULATIVIDADE. CRÉDITO. INSUMOS. TRATAMENTO\nDE EFLUENTES. POSSIBILIDADE. \nObservadas as demais condições estabelecidas na\nlegislação de regência

In [168]:
normas_json["Solução de Consulta Cosit nº 48.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 48, DE 24 DE MARÇO DE 2021\n(Publicado(a) no DOU de 26/03/2021, seção 1, página 22)  \nAssunto: Imposto sobre a Renda de Pessoa Física - IRPF \nAPLICAÇÃO FINANCEIRA NO EXTERIOR. GANHO DE\nCAPITAL. ISENÇÃO NA ALIENAÇÃO DE BENS DE PEQUENO\nVALOR. CONTA CONJUNTA. \nO ganho de capital apurado na alienação de bens ou direitos\ne na liquidação ou resgate de aplicações financeiras,\nadquiridos, a qualquer título, em moeda estrangeira, é\ntributado pelo imposto sobre a renda da pessoa física em\nconformidade com o disposto no art. 24 da Medida Provisória\nnº 2.158-35, de 24 de agosto de 2001. \nÉ isento do imposto sobre a renda pessoa física o ganho de\ncapital auferido na alienação de bens e direitos de pequeno\nvalor, cujo valor de alienação, no mês em que esta se realizar\nseja igual ou inferior a - R$ 20.000,00 (vinte mil reais), no\ncaso de alienação de ações negociadas no mercado de\nbalcão, e R$ 35.000,00 (trinta

In [167]:
normas_json["Solução de Consulta Cosit nº 337.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 337, DE 28 DE DEZEMBRO DE 2018\n(Publicado(a) no DOU de 02/01/2019, seção 1, página 28)  \nASSUNTO: IMPOSTO SOBRE A RENDA RETIDO NA FONTE –\nIRRF\nEMENTA: PESSOA FÍSICA RESIDENTE NO EXTERIOR.\nRENDIMENTOS \nDO \nTRABALHO \nRECEBIDOS \nEM\nRECLAMATÓRIA TRABALHISTA. INCIDÊNCIA.\nA tributação dos valores pagos, creditados, entregues,\nempregados ou remetidos, por fonte situada Brasil, a pessoa\nfísica residente no exterior, decorrentes de reclamatória\ntrabalhista, é realizada na modalidade de retenção exclusiva\nna fonte, à alíquota de 25%, incidindo uma única vez, na\nocorrência do primeiro evento – pagamento, crédito, entrega,\nemprego ou remessa, não se aplicando as regras de\ntributação de rendimentos recebidos acumuladamente. \nDISPOSITIVOS LEGAIS: Lei nº 7.713, de 22 de dezembro de\n1988, art. 1º; Regulamento do Imposto sobre a Renda e\nProventos de Qualquer Natureza aprovado pelo Decreto nº\n9.580, de 22 de

In [166]:
normas_json["Solução de Consulta Cosit nº 264.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 264, DE 17 DE SETEMBRO DE 2024\n(Publicado(a) no DOU de 20/09/2024, seção 1, página 75)  \nAssunto: Contribuições Sociais Previdenciárias \nO fato gerador da contribuição previdenciária patronal\napurada sobre valores pagos por serviços de hidráulica,\neletricidade, pintura, alvenaria, carpintaria e de manutenção\nou reparo de veículos prestados por Microempreendedor\nIndividual (MEI) ocorre no mês em que a remuneração for\ncreditada ou paga, o que acontecer primeiro. \nOrdinariamente, no caso de órgão público, o fato gerador da\nreferida contribuição previdenciária ocorre na liquidação do\nempenho, já que esse evento é equiparado ao crédito e\nprecede o pagamento. \nDispositivos Legais: IN RFB nº 2.110, de 2022, arts. 29, III, "b"\ne §2º; 43, III; 49, § 1º, II; 173, caput e §1º.\nSC Cosit nº 264-2024.pdf\nRODRIGO AUGUSTO VERLY DE OLIVEIRA\nCoordenador-Geral\n*Este texto não substitui o publicado oficialmente.\n

In [165]:
normas_json["Solução de Consulta Cosit nº 240.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 240, DE 23 DE OUTUBRO DE 2023\n(Publicado(a) no DOU de 30/10/2023, seção 1, página 85)  \nAssunto: Contribuição para o PIS/Pasep \nINSUMOS \nDE \nORIGEM \nVEGETAL \nOU \nANIMAL.\nDESCUMPRIMENTO DE OBRIGAÇÃO ACESSÓRIA PELO\nFORNECEDOR. \nCOGÊNCIA \nDA \nSUSPENSÃO \nDA\nEXIGIBILIDADE DA CONTRIBUIÇÃO E DIREITO A CRÉDITO\nPRESUMIDO. \nO erro na identificação do código CST representa erro no\ncumprimento da obrigação acessória, enquanto a ausência\nda expressão "Venda efetuada com suspensão da\nContribuição para o PIS/Pasep e da Cofins" representa\ndescumprimento de obrigação acessória pelo fornecedor. Tal\nerro e descumprimento não têm o poder de afastar a\ncogência da suspensão prevista em lei nem de impedir a\napuração, pelo adquirente, do crédito presumido a que se\nrefere o art. 8º da Lei nº 10.925, de 2004. Contudo, o\ndescumprimento das obrigações acessórias pelo fornecedor\nensejará ao responsável a aplicação

In [164]:
normas_json["Solução de Consulta Cosit nº 224.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 224, DE 25 DE SETEMBRO DE 2023\n(Publicado(a) no DOU de 29/09/2023, seção 1, página 123)  \nAssunto: Imposto sobre a Renda de Pessoa Física - IRPF \nGANHO DE CAPITAL. ALIENAÇÃO DE IMÓVEL RESIDENCIAL.\nISENÇÃO. ART. 39 DA LEI Nº 11.196, DE 2005. APLICAÇÃO\nDO \nPRODUTO \nDA \nVENDA \nNA \nQUITAÇÃO \nDE\nFINANCIAMENTO \nDE \nIMÓVEL \nRESIDENCIAL \nEM\nCONSTRUÇÃO OU NA PLANTA. \nÉ isento do imposto sobre a renda o ganho auferido por\npessoa física residente no País na venda de imóvel\nresidencial que, no prazo de 180 (cento e oitenta) dias\ncontado da celebração do contrato, utilize o recurso para\nquitar, total ou parcialmente, débito remanescente de\naquisição a prazo ou à prestação de imóvel residencial em\nconstrução ou na planta localizado no País. \nDispositivos Legais: Lei nº 11.196, de 21 de novembro de\n2005, art. 39; Instrução Normativa SRF nº 599, de 28 de\ndezembro de 2005, art. 2º, § 10. \nAssunto: Pro

In [163]:
normas_json["Solução de Consulta Cosit nº 204.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 204, DE 04 DE SETEMBRO DE 2023\n(Publicado(a) no DOU de 18/09/2023, seção 1, página 755)  \nAssunto: Imposto sobre a Renda de Pessoa Física - IRPF \nATIVIDADE RURAL. AERONAVES. CUSTO DE AQUISIÇÃO E\nDESPESAS. DEDUÇÃO. \nConsideram-se despesas de custeio e investimentos, para\nfins de apuração do resultado da atividade rural, aqueles\nnecessários à percepção dos rendimentos e à manutenção\nda fonte produtora, relacionados com a natureza da atividade\nexercida e comprovados com documentação hábil e idônea. \nPara o produtor rural pessoa física, somente pode ser\ndeduzido como despesa, para fins de apuração do resultado\nda atividade rural, o custo com aquisição de aeronave para\nuso agrícola, desde que essa aeronave seja utilizada\nexclusivamente na exploração da atividade rural desenvolvida\npelo produtor, podendo, nesse caso, serem deduzidas as\ndespesas relacionadas com manutenção e utilização dessa\naeronave. 

In [161]:
normas_json["Solução de Consulta Cosit nº 19.txt"]

'Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 19, DE 13 DE JANEIRO DE 2023\n(Publicado(a) no DOU de 17/01/2023, seção 1, página 11)  \nAssunto: Contribuição para o PIS/Pasep \nContribuição para o Financiamento da Seguridade Social -\nCofins \nNÃO CUMULATIVIDADE. CRÉDITO. INSUMO. FABRICAÇÃO\nDE FIOS, CABOS E CONDUTORES ELÉTRICOS ISOLADOS\nCOM PRODUTOS QUÍMICOS SUJEITOS A CONTROLE PELA\nPOLÍCIA FEDERAL. GASTOS COM SERVIÇOS COM\nVIGILÊNCIA/SEGURANÇA. IMPOSSIBILIDADE. \nPor não serem abarcados pelos critérios da essencialidade\nou \nrelevância, \nos \ngastos \ncom \nserviços \nde\nvigilância/segurança contratados pela pessoa jurídica\nfabricante de fios, cabos e condutores elétricos isolados não\nsão considerados insumos para fins de desconto de créditos\nda Contribuição para o PIS/Pasep apurada pela sistemática\nnão cumulativa. \nDispositivos Legais: Lei nº 10.637, de 2002, art. 3º, II; e\nParecer Normativo Cosit/RFB nº 5, de 2018. \nAssunto: Contribuição para

In [160]:
normas_json["Solução de Consulta Cosit nº 161.txt"]

"Multivigente  Vigente  Original  Relacional\nSOLUÇÃO DE CONSULTA COSIT Nº 161, DE 07 DE AGOSTO DE 2023\n(Publicado(a) no DOU de 11/08/2023, seção 1, página 44)  \nAssunto: Imposto sobre a Renda de Pessoa Física - IRPF \nINDENIZAÇÃO POR QUEBRA DE CONTRATO. LUCROS\nCESSANTES. ACORDO HOMOLOGADO JUDICIALMENTE.\nVALOR HISTÓRICO. ATUALIZAÇÃO MONETÁRIA. JUROS.\nINCIDÊNCIA. \nÉ tributável pelo Imposto sobre a Renda das Pessoas Físicas\na quantia recebida em decorrência de acordo homologado\njudicialmente, a título de indenização por quebra de contrato,\nbem como os valores da atualização monetária por índice\noficial e dos juros compensatórios ou moratórios, relativos à\nreferida indenização. \nSOLUÇÃO DE CONSULTA PARCIALMENTE VINCULADA À\nSOLUÇÃO DE CONSULTA COSIT Nº 258, DE 24 DE\nSETEMBRO DE 2019. \nDispositivos Legais: Lei nº 5.172, de 25 de outubro de 1966 -\nCódigo Tributário Nacional (CTN), art. 43; Regulamento do\nImposto sobre a Renda - RIR/2018, art. 47, inciso XV,\naprovado pelo De

In [95]:
normas_json["Nota PGFN nº 1.1042017.txt"]

' \n \n \nProcuradoria-Geral da Fazenda Nacional \nCoordenação-Geral da Representação Judicial da Fazenda Nacional – CRJ  \nCoordenação de Consultoria Judicial – COJUD \n \n \n \nNOTA PGFN/CRJ/No 1104/2017 \n \nDocumento Público. Documento público. \nAusência de sigilo. \n \nIRPF. Isenção. Rendimentos do trabalho \nauferidos por perito de assistência técnica, \nconceituado no art. IV, 2, d, do Decreto nº \n59.308, de 1996, a serviço da Organização \ndas Nações Unidas (ONU), contratado no \nBrasil para atuar no Programa Nacional das \nNações Unidas para o Desenvolvimento \n(PNUD). Item nº 1.1.2.8 do SAJ. Item nº 1.22 \n- j - da lista de dispensa de contestar e \nrecorrer. \nREsp \nnº \n1.306.393/DF. \nNota/PGFN/CRJ/Nº 1549/2012. \nExame quanto à extensão da dispensa de \ncontestar e recorrer às demandas judiciais \nque buscam isentar do IRPF as verbas \nauferidas por perito de assistência técnica, \ncontratado no Brasil para trabalhar nos \nprogramas da ONU ou em suas Agências \nEspecia

In [94]:
normas_json["Lei nº 9.250.txt"] == normas_json["Lei nº 9250.txt"]

True

In [92]:
normas_json["Lei nº 9250.txt"]

'Presidência da República\nCasa Civil\nSubchefia para Assuntos Jurídicos\nLEI Nº 9.250, DE 26 DE DEZEMBRO DE 1995.\nMensagem de veto\nTexto compilado\nAltera a legislação do imposto de renda das pessoas físicas e dá outras\nprovidências.\nO PRESIDENTE DA REPÚBLICA Faço saber que o Congresso Nacional decreta e eu sanciono a seguinte Lei:\nCAPÍTULO I\nDISPOSIÇÕES PRELIMINARES\nArt. 1º A partir de 1º de janeiro de 1996 o imposto de renda das pessoas físicas será determinado segundo as normas da legislação vigente, com\nas alterações desta Lei.\nArt. 2º Os valores expressos em UFIR na legislação do imposto de renda das pessoas físicas ficam convertidos em Reais, tomando-se por base\no valor da UFIR vigente em 1º de janeiro de 1996.\nCAPÍTULO II\nDA INCIDÊNCIA MENSAL DO IMPOSTO\n Art. 3º O imposto de renda incidente sobre os rendimentos de que tratam os arts. 7°, 8° e 12, da Lei n° 7.713, de 22 de dezembro de 1988, será\ncalculado de acordo com a seguinte tabela progressiva em Reais: \nBASE

In [86]:
normas_json["Lei nº 1.428.txt"]

'Presidência da República\nCasa Civil\nSubchefia para Assuntos Jurídicos\nDECRETO-LEI Nº 1.428, DE 2 DE DEZEMBRO DE 1975.\nRevogado pelo Decreto-Lei nº 2.433, de 1988\nDispõe sobre isenções de impostos na importação, cria incentivos fiscais à\nindústria nacional de bens de capital, regulamenta a concessão de estímulos a\nampliação de produção destinada a exportação e dá outras providências.\n       O PRESIDENTE DA REPÚBLICA, no uso da atribuição que lhe confere o artigo 55, item II, da Constituição,\n        DECRETA:\n       Art. 1º O Conselho de Desenvolvimento Industrial, o Conselho de Política Aduaneira, a Comissão para a Concessão de Benefícios Fiscais a\nProgramas Especiais de Exportação, a Superintendência do Desenvolvimento do Nordeste, Superintendência do Desenvolvimento da Amazônia,\nSuperintendência de Desenvolvimento da Pesca e Grupo Executivo da Indústria de Mineração poderão conceder redução do imposto de importação para\nmáquinas, equipamentos, aparelhos, instrumentos, ac

## Manually checks the questions and their references

In [88]:
with open(DATA_PATH + "extracted_questions_with_embedded_references_20250212_final.pkl", "rb") as input_file:
    questions = pickle.load(input_file)

In [91]:
questions[170]['formatted_references']

[{'título': 'Lei nº 9.250, de 26 de dezembro de 1995',
  'artigos': [{'artigo': '8º', 'incisos': ['II'], 'parágrafos': []}]},
 {'título': 'Medida Provisória nº 2.158-35, de 24 de agosto de 2001',
  'artigos': [{'artigo': '61', 'incisos': [], 'parágrafos': []}]},
 {'título': 'Lei nº 11.482, de 31 de maio de 2007',
  'artigos': [{'artigo': '2º', 'incisos': [], 'parágrafos': []},
   {'artigo': '3º', 'incisos': [], 'parágrafos': []}]},
 {'título': 'Instrução Normativa SRF nº 208, de 27 de setembro de 2002',
  'artigos': [{'artigo': '16', 'incisos': [], 'parágrafos': ['3º', '4º']}]},
 {'título': 'Solução de Consulta Interna Cosit nº 3, de 8 de fevereiro de 2012',
  'artigos': [],
  'anexos': []}]

#### Fix question 576 formatted references extraction

In [97]:
questions[575]

{'question_number': '576',
 'question_summary': 'CESSÃO DE PRECATÓRIO',
 'question_text': 'Qual é o tratamento tributário na cessão de direito de precatório?',
 'answer': ['Quanto ao cedente:',
  'A diferença positiva entre o valor de alienação e o custo de aquisição na cessão de direitos representados por',
  'créditos líquidos e certos contra a Fazenda Pública (precatórios) está sujeita à apuração do ganho de capital,',
  'pelo cedente.',
  'Os ganhos de capital serão apurados, pela pessoa física cedente, no mês em que forem auferidos, e tributados',
  'em separado, mediante aplicação de uma das alíquotas progressivas estabelecidas pela Lei nº 13.259, de 16',
  'de março de 2016, não integrando a base de cálculo do imposto na declaração de rendimentos, e o valor do',
  'imposto pago não poderá ser deduzido do devido na declaração.',
  'O custo de aquisição na cessão original, ou seja, naquela em que ocorre a primeira cessão de direitos, é igual',
  'a zero, porquanto não existe valor

In [98]:
questions[575]['formatted_embedded_references']

[{'título': 'Lei nº 5.172, de 25 de outubro de 1966 – Código Tributário Nacional (CTN)',
  'artigos': [{'artigo': '123', 'incisos': [], 'parágrafos': []}],
  'anexos': []},
 {'título': 'Lei nº 7.713, de 22 de dezembro de 1988',
  'artigos': [{'artigo': '1º', 'incisos': [], 'parágrafos': ['caput']},
   {'artigo': '2º', 'incisos': [], 'parágrafos': ['caput']},
   {'artigo': '3º', 'incisos': [], 'parágrafos': ['caput', '2º', '3º', '4º']},
   {'artigo': '16', 'incisos': [], 'parágrafos': ['caput', '4º']}],
  'anexos': []},
 {'título': 'Lei nº 8.981, de 20 de janeiro de 1995',
  'artigos': [{'artigo': '21',
    'incisos': [],
    'parágrafos': ['caput', '1º', '2º']}],
  'anexos': []},
 {'título': 'Lei nº 10.406, de 10 de janeiro de 2002 – Código Civil (CC)',
  'artigos': [{'artigo': '286', 'incisos': [], 'parágrafos': []},
   {'artigo': '287', 'incisos': [], 'parágrafos': []},
   {'artigo': '347', 'incisos': [], 'parágrafos': []},
   {'artigo': '348', 'incisos': [], 'parágrafos': []}],
  'a

In [125]:
from RFB_QnA_parsing import *

In [144]:
r1 = process_answer_body(questions[575]['answer'])

[('Consulte a pergunta 252\n', '')]
['Quanto ao cedente:', 'A diferença positiva entre o valor de alienação e o custo de aquisição na cessão de direitos representados por', 'créditos líquidos e certos contra a Fazenda Pública (precatórios) está sujeita à apuração do ganho de capital,', 'pelo cedente.', 'Os ganhos de capital serão apurados, pela pessoa física cedente, no mês em que forem auferidos, e tributados', 'em separado, mediante aplicação de uma das alíquotas progressivas estabelecidas pela Lei nº 13.259, de 16', 'de março de 2016, não integrando a base de cálculo do imposto na declaração de rendimentos, e o valor do', 'imposto pago não poderá ser deduzido do devido na declaração.', 'O custo de aquisição na cessão original, ou seja, naquela em que ocorre a primeira cessão de direitos, é igual', 'a zero, porquanto não existe valor pago pelo direito ao crédito. Nas subsequentes, o custo de aquisição será', 'o valor pago pela aquisição do direito na cessão anterior.', 'Considera-se 

In [145]:
r1

{'answer_cleaned': ['Quanto ao cedente:',
  'A diferença positiva entre o valor de alienação e o custo de aquisição na cessão de direitos representados por',
  'créditos líquidos e certos contra a Fazenda Pública (precatórios) está sujeita à apuração do ganho de capital,',
  'pelo cedente.',
  'Os ganhos de capital serão apurados, pela pessoa física cedente, no mês em que forem auferidos, e tributados',
  'em separado, mediante aplicação de uma das alíquotas progressivas estabelecidas pela Lei nº 13.259, de 16',
  'de março de 2016, não integrando a base de cálculo do imposto na declaração de rendimentos, e o valor do',
  'imposto pago não poderá ser deduzido do devido na declaração.',
  'O custo de aquisição na cessão original, ou seja, naquela em que ocorre a primeira cessão de direitos, é igual',
  'a zero, porquanto não existe valor pago pelo direito ao crédito. Nas subsequentes, o custo de aquisição será',
  'o valor pago pela aquisição do direito na cessão anterior.',
  'Consider

In [146]:
questions[575]['references'] = r1['references']
questions[575]['answer_cleaned'] = r1['answer_cleaned']

In [148]:
questions[575]['embedded_references']

['Lei nº 5.172, de 25 de outubro de 1966 – Código Tributário Nacional (CTN), art. 123',
 'Lei nº 7.713, de 22 de dezembro de 1988, arts. 1º, 2º, 3º, caput e §§ 2º a 4º, 16, caput e § 4º',
 'Lei nº 8.981, de 20 de janeiro de 1995, art. 21, caput e §§ 1º e 2º',
 'Lei nº 10.406, de 10 de janeiro de 2002 – Código Civil (CC), arts. 286, 287, 347 e 348',
 'Lei nº 13.259, de 16 de março de 2016',
 'Regulamento do Imposto sobre a Renda - RIR/2018, arts. 128 e 140, aprovado pelo Decreto nº 9.580, de 22 de novembro de 2018',
 'Instrução Normativa SRF nº 84, de 11 de outubro de 2001, arts. 2º, 3º, 18 e 27',
 'Decreto nº 9.580, de 22 de novembro de 2018']

In [149]:
questions[575]['embedded_references'] = ['Lei nº 13.259, de 16 de março de 2016']

In [151]:
questions[575]['formatted_embedded_references'][4]

{'título': 'Lei nº 13.259, de 16 de março de 2016',
 'artigos': [],
 'anexos': []}

In [152]:
questions[575]['formatted_embedded_references'] = [
    {'título': 'Lei nº 13.259, de 16 de março de 2016',
     'artigos': [],
     'anexos': []}
]

In [153]:
questions[575]

{'question_number': '576',
 'question_summary': 'CESSÃO DE PRECATÓRIO',
 'question_text': 'Qual é o tratamento tributário na cessão de direito de precatório?',
 'answer': ['Quanto ao cedente:',
  'A diferença positiva entre o valor de alienação e o custo de aquisição na cessão de direitos representados por',
  'créditos líquidos e certos contra a Fazenda Pública (precatórios) está sujeita à apuração do ganho de capital,',
  'pelo cedente.',
  'Os ganhos de capital serão apurados, pela pessoa física cedente, no mês em que forem auferidos, e tributados',
  'em separado, mediante aplicação de uma das alíquotas progressivas estabelecidas pela Lei nº 13.259, de 16',
  'de março de 2016, não integrando a base de cálculo do imposto na declaração de rendimentos, e o valor do',
  'imposto pago não poderá ser deduzido do devido na declaração.',
  'O custo de aquisição na cessão original, ou seja, naquela em que ocorre a primeira cessão de direitos, é igual',
  'a zero, porquanto não existe valor

In [155]:
 cleaned_references = "; ".join(questions[575]['references']).replace("\n", " ")

In [156]:
result = legal_references_formatting(groq_llama33_70b_interface, cleaned_references)


Lei nº 5.172, de 25 de outubro de 1966 – Código Tributário Nacional (CTN), art. 123; Lei nº 7.713, de 22 de dezembro de 1988, arts. 1º, 2º, 3º, caput e §§ 2º a 4º, 16, caput e § 4º; Lei nº 8.981, de 20 de janeiro de 1995, art. 21, caput e §§ 1º e 2º; Lei nº 10.406, de 10 de janeiro de 2002 – Código Civil (CC), arts. 286, 287, 347 e 348; Regulamento do Imposto sobre a Renda - RIR/2018, arts. 128 e 140, aprovado pelo Decreto nº 9.580, de 22 de novembro de 2018; Instrução Normativa SRF nº 84, de 11 de outubro de 2001, arts. 2º, 3º, 18 e 27; Parecer Cosit nº 26, de 29 de junho de 2000; Solução de Consulta Cosit nº 153, de 11 de junho de 2014; e Solução de Consulta Cosit nº 674, de 27 de dezembro de 2017
[{'role': 'system', 'content': 'Leia a lista de referências jurídicas e processe as informações existentes, separando de maneira estruturada o título da referência e as informações de artigos e anexos que forem explicitamente citadas. Se nenhum artigo ou anexo for citado, deixe a lista cor

In [157]:
result

{'referências': [{'título': 'Lei nº 5.172, de 25 de outubro de 1966 – Código Tributário Nacional (CTN)',
   'artigos': [{'artigo': '123', 'incisos': [], 'parágrafos': []}],
   'anexos': []},
  {'título': 'Lei nº 7.713, de 22 de dezembro de 1988',
   'artigos': [{'artigo': '1º', 'incisos': [], 'parágrafos': ['caput']},
    {'artigo': '2º', 'incisos': [], 'parágrafos': ['caput']},
    {'artigo': '3º', 'incisos': [], 'parágrafos': ['caput', '2º', '3º', '4º']},
    {'artigo': '16', 'incisos': [], 'parágrafos': ['caput', '4º']}],
   'anexos': []},
  {'título': 'Lei nº 8.981, de 20 de janeiro de 1995',
   'artigos': [{'artigo': '21',
     'incisos': [],
     'parágrafos': ['caput', '1º', '2º']}],
   'anexos': []},
  {'título': 'Lei nº 10.406, de 10 de janeiro de 2002 – Código Civil (CC)',
   'artigos': [{'artigo': '286', 'incisos': [], 'parágrafos': []},
    {'artigo': '287', 'incisos': [], 'parágrafos': []},
    {'artigo': '347', 'incisos': [], 'parágrafos': []},
    {'artigo': '348', 'inci

In [158]:
questions[575]['formatted_references'] = result['referências']

In [159]:
with open(DATA_PATH + "extracted_questions_with_embedded_references_20250214_final.pkl", "wb") as output_file:
    pickle.dump(questions, output_file, pickle.HIGHEST_PROTOCOL)

In [162]:
questions[148]

{'question_number': '149',
 'question_summary': 'PNUD',
 'question_text': 'Qual é o tratamento tributário dos rendimentos auferidos por funcionário do Programa das Nações Unidas para o Desenvolvimento no Brasil (PNUD), da ONU?',
 'answer': ['Os rendimentos do funcionário do PNUD, da ONU, têm o seguinte tratamento:',
  '1 - Funcionário não residente',
  'Sobre os rendimentos do trabalho oriundos de suas funções específicas nesse organismo, bem como os',
  'produzidos no exterior, não incide o imposto sobre a renda.',
  'É contribuinte do imposto sobre a renda, na condição de não residente no Brasil, quanto aos rendimentos que',
  'tenham sido produzidos no Brasil, tais como remuneração por serviços aqui prestados e por aplicação de',
  'capital em imóveis no País, pagos ou creditados por qualquer pessoa física ou jurídica, quer sejam estas',
  'residentes no Brasil ou não.',
  'Caracteriza-se a condição de residente, se receber de fonte brasileira rendimentos do trabalho com vínculo',
 