In [1]:
import sys
import os
IN_COLAB='google.colab' in sys.modules

In [2]:
if IN_COLAB:
    from google.colab import drive

    WORKING_FOLDER="/content/drive/MyDrive/unicamp/doutorado/dataset_creation"

    drive.mount('/content/drive', force_remount=True)

    os.chdir(WORKING_FOLDER)

    DATA_FOLDER = "datasets"

    !pip install pymupdf -q
else:
    DATA_FOLDER = "../datasets"

In [3]:
import glob
import fitz
import re

In [4]:
all_files = sorted(glob.glob(os.path.join(DATA_FOLDER, "pr-irpf*")))
all_files

['../datasets/pr-irpf-2016.pdf',
 '../datasets/pr-irpf-2017.pdf',
 '../datasets/pr-irpf-2018.pdf',
 '../datasets/pr-irpf-2019.pdf',
 '../datasets/pr-irpf-2020.pdf',
 '../datasets/pr-irpf-2021.pdf',
 '../datasets/pr-irpf-2022-v-1-2-2022-05-16.pdf',
 '../datasets/pr-irpf-2023-v1.1-04042023.pdf',
 '../datasets/pr-irpf-2024-v1.0-2024.05.03.pdf']

In [5]:
%load_ext autoreload
%autoreload 2

In [6]:
os.getcwd()

'/work/doutorado/datasets_creation/legal/legal_datasets'

In [22]:
from RFB_QnA_parsing import *
import pandas as pd
import numpy as np

In [8]:
pd.set_option('display.max_colwidth', None)
pd.set_option('display.max_rows', 800)

In [29]:
all_common_answers=[]
all_answers_dfs=[]

for i in range(len(all_files) - 1):
    qna_before_df = pd.DataFrame(extract_answers(all_files[i], verbose=False))
    qna_after_df = pd.DataFrame(extract_answers(all_files[i + 1], verbose=False))

    before = qna_before_df['question_summary'].to_numpy()
    after = qna_after_df['question_summary'].to_numpy()

    year_before = os.path.splitext(all_files[i])[0].split('-')[2]
    year_after = os.path.splitext(all_files[i + 1])[0].split('-')[2]
    
    common = np.intersect1d(before, after)

    print(f"Number of common questions between {year_before} and {year_after}: {len(common)}")

    all_common_answers.append({"first_year": year_before,
                               "second_year": year_after,
                               "common": len(common)})

    try:
        matches_before_after = qna_before_df['question_summary'] == qna_after_df['question_summary']
    
        display(pd.DataFrame({year_before: qna_before_df['question_summary'][~matches_before_after].to_numpy(),
                              year_after: qna_after_df['question_summary'][~matches_before_after].to_numpy()}))
        
    except Exception as e:
        print("Error while trying to compare questions {e}")
        

    all_answers_dfs.append(qna_before_df)

all_answers_dfs.append(qna_after_df)

Processing file ../datasets/pr-irpf-2016.pdf with 283 pages...

Processing file ../datasets/pr-irpf-2017.pdf with 279 pages...

Number of common questions between 2016 and 2017: 689


Unnamed: 0,2016,2017
0,DECLARAÇÃO DE AJUSTE ANUAL — EXERCÍCIO DE 2016,DECLARAÇÃO DE AJUSTE ANUAL — EXERCÍCIO DE 2017
1,PROGRAMA PARA PREENCHIMENTO IRPF 2016,PROGRAMA PARA PREENCHIMENTO IRPF 2017
2,OBTENÇÃO DO PROGRAMA IRPF2016,OBTENÇÃO DO PROGRAMA IRPF2017
3,INSTALAÇÃO DO PROGRAMA IRPF2016,INSTALAÇÃO DO PROGRAMA IRPF2017
4,GRAVE,DOENÇA GRAVE – RENDIMENTOS RECEBIDOS POR PESSOA FÍSICA COM DOENÇA GRAVE
5,GASTOS COM UTI NO AR,GASTOS COM UTI
6,MATRÍCULA REFERENTE AO ANO LETIVO DE 2016 EFETUADA EM 2015,MATRÍCULA REFERENTE AO ANO LETIVO DE 2017 EFETUADA EM 2016
7,DOAÇÕES PARA PARTIDOS POLÍTICOS E PARA CAMPANHAS ELEITORAIS,DOAÇÕES PARA PARTIDOS POLÍTICOS E PARA CANDIDATOS


Processing file ../datasets/pr-irpf-2017.pdf with 279 pages...

Processing file ../datasets/pr-irpf-2018.pdf with 277 pages...

Number of common questions between 2017 and 2018: 681


Unnamed: 0,2017,2018
0,DECLARAÇÃO DE AJUSTE ANUAL — EXERCÍCIO DE 2017,DECLARAÇÃO DE AJUSTE ANUAL — EXERCÍCIO DE 2018
1,PROGRAMA PARA PREENCHIMENTO IRPF 2017,PROGRAMA PARA PREENCHIMENTO IRPF 2018
2,OBTENÇÃO DO PROGRAMA IRPF2017,OBTENÇÃO DO PROGRAMA IRPF2018
3,INSTALAÇÃO DO PROGRAMA IRPF2017,INSTALAÇÃO DO PROGRAMA IRPF2018
4,REMESSA AO EXTERIOR — PARA ENSINO OU SAÚDE,REMESSA AO EXTERIOR — MANUTENÇÃO DE CÔNJUGE E FILHOS
5,REMESSA AO EXTERIOR — INTERCÂMBIO CULTURAL,REMESSA AO EXTERIOR — DESPESAS COM EDUCAÇÃO
6,REMESSA AO EXTERIOR — PUBLICAÇÕES E INSCRIÇÃO EM CONGRESSOS,REMESSA AO EXTERIOR — PUBLICAÇÕES
7,REMESSA AO EXTERIOR — MANUTENÇÃO DE CÔNJUGE E FILHOS,REMESSA AO EXTERIOR — DESPESAS COM SAÚDE
8,DEDUÇÕES PERMITIDAS – BASE DE CÁLCULO MENSAL,DEDUÇÕES PERMITIDAS
9,GASTOS COM UTI,GASTOS COM UTI MÓVEL


Processing file ../datasets/pr-irpf-2018.pdf with 277 pages...

Processing file ../datasets/pr-irpf-2019.pdf with 278 pages...

Number of common questions between 2018 and 2019: 499


Unnamed: 0,2018,2019
0,BENS E DIREITOS — AVALIAÇÃO,BENS E DIREITOS - AVALIAÇÃO
1,BENS E DIREITOS — ATIVIDADE RURAL,BENS E DIREITOS - ATIVIDADE RURAL
2,DESCONTO SIMPLIFICADO — CONCEITO,DESCONTO SIMPLIFICADO - CONCEITO
3,DESCONTO SIMPLIFICADO — DEPENDENTES COMUNS,DESCONTO SIMPLIFICADO - DEPENDENTES COMUNS
4,DESCONTO SIMPLIFICADO — QUEM PODE OPTAR,DESCONTO SIMPLIFICADO - QUEM PODE OPTAR
5,RENDIMENTOS ISENTOS — 65 ANOS OU MAIS,RENDIMENTOS ISENTOS - 65 ANOS OU MAIS
6,DECLARAÇÃO DE AJUSTE ANUAL — EXERCÍCIO DE 2018,DECLARAÇÃO DE AJUSTE ANUAL — EXERCÍCIO DE 2019
7,PROGRAMA PARA PREENCHIMENTO IRPF 2018,PROGRAMA PARA PREENCHIMENTO IRPF 2019
8,OBTENÇÃO DO PROGRAMA IRPF2018,OBTENÇÃO DO PROGRAMA IRPF 2019
9,INSTALAÇÃO DO PROGRAMA IRPF2018,INSTALAÇÃO DO PROGRAMA IRPF 2019


Processing file ../datasets/pr-irpf-2019.pdf with 278 pages...

Processing file ../datasets/pr-irpf-2020.pdf with 281 pages...

Number of common questions between 2019 and 2020: 667
Error while trying to compare questions {e}
Processing file ../datasets/pr-irpf-2020.pdf with 281 pages...

Processing file ../datasets/pr-irpf-2021.pdf with 284 pages...

Number of common questions between 2020 and 2021: 683


Unnamed: 0,2020,2021
0,DECLARAÇÃO DE AJUSTE ANUAL — EXERCÍCIO DE 2020,DECLARAÇÃO DE AJUSTE ANUAL — EXERCÍCIO DE 2021
1,PROGRAMA PARA PREENCHIMENTO IRPF 2020,PROGRAMA PARA PREENCHIMENTO IRPF 2021
2,OBTENÇÃO DO PROGRAMA IRPF 2020,OBTENÇÃO DO PROGRAMA IRPF 2021
3,INSTALAÇÃO DO PROGRAMA IRPF 2020,INSTALAÇÃO DO PROGRAMA IRPF 2021
4,RESIDENTE - SAÍDA TEMPORÁRIA OU DEFINITIVA SEM ENTREGA DE COMUNICAÇÃO,RESIDENTE - SAÍDA TEMPORÁRIA OU DEFINITIVA SEM APRESENTAÇÃO DE COMUNICAÇÃO
5,SERVIDOR DE MISSÃO DIPLOMÁTICA - RESIDENTE NO BRASIL,SERVIDOR DE MISSÃO DIPLOMÁTICA NO BRASIL - RESIDENTE NO BRASIL
6,COPA DAS CONFEDERAÇÕES DE 2013 E COPA DO MUNDO DE 2014,TRABALHADORES DA CULTURA - COVID
7,DEDUÇÃO DE DESPESA COM NÃO DEPENDENTES NA DECLARAÇÃO,DEDUÇÃO DE DESPESA COM NÃO DEPENDENTES NA DECLARAÇÃO
8,MATRÍCULA REFERENTE AO ANO LETIVO DE 2020 EFETUADA EM 2019,MATRÍCULA REFERENTE AO ANO LETIVO DE 2021 EFETUADA EM 2020
9,MOEDA VIRTUAL - COMO DECLARAR,CRIPTOATIVOS E MOEDAS VIRTUAIS - COMO DECLARAR


Processing file ../datasets/pr-irpf-2021.pdf with 284 pages...

Processing file ../datasets/pr-irpf-2022-v-1-2-2022-05-16.pdf with 288 pages...

Number of common questions between 2021 and 2022: 677
Error while trying to compare questions {e}
Processing file ../datasets/pr-irpf-2022-v-1-2-2022-05-16.pdf with 288 pages...

Processing file ../datasets/pr-irpf-2023-v1.1-04042023.pdf with 288 pages...

Number of common questions between 2022 and 2023: 658
Error while trying to compare questions {e}
Processing file ../datasets/pr-irpf-2023-v1.1-04042023.pdf with 288 pages...

Processing file ../datasets/pr-irpf-2024-v1.0-2024.05.03.pdf with 301 pages...

Number of common questions between 2023 and 2024: 684
Error while trying to compare questions {e}


In [26]:
all_common_answers

[{'first_year': '2016', 'second_year': '2017', 'common': 689},
 {'first_year': '2017', 'second_year': '2018', 'common': 681},
 {'first_year': '2018', 'second_year': '2019', 'common': 499},
 {'first_year': '2019', 'second_year': '2020', 'common': 667},
 {'first_year': '2020', 'second_year': '2021', 'common': 683},
 {'first_year': '2021', 'second_year': '2022', 'common': 677},
 {'first_year': '2022', 'second_year': '2023', 'common': 658},
 {'first_year': '2023', 'second_year': '2024', 'common': 684}]

In [30]:
all_answers_dfs[0].shape

(704, 7)

In [31]:
all_answers_dfs[1].shape

(704, 7)

In [34]:
common_fraction = []

for common in all_common_answers:
    common_fraction.append(common['common'] / 704)

In [38]:
np.mean(common_fraction)

0.9300426136363635

In [39]:
np.mean(common_fraction[0:2] + common_fraction[3:])

0.9616477272727273

In [36]:
common_fraction

[0.9786931818181818,
 0.9673295454545454,
 0.7088068181818182,
 0.9474431818181818,
 0.9701704545454546,
 0.9616477272727273,
 0.9346590909090909,
 0.9715909090909091]

In [40]:
704 * 0.96

675.8399999999999

In [41]:
df_common = pd.DataFrame(all_common_answers)

In [42]:
df_common

Unnamed: 0,first_year,second_year,common
0,2016,2017,689
1,2017,2018,681
2,2018,2019,499
3,2019,2020,667
4,2020,2021,683
5,2021,2022,677
6,2022,2023,658
7,2023,2024,684


In [43]:
df_common['common'].mean()

654.75