In [1]:
import re
from glob import glob

import docx2txt
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt

In [2]:
pastas = glob("dados/*")

In [3]:
alternativas = ["01", "02", "04", "08", "16"]

In [4]:
def parse_prova(
    prova,
    separador="———————",
    separador_n="\xa0",
    indicador_fim=r"\.[\S\n ]+\d+[\S\n ]+UEM",
    alternativas=["01", "02", "04", "08", "16"],
    marcador_questao="Questão",
):

    # Encontra as posições de início de cada questão
    posicao_questoes = [
        p.start() for p in re.finditer(f"{marcador_questao}.+{separador}", prova)
    ] + [len(prova)]
    questoes_prova_ = [
        prova[posicao_questoes[i] : posicao_questoes[i + 1]]
        for i in range(len(posicao_questoes) - 1)
    ]

    questoes_prova_parsed = []
    print(f"Número de questões encontradas: {len(questoes_prova_)}")

    for questao in questoes_prova_:
        try:
            numero_questao, texto = questao.split(separador, 1)
        except ValueError as e:
            print(f"Erro ao separar a questão: {questao}")
            raise e

        # Extrai o número da questão
        numero_questao = (
            numero_questao.lstrip().rstrip().split(marcador_questao)[1].lstrip()
        )

        # Remove o separador das alternativas e quaisquer novas linhas
        texto = texto.replace("\n", "").replace(separador, "")
        fim_do_texto_da_questao = len(texto)
        lista_possibilidades_extras_fim_de_questao = [
            "ESPANHOLTEXTO",
            "LÍNGUA PORTUGUESATEXTO",
            "LITERATURAS EM LÍNGUA PORTUGUESA",
            "FRANCÊSTEXTE",
            "INGLÊSTEXT",
            "Leia o texto a seguir para responder as questões",
        ]
        for extra_fim_de_questao in lista_possibilidades_extras_fim_de_questao:
            if extra_fim_de_questao in texto:
                fim_do_texto_da_questao = texto.find(extra_fim_de_questao)
                break

        # Encontra as posições das alternativas
        posicao_alternativas = (
            [0]
            + [
                texto.find(f"{alternativa}){separador_n}")
                for alternativa in alternativas
            ]
            + [fim_do_texto_da_questao]
        )
        texto_alternativas = [
            texto[posicao_alternativas[i] : posicao_alternativas[i + 1]]
            for i in range(len(posicao_alternativas) - 1)
        ]
        texto_alternativas = [
            t.lstrip().rstrip().replace(separador_n, " ").replace(separador, "")
            for t in texto_alternativas
        ]

        questoes_prova_parsed.append([[numero_questao, texto_alternativas]])

    try:
        fim_da_ultima_alternativa = (
            list(re.finditer(indicador_fim, questoes_prova_parsed[-1][-1][-1][-1]))[
                0
            ].start()
            + 1
        )
        questoes_prova_parsed[-1][-1][-1][-1] = questoes_prova_parsed[-1][-1][-1][-1][
            :fim_da_ultima_alternativa
        ]
    except IndexError:
        print("Não foi possível encontrar o indicador de fim.")

    return questoes_prova_parsed

In [5]:
def verifica_numero_itens(prova):

    try:
        print(np.asarray([len(prova_[0][1]) for prova_ in prova]))
    except:
        pass
    return np.sum(np.asarray([len(prova_[0][1]) for prova_ in prova]) == 6)

## 2015

In [6]:
prova2015ve = docx2txt.process("dados/2015/VES-VE/P1G1.docx")
parsed_prova2015ve = parse_prova(prova2015ve, separador="———————————————————")

Número de questões encontradas: 40


In [7]:
verifica_numero_itens(parsed_prova2015ve)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6]


40

## 2016

In [48]:
prova2016in = docx2txt.process("dados/2016/VES_IN/P1G1.docx")
parsed_prova2016in = parse_prova(
    prova2016in, separador_n="\t", separador="———————————————————"
)

prova2016ve = docx2txt.process("dados/2016/VES_VE/P1G1.docx")
parsed_prova2016ve = parse_prova(
    prova2016ve, separador_n="\t", separador="———————————————————"
)

Número de questões encontradas: 40
Número de questões encontradas: 40


In [9]:
verifica_numero_itens(parsed_prova2016in), verifica_numero_itens(parsed_prova2016ve)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6]
[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6]


(40, 40)

## 2017

In [10]:
prova2017in = docx2txt.process("dados/2017/VES_IN/P1G1.docx")
parsed_prova2017in = parse_prova(
    prova2017in, separador_n="\t", separador="———————————————————"
)

prova2017ve = docx2txt.process("dados/2017/VES_VE/P1G1.docx")
parsed_prova2017ve = parse_prova(
    prova2017ve, separador_n="\t", separador="———————————————————"
)

Número de questões encontradas: 40
Número de questões encontradas: 40


In [11]:
verifica_numero_itens(parsed_prova2017in), verifica_numero_itens(parsed_prova2017ve)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6]
[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6]


(40, 40)

In [12]:
prova2017pas1 = docx2txt.process("dados/2017/PAS/E1G1.docx")
parsed_prova2017pas1 = parse_prova(prova2017pas1, separador_n="\t", separador="———————")

prova2017pas2 = docx2txt.process("dados/2017/PAS/E2G1.docx")
parsed_prova2017pas2 = parse_prova(prova2017pas2, separador_n="\t", separador="———————")

prova2017pas3 = docx2txt.process("dados/2017/PAS/E3G1.docx")
parsed_prova2017pas3 = parse_prova(prova2017pas3, separador_n="\t", separador="———————")

Número de questões encontradas: 50
Número de questões encontradas: 52
Número de questões encontradas: 40


In [13]:
verifica_numero_itens(parsed_prova2017pas1)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6]


50

In [14]:
verifica_numero_itens(parsed_prova2017pas2)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6]


52

In [15]:
verifica_numero_itens(parsed_prova2017pas3)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6]


40

## 2018

In [16]:
prova2018ve = docx2txt.process("dados/2018/VES_VE/P1G1.docx")
parsed_prova2018ve = parse_prova(
    prova2018ve, separador_n="\t", separador="———————————————————"
)

Número de questões encontradas: 40


In [17]:
verifica_numero_itens(parsed_prova2018ve)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6]


40

In [18]:
prova2018pas1 = docx2txt.process("dados/2018/PAS/E1G1.docx")
parsed_prova2018pas1 = parse_prova(prova2018pas1, separador_n="\t", separador="———————")

prova2018pas2 = docx2txt.process("dados/2018/PAS/E2G1.docx")
parsed_prova2018pas2 = parse_prova(prova2018pas2, separador_n="\t", separador="———————")

prova2018pas3 = docx2txt.process("dados/2018/PAS/E3G1.docx")
parsed_prova2018pas3 = parse_prova(prova2018pas3, separador_n="\t", separador="———————")

Número de questões encontradas: 50
Número de questões encontradas: 50
Número de questões encontradas: 38


In [19]:
verifica_numero_itens(parsed_prova2018pas1)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6]


50

In [20]:
verifica_numero_itens(parsed_prova2018pas2)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6]


50

In [21]:
# o numero de questoes das provas de linguas varia
verifica_numero_itens(parsed_prova2018pas3)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6]


38

## 2019

In [22]:
prova2019ve = docx2txt.process("dados/2019/VES_VE/P1G1.docx")
parsed_prova2019ve = parse_prova(
    prova2019ve, separador_n="\t", separador="—————————————————"
)

Número de questões encontradas: 40


In [23]:
verifica_numero_itens(parsed_prova2019ve)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6]


40

In [24]:
prova2019pas1 = docx2txt.process("dados/2019/PAS/E1G1.docx")
parsed_prova2019pas1 = parse_prova(prova2019pas1, separador_n="\t", separador="———————")

prova2019pas2 = docx2txt.process("dados/2019/PAS/E2G1.docx")
parsed_prova2019pas2 = parse_prova(prova2019pas2, separador_n="\t", separador="———————")

prova2019pas3 = docx2txt.process("dados/2019/PAS/E3G1.docx")
parsed_prova2019pas3 = parse_prova(prova2019pas3, separador_n="\t", separador="———————")

Número de questões encontradas: 50
Número de questões encontradas: 50
Número de questões encontradas: 38


In [25]:
verifica_numero_itens(parsed_prova2019pas1)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6]


50

In [26]:
verifica_numero_itens(parsed_prova2019pas2)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6]


50

In [27]:
verifica_numero_itens(parsed_prova2019pas3)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6]


38

## 2020

In [28]:
prova2020ves = docx2txt.process("dados/2020/VES/P1.docx")
parsed_prova2020ves = parse_prova(
    prova2020ves, separador_n="\t", separador="—————————————————"
)

Número de questões encontradas: 40


In [29]:
verifica_numero_itens(parsed_prova2020ves)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6]


40

## 2021

## 2022

In [30]:
prova2022ves = docx2txt.process("dados/2022/VES/P1.docx")
parsed_prova2022ves = parse_prova(
    prova2022ves, separador_n="\t", separador=" —————————————————"
)

Número de questões encontradas: 140


In [31]:
parsed_prova2022ves = parsed_prova2022ves[:50] #seleciona apenas a parte geral da prova

In [32]:
verifica_numero_itens(parsed_prova2022ves)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6]


50

In [33]:
prova2022pas1 = docx2txt.process("dados/2022/PAS/E1G1.docx")
parsed_prova2022pas1 = parse_prova(prova2022pas1, separador_n="\t", separador="———————")

prova2022pas2 = docx2txt.process("dados/2022/PAS/E2G1.docx")
parsed_prova2022pas2 = parse_prova(prova2022pas2, separador_n="\t", separador="———————")

prova2022pas3 = docx2txt.process("dados/2022/PAS/E3G1.docx")
parsed_prova2022pas3 = parse_prova(prova2022pas3, separador_n="\t", separador="———————")

Número de questões encontradas: 50
Número de questões encontradas: 52
Número de questões encontradas: 98


In [34]:
parsed_prova2022pas3 = parsed_prova2022pas3[:38] #seleciona apenas a parte geral da prova

In [35]:
verifica_numero_itens(parsed_prova2022pas1)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6]


50

In [36]:
verifica_numero_itens(parsed_prova2022pas2)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6]


52

In [37]:
verifica_numero_itens(parsed_prova2022pas3)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6]


38

## 2023

In [38]:
prova2023ve = docx2txt.process("dados/2023/VES_VE/2023-ve.docx")
parsed_prova2023ve = parse_prova(
    prova2023ve, separador_n="\t", separador="—————————————————"
)

Número de questões encontradas: 50


In [39]:
verifica_numero_itens(parsed_prova2023ve)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6]


50

In [40]:
prova2023in = docx2txt.process("dados/2023/VES_IN/P1_publicação.docx")
parsed_prova2023in = parse_prova(
    prova2023in, separador_n="\t", separador="—————————————————"
)

Número de questões encontradas: 58


In [41]:
verifica_numero_itens(parsed_prova2023in)

[6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6]


58

In [42]:
todas = [
    parsed_prova2015ve,
    parsed_prova2016in,
    parsed_prova2016ve,
    parsed_prova2017in,
    parsed_prova2017ve,
    parsed_prova2017pas1,
    parsed_prova2017pas2,
    parsed_prova2017pas3,
    parsed_prova2018ve,
    parsed_prova2018pas1,
    parsed_prova2018pas2,
    parsed_prova2018pas3,
    parsed_prova2019ve,
    parsed_prova2019pas1,
    parsed_prova2019pas2,
    parsed_prova2019pas3,
    parsed_prova2020ves,
    parsed_prova2022ves,
    parsed_prova2022pas1,
    parsed_prova2022pas2,
    parsed_prova2022pas3,
    parsed_prova2023in,
    parsed_prova2023ve,
]

info = [
    [2015, 've',],
    [2016, 'in',],
    [2016, 've',],
    [2017, 'in',],
    [2017, 've',],
    [2017, 'pas1',],
    [2017, 'pas2',],
    [2017, 'pas3',],
    [2018, 've',],
    [2018, 'pas1',],
    [2018, 'pas2',],
    [2018, 'pas3',],
    [2019, 've',],
    [2019, 'pas1',],
    [2019, 'pas2',],
    [2019, 'pas3',],
    [2020, 've',],
    [2022, 've',],
    [2022, 'pas1',],
    [2022, 'pas2',],
    [2022, 'pas3',],
    [2023, 'in',],
    [2023, 've',]]

In [43]:
import itertools

In [44]:
prova = todas[0]
info_ = info[0]

In [45]:
ldf = []
for prova,info_ in zip(todas,info):
    df_ = pd.DataFrame(
        [[questao[0][0]] + questao[0][1] for questao in prova],
        columns=[
            "numero_questao",
            "caput",
            "arternativa_1",
            "arternativa_2",
            "arternativa_4",
            "arternativa_8",
            "arternativa_16",
        ],
    )
    df_['ano'] = info_[0]
    df_['ref_ano'] = info_[0]
    if info_[1] == 've':
        df_['prova'] = 'vestibular verao'
        df_['ref_ano'] = df_['ref_ano'] + .6#11/12.
    if info_[1] == 'in':
        df_['prova'] = 'vestibular inverno'
        df_['ref_ano'] = df_['ref_ano']  #+ 6/12.
    
    if info_[1] == 'pas1':
        df_['prova'] = 'pas primeiro ano'
        df_['ref_ano'] = df_['ref_ano'] + .3 #10/12.
    if info_[1] == 'pas2':
        df_['prova'] = 'pas segundo ano'
        df_['ref_ano'] = df_['ref_ano'] + .3 #10/12.
    if info_[1] == 'pas3':
        df_['prova'] = 'pas terceiro ano'
        df_['ref_ano'] = df_['ref_ano'] + .3 #10/12.
    ldf += [df_]

In [46]:
df_provas = pd.concat(ldf)

In [47]:
df_provas = df_provas[
    [
        "prova",
        "ano",
        "ref_ano",
        "numero_questao",
        "caput",
        "alternativa_1",
        "alternativa_2",
        "alternativa_4",
        "alternativa_8",
        "alternativa_16"
    ]
]

KeyError: "['alternativa_1', 'alternativa_2', 'alternativa_4', 'alternativa_8', 'alternativa_16'] not in index"

In [None]:
df_provas.reset_index(drop=True,inplace=True)

In [None]:
df_provas[df_provas.caput.str.len()==0]

In [None]:
df_provas[
    (df_provas.arternativa_1.str.len() == 0)
    | (df_provas.arternativa_2.str.len() == 0)
    | (df_provas.arternativa_4.str.len() == 0)
    | (df_provas.arternativa_8.str.len() == 0)
    | (df_provas.arternativa_16.str.len() == 0)
]

In [None]:
df_provas

In [None]:
df_provas['gabarito'] = 0
df_provas['area'] = ''

In [None]:
df_provas.to_excel('dados/provas_tratadas.xlsx')

In [51]:
# Função para achatar listas de forma recursiva
def achatar_lista(lista):
    for item in lista:
        if isinstance(item, list):
            yield from achatar_lista(item)  # Achata sublistas
        else:
            yield str(item)  # Converte itens em string

# Lista dos nomes das variáveis pra salvar
variable_names = [
    "parsed_prova2015ve", "parsed_prova2016in", "parsed_prova2016ve", "parsed_prova2017in", "parsed_prova2017ve",
    "parsed_prova2017pas1", "parsed_prova2017pas2", "parsed_prova2017pas3", "parsed_prova2018ve", "parsed_prova2018pas1",
    "parsed_prova2018pas2", "parsed_prova2018pas3", "parsed_prova2019ve", "parsed_prova2019pas1", "parsed_prova2019pas2",
    "parsed_prova2019pas3", "parsed_prova2020ves", "parsed_prova2022ves", "parsed_prova2022pas1", "parsed_prova2022pas2",
    "parsed_prova2022pas3", "parsed_prova2023in", "parsed_prova2023ve"
]

# Loop para processar cada variável
for var_name in variable_names:
    # Acessa a variável usando globals()
    conteudo = globals().get(var_name)
    if conteudo is not None:
        # Achata e converte o conteúdo da variável em uma única string
        conteudo_string = "\n".join(achatar_lista(conteudo))

        # Salva o conteúdo em um arquivo com o nome da variável
        with open(f"{var_name}.txt", "w") as arquivo:
            arquivo.write(conteudo_string)
        print(f"{var_name}.txt salvo com sucesso!")
    else:
        print(f"Variável {var_name} não encontrada.")


parsed_prova2015ve.txt salvo com sucesso!
parsed_prova2016in.txt salvo com sucesso!
parsed_prova2016ve.txt salvo com sucesso!
parsed_prova2017in.txt salvo com sucesso!
parsed_prova2017ve.txt salvo com sucesso!
parsed_prova2017pas1.txt salvo com sucesso!
parsed_prova2017pas2.txt salvo com sucesso!
parsed_prova2017pas3.txt salvo com sucesso!
parsed_prova2018ve.txt salvo com sucesso!
parsed_prova2018pas1.txt salvo com sucesso!
parsed_prova2018pas2.txt salvo com sucesso!
parsed_prova2018pas3.txt salvo com sucesso!
parsed_prova2019ve.txt salvo com sucesso!
parsed_prova2019pas1.txt salvo com sucesso!
parsed_prova2019pas2.txt salvo com sucesso!
parsed_prova2019pas3.txt salvo com sucesso!
parsed_prova2020ves.txt salvo com sucesso!
parsed_prova2022ves.txt salvo com sucesso!
parsed_prova2022pas1.txt salvo com sucesso!
parsed_prova2022pas2.txt salvo com sucesso!
parsed_prova2022pas3.txt salvo com sucesso!
parsed_prova2023in.txt salvo com sucesso!
parsed_prova2023ve.txt salvo com sucesso!
