In [1]:
import pandas as pd
import google.generativeai as genai
import fitz
import time

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
def extract_text_from_pdf(pdf_path):
    """Extrai o texto de um arquivo PDF."""
    doc = fitz.open(pdf_path)
    text = "\n".join([page.get_text() for page in doc])
    return text

In [3]:
pdf_path = "Prova-comenta-OAB-XL-1_removed.pdf" 
extracted_text = extract_text_from_pdf(pdf_path)
print(extracted_text)

 
 
PROVA COMENTADA 
XL EXAME DA OAB 
 
QUESTÃO 01. Pedro, contador com vasta experiência e sólida carreira, decide fazer uma segunda 
graduação, tornando-se bacharel em Direito. Depois da aprovação no Exame de Ordem Unificado e da 
inscrição nos quadros da Ordem dos Advogados do Brasil, Pedro pretende continuar prestando serviços 
contábeis, sem prejuízo do exercício concomitante da nova atividade. 
a) Pedro não poderá exercer de modo concomitante as atividades de contador e advogado, pois, de acordo 
com o Estatuto da Advocacia da OAB, a prestação de serviços contábeis é incompatível com o exercício 
simultâneo da advocacia. 
b) Não há óbice ético para o duplo exercícios das atividades de contador e advogado, podendo Pedro se 
valer da divulgação conjunta dos serviços oferecidos, desde que não seja por meio de inscrições em muros, 
paredes, veículos, elevadores ou em qualquer espaço público. 
c) Embora não haja incompatibilidade para o exercício concomitante das duas atividades, não 

In [4]:
import re

def separar_questoes_comentarios(texto):
    padrao_questao = re.compile(r'(QUESTÃO \d+\..*?)(?=(?:QUESTÃO \d+\.|$))', re.DOTALL)
    questoes = padrao_questao.findall(texto)
    
    resultado = []
    for questao in questoes:
        partes = re.split(r'\bComentários\b', questao, maxsplit=1, flags=re.IGNORECASE)
        enunciado = partes[0].strip()
        comentario = partes[1].strip() if len(partes) > 1 else ''
        resultado.append((enunciado, comentario))
    
    return resultado

texto = extracted_text
questoes_comentarios = separar_questoes_comentarios(texto)

df = pd.DataFrame(questoes_comentarios, columns=['Questão', 'Comentários'])

print(df.head())


                                             Questão  \
0  QUESTÃO 01. Pedro, contador com vasta experiên...   
1  QUESTÃO 02. Formalizou-se, no Tribunal Regiona...   
2  QUESTÃO 03. Valmir, bacharel em Direito, aprov...   
3  QUESTÃO 04. Sebastião, advogado, celebrou cont...   
4  QUESTÃO 05. Antônio Oliveira, advogado, comete...   

                                         Comentários  
0  A alternativa correta é a letra C. A questão t...  
1  A alternativa correta é a letra A. A questão t...  
2  A alternativa correta é a letra C. A questão t...  
3  A alternativa correta é a letra C. A questão t...  
4  A alternativa correta é a letra A. A questão t...  


In [12]:
def extract_legal_principles(text, retries=3, delay=5):
    genai.configure(api_key="AIzaSyC4uelrfDftioSUAScYOcgUExu0njqVg_0")
    model = genai.GenerativeModel("gemini-2.0-flash-lite")
    prompt = f"""
    Extraia os artigos, leis, dispositivos legais, etc. contidos no seguinte texto:
    {text}
    Liste apenas os itens legais que possuem identificação específica, como artigos ou dispositivos de leis. 
    Não mencione itens genéricos, como "Código de Ética da OAB". Além disso, cada item legal deve ser listado 
    separadamente e de forma discriminada. Por exemplo, artigos de uma mesma lei devem ser citados 
    individualmente. Não inclua princípios legais nem repita os artigos já mencionados. Liste os itens de forma 
    objetiva e clara, separados por ponto-e-vírgula (;) Caso não haja artigos, leis ou dispositivos legais específicos no texto fornecido, 
    não retorne absolutamente nada.
    """
    
    for attempt in range(retries):
        try:
            response = model.generate_content(prompt)
            return response.text
        except Exception:
            if attempt < retries - 1:
                print(f"Resource exhausted. Retrying in {delay} seconds... (Attempt {attempt + 1}/{retries})")
                time.sleep(delay)
            else:
                print("Max retries reached. Unable to process the request.")
                return None

df['Princípios'] = df['Comentários'].apply(extract_legal_principles)
print(df.head())

Resource exhausted. Retrying in 5 seconds... (Attempt 1/3)
Resource exhausted. Retrying in 5 seconds... (Attempt 2/3)
Resource exhausted. Retrying in 5 seconds... (Attempt 1/3)
Resource exhausted. Retrying in 5 seconds... (Attempt 2/3)
                                             Questão  \
0  QUESTÃO 01. Pedro, contador com vasta experiên...   
1  QUESTÃO 02. Formalizou-se, no Tribunal Regiona...   
2  QUESTÃO 03. Valmir, bacharel em Direito, aprov...   
3  QUESTÃO 04. Sebastião, advogado, celebrou cont...   
4  QUESTÃO 05. Antônio Oliveira, advogado, comete...   

                                         Comentários  \
0  A alternativa correta é a letra C. A questão t...   
1  A alternativa correta é a letra A. A questão t...   
2  A alternativa correta é a letra C. A questão t...   
3  A alternativa correta é a letra C. A questão t...   
4  A alternativa correta é a letra A. A questão t...   

                                          Princípios  
0  Artigo 28 do Estatuto da Ordem d

In [13]:
df.to_csv('oab40_leis.csv', index=False)