In [None]:
# Instalar o pacotes quando necess√°rio
pip install tiktoken

In [1]:
# Carregar os pacotes necess√°rios
import os
import openai
import pypdf
import pandas as pd
from dotenv import load_dotenv
from dotenv import dotenv_values
import certifi
import ssl
import tiktoken

In [8]:
# Carregar certificado SSL
ssl._create_default_https_context = ssl.create_default_context(cafile=certifi.where())

In [2]:
# Carregar vari√°veis de ambiente
load_dotenv()

# Obter a chave da API
openai.api_key = os.getenv("OPENAI_API_KEY")

# Verificar se a chave foi carregada corretamente
if not openai.api_key:
    raise ValueError("A chave da API n√£o foi carregada. Verifique o arquivo .env")

In [3]:
# Fun√ß√£o que extrai texto de um PDF
def extract_text_from_pdf(pdf_path):
    """Extrai texto de um PDF."""
    reader = pypdf.PdfReader(pdf_path)
    text = "\n".join([page.extract_text() for page in reader.pages if page.extract_text()])
    return text.strip()

In [4]:
# Fun√ß√£o que envia o texto para a OpenAI e retorna a an√°lise
def analyze_text_with_openai(text):
    """Envia o texto para a OpenAI e retorna a an√°lise."""
    response = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "Extraia as informa√ß√µes mais relevantes do texto."},
            {"role": "user", "content": text}
        ]
    )
    return response["choices"][0]["message"]["content"]

In [5]:
# Fun√ß√£o que salva a sa√≠da em um arquivo TXT
def save_output_as_txt(output_text, output_file="output.txt"):
    """Salva a sa√≠da em um arquivo TXT."""
    with open(output_file, "w", encoding="utf-8") as file:
        file.write(output_text)
    print(f"‚úÖ Resultado salvo em {output_file}")

# Fun√ß√£o que salva a sa√≠da em um arquivo CSV
def save_output_as_csv(output_text, output_file="output.csv"):
    """Salva a sa√≠da em um arquivo CSV."""
    df = pd.DataFrame({"Informa√ß√µes Extra√≠das": [output_text]})
    df.to_csv(output_file, index=False, encoding="utf-8")
    print(f"‚úÖ Resultado salvo em {output_file}")

In [6]:
# Caminho do arquivo PDF
pdf_path = "/Users/anderson.paiva/Downloads/exames.pdf"  # Altere para o caminho do seu PDF

if not os.path.exists(pdf_path):
    print(f"Arquivo {pdf_path} n√£o encontrado!")
else:
    print("üìñ Lendo o PDF...")
    text = extract_text_from_pdf(pdf_path)
    
    if text:
        print("üöÄ Enviando para OpenAI...")
        extracted_info = analyze_text_with_openai(text)

        # Salvar os resultados
        save_output_as_txt(extracted_info)
        save_output_as_csv(extracted_info)

        # Exibir sa√≠da no Notebook
        print("\nüìå Informa√ß√µes Extra√≠das:")
        print(extracted_info)
    else:
        print("‚ùå N√£o foi poss√≠vel extrair texto do PDF.")

üìñ Lendo o PDF...
üöÄ Enviando para OpenAI...
‚úÖ Resultado salvo em output.txt
‚úÖ Resultado salvo em output.csv

üìå Informa√ß√µes Extra√≠das:
- O documento apresenta um pedido de exames m√©dicos realizado pelo paciente Anderson Xavier de Paiva Mello, assinado digitalmente pela Dra. Rosiane Aparecida Turim Gomes Pinho, com CRM 185007 SP.
- Dentre os exames solicitados, destacam-se hemograma completo, colesterol total, glicemia em jejum, horm√¥nio tireoestimulante (TSH), creatinina, entre outros. Al√©m disso, inclui exames como Prote√≠na C reativa, VDRL, HBsAg, Anti-HIV 1 e 2, Anti-HCV, entre outros.
- Tamb√©m foi solicitada uma radiografia de t√≥rax com 2 incid√™ncias, al√©m de um exame de rotina de urina com urocultura.
- O acesso √† receita digital via QR Code e a valida√ß√£o da assinatura do documento podem ser feitas por meio do link https://validador.memed.com.br utilizando o Token: RfpgQt.
- O paciente possui o CPF 314.596.618-93 e o endere√ßo fornecido para o exame √© Rua 

N√∫mero de tokens no arquivo: 277


In [10]:
# Dicion√°rio com pre√ßos dos modelos
precos_modelos = {
    "gpt-4-turbo": (0.01, 0.03),
    "gpt-4": (0.03, 0.06),
    "gpt-3.5-turbo": (0.0015, 0.002),
    "text-davinci-003": (0.02, 0.02),
    "code-davinci-002": (0.02, 0.02),
}

# Fun√ß√£o que conta o n√∫mero de tokens de um arquivo
def contar_tokens_arquivo(caminho_arquivo, modelo="gpt-3.5-turbo"):

    encoding = tiktoken.encoding_for_model(modelo)

    with open(caminho_arquivo, "r", encoding="utf-8") as f:
        texto = f.read()

    return len(encoding.encode(texto))

# Fun√ß√£o que calcula o custo de um arquivo
def calcular_custo(tokens_saida):
    """ Calcula o custo baseado no n√∫mero de tokens de sa√≠da para todos os modelos. """
    custos = {}
    for modelo, (preco_entrada, preco_saida) in precos_modelos.items():
        custo_total = (tokens_saida / 1000) * preco_saida  # Apenas sa√≠da, assumindo que j√° est√° gerado
        custos[modelo] = round(custo_total, 6)  # Arredondando para 6 casas decimais
    
    return custos

# Caminho do arquivo de sa√≠da
caminho_arquivo = "/Users/anderson.paiva/Documents/GitHub/axpm_projetos_dados/projeto_pdf_extract/output.txt"

# Contar tokens do arquivo
tokens_saida = contar_tokens_arquivo(caminho_arquivo)

# Calcular custo para cada modelo
custos = calcular_custo(tokens_saida)

# Exibir os custos
print(f"N√∫mero de tokens no arquivo: {tokens_saida}")
for modelo, custo in custos.items():
    print(f"Custo para {modelo}: ${custo}")

N√∫mero de tokens no arquivo: 277
Custo para gpt-4-turbo: $0.00831
Custo para gpt-4: $0.01662
Custo para gpt-3.5-turbo: $0.000554
Custo para text-davinci-003: $0.00554
Custo para code-davinci-002: $0.00554
