## Projeto ACCL

**IMPORTANTE:** Este exemplo requer a lib `openai` na versão 1.0 ou superior. Execute a primeira célula do notebook para verificar a versão da sua instalação.

In [1]:
import openai
openai.__version__

'1.35.14'

In [9]:
import base64
from openai import AzureOpenAI
from configparser import ConfigParser, ExtendedInterpolation
import httpx
import numpy as np

config = ConfigParser(interpolation=ExtendedInterpolation())
config.read('../../config-v1.x.ini', 'UTF-8')

http_client = httpx.Client(verify='../../petrobras-ca-root.pem')

client = AzureOpenAI(
    api_key=config['OPENAI']['OPENAI_API_KEY'],  
    api_version=config['OPENAI']['OPENAI_API_VERSION'],
    base_url=config['OPENAI']['AZURE_OPENAI_BASE_URL'],
    http_client=http_client
)

MODEL_DEPLOYMENT_ID = 'gpt-4o-petrobras'

In [3]:
def send_message(messages, engine, max_response_tokens=500):
    
    response = client.chat.completions.create(
        model=engine,
        messages=messages,
        temperature=0.5,
        max_tokens=max_response_tokens,
        top_p=0.9,
        frequency_penalty=0,
        presence_penalty=0
    )
    return response.choices[0].message.content


In [1]:
import os
import shutil
from pdf2image import convert_from_path
import pandas as pd

# Caminho para o diretório dos arquivos PDF
diretorio_pdf = "C:\\Users\\U33V\\OneDrive - PETROBRAS\\Desktop\\python\\docs_p_converter\\"
diretorio_to_pdf = "C:\\Users\\U33V\\OneDrive - PETROBRAS\\Desktop\\python\\docs_p_converter\\TEMP\\"

# Percorre os arquivos no diretório
for arquivo in os.listdir(diretorio_pdf):
    try:
        # Verifica se o arquivo é uma imagem
        print(arquivo)
        if arquivo.endswith(('.jpg', '.jpeg', '.png', '.gif')):
            # Copia o arquivo para o novo diretório
            caminho_imagem = os.path.join(diretorio_pdf, arquivo)
            print(caminho_imagem)
            shutil.copy(caminho_imagem, diretorio_to_pdf)
            print(f'Arquivo {arquivo} copiado com sucesso.')

        
        elif arquivo.endswith('.pdf'):
            caminho_arquivo = os.path.join(diretorio_pdf, arquivo)
            
            # Converte o arquivo PDF para imagens
            imagens = convert_from_path(caminho_arquivo,  500,poppler_path=r"C:\\Users\\U33V\\OneDrive - PETROBRAS\\Desktop\\python\\poppler-0.68.0\\bin")
            
            # Salva as imagens
            for i, imagem in enumerate(imagens):
                nome_imagem = f'{arquivo}_{i}.jpg' # ou outro formato de imagem desejado
                caminho_imagem = os.path.join(diretorio_to_pdf, nome_imagem)
                imagem.save(caminho_imagem, 'JPEG')
                
            print(f'Arquivo {arquivo} convertido com sucesso.')
    except:
        pass
  
# Percorre os arquivos no diretório convertido e pega somente as imagens e guarda em dataframe
arquivos=[]
for arquivo in os.listdir(diretorio_to_pdf):
    if arquivo.endswith(('.jpg', '.jpeg', '.png', '.gif')):
        caminho_imagem = os.path.join(diretorio_to_pdf, arquivo)
        arquivos.append(caminho_imagem)

print(arquivos)
texts_in_data = [x for x  in arquivos]
df = pd.DataFrame(texts_in_data)

df.rename( columns={0 :'arquivo'}, inplace=True )


base64_imagens=[]
for index, row in df.iterrows():
    with open(row["arquivo"], 'rb') as f:
        base64_image = base64.b64encode(f.read()).decode('utf-8')
        base64_imagens.append(base64_image)

df["base64"]=base64_imagens

000000022548084_2000995714_2733.pdf
000000022624582_045-44-00057_2021.pdf
Arquivo 000000022624582_045-44-00057_2021.pdf convertido com sucesso.
000000022624582_2000996008_NFSe_00001456.pdf
Arquivo 000000022624582_2000996008_NFSe_00001456.pdf convertido com sucesso.
000000022731443_2001022306_2834.pdf
Arquivo 000000022731443_2001022306_2834.pdf convertido com sucesso.
000000022731444_2001022551_2840.pdf
Arquivo 000000022731444_2001022551_2840.pdf convertido com sucesso.
000000022742341_2001022309_2838.pdf
Arquivo 000000022742341_2001022309_2838.pdf convertido com sucesso.
000000022744759_1. 007-62-00747-2021 1.jpg
C:\Users\U33V\OneDrive - PETROBRAS\Desktop\python\docs_p_converter\000000022744759_1. 007-62-00747-2021 1.jpg
Arquivo 000000022744759_1. 007-62-00747-2021 1.jpg copiado com sucesso.
000000022744759_2001019931_BLUE MARLIN AFRETAMENTO  ME.pdf
Arquivo 000000022744759_2001019931_BLUE MARLIN AFRETAMENTO  ME.pdf convertido com sucesso.
000000022761135_2001022308_2836.pdf
Arquivo 000

In [15]:
df

Unnamed: 0,arquivo,base64,resposta
0,C:\Users\U33V\OneDrive - PETROBRAS\Desktop\pyt...,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBw...,"NOTAFISCAL | 00002733 | 5.184.721,24"
1,C:\Users\U33V\OneDrive - PETROBRAS\Desktop\pyt...,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBw...,"CERTIFICADO | 045-44-00057/2021 | 98,50%"
2,C:\Users\U33V\OneDrive - PETROBRAS\Desktop\pyt...,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBw...,"NOTAFISCAL | 00001456 | 8.795.221,65"
3,C:\Users\U33V\OneDrive - PETROBRAS\Desktop\pyt...,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBw...,"NOTAFISCAL | 00002834 | 4.940.580,98"
4,C:\Users\U33V\OneDrive - PETROBRAS\Desktop\pyt...,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBw...,"NOTAFISCAL | 00002840 | 4.890.981,84"
5,C:\Users\U33V\OneDrive - PETROBRAS\Desktop\pyt...,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBw...,"NOTAFISCAL | 00002838 | R$ 4.581.363,50"
6,C:\Users\U33V\OneDrive - PETROBRAS\Desktop\pyt...,/9j/4AAQSkZJRgABAQEAlgCWAAD/4gogSUNDX1BST0ZJTE...,"CERTIFICADO | 007-62-00747/2021 | 75,70%"
7,C:\Users\U33V\OneDrive - PETROBRAS\Desktop\pyt...,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBw...,"RECIBO | 126 1091 | R$ 5.158.699,56"
8,C:\Users\U33V\OneDrive - PETROBRAS\Desktop\pyt...,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBw...,"NOTAFISCAL | 00002836 | 1.567.942,40"
9,C:\Users\U33V\OneDrive - PETROBRAS\Desktop\pyt...,/9j/4AAQSkZJRgABAQAAAQABAAD/2wBDAAgGBgcGBQgHBw...,"NOTAFISCAL | 00002839 | 3.763.360,69"


In [12]:

respostas=[]
for index, row in df.iterrows():
    messages=[
        {"role": "system", "content": 'Você deve ajudar o usuário numa tarefa de classificação e extração de informações sobre 3 tipos de imagens.'},
        {"role": "user", "content": [
            {
                'type': 'text',
                'text': 'Descreva o conteúdo da imagem com base na seguinte regra:  1-Se for uma nota fiscal, responda NOTAFISCAL | número da nota | valor total da nota. 2- Se for Certificado de Conteúdo Local, responda CERTIFICADO | número de certificado | percentual de conteúdo local. 3- Se for recibo, responda RECIBO | número do recibo | valor total.'
            },
            {
                "type": "image_url",
                "image_url": {
                    "url": f"data:image/png;base64,{row['base64']}"
                }
            }
        ]}
    ]
    response = send_message(messages, engine=MODEL_DEPLOYMENT_ID)

    # Converte a string para UTF-8
    utf8_string = response.encode('utf-8')
    # Imprime a string UTF-8
    print(utf8_string.decode('utf-8'))
    respostas.append(utf8_string.decode('utf-8'))

df["resposta"]=respostas

NOTAFISCAL | 00002733 | 5.184.721,24
CERTIFICADO | 045-44-00057/2021 | 98,50%
NOTAFISCAL | 00001456 | 8.795.221,65
NOTAFISCAL | 00002834 | 4.940.580,98
NOTAFISCAL | 00002840 | 4.890.981,84
NOTAFISCAL | 00002838 | R$ 4.581.363,50
CERTIFICADO | 007-62-00747/2021 | 75,70%
RECIBO | 126 1091 | R$ 5.158.699,56
NOTAFISCAL | 00002836 | 1.567.942,40
NOTAFISCAL | 00002839 | 3.763.360,69
NOTAFISCAL | 00002837 | R$ 2.640.404,33
CERTIFICADO | 045-45-00318/2021 | 57,45%
Não é possível determinar o tipo de documento com base nas informações visíveis na imagem. Ela contém uma tabela com números, mas não há indicações claras de que se trata de uma nota fiscal, certificado de conteúdo local ou recibo.
NOTAFISCAL | 00015168 | 2.684.242,65
CERTIFICADO | 045-45-00318/2021 | 57,45%
CERTIFICADO | 2050.0085457.13.2 | (percentual de conteúdo local não especificado)


In [13]:
df.to_csv("analise.csv")

In [14]:
df["resposta"]

0                  NOTAFISCAL | 00002733 | 5.184.721,24
1              CERTIFICADO | 045-44-00057/2021 | 98,50%
2                  NOTAFISCAL | 00001456 | 8.795.221,65
3                  NOTAFISCAL | 00002834 | 4.940.580,98
4                  NOTAFISCAL | 00002840 | 4.890.981,84
5               NOTAFISCAL | 00002838 | R$ 4.581.363,50
6              CERTIFICADO | 007-62-00747/2021 | 75,70%
7                   RECIBO | 126 1091 | R$ 5.158.699,56
8                  NOTAFISCAL | 00002836 | 1.567.942,40
9                  NOTAFISCAL | 00002839 | 3.763.360,69
10              NOTAFISCAL | 00002837 | R$ 2.640.404,33
11             CERTIFICADO | 045-45-00318/2021 | 57,45%
12    Não é possível determinar o tipo de documento ...
13                 NOTAFISCAL | 00015168 | 2.684.242,65
14             CERTIFICADO | 045-45-00318/2021 | 57,45%
15    CERTIFICADO | 2050.0085457.13.2 | (percentual ...
Name: resposta, dtype: object