## Usando API da OpenAI para "ler" e interpretar imagens

In [3]:
import base64
import requests
from dotenv import load_dotenv, find_dotenv
import os
#https://platform.openai.com/docs/api-reference/audio/createTranscription


# Transformando uma imagem em um arquivo legível para o OpenAI
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Onde está a imagem — prefira colocar no mesmo diretório do scripts
image_path = "manifestacoes-2013-recife.jpg"

# Trasnformando imagem em um string
base64_image = encode_image(image_path)

headers = {
  "Content-Type": "application/json",
  "Authorization": f"Bearer {api_key}"
}

payload = {
  "model": "gpt-4-vision-preview",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Há vários cartazes nesta imagem das manifestações que aconteceram no Brasil em junho de 2013. Quais os principais temas delas? \
            Reproduza o texto e dê exemplos."
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)


{'id': 'chatcmpl-8z7J83qwcYWTIFWo1lxwI6Y8yGVcR', 'object': 'chat.completion', 'created': 1709576790, 'model': 'gpt-4-1106-vision-preview', 'usage': {'prompt_tokens': 1158, 'completion_tokens': 300, 'total_tokens': 1458}, 'choices': [{'message': {'role': 'assistant', 'content': 'Esta imagem captura um grande número de pessoas em uma manifestação com vários cartazes, refletindo uma diversidade de preocupações e demandas. Vários temas podem ser identificados nos cartazes, e embora não seja possível ler todos devido à distância e sobreposição, alguns dos textos visíveis e temas são os seguintes:\n\n1. "POR TRANSPORTE PÚBLICO DE QUALIDADE E PREÇO JUSTO! - MOVIMENTO ESTUDANTIL - DIREITO UFPE." - Este cartaz faz referência direta às tarifas de transporte público e à qualidade do serviço, que foram os estopins para as manifestações de junho de 2013 no Brasil.\n\n2. "PEC 37 NÃO" e "PEC 37 EU DIGO NÃO" - Esses cartazes se referem à Proposta de Emenda à Constituição de número 37, que buscava limi

In [5]:
print(response.json()['choices'][0]['message']['content'])

Esta imagem captura um grande número de pessoas em uma manifestação com vários cartazes, refletindo uma diversidade de preocupações e demandas. Vários temas podem ser identificados nos cartazes, e embora não seja possível ler todos devido à distância e sobreposição, alguns dos textos visíveis e temas são os seguintes:

1. "POR TRANSPORTE PÚBLICO DE QUALIDADE E PREÇO JUSTO! - MOVIMENTO ESTUDANTIL - DIREITO UFPE." - Este cartaz faz referência direta às tarifas de transporte público e à qualidade do serviço, que foram os estopins para as manifestações de junho de 2013 no Brasil.

2. "PEC 37 NÃO" e "PEC 37 EU DIGO NÃO" - Esses cartazes se referem à Proposta de Emenda à Constituição de número 37, que buscava limitar o poder de investigação do Ministério Público, e que foi um dos muitos pontos de controvérsia na época.

3. "VERÁS QUE UM FILHO TEU NÃO FOGE À LUTA" - É uma frase do hino nacional brasileiro, indicando um chamado patriótico para a ação e para defender os direitos dos cidadãos.



## Usando Whisper para transcrever áudio

Whisper é um modelo poderoso de _speech-to-text_, que pode ser usado tanto via API da OpenAI quanto localmente (instalado no computador — instruções [aqui](https://github.com/openai/whisper)). Vamos mostrar o seu uso via API primeiro:

In [9]:
from dotenv import load_dotenv, find_dotenv
from openai import OpenAI
load_dotenv(find_dotenv())

client = OpenAI()

# Aqui é um exemplo super simples:
audio_file = open("exemplo-audio.mp3", "rb")
transcript = client.audio.transcriptions.create(
  model="whisper-1",
  file=audio_file
)


Você pode acrescentar um prompt para melhorar a legibilidade da transcrição, acrescentando palavras específicas por exemplo:

`prompt="ZyntriQix, Digique Plus, CynapseFive, VortiQore V8, EchoNix Array, OrbitalLink Seven, DigiFractal Matrix, PULSE, RAPT, B.R.I.C.K., Q.U.A.R.T.Z., F.L.I.N.T."`
veja mais exemplos [neste link](https://platform.openai.com/docs/guides/speech-to-text/improving-reliability).

Outra coisa que você pode fazer é mudar o output, usando por exemplo um .srt (para ser usado em legendas)

In [None]:
#Agora copiamos para a área de trabalho:
from pyperclip import copy

copy(transcript.text)