In [1]:
import time
import requests
import numpy as np

In [5]:
VLLM_ENDPOINT = "http://qwen3-vl-4b-instruct-predictor.qwen3.svc.cluster.local:8080/v1/chat/completions"
MODEL_NAME = "qwen3-vl-4b-instruct"

IMAGE_LIST_FILE = "images.txt"
REQUESTS_PER_IMAGE = 5  # repete cada imagem
PROMPT = "Descreva a imagem em portugu√™s."

headers = {
    "Content-Type": "application/json"
}

In [6]:
with open(IMAGE_LIST_FILE, "r") as f:
    image_urls = [line.strip() for line in f if line.strip()]

print(f"{len(image_urls)} imagens carregadas.")


10 imagens carregadas.


In [7]:
latencies = []
responses = []

print("\nIniciando infer√™ncias multimodais...\n")

request_id = 1

for image_url in image_urls:
    for _ in range(REQUESTS_PER_IMAGE):
        payload = {
            "model": MODEL_NAME,
            "messages": [
                {
                    "role": "user",
                    "content": [
                        {"type": "text", "text": PROMPT},
                        {
                            "type": "image_url",
                            "image_url": {"url": image_url}
                        }
                    ]
                }
            ],
            "max_tokens": 120,
            "temperature": 0.2
        }

        start = time.time()
        resp = requests.post(
            VLLM_ENDPOINT,
            headers=headers,
            json=payload,
            timeout=120
        )
        elapsed = time.time() - start

        latencies.append(elapsed)

        if resp.status_code == 200:
            output = resp.json()["choices"][0]["message"]["content"]
            responses.append(output)

            print(f"[{request_id}] OK - {elapsed:.2f}s")
            print(f"Imagem: {image_url}")
            print(f"Resposta: {output}\n")
        else:
            print(f"[{request_id}] ERRO {resp.status_code} - {elapsed:.2f}s")

        request_id += 1



Iniciando infer√™ncias multimodais...

[1] OK - 4.56s
Imagem: https://img.odcdn.com.br/wp-content/uploads/2021/12/placa-mercosul-o-que-e.jpg
Resposta: A imagem mostra um close-up da frente de um carro branco, com foco na placa de licen√ßa. O ve√≠culo √© uma Fiat, como indicado pelo emblema no cap√¥. A placa √© brasileira, com a bandeira do Brasil no canto superior direito e a palavra "BRASIL" no topo. O n√∫mero da placa √© "0ZL7H33", com o c√≥digo "BR" no canto inferior esquerdo, indicando que o carro est√° registrado no Brasil. O carro est√° estacionado em uma rua,

[2] OK - 4.25s
Imagem: https://img.odcdn.com.br/wp-content/uploads/2021/12/placa-mercosul-o-que-e.jpg
Resposta: A imagem mostra um close-up da frente de um carro branco, com foco na placa de licen√ßa. O ve√≠culo √© uma Fiat, como indicado pelo emblema no cap√¥. A placa √© brasileira, com a sigla "BR" no canto esquerdo e a palavra "BRASIL" no topo, al√©m da bandeira do Brasil no canto direito. O n√∫mero da placa √© "OZL7H3

In [8]:
latencies_np = np.array(latencies)

p50 = np.percentile(latencies_np, 50)
p95 = np.percentile(latencies_np, 95)
avg = latencies_np.mean()

print("\n==============================")
print("üìä Resultados Multimodais")
print("==============================")
print(f"Total de requisi√ß√µes : {len(latencies)}")
print(f"Lat√™ncia m√©dia       : {avg:.2f}s")
print(f"P50                  : {p50:.2f}s")
print(f"P95                  : {p95:.2f}s")



üìä Resultados Multimodais
Total de requisi√ß√µes : 50
Lat√™ncia m√©dia       : 4.31s
P50                  : 4.27s
P95                  : 4.58s
