# Teste T√©cnico Axur - Web Scraping e API de Infer√™ncia

Este notebook executa as tarefas solicitadas no teste t√©cnico da Axur para est√°gio:

**Pr√©-condi√ß√µes:**

- Acesso √† internet para realizar scraping e chamadas API.
- Token de autentica√ß√£o v√°lido (fornecido pela Axur).
- Bibliotecas Python instaladas: `requests`, `beautifulsoup4`, `json`, `base64`.
- Ambiente Python 3.x configurado.

O script realiza as seguintes etapas:
1. Faz o scraping de uma p√°gina para baixar uma imagem.
2. Codifica essa imagem em base64 e envia para infer√™ncia em um modelo da Microsoft (Florence-2-large).
3. Recebe a resposta do modelo e submete para a plataforma da Axur.


---
### Instru√ß√µes Adicionais

Em caso de problemas ao executar este notebook, voc√™ pode executar o c√≥digo `.py` presente no reposit√≥rio GitHub:

[https://github.com/GUS74V0/webScrap--Axur.git](https://github.com/GUS74V0/webScrap--Axur.git)

Basta clonar o reposit√≥rio e rodar o script Python diretamente no seu ambiente local:

```bash
git clone https://github.com/GUS74V0/webScrap--Axur.git
cd webScrap--Axur
python webScrap.py


In [2]:
!pip install requests beautifulsoup4

Collecting requests
  Using cached requests-2.32.3-py3-none-any.whl.metadata (4.6 kB)
Collecting beautifulsoup4
  Using cached beautifulsoup4-4.13.4-py3-none-any.whl.metadata (3.8 kB)
Collecting charset-normalizer<4,>=2 (from requests)
  Using cached charset_normalizer-3.4.2-cp313-cp313-win_amd64.whl.metadata (36 kB)
Collecting idna<4,>=2.5 (from requests)
  Using cached idna-3.10-py3-none-any.whl.metadata (10 kB)
Collecting urllib3<3,>=1.21.1 (from requests)
  Using cached urllib3-2.4.0-py3-none-any.whl.metadata (6.5 kB)
Collecting certifi>=2017.4.17 (from requests)
  Using cached certifi-2025.4.26-py3-none-any.whl.metadata (2.5 kB)
Collecting soupsieve>1.2 (from beautifulsoup4)
  Using cached soupsieve-2.7-py3-none-any.whl.metadata (4.6 kB)
Collecting typing-extensions>=4.0.0 (from beautifulsoup4)
  Using cached typing_extensions-4.13.2-py3-none-any.whl.metadata (3.0 kB)
Using cached requests-2.32.3-py3-none-any.whl (64 kB)
Using cached charset_normalizer-3.4.2-cp313-cp313-win_amd64.

In [3]:

import requests
from bs4 import BeautifulSoup
import json
import base64


In [4]:

AUTH_TOKEN = "..."

SCRAPE_URL = "https://intern.aiaxuropenings.com/scrape/c102c692-7fb4-4c91-8bc4-08f28789cf4d"
MODEL_URL = "https://intern.aiaxuropenings.com/v1/chat/completions"
SUBMIT_URL = "https://intern.aiaxuropenings.com/api/submit-response"


## Fun√ß√£o `baixar_imagem`

- Realiza o scraping da URL fornecida.
- Busca a primeira tag `<img>` na p√°gina.
- Se a imagem estiver em base64, decodifica e salva.
- Se a imagem for uma URL v√°lida, baixa o conte√∫do e salva.
- Retorna o caminho do arquivo salvo localmente.




In [5]:

def baixar_imagem():
    print("üîç Buscando imagem na p√°gina...")
    response = requests.get(SCRAPE_URL)
    response.raise_for_status()

    soup = BeautifulSoup(response.text, 'html.parser')
    img_tag = soup.find('img')

    if img_tag is None:
        raise Exception("‚ùå Nenhuma tag <img> encontrada na p√°gina!")

    img_src = img_tag['src']
    print(f"üåê Conte√∫do da tag src: {img_src[:50]}...")

    nome_arquivo = 'imagem.jpg'

    if img_src.startswith('data:image'):
        header, encoded = img_src.split(',', 1)
        imagem = base64.b64decode(encoded)
        with open(nome_arquivo, 'wb') as f:
            f.write(imagem)
        print(f"‚úÖ Imagem em base64 salva como {nome_arquivo}!")

    elif img_src.startswith('http'):
        imagem = requests.get(img_src)
        imagem.raise_for_status()
        with open(nome_arquivo, 'wb') as f:
            f.write(imagem.content)
        print(f"‚úÖ Imagem baixada de URL e salva como {nome_arquivo}!")

    else:
        raise Exception("‚ùå Formato de imagem n√£o reconhecido!")

    return nome_arquivo


## Fun√ß√£o `enviar_imagem`

- Abre a imagem salva e converte seu conte√∫do para base64.
- Cria um payload JSON no formato esperado pela API do modelo Florence-2-large.
- Envia a requisi√ß√£o POST com o token de autentica√ß√£o.
- Trata erros HTTP e imprime o JSON da resposta se bem-sucedido.
- Retorna o JSON da resposta do modelo.



In [6]:

def enviar_imagem(caminho_imagem):
    try:
        with open(caminho_imagem, 'rb') as image_file:
            image_base64 = base64.b64encode(image_file.read()).decode('utf-8')

        image_data_url = f"data:image/jpeg;base64,{image_base64}"

        headers = {
            "Authorization": f"Bearer {AUTH_TOKEN}",
            "Content-Type": "application/json"
        }

        payload = {
            "model": "microsoft-florence-2-large",
            "messages": [
                {
                    "role": "user",
                    "content": [
                        {
                            "type": "image_url",
                            "image_url": {"url": image_data_url}
                        },
                        {
                            "type": "text",
                            "text": "<DETAILED_CAPTION>"
                        }
                    ]
                }
            ]
        }

        response = requests.post(
            MODEL_URL,
            headers=headers,
            json=payload
        )

        response.raise_for_status()

        resposta_json = response.json()

        print("‚úÖ Resposta do modelo recebida com sucesso!")
        print("üß† Conte√∫do da resposta JSON:")
        print(json.dumps(resposta_json, indent=4, ensure_ascii=False))

        return resposta_json

    except requests.exceptions.HTTPError as e:
        print("‚ùå Erro na requisi√ß√£o HTTP:", e)
        print("Status Code:", response.status_code)
        print("Response:", response.text)
        raise

    except Exception as e:
        print("‚ùå Erro inesperado:", e)
        raise


## Fun√ß√£o `enviar_resposta`

- Recebe o JSON de resposta do modelo.
- Envia esse JSON para o endpoint de submiss√£o da Axur.
- Trata erros HTTP e imprime a resposta da API.

Pr√©-condi√ß√£o: o JSON da resposta do modelo deve ser v√°lido e estar no formato correto.


In [7]:

def enviar_resposta(resposta_json):
    print("üì§ Enviando resposta para a plataforma da Axur...")
    headers = {
        "Authorization": f"Bearer {AUTH_TOKEN}",
        "Content-Type": "application/json"
    }

    response = requests.post(SUBMIT_URL, headers=headers, json=resposta_json)
    response.raise_for_status()

    print("‚úÖ Resposta submetida com sucesso!")
    print("üì® Resposta da API:", response.text)


## Execu√ß√£o Principal

- Executa as fun√ß√µes em sequ√™ncia:
  1. Baixa a imagem da p√°gina.
  2. Envia a imagem para infer√™ncia.
  3. Submete a resposta da infer√™ncia para a Axur.

- Captura e imprime exce√ß√µes que possam ocorrer durante a execu√ß√£o.


In [8]:

try:
    caminho = baixar_imagem()
    resposta = enviar_imagem(caminho)
    enviar_resposta(resposta)
    print("üéØ Pipeline executado com sucesso!")
except Exception as e:
    print("‚ùå Ocorreu um erro durante a execu√ß√£o:", e)


üîç Buscando imagem na p√°gina...
üåê Conte√∫do da tag src: data:image/jpeg;base64,/9j/4AAQSkZJRgABAQEASABIAAD...
‚úÖ Imagem em base64 salva como imagem.jpg!
‚úÖ Resposta do modelo recebida com sucesso!
üß† Conte√∫do da resposta JSON:
{
    "choices": [
        {
            "finish_reason": "stop",
            "index": 0,
            "logprobs": null,
            "message": {
                "content": "The image shows a young child, likely between 3-5 years old, standing indoors. The child has short blonde hair with a red bow on the right side. She is wearing a light blue sleeveless top and is holding two cell phones‚Äîone in each hand. The outer right hand appears to be an older version of the classic flip phone, decorated with white and black, while the inner hand is an older analogue cellphone. She seems to be gesturing towards something or someone out of focus, and the background includes a home setting with blush-pink walls and white curtains. The child appears curious or eng