# Analizzare le immagini
Diversi modelli di OpenAI hanno capacità visive, il che significa che i modelli possono prendere immagini come input e rispondere a domande su di esse. Storicamente, i modelli linguistici erano limitati a una singola modalità di input: il testo.

In [None]:
import os
from openai import OpenAI
from dotenv import load_dotenv

load_dotenv()

client = OpenAI(api_key=os.getenv('OPENAI_API_KEY')) # Imposta la chiave come variabile d'ambiente per sicurezza

OPENAI_MODEL = "gpt-4o-mini"

In [None]:
completion = client.chat.completions.create(
    model=OPENAI_MODEL,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text", 
                    "text": "Che tipo di immagine?"
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
                    }
                },
            ],
        }
    ],
    max_tokens=300
)

print(completion.choices[0].message.content)

L'immagine ritrae un paesaggio naturale, con un sentiero in legno che serpeggia attraverso un'area di erba alta e vegetazione verde. Il cielo è azzurro con alcune nuvole sparse, creando un'atmosfera serena e tranquilla.


**Approfondimento**: [Processing and narrating a video with GPT's visual capabilities and the TTS API](https://cookbook.openai.com/examples/gpt_with_vision_for_video_understanding)

### Upload

In [None]:
import base64

# Path to the image
# image_path = "./francesco_totti.jpg"
image_path = "./nave.jpg"

# Function to encode the image
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

# Getting the Base64 string
base64_image = encode_image(image_path)

response = client.chat.completions.create(
    model=OPENAI_MODEL,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Cos'è questa immagine?",
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/jpeg;base64,{base64_image}"
                    },
                },
            ],
        }
    ],
)

print(response.choices[0].message.content)

Non posso identificare persone nelle immagini. Posso dirti che sembra un'immagine di un calciatore durante una partita. Se hai domande su calcio o sport in generale, chiedi pure!


### Immagini multiple

In [None]:
# Esempio con due immagini
response = client.chat.completions.create(
    model=OPENAI_MODEL,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Cosa sono queste immagini? Ci sono differenze tra di loro?",
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
                    },
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
                    },
                },
            ],
        }
    ],
    max_tokens=300,
)
print(response.choices[0].message.content)

Choice(finish_reason='stop', index=0, logprobs=None, message=ChatCompletionMessage(content="Le immagini che hai condiviso sono identiche, entrambe mostrano un paesaggio naturale con un sentiero in legno che attraversa un campo verde sotto un cielo azzurro con nuvole. Non ci sono differenze visibili tra di loro. Se desideri un'analisi di un altro tipo, fammelo sapere!", refusal=None, role='assistant', audio=None, function_call=None, tool_calls=None))


In [None]:
import base64

def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

# Getting the Base64 string
base64_image_1 = encode_image("./nave_mare_calmo.jpg")
base64_image_2 = encode_image("./nave_mare_nuvole.jpg")

# Esempio con due immagini
response = client.chat.completions.create(
    model=OPENAI_MODEL,
    messages=[
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "Cosa sono queste immagini? Ci sono differenze tra di loro?",
                },
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{base64_image_1}"},
                },
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{base64_image_2}"},
                },
            ],
        }
    ],
    max_tokens=300,
)
print(response.choices[0].message.content)

Le immagini mostrano entrambe una vista dal ponte di una barca a vela, ma presentano atmosfere e condizioni meteorologiche molto diverse. 

1. **Prima immagine**: Si vede un tramonto sereno, con colori caldi e un cielo parzialmente nuvoloso. L'atmosfera è tranquilla e suggestiva, suggerendo una navigazione in acque calme.

2. **Seconda immagine**: Mostra un cielo scuro e minaccioso, probabilmente un temporale in arrivo. Le onde sono agitate, creando un contrasto con la tranquillità della prima immagine.

In sintesi, le differenze principali tra le due immagini risiedono nelle condizioni atmosferiche e nell'atmosfera generale: una è serena e calda, mentre l'altra è tempestosa e inquietante.


In [None]:
# dettagli dell'immagine

response = client.chat.completions.create(
    model=OPENAI_MODEL,
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What's in this image?"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
                        "detail": "high",
                    },
                },
            ],
        }
    ],
    max_tokens=300,
)

print(response.choices[0].message.content)

### Comprensione delle Immagini a Bassa o Alta Fedeltà
Il parametro detail permette di controllare il livello di dettaglio con cui il modello analizza un'immagine e genera una sua interpretazione testuale.
Il parametro ha tre opzioni:

- low (bassa fedeltà)
- high (alta fedeltà)
- auto (automatica) 

#### Modalità predefinita (auto)
Per impostazione predefinita, il modello sceglie automaticamente tra low e high, in base alla dimensione dell'immagine in input.

#### Modalità a Bassa Fedeltà (low)
Il modello elabora l'immagine in bassa risoluzione (512px × 512px).
Utilizza 85 token per rappresentare l'immagine.

**Vantaggi**:
- Risposte più veloci 🚀
- Minore consumo di token 💰
- Utile per casi d’uso che non richiedono alta precisione

#### Modalità ad Alta Fedeltà (high)
Il modello vede prima l'immagine in bassa risoluzione (85 token).
Poi analizza dettagli specifici creando ritagli da 512px × 512px, usando 170 token per ogni ritaglio.

**Vantaggi**:
- Maggiore accuratezza visiva 🎨
- Maggiore precisione nei dettagli 🔍
- Adatto per immagini complesse con molte informazioni

In [4]:
response = client.chat.completions.create(
    model=OPENAI_MODEL,
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "Cos'è quest'immagine?"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
                        "detail": "high",
                    },
                },
            ],
        }
    ],
    max_tokens=300,
)

print(response.choices[0].message.content)

L'immagine rappresenta un paesaggio naturale, caratterizzato da un sentiero di legno che si snoda attraverso un campo verdeggiante. In lontananza, si possono vedere alberi e una strada. Il cielo è sereno, con nuvole sparse, creando un'atmosfera tranquilla e aperta. Questo tipo di paesaggio è spesso associato a parchi naturali o riserve ambientali.


L'API Chat Completions di OpenAI, a differenza dell'Assistants API, non mantiene uno stato conversazionale. Ciò significa che se vuoi inviare immagini al modello, devi gestirle manualmente e includerle in ogni richiesta, anche se si tratta della stessa immagine. Per conversazioni prolungate, è consigliato usare URL anziché Base64 per ridurre la latenza. Inoltre, per migliorare le prestazioni, è utile ridimensionare le immagini prima di inviarle, rispettando i limiti di dimensione.

### Linee guida sulle dimensioni delle immagini
- **Dimensione massima**: 20MB per immagine.
- **Risoluzione consigliata**:
  - **Bassa risoluzione**: 512x512 pixel.
  - **Alta risoluzione**: lato corto inferiore a 768px, lato lungo inferiore a 2000px.

Le immagini inviate vengono eliminate dai server di OpenAI dopo l'elaborazione e non vengono utilizzate per l'addestramento dei modelli.

### Limitazioni del modello
Pur essendo molto avanzato, il modello ha alcune limitazioni:
- **Immagini mediche**: non è adatto per analizzare TAC o fornire consigli medici.
- **Testi non latini**: potrebbe avere difficoltà con alfabeti come il giapponese o il coreano.
- **Testo piccolo**: per migliorare la leggibilità, è utile ingrandire il testo senza tagliare dettagli importanti.
- **Orientamento**: potrebbe interpretare male testi ruotati o capovolti.
- **Elementi visivi complessi**: fatica a comprendere grafici o testo con linee stilizzate (tratteggiate, puntinate).
- **Ragionamento spaziale**: ha difficoltà con posizioni precise, ad esempio negli scacchi.
- **Accuratezza**: potrebbe generare descrizioni errate o imprecise.
- **Formati d'immagine particolari**: non gestisce bene immagini panoramiche o a effetto fisheye.
- **Metadati**: non elabora nomi di file o metadati, e ridimensiona le immagini prima di analizzarle.
- **Conteggio oggetti**: può fornire stime approssimative invece di conteggi precisi.
- **CAPTCHA**: per motivi di sicurezza, il sistema non accetta immagini di CAPTCHA.

In sintesi, se usi immagini con questa API, è fondamentale ottimizzarle per dimensioni e leggibilità, tenendo conto dei limiti del modello per evitare errori di interpretazione.