

#  **1.1 – Cos’è un LLM via API**

---

##  Obiettivo:

Capire cosa significa "usare un LLM via API", a cosa serve, e perché è oggi uno standard nell’integrazione dei modelli linguistici nei progetti reali.

---

##  Cos’è un LLM (Large Language Model)?

Un **Large Language Model (LLM)** è un modello di intelligenza artificiale addestrato su enormi quantità di testo per:

* Comprendere e generare linguaggio naturale
* Completare frasi, rispondere a domande, scrivere articoli, riassunti, codice, ecc.
* Supportare casi d’uso come chatbot, assistenti, scrittura, ricerca semantica

Esempi: **GPT-4**, **Claude**, **Mistral**, **LLaMA**, **Gemini**

---

##  Cos’è un’API?

Una **API (Application Programming Interface)** è un’interfaccia che permette a un programma di “parlare” con un altro, spesso tramite internet.

Nel nostro contesto:

* Tu invii una richiesta HTTP con un testo (prompt)
* Il server risponde con una risposta generata dal modello (output)

 Non devi installare o addestrare nulla. L’LLM è *hosted* dal provider.

---

##  Perché usare un LLM via API?

| Vantaggio                     | Spiegazione                                         |
| ----------------------------- | --------------------------------------------------- |
|  Sempre aggiornato          | Non devi gestire update o versioni                  |
|  Prestazioni elevate         | I server del provider sono ottimizzati              |
|  Sicurezza e autenticazione | Accesso controllato con API key                     |
|  Modello a consumo          | Paghi solo per ciò che usi                          |
|  Scalabilità                | Puoi usarlo da un’app, un sito, un software desktop |

---

##  Differenze tra LLM “locale” e “via API”

| Caratteristica | LLM via API           | LLM locale (offline)      |
| -------------- | --------------------- | ------------------------- |
| Setup          | Nessuna installazione | Richiede GPU, RAM, setup  |
| Costi iniziali | Nessuno               | Elevati (hardware, tempo) |
| Privacy        | Va gestita            | Tutto resta in locale     |
| Scalabilità    | Altissima             | Limitata a risorse locali |
| Aggiornamenti  | Automatici            | Manuali                   |

---

##  Come funziona in pratica

### Esempio concettuale:

1. Scriviamo un prompt:
   `“Scrivi un titolo SEO per un articolo su Firenze”`

2. Lo inviamo via HTTP POST a un endpoint del provider (es. Azure, Hugging Face)

3. L’LLM elabora il prompt

4. Risponde con:
   `"Firenze: la guida completa tra arte, cibo e panorami mozzafiato"`

---

##  Mini esempio in Python (simulato)




In [None]:
import requests

API_KEY = "your_api_key"
url = "https://api.openai.com/v1/chat/completions"

headers = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}

body = {
    "model": "gpt-4",
    "messages": [
        {"role": "user", "content": "Spiegami cosa fa un LLM via API in parole semplici"}
    ]
}

response = requests.post(url, headers=headers, json=body)
print(response.json()["choices"][0]["message"]["content"])

---

##  Concetto chiave

> **Usare un LLM via API significa “delegare” la generazione del testo a un sistema esterno accessibile via internet, che esegue l’elaborazione per noi e ci restituisce il risultato.**

---


---

# 1.2 – Cos'è un'inferenza via API

---

## Definizione

Nel contesto dell’intelligenza artificiale, il termine **inferenza** si riferisce al processo attraverso cui un modello addestrato riceve un input e produce un output.

Nel caso dei **Large Language Models (LLM)**, l’inferenza consiste nell’elaborazione di un **testo in ingresso (prompt)** per generare un **testo in uscita** coerente, pertinente e plausibile.

Quando questa inferenza avviene tramite **API**, significa che il modello non gira in locale ma su un **server remoto**, accessibile tramite chiamate HTTP. Tu invii una richiesta con dei parametri, e ricevi la risposta del modello in formato JSON.

---

## Anatomia di una richiesta di inferenza

Una tipica richiesta di inferenza via API contiene:

1. **Endpoint URL**: è l'indirizzo del server a cui ci si connette (es. `https://api.openai.com/v1/chat/completions`)
2. **Header HTTP**:

   * `Authorization`: la chiave API per l’autenticazione
   * `Content-Type`: il formato del contenuto (tipicamente `application/json`)
3. **Corpo della richiesta (body)**: i parametri da inviare al modello, tra cui:

   * il modello da usare (es. `gpt-4`)
   * il testo in input (prompt, oppure `messages` nel caso del formato chat)
   * i parametri di controllo della generazione (es. `temperature`, `max_tokens`, `top_p`)

---

## Esempio concreto

Ecco un esempio semplificato di richiesta POST a un LLM via API:

```json
POST https://api.openai.com/v1/completions

Header:
{
  "Authorization": "Bearer your_api_key",
  "Content-Type": "application/json"
}

Body:
{
  "model": "text-davinci-003",
  "prompt": "Cos'è l'inferenza in un LLM?",
  "temperature": 0.7,
  "max_tokens": 150
}
```

Il server risponderà con un JSON simile a:

```json
{
  "choices": [
    {
      "text": "L'inferenza è il processo attraverso cui un modello di linguaggio genera un testo...",
      ...
    }
  ]
}
```

---

## Input → Elaborazione → Output

* **Input**: un testo (prompt) o una conversazione (array di messaggi)
* **Elaborazione**: il modello genera predizione token per token, scegliendo la parola successiva più probabile
* **Output**: il testo finale viene restituito nel corpo della risposta

---

## Cosa succede internamente

Durante una chiamata di inferenza:

1. Il server riceve la richiesta e autentica l'API key
2. Valida il formato e i parametri (es. controlla che `max_tokens` sia ammesso)
3. Passa il prompt al modello, che lo tokenizza (trasforma in numeri)
4. Il modello genera gli output token uno alla volta fino al raggiungimento del `max_tokens` o di un segnale di fine
5. L’output viene ritrasformato in testo e inviato al client in una risposta HTTP

Questo processo è invisibile all’utente ma ha un costo computazionale e viene conteggiato in **token**, non in caratteri.

---

## Token e inferenza

È importante comprendere che il costo e la latenza dell’inferenza dipendono da:

* **Numero di token in input**: più lungo è il prompt, più tempo servirà a processarlo
* **Numero di token in output**: ogni token generato è una nuova inferenza iterativa
* **Complessità del modello**: GPT-4 richiede più tempo di GPT-3.5 per generare la stessa frase
* **Temperature e randomness**: una temperatura più alta può far esplorare più opzioni e quindi variare la performance

---

## Tipi di inferenza via API

Esistono diversi **tipi di inferenza** che si distinguono per formato e utilizzo:

| Tipo inferenza | Input richiesto             | Output restituito             | Esempi d’uso                      |
| -------------- | --------------------------- | ----------------------------- | --------------------------------- |
| Completion     | Testo libero (prompt)       | Completamento testuale        | Copywriting, email, articoli      |
| Chat           | Serie di messaggi           | Risposta del modello          | Chatbot, agenti, interfacce umane |
| Embedding      | Frasi o documenti singoli   | Vettori numerici              | Ricerca semantica, clustering     |
| Code           | Prompt di codice o commenti | Codice o spiegazioni generate | Generazione codice, refactoring   |

---

## Aspetti critici da gestire

1. **Controllo dell’output**: l’inferenza può variare a ogni chiamata. Per ottenere output coerenti serve un prompt ben strutturato e testato.
2. **Ripetibilità**: puoi forzarla impostando `temperature=0` e `seed` se supportato (alcuni modelli non hanno ancora il controllo seed).
3. **Tempo di risposta (latency)**: è influenzato dal numero di token, dal carico sul server e dal tipo di modello scelto.
4. **Costi**: ogni inferenza ha un costo calcolato sul numero di token elaborati (vedremo nel dettaglio nella sezione sui costi).

---

## In sintesi

* L’inferenza via API è il modo in cui un’applicazione interagisce con un LLM.
* Consiste nell’inviare un input testuale e ottenere un output generato.
* L’intero processo è governato da parametri che influenzano l’output finale.
* È fondamentale per creare applicazioni AI scalabili e integrate.

---




---

# 2.1 – Endpoint "chat"

---

## Obiettivo della sezione

Capire come funziona l’**endpoint `chat`**, perché è oggi lo standard per lavorare con LLM moderni (come GPT-3.5, GPT-4, Claude, ecc.), quali sono le sue caratteristiche, e come costruire correttamente i messaggi per controllare il comportamento del modello.

---

## Cosa si intende per "chat"

L’**endpoint chat** è un’interfaccia pensata per simulare una conversazione tra:

* l’utente (user),
* il modello AI (assistant),
* ed eventualmente un sistema (system) che imposta le istruzioni.

Non è limitato alle chatbot: è usato in una vasta gamma di applicazioni, dalla generazione di codice alla scrittura creativa, proprio grazie al **formato strutturato** dei messaggi.

---

## Struttura dell’input: array di messaggi

L’input di una chiamata all’endpoint chat è un **array di messaggi** (`messages`), dove ogni messaggio ha due proprietà fondamentali:

```json
{"role": "<ruolo>", "content": "<testo>"}
```

I ruoli possibili sono:

| Ruolo       | Descrizione                                                   |
| ----------- | ------------------------------------------------------------- |
| `system`    | Instruisce il modello su come comportarsi (contesto iniziale) |
| `user`      | Messaggi inviati dall’utente                                  |
| `assistant` | Risposte precedenti del modello (possono essere simulate)     |

---

### Esempio di conversazione semplice

```json
"messages": [
  {"role": "system", "content": "Sei un assistente esperto di finanza aziendale."},
  {"role": "user", "content": "Quali sono le differenze tra ROI e ROE?"}
]
```

Il modello risponderà come se fosse un consulente finanziario, perché lo abbiamo “instruito” con il messaggio `system`.

---

## A cosa serve il messaggio `system`

Il messaggio `system` non viene mai mostrato all’utente finale, ma **è il modo principale per controllare il comportamento del modello**.

### Alcuni esempi pratici:

| Prompt                                                         | Effetto                  |
| -------------------------------------------------------------- | ------------------------ |
| `"Sei un esperto copywriter che scrive in tono professionale"` | Generazione SEO coerente |
| `"Rispondi solo con dati verificabili e numerati"`             | Risposte strutturate     |
| `"Limita la risposta a massimo 3 frasi"`                       | Risposte concise         |
| `"Parla come uno youtuber entusiasta"`                         | Cambia il tono           |

La sua efficacia dipende dal modello: GPT-4 lo segue meglio di GPT-3.5, per esempio.

---

## Parametri avanzati dell’endpoint chat

Oltre a `messages`, si possono aggiungere altri parametri per personalizzare l’inferenza:

| Parametro           | Descrizione                                          |
| ------------------- | ---------------------------------------------------- |
| `temperature`       | Grado di creatività. 0 = deterministico, 1 = casuale |
| `top_p`             | Nucleus sampling. Alternativa a temperature          |
| `max_tokens`        | Massimo numero di token in output                    |
| `presence_penalty`  | Penalizza la ripetizione di concetti già menzionati  |
| `frequency_penalty` | Penalizza parole già usate frequentemente            |

Un esempio avanzato:

```json
{
  "model": "gpt-4",
  "messages": [...],
  "temperature": 0.7,
  "max_tokens": 500,
  "presence_penalty": 0.5,
  "frequency_penalty": 0.5
}
```

---

## Come costruire un’interazione multi-turno

Il valore dell’endpoint chat si vede nelle **interazioni multi-turno**, ovvero le conversazioni con contesto.

Esempio:

```json
[
  {"role": "system", "content": "Agisci come un esperto legale italiano."},
  {"role": "user", "content": "Qual è la differenza tra società semplice e SRL?"},
  {"role": "assistant", "content": "La società semplice è una forma ..."},
  {"role": "user", "content": "E in quale conviene iniziare se ho pochi clienti?"}
]
```

Il modello capisce il contesto della conversazione e genera risposte coerenti con le domande precedenti.

---

## Come simulare un dialogo “fittizio” per controllare il modello

È possibile **inserire risposte simulate dell’assistente** per pilotare il comportamento.

Esempio:

```json
[
  {"role": "system", "content": "Sei un assistente motivazionale."},
  {"role": "user", "content": "Non ho voglia di lavorare."},
  {"role": "assistant", "content": "Capisco. A volte serve solo un piccolo passo per ripartire."},
  {"role": "user", "content": "Hai ragione. Dammi un consiglio."}
]
```

Anche se la conversazione è tutta costruita, il modello risponderà come se stesse continuando un dialogo reale.

---

## Codice Python di esempio

```python
import openai

openai.api_key = "your_api_key"

response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[
        {"role": "system", "content": "Sei un esperto SEO e scrivi in tono professionale."},
        {"role": "user", "content": "Scrivi un'introduzione per un articolo su eventi in montagna."}
    ],
    temperature=0.7,
    max_tokens=300
)

print(response["choices"][0]["message"]["content"])
```

---

## In sintesi

* L’endpoint `chat` è il formato consigliato per interagire con i LLM moderni.
* Il prompt è composto da un array di messaggi con ruoli distinti.
* Il `system` prompt consente di controllare tono, stile e ruolo del modello.
* Le conversazioni multi-turno permettono di costruire interazioni più sofisticate e personalizzate.

---




---

# 2.2 – Endpoint "completions"

---

## Obiettivo della sezione

Comprendere il funzionamento dell’**endpoint completions**, le sue differenze rispetto all’endpoint chat, i casi d’uso in cui è preferibile, e come scrivere prompt efficaci per ottenere output di qualità.

---

## Che cos’è l’endpoint completions

L’**endpoint `completions`** è il metodo più classico e diretto per interagire con un LLM: fornisci un **testo grezzo (prompt)** e il modello lo completa.

Si basa su un paradigma semplice:

> “Data una sequenza iniziale di testo, continua nel modo più probabile e coerente.”

È stato il primo tipo di interfaccia messo a disposizione dagli LLM (es. GPT-2, GPT-3).

---

## Differenza chiave con l’endpoint `chat`

| Aspetto                 | Endpoint `completions`        | Endpoint `chat`                       |
| ----------------------- | ----------------------------- | ------------------------------------- |
| Struttura               | Prompt testuale grezzo        | Serie strutturata di messaggi         |
| Controllo del tono      | Richiede prompt complesso     | Più semplice tramite `system`         |
| Contesto multi-turno    | Manuale (devi scrivere tutto) | Integrato nella conversazione         |
| Flessibilità sintattica | Maggiore libertà              | Struttura imposta (`role`, `content`) |
| Modelli supportati      | GPT-3, Codex, text-davinci-\* | GPT-3.5-turbo, GPT-4, Claude, ecc.    |

---

## Come funziona: prompt → completamento

Tu fornisci un prompt come:

```
Scrivi un'introduzione per un articolo sul turismo in Toscana.
```

Il modello risponde continuando:

```
La Toscana è una delle regioni più affascinanti d’Italia, grazie alla sua combinazione unica di arte, natura e tradizioni enogastronomiche...
```

---

## Prompt engineering nell’endpoint completions

Poiché il prompt non è strutturato, è **fondamentale imparare a scriverlo bene**.
Alcuni pattern utili:

### 1. Prompt con istruzione esplicita

```
Scrivi una breve descrizione del prodotto seguente:
Prodotto: Spazzolino elettrico a ultrasuoni
Descrizione:
```

### 2. Prompt con esempio (few-shot)

```
Q: Qual è la capitale della Francia?
A: Parigi

Q: Qual è la capitale della Germania?
A:
```

### 3. Prompt con template

```
Titolo: 5 motivi per visitare la Toscana
Paragrafo introduttivo:
```

Più il prompt è chiaro e strutturato, migliore sarà l’output.

---

## Parametri principali

I parametri usati nell’endpoint completions sono simili a quelli dell’endpoint chat:

| Parametro           | Descrizione                      |
| ------------------- | -------------------------------- |
| `model`             | Es. `"text-davinci-003"`         |
| `prompt`            | Testo da completare              |
| `temperature`       | Creatività: da 0 a 1             |
| `top_p`             | Alternativa alla temperatura     |
| `max_tokens`        | Numero massimo di token generati |
| `stop`              | Sequenza di arresto anticipato   |
| `presence_penalty`  | Penalizza argomenti già trattati |
| `frequency_penalty` | Penalizza parole ripetute        |

---

## Esempio base in Python

```python
import openai

openai.api_key = "your_api_key"

response = openai.Completion.create(
    model="text-davinci-003",
    prompt="Scrivi una descrizione di un prodotto per un hotel di lusso in Toscana.",
    temperature=0.7,
    max_tokens=150
)

print(response["choices"][0]["text"])
```

---

## Esempio con sequenza di stop

```python
response = openai.Completion.create(
    model="text-davinci-003",
    prompt="Elenca tre vantaggi dell'utilizzo di un assistente AI:\n1.",
    temperature=0.5,
    max_tokens=100,
    stop=["\n"]
)
```

Questo tipo di prompt viene usato spesso per generare output a elenco o singola riga.

---

## Limiti e difficoltà

1. **Nessun supporto nativo per il dialogo**: per mantenere il contesto, devi concatenare manualmente i prompt e le risposte precedenti.
2. **Controllo del tono e del ruolo più difficile**: richiede prompt molto articolati.
3. **Deprecazione progressiva**: molti provider stanno passando all’interfaccia chat anche per usi classici.

---

## Quando usare completions invece di chat

* Se vuoi massima libertà sul formato del prompt
* Quando usi modelli legacy o pre-addestrati (es. Codex per codice)
* In flussi con prompt complessi e molto controllati
* Per attività batch, riempimento di template, generazione automatica di contenuti statici

---

## In sintesi

* L’endpoint completions è basato su un prompt grezzo che viene completato dal modello.
* Offre molta flessibilità ma richiede maggiore cura nella scrittura dei prompt.
* È adatto per attività singole, statiche o ad alto controllo sintattico.
* Nei casi più moderni, l’endpoint `chat` è più semplice e potente per interazioni conversazionali.

---





---

# Confronto diretto: `chat` vs `completions`

---

##  Task comune: generare un’introduzione per un articolo SEO sul tema:

> *“Eventi in montagna: guida completa per il 2025”*

---

## 1. Con approccio `completions`

### Prompt testuale grezzo:

```python
prompt = """
Scrivi un’introduzione SEO-friendly per un articolo intitolato:
“Eventi in montagna: guida completa per il 2025”.
Usa uno stile informativo, coinvolgente e professionale.
Lunghezza: 3-4 frasi.
"""
```

### Codice:

```python
import openai

openai.api_key = "your_api_key"

response = openai.Completion.create(
    model="text-davinci-003",
    prompt=prompt,
    temperature=0.7,
    max_tokens=150
)

print(response["choices"][0]["text"].strip())
```

### Vantaggi:

* Nessuna struttura imposta: massimo controllo sulla forma del prompt
* Comportamento più “grezzo”, utile se si vuole un output molto guidato

### Svantaggi:

* Più suscettibile a errori se il prompt non è ben progettato
* Difficile estendere a multi-turno o a dialogo interattivo

---

## 2. Con approccio `chat`

### Prompt strutturato:

```python
messages = [
    {"role": "system", "content": "Sei un copywriter SEO esperto in articoli per il web. Scrivi in modo professionale e coinvolgente."},
    {"role": "user", "content": "Scrivi un’introduzione SEO per un articolo dal titolo: 'Eventi in montagna: guida completa per il 2025'. Deve essere informativa e accattivante, lunga circa 3-4 frasi."}
]
```

### Codice:

```python
import openai

openai.api_key = "your_api_key"

response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=messages,
    temperature=0.7,
    max_tokens=300
)

print(response["choices"][0]["message"]["content"].strip())
```

### Vantaggi:

* Miglior controllo sul ruolo e sul tono tramite `system` message
* Più robusto a prompt ambigui
* Ottimo per progetti che evolvono in multi-turno (es. app, chatbot, strumenti interattivi)

### Svantaggi:

* Leggermente più verboso nella sintassi
* Richiede familiarità con il formato `messages`

---

## Risultati attesi

Con entrambi gli approcci, otterrai un paragrafo simile, ma:

* Con `completions`, la qualità dipende totalmente dal wording del prompt
* Con `chat`, il `system` message offre un **contesto persistente**, che può migliorare coerenza e stile

---

## Quando scegliere l’uno o l’altro

| Scenario                                        | Consigliato |
| ----------------------------------------------- | ----------- |
| Prompt molto specifici, su un’unica riga        | completions |
| Prompt lunghi e strutturati                     | chat        |
| Generazione autonoma e ripetibile               | completions |
| Conversazioni multi-turno o con memoria         | chat        |
| Modelli moderni come GPT-4, Claude, Gemini      | chat        |
| Compatibilità con vecchi modelli (Codex, GPT-3) | completions |

---

## Conclusione

La **differenza chiave** non è solo sintattica ma **concettuale**:

* `completions` simula il completamento di testo, adatto a prompt “autonomi”.
* `chat` simula un assistente, adatto a interazioni strutturate e scalabili.

---





---

# 2.3 – Endpoint "embeddings"

---

## Obiettivo della sezione

Capire cosa sono gli embeddings generati dagli LLM, come funziona l’**endpoint embeddings** via API, perché sono diversi dalla generazione testuale e come usarli per potenziare applicazioni di ricerca e intelligenza semantica.

---

## Che cos’è un embedding?

Un **embedding** è una **rappresentazione numerica vettoriale** di un’informazione testuale.

In pratica:

* Una frase → viene trasformata in un vettore di numeri
* Questo vettore rappresenta il “significato” del testo in uno spazio multidimensionale
* Testi simili avranno vettori vicini (alta similarità), testi diversi avranno vettori distanti

> Non serve generare testo, ma "mappare" semanticamente contenuti.

---

## A cosa servono gli embeddings?

Gli embeddings sono usati per:

| Caso d’uso                           | Descrizione                                                                         |
| ------------------------------------ | ----------------------------------------------------------------------------------- |
| Ricerca semantica                    | Trovare documenti/frasi simili a una query anche se non contengono le stesse parole |
| RAG (Retrieval Augmented Generation) | Estrarre i testi più rilevanti da fornire a un LLM per rispondere                   |
| Clustering                           | Raggruppare documenti con contenuto simile                                          |
| Classificazione                      | Usarli come feature in un modello ML                                                |
| Recommendation                       | Trovare item simili (es. prodotti, film, articoli)                                  |

---

## Come funziona l’endpoint embeddings via API

* **Input**: una o più frasi/testi/documenti
* **Output**: un vettore (array di numeri) per ogni input
* **Modello**: specifico per embeddings (es. `text-embedding-ada-002` su OpenAI)

---

## Esempio base in Python (OpenAI)

```python
import openai

openai.api_key = "your_api_key"

response = openai.Embedding.create(
    model="text-embedding-ada-002",
    input=[
        "Eventi in montagna nel 2025",
        "Guida turistica per la montagna"
    ]
)

for item in response["data"]:
    print(f"Index {item['index']}: embedding length = {len(item['embedding'])}")
```

L’output è un dizionario con:

* `index`: posizione del testo nell’input
* `embedding`: lista di float (es. 1536 valori)

---

## Esempio Hugging Face (Inference API)

```python
import requests

API_URL = "https://api-inference.huggingface.co/pipeline/feature-extraction/sentence-transformers/all-MiniLM-L6-v2"
headers = {"Authorization": f"Bearer hf_your_token"}

response = requests.post(API_URL, headers=headers, json={"inputs": "Eventi in montagna nel 2025"})
embedding = response.json()

print(len(embedding[0]))  # Lunghezza del vettore
```

> Hugging Face offre diversi modelli con lunghezze diverse (384, 768, 1024...).

---

## Similarità tra due testi

Una volta ottenuti due embeddings, possiamo misurarne la **similarità** (quanto sono semanticamente vicini) usando la **cosine similarity**.

### Esempio con `sklearn`:

```python
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

sim = cosine_similarity([embedding1], [embedding2])
print(f"Similarità: {sim[0][0]}")
```

Il risultato sarà tra **-1 e 1**:

* 1 = significato identico
* 0 = significato non correlato
* < 0 = significato opposto (raro)

---

## Considerazioni pratiche

| Aspetto     | Valore                                                                             |
| ----------- | ---------------------------------------------------------------------------------- |
| Token input | Gli embeddings hanno limite di token (es. 8191 token per `text-embedding-ada-002`) |
| Output      | Vettori di dimensione fissa (es. 1536)                                             |
| Performance | Più veloci delle completion/chat                                                   |
| Costo       | Più economici rispetto alla generazione testuale                                   |
| Storage     | Puoi salvarli in DB, CSV, o vector DB (es. FAISS, Weaviate, Pinecone)              |

---

## Applicazioni reali con embeddings

1. **Motore di ricerca semantico**:

   * Indicizziamo contenuti (FAQ, articoli, documenti)
   * L’utente inserisce una query
   * Generiamo l’embedding della query
   * Calcoliamo la similarità con tutti gli embeddings del database
   * Selezioniamo quelli più rilevanti

2. **RAG (Retrieval-Augmented Generation)**:

   * Si usa l’embedding per cercare nel database le parti più pertinenti
   * Si passa quel contenuto come contesto a GPT per generare la risposta

3. **Clustering clienti o recensioni**:

   * Applichiamo `KMeans` sugli embeddings
   * Raggruppiamo in “personas” o categorie

---

## In sintesi

* L’endpoint embeddings è uno strumento fondamentale per analizzare **il significato** dei testi.
* Permette confronti semantici molto più potenti di un semplice matching di parole.
* È più veloce ed economico della generazione testuale, ed è usato in ogni sistema moderno di ricerca intelligente.
* Lavorare con embeddings richiede solo il primo step di AI (trasformazione), poi si può usare ML classico o logica di confronto.

---



In [8]:
from sentence_transformers import SentenceTransformer
import numpy as np

# 1) Inizializza il modello (solo CPU) - veloce e multilingue
# Buon compromesso qualità/velocità per IT: paraphrase-multilingual-MiniLM-L12-v2
model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
model = SentenceTransformer(model_name, device="cpu")

# 2) Frasi da confrontare
sentence_1 = "Eventi in montagna nel 2025"
sentence_2 = "Cosa fare sulle Alpi"

# 3) Similarità coseno con embedding normalizzati (più stabile)
def semantic_similarity(sent1: str, sent2: str, model: SentenceTransformer) -> float:
    emb = model.encode([sent1, sent2], convert_to_numpy=True, normalize_embeddings=True)
    # Con vettori unitari il coseno è il prodotto scalare
    return float(np.dot(emb[0], emb[1]))

# 4) Calcolo e stampa del risultato
score = semantic_similarity(sentence_1, sentence_2, model)
print(f"Similarità semantica tra le frasi: {score:.4f}")


Similarità semantica tra le frasi: 0.6567



---

# Cos’è un modello di embedding

Un **modello di embedding** è una rete neurale addestrata a trasformare parole, frasi o documenti in **vettori numerici** in uno **spazio continuo multidimensionale**.

* Ogni parola (o frase) non è più rappresentata come una sequenza di caratteri, ma come un punto nello spazio.
* Parole/frasi con significato simile finiscono vicine, quelle con significato diverso finiscono lontane.

Questa rappresentazione è detta **spazio semantico**.

---

# Come viene creato un embedding model

Esistono vari approcci storici ed evolutivi:

### 1. Word2Vec (2013)

* Un modello semplice che impara le rappresentazioni delle **singole parole**.
* Due varianti principali:

  * **CBOW** (Continuous Bag of Words): predice una parola dato il contesto
  * **Skip-gram**: predice il contesto dato una parola
* Idea: se due parole appaiono in contesti simili, hanno significato simile.
  Ad esempio: “gatto” e “cane” compaiono entrambi vicino a “animale”, “casa”, “giocare”.

### 2. GloVe (2014)

* Basato sulle co-occorrenze statistiche in un corpus.
* Anche qui ogni parola ha un singolo embedding fisso.

### 3. Modelli contestuali (dal 2018 in poi, es. BERT, RoBERTa, DistilBERT, e oggi modelli LLM come GPT)

* Una stessa parola può avere embedding **diversi** a seconda della frase.
* Questo risolve il problema delle **parole polisemiche** (uguali nella forma, diverse nel significato).

---

# Come funziona l’addestramento

1. **Dataset**: grandi quantità di testo (Wikipedia, libri, articoli, web).
2. **Tokenizzazione**: il testo viene spezzato in token (parole o sottoparole).
3. **Obiettivo di training**:

   * Predire una parola mancante dal contesto
   * Predire il contesto di una parola
   * Predire se due frasi sono semanticamente correlate
4. **Backpropagation**: il modello regola i pesi interni in modo che testi simili abbiano rappresentazioni vettoriali vicine.
5. **Output finale**: per ogni parola o frase, un vettore di dimensione fissa (es. 384, 768, 1536).

---

# Come si misura la similarità

Gli embeddings si confrontano con misure di distanza o somiglianza:

* **Cosine similarity**: misura l’angolo tra due vettori (0 = ortogonali, 1 = identici).
* **Euclidean distance**: distanza geometrica tra i punti.
* **Dot product**: prodotto scalare, spesso usato nei transformer.

Se due frasi hanno embedding molto simili, il modello considera i loro significati correlati.

---

# Gestione delle parole uguali con significati diversi

Questo è il problema della **polisemia** (es. “banca” = istituto finanziario oppure “banca” = panchina).

I vecchi modelli (Word2Vec, GloVe) assegnavano **un unico embedding fisso** a ciascuna parola → fallivano su queste ambiguità.

I modelli moderni (BERT, GPT, Sentence Transformers, ecc.) risolvono così:

* L’embedding non è legato alla parola isolata, ma al **contesto intero della frase**.
* Esempio:

  * Input: “Sono andato in **banca** a depositare dei soldi”
    → embedding vicino a “istituto finanziario”.
  * Input: “Ci siamo seduti sulla **banca** al parco”
    → embedding vicino a “panchina, sedile”.
* Questo avviene grazie all’**attenzione nei transformer**, che lega ogni parola al contesto circostante.

---

# Riassumendo

1. Un modello di embedding è una rete neurale che mappa testi in vettori numerici.
2. Il training avviene imparando relazioni di co-occorrenza e predizione dal contesto.
3. La similarità si misura con distanze matematiche nello spazio vettoriale.
4. I modelli moderni risolvono l’ambiguità semantica generando embeddings **contestuali**, diversi a seconda della frase.

---




---

# 3.2 – Rate Limiting

---

## Che cos’è il rate limiting

**Rate limiting** significa che ogni provider API impone un limite al numero di richieste che puoi fare in un dato intervallo di tempo.

> Serve a **proteggere i server**, **limitare gli abusi**, **gestire il carico globale** e **controllare i costi** per ogni utente.

### Esempio:

* OpenAI può impostare un limite di **10 richieste al secondo per IP** oppure **60.000 token al minuto per account**.

---

## Perché esiste

1. **Protezione dell’infrastruttura**

   * Gli LLM sono risorse computazionalmente costose. Un uso incontrollato può sovraccaricare i server.
   * Protegge contro DDoS (Distributed Denial of Service) e spam.

2. **Gestione della qualità del servizio**

   * Se ogni utente ha un limite, il servizio resta reattivo per tutti.
   * Evita che un singolo utente monopolizzi l’intero throughput.

3. **Controllo dei costi**

   * Molti provider (es. Azure OpenAI, Hugging Face) fanno pagare a consumo.
   * I limiti evitano spese impreviste o abusi accidentali da parte di sviluppatori inesperti.

4. **Prevenzione di abusi e violazioni**

   * Richieste automatizzate aggressive (bot) o scraping possono essere fermati.

---

## Tipi di limitazioni

| Tipo di limite        | Esempio                                            |
| --------------------- | -------------------------------------------------- |
| Limite per secondo    | max 10 richieste/secondo                           |
| Limite per minuto     | max 20.000 token/minuto                            |
| Limite giornaliero    | max 1.000 chiamate/giorno                          |
| Limite per modello    | GPT-4: 10k token/minuto, GPT-3.5: 60k token/minuto |
| Limite per IP/API key | Ogni chiave ha il suo tetto                        |

---

## Codice di stato HTTP: `429 Too Many Requests`

Se superi il rate limit, il server risponde con:

```
HTTP 429 TOO MANY REQUESTS
```

### Esempio di risposta:

```json
{
  "error": {
    "message": "You exceeded your current quota. Please wait or reduce the rate of requests.",
    "type": "rate_limit_exceeded",
    "code": "429"
  }
}
```

---

## Come gestirlo nel codice

### 1. **Retry automatico con backoff**

Quando ricevi `429`, **non ritentare subito**. Usa una strategia di **backoff esponenziale** (aumenta il tempo di attesa a ogni tentativo).

### Esempio con `tenacity` (Python)

```python
from tenacity import retry, wait_exponential, stop_after_attempt
import openai

@retry(wait=wait_exponential(multiplier=1, min=2, max=10), stop=stop_after_attempt(5))
def call_model():
    return openai.ChatCompletion.create(
        model="gpt-4",
        messages=[{"role": "user", "content": "Cos'è il rate limiting?"}]
    )

response = call_model()
```

* `wait_exponential`: attende 2s, poi 4s, poi 8s, ecc.
* `stop_after_attempt(5)`: massimo 5 tentativi

---

## Come sapere qual è il proprio rate limit

Ogni provider ha limiti documentati:

* **OpenAI**: visibili nella dashboard → Usage → Rate Limits
* **Azure OpenAI**: dipendono dal piano e dalla risorsa (es. S0 vs S1)
* **Hugging Face**: limiti diversi tra Inference API pubblica e Endpoints dedicati

Puoi anche ricevere info nei **response headers**:

```http
X-RateLimit-Limit: 100
X-RateLimit-Remaining: 3
X-RateLimit-Reset: 1667851234
```

---

## In sintesi

* Il rate limiting è una difesa essenziale contro abuso, costi imprevisti e degrado delle performance.
* Il codice `429` indica che sei andato oltre i limiti.
* Bisogna implementare retry automatici e gestire gli errori in modo robusto.
* È buona pratica loggare tutte le risposte 429 e monitorare il proprio usage per evitare problemi in produzione.

---




---

# 3.3 – Retry e Backoff

---

## Cos'è il "retry"

Il **retry** (ripetizione) è una tecnica con cui un'applicazione ripete una richiesta API **dopo un errore temporaneo**, come un rate limit (`429`) o un timeout (`504`).

> È fondamentale per garantire **robustezza** e **tolleranza ai fallimenti** in sistemi che usano modelli via API.

---

## Retry manuale vs automatico

### Retry manuale

Nel retry manuale:

* Sei tu a scrivere la logica di controllo errori
* Usi blocchi `try/except` e cicli `while` per decidere se e quando ritentare

#### Esempio base:

```python
import openai
import time

for attempt in range(5):
    try:
        response = openai.ChatCompletion.create(
            model="gpt-4",
            messages=[{"role": "user", "content": "Spiegami il retry."}]
        )
        break  # Se funziona, esce dal ciclo
    except openai.error.RateLimitError:
        wait_time = 2 ** attempt  # backoff esponenziale
        print(f"Rate limit, attendo {wait_time}s...")
        time.sleep(wait_time)
```

### Retry automatico

Nel retry automatico:

* Una libreria gestisce tutto per te (ritenti, attese, log, limite massimo)
* È configurabile, riutilizzabile e più pulita

---

## Strategie di backoff

**Backoff** significa **attendere** prima di ritentare una richiesta fallita.

### 1. Fisso

Ogni retry attende lo stesso tempo: `sleep(2)` → `sleep(2)` → …

### 2. Esponenziale (best practice)

Ogni retry raddoppia il tempo d’attesa:
`2s → 4s → 8s → 16s`

### 3. Esponenziale con jitter (variazione casuale)

Evita che più client facciano retry tutti insieme allo stesso istante.
Molto usato nei sistemi distribuiti per evitare picchi sincronizzati.

---

## Uso della libreria `tenacity` (Python)

[`tenacity`](https://tenacity.readthedocs.io/) è una libreria Python robusta e flessibile per retry automatici, con supporto per backoff, timeout, logging e controllo fine degli errori.

### Installazione:

```bash
pip install tenacity
```

---

### Esempio completo con GPT-4

```python
from tenacity import retry, wait_exponential, stop_after_attempt
import openai
import os

openai.api_key = os.getenv("OPENAI_API_KEY")

@retry(
    wait=wait_exponential(multiplier=1, min=2, max=10),  # 2s, 4s, 8s, max 10s
    stop=stop_after_attempt(5)  # massimo 5 tentativi
)
def ask():
    return openai.ChatCompletion.create(
        model="gpt-4",
        messages=[{"role": "user", "content": "Cos'è il backoff esponenziale?"}],
        temperature=0.7,
        max_tokens=200
    )

response = ask()
print(response["choices"][0]["message"]["content"])
```

---

### Parametri principali di `tenacity`

| Parametro                   | Significato                                |
| --------------------------- | ------------------------------------------ |
| `wait_exponential()`        | Backoff esponenziale automatico            |
| `stop_after_attempt(n)`     | Interrompe dopo n tentativi                |
| `retry_if_exception_type()` | Specifica quali eccezioni far ritentare    |
| `retry_error_callback()`    | Funzione da eseguire se i retry falliscono |
| `before_sleep()`            | Funzione da chiamare prima di ogni attesa  |

---

## Quando usare il retry

| Situazione                        | Retry? | Motivazione                         |
| --------------------------------- | ------ | ----------------------------------- |
| `429 Too Many Requests`           | yes      | Rate limit temporaneo               |
| `503 Service Unavailable`         | yes      | Server temporaneamente sovraccarico |
| `openai.error.APIConnectionError` | yes      | Problema di rete                    |
| `400 Bad Request`                 | no      | Errore nel tuo codice o input       |
| `401 Unauthorized`                | no      | Chiave API errata o scaduta         |

---

## In sintesi

* Il retry con backoff è essenziale per costruire **client resilienti** alle API LLM.
* Usare librerie come `tenacity` ti permette di scrivere codice più pulito, riutilizzabile e conforme alle best practice cloud.
* Implementarlo è indispensabile in qualsiasi **ambiente di produzione o batch processing**.

---



---

# Guida completa a `tenacity`

**Retry intelligente con Python**

---

## Cos'è `tenacity`

`tenacity` è una libreria Python progettata per **automatizzare e gestire il retry** di funzioni che possono fallire temporaneamente, come chiamate a:

* API esterne (es. OpenAI, Azure, Hugging Face)
* Sistemi distribuiti
* Database o file remoti

Permette di:

* Ritentare automaticamente
* Attendere tra un tentativo e l'altro
* Limitare il numero massimo di retry
* Loggare gli errori
* Applicare backoff, jitter, e timeout

---

## 1. **Decoratore `@retry(...)`**

È la base della libreria. Si applica a una funzione che vuoi rendere "resiliente".

### Esempio minimo:

```python
from tenacity import retry

@retry
def instabile():
    print("Tentativo in corso...")
    raise Exception("Errore temporaneo")

instabile()
```

Questo codice continua a ritentare **all’infinito** perché non abbiamo impostato limiti.

---

## 2. **Controllare il numero di tentativi** – `stop_after_attempt()`

Permette di interrompere dopo un certo numero di tentativi falliti.

```python
from tenacity import retry, stop_after_attempt

@retry(stop=stop_after_attempt(3))
def instabile():
    print("Tentativo fallito")
    raise Exception("Errore")

instabile()
```

Output:

```
Tentativo fallito
Tentativo fallito
Tentativo fallito
TenacityRetryError: RetryError ...
```

---

## 3. **Attendere tra i tentativi** – `wait_fixed()`, `wait_exponential()`, `wait_random()`

### `wait_fixed(seconds)`

Attende sempre lo stesso tempo.

```python
from tenacity import retry, wait_fixed

@retry(wait=wait_fixed(2))
def f():
    print("Retry ogni 2 secondi")
    raise Exception()
```

---

### `wait_exponential()`

Attesa crescente: 2s, 4s, 8s, ...

```python
from tenacity import retry, wait_exponential

@retry(wait=wait_exponential(multiplier=1, min=2, max=10))
def f():
    print("Backoff esponenziale")
    raise Exception()
```

---

### `wait_random(min, max)`

Ritardo casuale tra i due estremi.

```python
from tenacity import retry, wait_random

@retry(wait=wait_random(min=1, max=5))
def f():
    print("Attesa casuale tra 1 e 5 secondi")
    raise Exception()
```

---

## 4. **Condizioni per il retry** – `retry_if_exception_type()`, `retry_if_result()`

### `retry_if_exception_type(MyException)`

Ritentare **solo per eccezioni specifiche**.

```python
from tenacity import retry, retry_if_exception_type

class Retryable(Exception): pass
class NonRetryable(Exception): pass

@retry(retry=retry_if_exception_type(Retryable))
def f():
    raise Retryable()  # se cambi in NonRetryable, non ritenta
```

---

### `retry_if_result(...)`

Ritentare **in base al risultato** restituito dalla funzione (non solo se fallisce).

```python
from tenacity import retry, retry_if_result

@retry(retry=retry_if_result(lambda r: r is None))
def f():
    print("Funzione ha restituito None, ritento...")
    return None
```

---

## 5. **Callback di logging/debug** – `before`, `after`, `before_sleep`, `retry_error_callback`

### `before_sleep`

Funzione da chiamare **prima del prossimo retry**.

```python
from tenacity import retry, wait_fixed, before_sleep

def avviso(retry_state):
    print(f"Errore: nuovo tentativo in {retry_state.next_action.sleep} secondi...")

@retry(wait=wait_fixed(2), before_sleep=avviso, stop=stop_after_attempt(3))
def f():
    raise Exception("Errore")
```

---

### `retry_error_callback`

Funzione chiamata **dopo che tutti i retry falliscono**.

```python
from tenacity import retry, stop_after_attempt, retry_error_callback

def fallback(retry_state):
    return "Default response"

@retry(stop=stop_after_attempt(3), retry_error_callback=fallback)
def f():
    raise Exception("Errore grave")

print(f())  # -> "Default response"
```

---

## 6. **Combinazioni complesse** – `retry_any`, `retry_all`

Per condizioni multiple.

```python
from tenacity import retry, retry_any, retry_if_exception_type, retry_if_result

@retry(retry=retry_any(
    retry_if_exception_type(ValueError),
    retry_if_result(lambda r: r is None)
))
def f():
    raise ValueError()
```

---

## 7. **Logging automatico integrato**

Tenacity può integrarsi con la libreria `logging` di Python. Esempio:

```python
import logging
from tenacity import retry, stop_after_attempt, wait_fixed

logging.basicConfig(level=logging.INFO)

@retry(stop=stop_after_attempt(3), wait=wait_fixed(1), reraise=True)
def f():
    raise Exception("Errore")

f()
```

---

## In sintesi

| Funzione                    | Cosa fa                                     |
| --------------------------- | ------------------------------------------- |
| `@retry`                    | Attiva la logica di retry                   |
| `stop_after_attempt(n)`     | Limita i tentativi                          |
| `wait_fixed(t)`             | Pausa fissa tra i retry                     |
| `wait_exponential()`        | Pausa crescente (backoff esponenziale)      |
| `retry_if_exception_type()` | Retry solo su specifiche eccezioni          |
| `retry_if_result()`         | Retry se il risultato è nullo o sbagliato   |
| `before_sleep()`            | Log personalizzato prima del prossimo retry |
| `retry_error_callback()`    | Funzione fallback dopo i fallimenti         |

---




---

# 4.1 – Batch Completions

---

## Cos'è una "batch completion"

Una **batch completion** consiste nell'inviare **più richieste di completamento (o embedding)** in un **singolo blocco** a un endpoint API, invece di eseguire una chiamata alla volta.

> L’obiettivo è aumentare l’efficienza elaborando più richieste in parallelo o in serie ottimizzata.

È utile in tutti i casi in cui:

* Devi generare molti testi
* Devi calcolare molti embeddings
* Lavori con dataset di grandi dimensioni

---

## Come si realizza una batch completion

Dipende dal **tipo di endpoint**.

### 1. Batch con `embeddings` (supportato direttamente)

Molti provider accettano **una lista di stringhe** come input:

```python
response = openai.Embedding.create(
    model="text-embedding-ada-002",
    input=[
        "Eventi in montagna",
        "Guida alle escursioni",
        "Campeggi invernali"
    ]
)
```

Ricevi in risposta un **vettore per ogni frase**.

---

### 2. Batch con `completions` o `chat` (non supportato direttamente)

OpenAI e Azure non permettono nativamente chiamate chat/multiple in batch con un solo payload, quindi la soluzione è:

* **Parallelizzare** lato client (threading, asyncio, multiprocessing)
* **Ottimizzare** lato codice con retry e gestione delle chiamate simultanee

---

## Vantaggi del batch processing

| Vantaggio                    | Descrizione                                                       |
| ---------------------------- | ----------------------------------------------------------------- |
| Throughput più elevato       | È più efficiente fare 10 chiamate in parallelo che 10 in sequenza |
| Utilizzo ottimale della rete | Si riduce l’overhead per singola chiamata                         |
| Utilizzo di GPU server-side  | I modelli LLM processano meglio lotti più grandi                  |

---

## Limiti e svantaggi

| Limite                               | Dettagli                                                                                                |
| ------------------------------------ | ------------------------------------------------------------------------------------------------------- |
| **Latenza cumulativa**               | Se una chiamata batch contiene 100 input, bisogna aspettare che **tutti** siano completati              |
| **Gestione errori più complessa**    | Se uno degli input fallisce, può essere necessario ripetere l’intero batch o escludere quello specifico |
| **Quota token condivisa**            | Il limite di token per batch è comunque **totale** (es. 8.000 token input/output sommati)               |
| **Maggiore complessità nel logging** | Bisogna tracciare ogni risposta all’interno del batch manualmente                                       |

---

## Esempio pratico con `concurrent.futures.ThreadPoolExecutor` (OpenAI chat)

### Obiettivo: inviare 5 prompt diversi in parallelo

```python
from concurrent.futures import ThreadPoolExecutor, as_completed
import openai

openai.api_key = "your_api_key"

prompts = [
    "Scrivi un'introduzione su eventi in montagna",
    "Genera una descrizione per un festival di yoga",
    "Spiega il campeggio libero in Italia",
    "Crea una lista di 5 eventi outdoor per famiglie",
    "Descrivi un'escursione invernale in Trentino"
]

def ask(prompt):
    return openai.ChatCompletion.create(
        model="gpt-4",
        messages=[{"role": "user", "content": prompt}],
        max_tokens=150
    )["choices"][0]["message"]["content"]

with ThreadPoolExecutor(max_workers=5) as executor:
    futures = [executor.submit(ask, p) for p in prompts]
    for future in as_completed(futures):
        print(future.result())
```

---

## Quando usare le batch completions

| Scenario                            | Batch consigliato?          |
| ----------------------------------- | --------------------------- |
| Calcolo di molti embeddings         |  Sì                        |
| Generazione di testi per un dataset |  Sì, via threading o async |
| Conversazioni singole e interattive |  No                        |
| UI con risposta in tempo reale      |  No                        |

---

## In sintesi

* Le **batch completions** aumentano il throughput e riducono i costi operativi su molti task simili.
* Sono ideali per operazioni **su grandi volumi**, come generazione automatica, embedding, classificazione, sintesi.
* Serve gestire bene i **limiti di token**, le **eccezioni individuali** e implementare **log granularity**.

---



---

# Cos'è `asyncio` in Python

---

##  Definizione

`asyncio` è il **framework nativo di Python per la programmazione asincrona**.
Serve per **eseguire più operazioni contemporaneamente** (in modo cooperativo), **senza bloccare il thread principale**.

> Non usa thread multipli o processi, ma gestisce le attese (I/O, rete, attesa API) in modo efficiente e non bloccante.

---

##  Quando serve

È utile quando:

* Hai **molte operazioni I/O-bound**, come chiamate API o accessi a file o DB.
* Vuoi **parallelizzare** codice senza usare thread o processi.
* Vuoi **risposte rapide da molte fonti** (batch API, scraping, chiamate concorrenti).

---

##  Quando **non** serve

* Per task **CPU-bound** (es. calcoli pesanti): meglio usare `multiprocessing`.
* Se hai solo una richiesta alla volta: l’overhead non vale la pena.

---

# Concetti base

---

## 1. `async def`

È una funzione asincrona: puoi sospenderla e riprenderla quando vuoi.

```python
async def saluta():
    print("Ciao")
```

---

## 2. `await`

Serve per **sospendere l’esecuzione** fino a quando una funzione asincrona non ha finito.

```python
import asyncio

async def saluta():
    print("Ciao")
    await asyncio.sleep(1)  # pausa non bloccante
    print("Benvenuto!")

asyncio.run(saluta())
```

---

## 3. `asyncio.gather`

Serve per **eseguire più funzioni asincrone in parallelo** e aspettare che tutte finiscano.

```python
import asyncio

async def attesa(x):
    await asyncio.sleep(x)
    print(f"Dormito {x} secondi")

async def main():
    await asyncio.gather(attesa(1), attesa(2), attesa(3))

asyncio.run(main())
```

Output:

```
Dopo 1s → "Dormito 1 secondi"
Dopo 2s → "Dormito 2 secondi"
Dopo 3s → "Dormito 3 secondi"
```

Tempo totale: 3s, non 6s.

---

## 4. Esempio con API: chiamate asincrone OpenAI

La libreria `openai` ufficiale **non è asincrona**, ma si può adattare.
Tuttavia, per API REST generiche (es. con `httpx`, `aiohttp`) è molto comodo.

### Esempio con `httpx` (client asincrono)

```python
import asyncio
import httpx
import os

API_KEY = os.getenv("OPENAI_API_KEY")
URL = "https://api.openai.com/v1/completions"

HEADERS = {
    "Authorization": f"Bearer {API_KEY}",
    "Content-Type": "application/json"
}

async def fetch_completion(prompt):
    payload = {
        "model": "text-davinci-003",
        "prompt": prompt,
        "max_tokens": 100
    }

    async with httpx.AsyncClient() as client:
        response = await client.post(URL, headers=HEADERS, json=payload)
        data = response.json()
        return data["choices"][0]["text"].strip()

async def main():
    prompts = [
        "Scrivi una poesia sulla neve",
        "Descrivi un’escursione in montagna",
        "Spiega il concetto di backoff esponenziale",
    ]

    tasks = [fetch_completion(p) for p in prompts]
    results = await asyncio.gather(*tasks)

    for r in results:
        print(r)

asyncio.run(main())
```

---

## Vantaggi pratici di `asyncio` per chiamate API

| Vantaggio              | Descrizione                                               |
| ---------------------- | --------------------------------------------------------- |
| Maggiore efficienza    | Una singola CPU può gestire centinaia di chiamate I/O     |
| Minore latenza totale  | Le chiamate partono insieme, si attende solo la più lenta |
| Uso ridotto di risorse | Non servono thread multipli né processi                   |

---

## In sintesi

* `asyncio` è lo standard Python per la **programmazione asincrona non bloccante**.
* Ti permette di **parallelizzare operazioni lente (I/O)** come chiamate API.
* Usato con `httpx`, `aiohttp`, o librerie compatibili con async, ti permette di **costruire sistemi scalabili** con poche righe di codice.

---




---

# 4.2 – Streaming completions

---

## Cos’è lo streaming (`stream=True`)

Nel contesto delle API LLM (come OpenAI o Azure OpenAI), abilitare lo **streaming** significa ricevere l’output **man mano che il modello lo genera**, **token per token**, invece che attendere che l'intera risposta sia pronta.

Si attiva passando il parametro:

```json
"stream": true
```

Durante lo streaming, il server invia una **serie di eventi** incrementali (tipicamente con tecnologia Server-Sent Events o WebSocket), ognuno contenente una piccola parte del completamento, fino al termine della generazione.

---

### Differenza tra modalità normale e streaming

| Modalità           | Output                                 | Esperienza                                             |
| ------------------ | -------------------------------------- | ------------------------------------------------------ |
| Normale (default)  | Tutta la risposta in un’unica volta    | Bloccante: l’utente aspetta finché non è tutto pronto  |
| Streaming (`true`) | Frammenti incrementali (token o frasi) | Reattiva: l’utente vede il testo mentre viene generato |

---

## Come gestirlo lato backend

### Utilizzo con OpenAI SDK (Python)

```python
import openai

openai.api_key = "your_api_key"

response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[
        {"role": "user", "content": "Spiegami lo streaming completions"}
    ],
    stream=True  # attiva lo streaming
)

for chunk in response:
    delta = chunk["choices"][0]["delta"]
    if "content" in delta:
        print(delta["content"], end="", flush=True)
```

### Struttura del flusso

Ogni `chunk` ricevuto contiene solo il **delta**, cioè la parte appena generata. Alla fine, il modello invia un messaggio con `finish_reason`.

Per esempio:

```json
{
  "choices": [
    {
      "delta": {
        "content": "Questo è un "
      }
    }
  ]
}
```

Successivamente:

```json
{
  "choices": [
    {
      "delta": {
        "content": "esempio di streaming"
      }
    }
  ]
}
```

E così via, fino al completamento.

---

## Come gestirlo lato frontend

Per creare interfacce moderne e reattive (es. chatbot), è necessario che anche il frontend sia in grado di **ricevere ed esporre il contenuto parziale in tempo reale**.

### Architettura tipica

1. Il client invia un prompt al backend
2. Il backend apre una chiamata con `stream=True` al modello
3. Il backend trasmette via **WebSocket** o **EventSource** ogni frammento al client
4. Il frontend aggiorna la UI **progressivamente**

### Tecnologie usate

* **Backend**: FastAPI, Flask, Node.js, Django Channels
* **Streaming**: WebSocket, Server-Sent Events (SSE)
* **Frontend**: React, Vue, Svelte, ecc. con listener asincroni

---

## Quando usare lo streaming

Lo streaming è fortemente consigliato quando:

| Contesto                            | Motivazione                                                      |
| ----------------------------------- | ---------------------------------------------------------------- |
| Chatbot avanzati                    | Migliora la percezione di reattività e fluidità                  |
| Applicazioni interattive            | Riduce il tempo di attesa percepito                              |
| Ambienti vocali / assistenti vocali | Consente di iniziare a leggere o parlare prima del completamento |
| Generazione creativa                | Utile per ispirare o interrompere la generazione a metà          |
| Sistemi di feedback in tempo reale  | Permette di fermare l'inferenza se non soddisfa i criteri        |

---

## Vantaggi dello streaming

* Migliore esperienza utente (l’output appare subito)
* Maggiore controllo: puoi interrompere il flusso a metà
* Migliore integrazione con UI dinamiche e conversazioni complesse
* Riduzione della percezione della latenza

---

## Limitazioni

* Richiede architettura asincrona lato backend
* Più complesso da implementare rispetto a una semplice `POST`
* Non disponibile su tutti i provider o modelli
* Maggior complessità nella gestione dell'errore parziale e dell’interruzione

---

## In sintesi

* Con lo **streaming completions**, non si aspetta più l'intera risposta, ma si riceve il testo progressivamente.
* Questo consente esperienze molto più fluide e naturali, soprattutto in chatbot e agenti conversazionali.
* Richiede attenzione all'implementazione, ma è uno standard per ogni sistema LLM moderno orientato all’interazione.

---

Fammi sapere se vuoi:

* Un esempio completo `FastAPI` + WebSocket per gestire lo streaming lato backend e frontend
* Oppure proseguire con la **Parte 5 – Azure OpenAI: tiers, regioni, deployment**


Ecco una **versione semplificata** con **Streamlit** che invia un **payload JSON** (solo `prompt`) a **LM Studio** e mostra la risposta **in streaming**, integrando **retry** ed **async** in modo pulito.

---

### requirements.txt

```txt
streamlit==1.48.0
httpx==0.27.0
tenacity==9.1.2
```

---

### app.py

```python
import os
import json
import asyncio
import streamlit as st
import httpx
from tenacity import retry, wait_exponential, stop_after_attempt, retry_if_exception_type

# Endpoint OpenAI-compatible di LM Studio (Local Server)
LMSTUDIO_URL = os.getenv("LMSTUDIO_URL", "http://localhost:1234/v1/chat/completions")

st.set_page_config(page_title="LM Studio Stream Demo", layout="centered")
st.title("LM Studio – Streaming via API (Flask-free, Streamlit-only)")

st.markdown(
    """
**Istruzioni rapide**
1. Apri LM Studio, carica un modello e attiva il *Local Server* (OpenAI-compatible) sulla porta `1234`.
2. Inserisci un prompt qui sotto e premi **Genera**.
3. Vedrai l’output arrivare **in streaming**.
    """
)

# Parametri UI
prompt = st.text_area("Prompt", height=150, placeholder="Scrivi qui il prompt...")
c1, c2, c3 = st.columns(3)
with c1:
    temperature = st.slider("Temperature", 0.0, 1.5, 0.2, 0.1)
with c2:
    max_tokens = st.number_input("Max tokens", min_value=16, max_value=4096, value=512, step=16)
with c3:
    model = st.text_input("Model (opzionale)", value="local-llm")

go = st.button("Genera", type="primary", use_container_width=True)

HEADERS = {"Content-Type": "application/json",
          "Accept": "text/event-stream"  # per lo stream SSE
          }

# --- FUNZIONE ASINCRONA CON RETRY E BACKOFF -------------------------------

@retry(
    wait=wait_exponential(multiplier=1, min=1, max=8),
    stop=stop_after_attempt(4),
    retry=retry_if_exception_type((
        httpx.ConnectError,
        httpx.ReadError,
        httpx.RemoteProtocolError,
        httpx.TimeoutException,
        httpx.HTTPStatusError,
    )),
    reraise=True,
)
async def stream_lmstudio(prompt_text: str, temperature: float, max_tokens: int, model_name: str):
    """
    Effettua una chiamata al server OpenAI-compatible di LM Studio con stream=True
    e restituisce un async generator di 'pezzi' di testo man mano che arrivano.
    """
    payload = {
        "model": model_name or "local-llm",
        "messages": [{"role": "user", "content": prompt_text}],
        "temperature": temperature,
        "max_tokens": max_tokens,
        "stream": True,  # chiave per lo streaming token-by-token
    }

    timeout = httpx.Timeout(connect=10.0, read=600.0, write=30.0, pool=10.0)
    async with httpx.AsyncClient(timeout=timeout) as client:
        async with client.stream("POST", LMSTUDIO_URL, headers=HEADERS, json=payload) as resp:
            # Genera HTTPStatusError se 4xx/5xx (così scatta il retry)
            resp.raise_for_status()

            # LM Studio emette SSE "data: {...}" + "[DONE]"
            async for line in resp.aiter_lines():
                if not line:
                    continue
                if not line.startswith("data: "):
                    # Alcuni server potrebbero inviare righe di keep-alive/commenti
                    continue

                data_line = line[6:].strip()
                if data_line == "[DONE]":
                    break

                # Prova a decodificare JSON nel formato OpenAI "delta"
                piece = None
                try:
                    obj = json.loads(data_line)
                    delta = obj["choices"][0].get("delta", {})
                    piece = delta.get("content", "")
                except Exception:
                    # Se non è JSON valido, emetti comunque la riga grezza
                    piece = data_line

                if piece:
                    yield piece

# --- CONSUMER ASINCRONO -> AGGIORNA LA UI --------------------------------

async def consume_stream_and_render(prompt_text: str, temperature: float, max_tokens: int, model_name: str):
    placeholder = st.empty()
    buffer = []

    try:
        async for chunk in stream_lmstudio(prompt_text, temperature, max_tokens, model_name):
            buffer.append(chunk)
            # Aggiornamento progressivo (Markdown per andare a capo correttamente)
            placeholder.markdown("".join(buffer))
    except httpx.HTTPStatusError as e:
        # Errori 4xx/5xx non recuperabili dopo i retry
        st.error(f"Errore dal server LM Studio: {e.response.status_code} - {e.response.text}")
    except Exception as e:
        st.error(f"Errore di rete o streaming: {e}")

# --- HANDLER BOTTONE ------------------------------------------------------

if go:
    if not prompt.strip():
        st.warning("Inserisci un prompt prima di generare.")
    else:
        st.info("Connessione a LM Studio e streaming in corso…")
        # Esegue il consumer asincrono (Streamlit è sync, quindi lanciamo l'event loop qui)
        asyncio.run(consume_stream_and_render(prompt, temperature, max_tokens, model))
```

---

## Come avviare

1. Avvia **LM Studio**, carica un modello e attiva il **Local Server** (OpenAI-compatible) su `http://localhost:1234`.
2. Installa i pacchetti:

   ```bash
   pip install -r requirements.txt
   ```
3. Avvia Streamlit:

   ```bash
   streamlit run app.py
   ```
4. Apri il browser all’URL che Streamlit stampa (di solito `http://localhost:8501`).

---

## Note tecniche

* **Streaming**: gestito via `httpx.AsyncClient.stream(...).aiter_lines()` parsando le righe SSE (`data: ...`). Riconosce `[DONE]`.
* **Retry & Backoff**: `tenacity` ritenta automaticamente su errori di rete o `HTTPStatusError`, con backoff esponenziale. Non ritenta all’infinito e rilancia l’eccezione dopo 4 tentativi.
* **Async**: il flusso è completamente asincrono; Streamlit (sincrono) lancia l’event loop con `asyncio.run(...)` al click.
* **Sicurezza**: nessuna API key richiesta perché LM Studio è locale; se servisse, aggiungi un header `Authorization` lato LM Studio o proteggi la porta.




---

# Cos'è Streamlit

---

##  Definizione

**Streamlit** è un framework Python open source pensato per creare **applicazioni web interattive e veloci** direttamente dal codice Python, **senza dover scrivere HTML, CSS o JavaScript**.

È particolarmente popolare tra:

* Data scientist
* Sviluppatori AI/ML
* Ricercatori e professionisti tecnici

> Lo scopo è passare da uno script Python a un’interfaccia web funzionale **in pochi minuti**.

---

##  Cosa permette di fare

Con Streamlit puoi:

* Mostrare grafici, tabelle, dataframe
* Visualizzare testo formattato e codice
* Creare **form di input dinamici** (testi, slider, select box)
* Visualizzare in tempo reale risultati di modelli ML
* Integrare modelli LLM, API e processi asincroni
* **Condividere** il tuo progetto via web (es. su [streamlit.io](https://share.streamlit.io))

---

##  Come funziona

Streamlit esegue lo script Python come un **flusso dichiarativo**:

1. Tu scrivi codice Python come se fosse uno script di analisi o interazione.
2. Ogni volta che l’utente interagisce con un elemento (es. clic, selezione, testo), **l’intero script viene rieseguito** automaticamente.
3. Lo stato dell’app viene gestito in modo trasparente tramite variabili o `st.session_state`.

---

##  Avvio rapido

### 1. Installazione

```bash
pip install streamlit
```

### 2. Script base (`app.py`)

```python
import streamlit as st

st.title("Ciao dal tuo primo Streamlit app")
name = st.text_input("Come ti chiami?")
if name:
    st.success(f"Benvenuto, {name}!")
```

### 3. Avvio

```bash
streamlit run app.py
```

Si apre il browser in automatico (es. `http://localhost:8501`) con l’interfaccia.

---

##  Esempi di componenti interattivi

| Funzione           | Descrizione                          |
| ------------------ | ------------------------------------ |
| `st.text_input()`  | Campo di testo per l’utente          |
| `st.slider()`      | Slider numerico                      |
| `st.button()`      | Bottone cliccabile                   |
| `st.selectbox()`   | Menu a tendina                       |
| `st.text_area()`   | Area di testo multi-linea            |
| `st.markdown()`    | Visualizzazione di testo formattato  |
| `st.empty()`       | Placeholder dinamico                 |
| `st.columns()`     | Layout in colonne                    |
| `st.session_state` | Memorizzazione persistente tra rerun |

---

##  Backend e frontend in uno

Streamlit **nasconde tutta la complessità del frontend**:

* Tu scrivi solo Python
* I componenti sono automaticamente sincronizzati tra Python (backend) e l’interfaccia utente (frontend)
* Tutto gira su un server locale (o cloud) senza dover gestire Flask, React, WebSocket ecc.

---

##  Quando usare Streamlit

### È ideale per:

* Prototipi rapidi di interfacce AI
* Dashboard di analisi dati
* UI leggere per modelli NLP e computer vision
* Demo da condividere con altri

### Meno adatto a:

* Web app complesse e multi-pagina (meglio Django o FastAPI + frontend)
* Sistemi di autenticazione avanzati (richiede estensioni)
* Uso ad alta concorrenza (non pensato per produzione enterprise pesante)

---

##  Internamente: come gestisce l’interazione

Ogni volta che interagisci con un widget:

1. L’input viene inviato al server Python
2. Streamlit **riesegue lo script da cima a fondo**
3. Gli elementi `st.text_input()`, `st.button()` ecc. restituiscono nuovi valori
4. Tu usi if/else e `st.session_state` per determinare cosa aggiornare

---

##  In sintesi

* **Cos'è**: un framework Python per creare web app interattive senza frontend.
* **Come funziona**: dichiarativo e reattivo, riesegue lo script a ogni input.
* **Vantaggi**: velocissimo da usare, ideale per AI, prototipi e visualizzazioni.
* **Perfetto per**: app personali o interne che usano modelli, dati o API.

---




---

## 1. **Configurazione iniziale della pagina**

```python
st.set_page_config(page_title="LM Studio Stream Demo", layout="centered")
st.title("LM Studio – Streaming via API (Streamlit)")
st.markdown("""...""")
```

###  Cosa fa

* Imposta il titolo del browser e il layout della pagina.
* Inserisce un titolo (`st.title`) e delle istruzioni testuali (`st.markdown`) nella UI.

###  Obiettivo

Spiegare all’utente come avviare LM Studio, inserire il prompt e ottenere l’output generato dal modello.

---

## 2. **Costruzione dell’interfaccia di input**

```python
prompt = st.text_area("Prompt", ...)
c1, c2, c3 = st.columns(3)
temperature = st.slider(...)
max_tokens = st.number_input(...)
model = st.text_input(...)
go = st.button("Genera", ...)
```

###  Cosa fa

* `st.text_area`: area di input testuale multi-linea per inserire il prompt.
* `st.columns`: crea una disposizione in 3 colonne per ordinare i controlli.
* `st.slider`, `st.number_input`, `st.text_input`: raccolgono parametri aggiuntivi del modello (temperature, max\_tokens, nome modello).
* `st.button`: bottone per avviare la generazione.

###  Obiettivo

Permettere all’utente di personalizzare ogni richiesta in modo semplice e visivo, senza scrivere codice.

---

## 3. **Visualizzazione dinamica dello streaming**

```python
async def consume_stream_and_render(...):
    placeholder = st.empty()
    buffer = []
    ...
    placeholder.markdown("".join(buffer))
```

###  Cosa fa

* `st.empty()` crea un **segnaposto vuoto** nella pagina.
* Questo placeholder viene aggiornato progressivamente con i chunk testuali ricevuti dal modello.
* Il buffer viene popolato ad ogni `chunk`, e il contenuto viene aggiornato in tempo reale nella UI.

###  Obiettivo

Simulare la sensazione di **output in streaming**, come un chatbot o un assistente che risponde mentre scrive.

---

## 4. **Gestione asincrona e compatibilità con Streamlit**

```python
def run_async(coro):
    ...
```

###  Cosa fa

Streamlit non gestisce nativamente funzioni `async`. Questo blocco:

* Verifica se c’è già un event loop attivo (cosa comune nei runtime Web).
* Se esiste, lancia la coroutine tramite `run_coroutine_threadsafe`.
* Altrimenti la esegue direttamente con `asyncio.run`.

###  Obiettivo

Consentire la **compatibilità asincrona** con lo streaming (`async for`) all’interno di un’app Streamlit che normalmente è sincrona.

---

## 5. **Gestione degli eventi utente (clic su "Genera")**

```python
if go:
    if not prompt.strip():
        st.warning(...)
    else:
        st.info("Connessione a LM Studio e streaming in corso…")
        try:
            run_async(consume_stream_and_render(...))
        ...
```

###  Cosa fa

* Quando l’utente preme il bottone `Genera`, questo blocco esegue il codice.
* Verifica che il prompt non sia vuoto.
* Avvia lo streaming asincrono del modello.
* Gestisce eventuali errori di rete o di chiamata all’API mostrando messaggi (`st.warning`, `st.error`).

###  Obiettivo

Far partire il flusso di generazione **solo dopo interazione umana**, e fornire **feedback visivo** immediato su errori o stato del sistema.

---

## 6. **Output in tempo reale dell’LLM**

L’output è costruito e aggiornato in questa sezione:

```python
async for chunk in stream_lmstudio(...):
    buffer.append(chunk)
    placeholder.markdown("".join(buffer))
```

###  Cosa fa

* Usa uno stream HTTP con `httpx` e `stream=True`
* Ogni "pezzo" del testo ricevuto viene subito mostrato all’utente nella UI
* L’utente vede l’output crescere man mano

---

##  In sintesi

| Funzione Streamlit             | Uso nello script                             |
| ------------------------------ | -------------------------------------------- |
| `st.set_page_config`           | Configurazione della pagina                  |
| `st.title`, `st.markdown`      | Intestazioni e testo                         |
| `st.text_area`, `st.slider`    | Input dell’utente                            |
| `st.button`                    | Bottone per avviare la generazione           |
| `st.empty()`                   | Placeholder aggiornabile per output dinamico |
| `st.warning`, `st.error`, etc. | Feedback visivo all’utente                   |

Questo approccio consente di costruire in poche righe una vera e propria **interfaccia frontend per LLM**, completamente gestita in Python, **senza usare Flask o React**.




In [None]:
# --- FUNZIONE ASINCRONA CON RETRY E BACKOFF -------------------------------

@retry(
    wait=wait_exponential(multiplier=1, min=1, max=8),
    stop=stop_after_attempt(4),
    retry=retry_if_exception_type((
        httpx.ConnectError,
        httpx.ReadError,
        httpx.RemoteProtocolError,
        httpx.TimeoutException,
        httpx.HTTPStatusError,
    )),
    reraise=True,
)
async def stream_lmstudio(prompt_text: str, temperature: float, max_tokens: int, model_name: str):
    """
    Effettua una chiamata al server OpenAI-compatible di LM Studio con stream=True
    e restituisce un async generator di 'pezzi' di testo man mano che arrivano.
    """
    payload = {
        "model": model_name or "local-llm",
        "messages": [{"role": "user", "content": prompt_text}],
        "temperature": temperature,
        "max_tokens": max_tokens,
        "stream": True,  # chiave per lo streaming token-by-token
    }

    timeout = httpx.Timeout(connect=10.0, read=600.0, write=30.0, pool=10.0)
    async with httpx.AsyncClient(timeout=timeout) as client:
        async with client.stream("POST", LMSTUDIO_URL, headers=HEADERS, json=payload) as resp:
            # Genera HTTPStatusError se 4xx/5xx (così scatta il retry)
            resp.raise_for_status()

            # LM Studio emette SSE "data: {...}" + "[DONE]"
            async for line in resp.aiter_lines():
                if not line:
                    continue
                if not line.startswith("data: "):
                    # Alcuni server potrebbero inviare righe di keep-alive/commenti
                    continue

                data_line = line[6:].strip()
                if data_line == "[DONE]":
                    break

                # Prova a decodificare JSON nel formato OpenAI "delta"
                piece = None
                try:
                    obj = json.loads(data_line)
                    delta = obj["choices"][0].get("delta", {})
                    piece = delta.get("content", "")
                except Exception:
                    # Se non è JSON valido, emetti comunque la riga grezza
                    piece = data_line

                if piece:
                    yield piece

# --- CONSUMER ASINCRONO -> AGGIORNA LA UI --------------------------------

async def consume_stream_and_render(prompt_text: str, temperature: float, max_tokens: int, model_name: str):
    placeholder = st.empty()
    buffer = []

    try:
        async for chunk in stream_lmstudio(prompt_text, temperature, max_tokens, model_name):
            buffer.append(chunk)
            # Aggiornamento progressivo (Markdown per andare a capo correttamente)
            placeholder.markdown("".join(buffer))
    except httpx.HTTPStatusError as e:
        # Errori 4xx/5xx non recuperabili dopo i retry
        st.error(f"Errore dal server LM Studio: {e.response.status_code} - {e.response.text}")
    except Exception as e:
        st.error(f"Errore di rete o streaming: {e}")



---

##  **Scopo della funzione**

```python
async def stream_lmstudio(prompt_text: str, temperature: float, max_tokens: int, model_name: str)
```

La funzione è:

* **asincrona** (`async`): può essere eseguita senza bloccare il thread principale.
* Restituisce un **async generator**: `yield` viene usato per restituire **pezzi di testo man mano che arrivano**.

---

##  **Decoratore `@retry(...)` con `tenacity`**

```python
@retry(
    wait=wait_exponential(multiplier=1, min=1, max=8),
    stop=stop_after_attempt(4),
    retry=retry_if_exception_type((...)),
    reraise=True,
)
```

###  Cosa fa

Questa parte configura **meccanismi automatici di retry** in caso di errori di rete.

| Parametro                      | Spiegazione                                                                                      |
| ------------------------------ | ------------------------------------------------------------------------------------------------ |
| `wait_exponential(...)`        | Implementa il **backoff esponenziale**: aspetta 1s, poi 2s, 4s, 8s tra i retry (fino a `max=8`). |
| `stop_after_attempt(4)`        | Tenta al massimo 4 volte prima di fallire.                                                       |
| `retry_if_exception_type(...)` | Indica quali **eccezioni triggerano il retry** (es. timeout, connessione persa, errori HTTP).    |
| `reraise=True`                 | Se dopo i retry fallisce ancora, **rilancia l'eccezione** invece di silenziarla.                 |

---

##  **Payload della richiesta**

```python
payload = {
    "model": model_name or "local-llm",
    "messages": [{"role": "user", "content": prompt_text}],
    "temperature": temperature,
    "max_tokens": max_tokens,
    "stream": True,
}
```

Questo oggetto JSON segue la **specifica delle API OpenAI**. Le chiavi principali:

* `model`: il nome del modello LLM da usare.
* `messages`: array di messaggi in stile chat (ruolo + contenuto).
* `temperature`: grado di casualità della risposta.
* `max_tokens`: massimo numero di token generabili.
* `stream`: `True` → abilitazione dello **streaming token-by-token**.

---

##  **Timeout completo con `httpx`**

```python
timeout = httpx.Timeout(connect=10.0, read=600.0, write=30.0, pool=10.0)
```

Vengono **esplicitamente impostati tutti i timeout** per evitare l’errore che hai incontrato prima:

| Campo     | Significato                                         |
| --------- | --------------------------------------------------- |
| `connect` | Timeout per stabilire la connessione                |
| `read`    | Timeout massimo per leggere i dati                  |
| `write`   | Tempo massimo per scrivere il corpo della richiesta |
| `pool`    | Timeout per accedere a una connessione dal pool     |

---

##  **Streaming della risposta**

```python
async with httpx.AsyncClient(timeout=timeout) as client:
    async with client.stream("POST", LMSTUDIO_URL, headers=HEADERS, json=payload) as resp:
        resp.raise_for_status()
```

###  Spiegazione

* Viene usato `httpx.AsyncClient` per gestire una **richiesta asincrona stream**.
* Il metodo `client.stream(...)` restituisce una connessione dove puoi leggere le righe **man mano che arrivano**.
* `raise_for_status()` lancia eccezione se lo status è 4xx/5xx → permette il retry.

---

##  **Parsing dello stream SSE (Server-Sent Events)**

```python
async for line in resp.aiter_lines():
    if not line or not line.startswith("data: "): continue
    data_line = line[6:].strip()
    if data_line == "[DONE]": break
```

###  Cos'è

* LM Studio segue il formato **Server-Sent Events**, quindi ogni linea è prefissata con `"data: "` e termina con `[DONE]`.
* Il codice:

  * ignora righe vuote o non prefissate da `data:`
  * esce dal ciclo se trova `[DONE]`

---

##  **Parsing JSON della risposta**

```python
obj = json.loads(data_line)
delta = obj["choices"][0].get("delta", {})
piece = delta.get("content", "")
```

###  Cos'è

* La risposta `data_line` è un oggetto JSON che contiene un campo `"delta"` con i nuovi token generati.
* `delta["content"]` contiene il nuovo pezzo di testo.
* Se non è presente o se il JSON è malformato, viene emessa comunque la riga grezza.

---

##  **Yield progressivo**

```python
if piece:
    yield piece
```

Questo è ciò che **permette lo streaming reale**. Il `yield` restituisce un token alla volta (o blocco) man mano che arriva.

---

##  Come viene usata questa funzione

La funzione viene usata in:

```python
async for chunk in stream_lmstudio(...):
    buffer.append(chunk)
    placeholder.markdown("".join(buffer))
```

 Questo aggiorna l’UI Streamlit in tempo reale con il testo generato.

---

##  In sintesi

| Aspetto                  | Funzione                                         |
| ------------------------ | ------------------------------------------------ |
| **Decoratore `@retry`**  | Garantisce robustezza alle chiamate API          |
| **`async` + `yield`**    | Rende la funzione asincrona e progressiva        |
| **`httpx.stream(...)`**  | Riceve output token-by-token dal modello         |
| **Parsing SSE + JSON**   | Interpreta correttamente il flusso in arrivo     |
| **Gestione errori**      | Rilancia solo errori seri dopo i retry           |
| **Compatibilità OpenAI** | La struttura è identica alle API OpenAI standard |

---


## AZURE OPENAI API ##

---

### requirements.txt

```txt
streamlit>=1.30.0
openai>=1.40.0
python-dotenv>=1.0.1
```

---

### app.py

```python
# ================================
# Streamlit + Azure OpenAI (Streaming + Multi-turn)
# ================================

# --- Import standard library ---
import os  # per leggere variabili d'ambiente (endpoint, chiave, versione API)
from typing import List, Dict  # typing facoltativo per chiarezza del codice

# --- Import di terze parti ---
from dotenv import load_dotenv  # carica automaticamente variabili da .env (comodo in locale)
import streamlit as st          # framework UI in Python
from openai import AzureOpenAI  # client ufficiale OpenAI compatibile con Azure

# ================================
# Configurazione iniziale dell'app
# ================================

# Carichiamo eventuali variabili dal file .env nella sessione (utile in sviluppo locale)
# Il file .env (non committare su git) può contenere:
#   AZURE_OPENAI_ENDPOINT=https://<resource>.openai.azure.com/
#   AZURE_OPENAI_API_VERSION=2024-12-01-preview
#   AZURE_OPENAI_KEY=<your-api-key>
#   AZURE_OPENAI_DEPLOYMENT=<deployment-name>   (nome del deployment chat su Azure)
load_dotenv()

# Impostazioni di pagina: titolo e layout
st.set_page_config(page_title="Azure OpenAI – Streaming Chat", layout="wide")

# Titolo e descrizione della pagina
st.title("Azure OpenAI – Streaming Chat (Streamlit)")
st.write(
    "Demo di chat multi-turno con **streaming** via Azure OpenAI. "
    "Configura i parametri nella sidebar, inserisci un messaggio e invia."
)

# ================================
# Sidebar: configurazione runtime
# ================================

with st.sidebar:
    st.header("Configurazione Azure")
    # Leggiamo le variabili d'ambiente (se non esistono, mostriamo placeholder)
    endpoint = st.text_input(
        "Endpoint",
        value=os.getenv("AZURE_OPENAI_ENDPOINT", "https://<resource>.openai.azure.com/"),
        help="URL del servizio Azure OpenAI (Sezione 'Chiavi ed endpoint').",
    )
    api_version = st.text_input(
        "API Version",
        value=os.getenv("AZURE_OPENAI_API_VERSION", "2024-12-01-preview"),
        help="Versione API supportata dalla tua risorsa.",
    )
    api_key = st.text_input(
        "API Key",
        value=os.getenv("AZURE_OPENAI_KEY", ""),
        type="password",
        help="Chiave di accesso al servizio (non salvarla in chiaro in produzione).",
    )
    deployment = st.text_input(
        "Deployment name (chat)",
        value=os.getenv("AZURE_OPENAI_DEPLOYMENT", "gpt-35-turbo"),
        help="Nome del deployment chat creato nel portale Azure.",
    )

    st.divider()
    st.header("Parametri generazione")
    temperature = st.slider("temperature", 0.0, 2.0, 0.7, 0.1)
    top_p = st.slider("top_p", 0.0, 1.0, 1.0, 0.05)
    max_tokens = st.number_input("max_tokens", min_value=16, max_value=4096, value=512, step=16)

    st.divider()
    st.header("System prompt")
    # Prompt di sistema opzionale per condizionare il comportamento del modello
    default_system = "You are a helpful assistant. Answer clearly and concisely."
    system_prompt = st.text_area("Contenuto system", height=100, value=default_system)

    # Pulsanti di utilità: reset conversazione
    reset = st.button("🔄 Reset conversazione", use_container_width=True)

# ================================
# Inizializzazione stato conversazione
# ================================

# Streamlit riesegue lo script ad ogni interazione: usiamo session_state per preservare lo stato.
if "messages" not in st.session_state or reset:
    # Ogni messaggio è un dict {'role': 'system'|'user'|'assistant', 'content': '<testo>'}
    st.session_state.messages: List[Dict[str, str]] = []
    # Inseriamo il messaggio di sistema (se non vuoto) in testa alla conversazione
    if system_prompt.strip():
        st.session_state.messages.append({"role": "system", "content": system_prompt.strip()})

# ================================
# Helper: istanziare il client AzureOpenAI
# ================================

@st.cache_resource(show_spinner=False)
def get_azure_client(_endpoint: str, _api_key: str, _api_version: str) -> AzureOpenAI:
    """
    Crea e ritorna un client AzureOpenAI.
    - @st.cache_resource: evita di ricreare il client ad ogni rerun (fino a cambio parametri).
    """
    # Validazione minima: endpoint e key devono essere plausibili
    if not _endpoint or not _endpoint.startswith("https://"):
        raise ValueError("Endpoint Azure non valido. Controlla la sidebar.")
    if not _api_key:
        raise ValueError("API Key mancante. Inseriscila nella sidebar.")

    # AzureOpenAI richiede:
    #   - azure_endpoint: URL della risorsa Azure OpenAI
    #   - api_key: chiave
    #   - api_version: versione API supportata dalla risorsa
    client = AzureOpenAI(
        azure_endpoint=_endpoint,
        api_key=_api_key,
        api_version=_api_version,
    )
    return client

# Proviamo a creare il client (se fallisce, mostriamo errore e stop)
try:
    client = get_azure_client(endpoint, api_key, api_version)
except Exception as e:
    st.error(f"Errore inizializzazione client AzureOpenAI: {e}")
    st.stop()

# ================================
# Sezione chat: visualizzazione storico
# ================================

# Mostriamo i messaggi già scambiati (escludiamo il 'system' dalla UI, ma lo manteniamo nel contesto)
for msg in st.session_state.messages:
    if msg["role"] == "system":
        continue  # non visualizziamo il system nella chat
    with st.chat_message(msg["role"]):
        st.markdown(msg["content"])

# ================================
# Input utente (chat)
# ================================

# Componente nativo chat (render moderno): ritorna stringa quando l'utente invia
user_input = st.chat_input("Scrivi un messaggio e premi Invio...")

# Se l'utente invia un messaggio:
if user_input:
    # 1) Appendiamo subito il messaggio dell'utente allo storico
    st.session_state.messages.append({"role": "user", "content": user_input})

    # 2) Mostriamo il messaggio nella UI (subito, senza aspettare la risposta)
    with st.chat_message("user"):
        st.markdown(user_input)

    # 3) Creiamo lo "slot" per la risposta dell'assistente con un placeholder
    with st.chat_message("assistant"):
        # Questo placeholder verrà aggiornato progressivamente durante lo streaming
        stream_area = st.empty()

        # 4) Prepariamo la struttura dei messaggi per la chiamata Azure (includendo il system)
        #    Nota: Azure usa lo schema OpenAI "chat.completions", dove 'messages' è una lista di turni.
        messages_payload = st.session_state.messages

        # 5) Eseguiamo la chiamata in streaming
        try:
            # La chiamata al client AzureOpenAI: chat.completions.create
            # - stream=True attiva l'invio dei chunk progressivi
            # - model=<deployment> è il nome del deployment Azure (non il "nome modello" puro)
            stream = client.chat.completions.create(
                model=deployment,               # nome del deployment Azure (es. "gpt-35-turbo")
                messages=messages_payload,      # contesto completo: system+storico+nuovo turno
                temperature=temperature,
                top_p=top_p,
                max_tokens=max_tokens,
                stream=True,                    # fondamentale per ricevere chunk incrementali
            )

            # 6) Iteriamo i "chunk" dello stream e aggiorniamo la UI in tempo reale
            full_response_text = ""  # accumulatore testo generato
            for update in stream:
                # La struttura è in stile OpenAI: choices[0].delta.content contiene il delta testuale
                if update.choices:
                    delta = update.choices[0].delta
                    # Il primo chunk spesso contiene solo "role", NON un contenuto
                    piece = getattr(delta, "content", None)
                    if piece:
                        full_response_text += piece
                        # Aggiorniamo il box con il testo accumulato (effetto "digitazione")
                        stream_area.markdown(full_response_text)

            # 7) Terminato lo stream, salviamo la risposta completa nello storico
            st.session_state.messages.append({"role": "assistant", "content": full_response_text})

        except Exception as e:
            # Qualsiasi errore di rete/permessi/limiti viene mostrato qui
            stream_area.error(f"Errore durante lo streaming: {e}")
```

---

### Come usare

1. Imposta le variabili d’ambiente (opzionale, consigliato in `.env`):

   ```env
   AZURE_OPENAI_ENDPOINT=https://<resource>.openai.azure.com/
   AZURE_OPENAI_API_VERSION=2024-12-01-preview
   AZURE_OPENAI_KEY=<your-api-key>
   AZURE_OPENAI_DEPLOYMENT=gpt-35-turbo
   ```
2. Installa i pacchetti:

   ```bash
   pip install -r requirements.txt
   ```
3. Avvia l’app:

   ```bash
   streamlit run app.py
   ```
4. Inserisci eventuali parametri mancanti nella **sidebar**, poi scrivi un messaggio nella **chat**.
5. Guarda la risposta arrivare **token per token** e continua il dialogo: la cronologia è mantenuta in `st.session_state.messages`.

---

### Note tecniche importanti

* **model=deployment**: su Azure devi passare il **nome del deployment** (es. `gpt-35-turbo-2`), non il puro nome del modello.
* **Streaming**: l’iterazione `for update in stream:` restituisce frammenti dove il testo nuovo è in `update.choices[0].delta.content`.
* **System prompt**: è aggiunto come primo messaggio in `session_state.messages` e non viene mostrato nella UI.
* **Cache del client**: `@st.cache_resource` evita di ricreare il client a ogni rerun; si invalida quando cambiano i parametri.
* **Sicurezza**: non committare chiavi o `.env`; in produzione usa Key Vault/Secrets Manager.



---

## 🤗 **PARTE 6 – Hugging Face Inference Endpoints**

### 6.1 Inference API vs Endpoint Dedicato

---

###  **Cos’è l’Inference API pubblica?**

L’Inference API di Hugging Face è un servizio **chiavi in mano** che ti permette di usare un modello pre-addestrato **senza doverlo ospitare** o gestire.
È pensata per:

* test veloci
* prototipazione
* accesso gratuito o limitato per sviluppatori

####  Vantaggi:

* Nessuna configurazione necessaria
* Migliaia di modelli disponibili
* Gratuita con limiti o piani a consumo

####  Svantaggi:

* **Rate limit** basso e shared server
* **Latenza alta** per modelli grandi
* Nessun controllo su scalabilità o versione
* **Non adatta a produzione**

 **Esempio di utilizzo:**

```bash
curl https://api-inference.huggingface.co/models/gpt2 \
  -H "Authorization: Bearer YOUR_HF_TOKEN" \
  -d '{"inputs": "Ciao, come stai?"}'
```

---

###  **Cos’è un Endpoint Dedicato?**

Gli **Inference Endpoints** dedicati (Managed Inference Endpoints) sono modelli **deployati e serviti in modo dedicato**, su una **VM esclusiva**, configurata da Hugging Face.
Puoi scegliere:

* modello
* framework (Transformers, TGI, TGI + PEFT, ONNX, etc.)
* dimensione dell’istanza
* auto-scaling, autosuspend, versione del modello

####  Vantaggi:

* Performance stabili e rapide
* Nessun limite di chiamata (solo limiti di throughput)
* Sicurezza maggiore (es. IP whitelisting)
* Ottimo per **produzione** e **API commerciali**

####  Svantaggi:

* **Costo mensile fisso** (es. da \~0.06\$/h a >1\$/h)
* Richiede setup iniziale via UI o API
* Tempi di warm-up se in autosuspend

 **Esempio di endpoint**:

```
POST https://<org>.hf.space/inference/<deployment>
Authorization: Bearer <token>
```

---

###  Tabella Riepilogativa

| Feature                 | Inference API Pubblica | Endpoint Dedicato               |
| ----------------------- | ---------------------- | ------------------------------- |
| **Accesso**             | Gratuito o token HF    | Privato, a pagamento            |
| **Performance**         | Variabile              | Costante                        |
| **Scalabilità**         | Nessuna                | Auto-scaling disponibile        |
| **Sicurezza**           | Nessuna                | IP allowlist, token, rate limit |
| **Adatto a produzione** | No                      | Si                               |
| **Configurazione**      | Zero-config            | Manuale o via API               |

---

###  Quando scegliere cosa?

| Scenario                         | Soluzione consigliata                                              |
| -------------------------------- | ------------------------------------------------------------------ |
| Vuoi testare un modello        | Inference API pubblica                                             |
| Hai un MVP/POC leggero         | Inference API o Endpoint su istanza piccola                        |
| Hai un prodotto in produzione  | Endpoint dedicato con auto-scaling                                 |
| Vuoi ospitare in locale       | Self-deployment con `transformers`, TGI, o `text-generation-webui` |

---




---

## 6.2 Autoscaling – Hugging Face Inference Endpoints

### Cos’è l’autoscaling

L’autoscaling nei **Hugging Face Inference Endpoints** è una funzionalità che permette all’infrastruttura di adattarsi automaticamente al carico delle richieste.
In base al traffico in ingresso, Hugging Face può:

* avviare istanze aggiuntive quando ci sono molte richieste (scaling out)
* sospendere o ridurre le istanze quando non ci sono richieste (scaling in)

Questa strategia è utile per **ottimizzare i costi**, evitando di mantenere attive risorse inutilizzate, e allo stesso tempo **garantire la disponibilità** quando il traffico aumenta.

---

### Cold start e warm instances

#### Warm instance

Una **warm instance** è un’istanza già attiva e pronta a rispondere.
La latenza della prima risposta è bassa, in quanto il modello è già caricato in memoria.

#### Cold start

Quando un endpoint non riceve richieste per un certo periodo (tipicamente 5-10 minuti), Hugging Face può metterlo in **autosuspend**.
Alla successiva richiesta, viene effettuato un **cold start**, ovvero:

* l’istanza viene avviata
* il modello viene ricaricato in memoria
* la prima risposta può richiedere **decine di secondi**

Questo comportamento è simile a quanto avviene nei serverless functions.

#### Come evitarlo

Per mantenere le istanze sempre attive:

* è possibile **disattivare l’autosuspend** (aumentando i costi)
* oppure inviare periodicamente una chiamata di **keep-alive**

---

### Come dimensionare correttamente per il proprio carico

Per dimensionare correttamente un endpoint con autoscaling, bisogna considerare:

1. **Tempo medio di inferenza**

   * Modelli piccoli (es. distilBERT) possono rispondere in <1s
   * Modelli grandi (es. LLaMA 2 13B) possono impiegare diversi secondi o minuti per risposte lunghe

2. **Concorrenza**

   * Quanti utenti chiamano l’API in parallelo
   * Hugging Face supporta la definizione di un **batch size** o **max concurrency**

3. **Ritmo di richieste**

   * Se le richieste arrivano in burst (es. campagne), servono più istanze
   * Se le richieste sono regolari, si può usare una singola istanza con autoscaling minimo a 1

4. **Budget**

   * Ogni istanza ha un costo orario
   * Puoi impostare **limiti massimi di istanze** per non superare un certo budget

5. **Strategia consigliata**

| Fase            | Configurazione consigliata                                                |
| --------------- | ------------------------------------------------------------------------- |
| Sviluppo o test | 1 istanza, autosuspend attivo                                             |
| MVP / beta      | 1-2 istanze, autoscaling attivo, warmup periodico                         |
| Produzione      | Min 1 istanza warm, autoscaling 1–5, autosuspend disattivato o keep-alive |

---

### Conclusione

L’autoscaling di Hugging Face consente una gestione flessibile delle risorse in base al traffico. Tuttavia, è importante conoscere il comportamento del cold start per evitare penalizzazioni di latenza in ambienti critici.
Un’analisi accurata del carico atteso e una buona configurazione dell’endpoint permettono di bilanciare efficacemente performance e costi.





---

## 6.3 Esempio con Hugging Face

### Installazione librerie necessarie

Per usare Hugging Face sia in locale che via API:

```bash
pip install requests transformers
```

---

## Parte 1 – Chiamata REST a un modello Hugging Face Inference Endpoint

> Questa modalità richiede un **token di accesso personale** da Hugging Face e funziona **senza scaricare i modelli localmente**.

### 1.1 Ottenere il token

* Vai su [https://huggingface.co/settings/tokens](https://huggingface.co/settings/tokens)
* Crea un nuovo token con scope `read`
* Salvalo come variabile d’ambiente o usalo direttamente nel codice

### 1.2 Esempio chiamata API REST

```python
import requests

API_URL = "https://api-inference.huggingface.co/models/gpt2"  # puoi cambiare modello
HF_TOKEN = "Bearer hf_..."  # il tuo token personale

headers = {
    "Authorization": HF_TOKEN
}

data = {
    "inputs": "The future of AI is",
    "parameters": {"max_new_tokens": 50, "temperature": 0.7},
}

response = requests.post(API_URL, headers=headers, json=data)

print(response.json())
```

#### Output atteso

L’output sarà un JSON con i completamenti generati.
Per esempio:

```json
[
  {
    "generated_text": "The future of AI is exciting and full of possibilities..."
  }
]
```

Puoi usare qualsiasi modello pubblico o privato di Hugging Face, basta sostituire `gpt2` nell’URL con il nome del modello (es. `"HuggingFaceH4/zephyr-7b-beta"`).

---

## Parte 2 – Uso locale con `pipeline()` di `transformers`

> Questa modalità scarica il modello **in locale** (richiede RAM e spazio disco), utile per ambienti offline o se non vuoi usare le API.

### 2.1 Esempio locale con `pipeline()`

```python
from transformers import pipeline

# Scarica e carica GPT-2 in locale
generator = pipeline("text-generation", model="gpt2")

# Prompt da completare
prompt = "The future of AI is"

# Generazione
output = generator(prompt, max_new_tokens=50, temperature=0.7)

print(output[0]["generated_text"])
```

Questo esempio:

* Usa la pipeline di **text-generation**
* Scarica il modello se non già presente
* Esegue tutto **senza connessione Internet** dopo il primo download

---

## Confronto tra API e pipeline locale

| Aspetto      | Inference API Hugging Face         | `pipeline()` locale                    |
| ------------ | ---------------------------------- | -------------------------------------- |
| Setup        | Solo token e internet              | Richiede download del modello          |
| Latenza      | Più alta (cloud)                   | Più bassa (se hardware adeguato)       |
| Costo        | Basato su token/uso                | Gratuito dopo download                 |
| Flessibilità | Limitata (solo modelli pubblicati) | Totale (puoi modificare e ottimizzare) |
| Scalabilità  | Molto alta (gestita da HF)         | Limitata all’hardware locale           |

---

