# Nuovi modelli di embedding
I nostri nuovi e più performanti modelli di embedding, *text-embedding-3-small* e *text-embedding-3-large*, sono ora disponibili. Offrono costi più bassi, migliori prestazioni multilingue e nuovi parametri per controllare la dimensione complessiva.

## Cosa sono gli embedding?  
Gli embedding di testo di OpenAI misurano la correlazione tra stringhe di testo. Sono comunemente utilizzati per:

- **Ricerca** (ordinando i risultati in base alla rilevanza rispetto a una query)  
- **Clustering** (raggruppando stringhe di testo simili)  
- **Raccomandazioni** (suggerendo elementi con testi correlati)  
- **Rilevamento di anomalie** (identificando elementi non correlati)  
- **Misurazione della diversità** (analizzando distribuzioni di similarità)  
- **Classificazione** (assegnando etichette in base alla somiglianza del testo)  

Un embedding è un vettore (lista) di numeri in virgola mobile. La distanza tra due vettori misura la loro correlazione: distanze ridotte indicano un’alta correlazione, mentre distanze elevate indicano una bassa correlazione.

Gli **embedding vettoriali** trasformano il testo in numeri, permettendo applicazioni come ricerca, clustering e raccomandazioni. OpenAI ha rilasciato due nuovi modelli (*text-embedding-3-small* e *text-embedding-3-large*), più efficienti e multilingue. Un embedding è un vettore numerico: la distanza tra due vettori indica quanto i testi sono correlati, con piccole distanze che segnalano alta somiglianza.

In [1]:
import os
from openai import OpenAI
from dotenv import load_dotenv

load_dotenv()

client = OpenAI(api_key=os.getenv('OPENAI_API_KEY')) # Imposta la chiave come variabile d'ambiente per sicurezza
OPENAI_MODEL = "text-embedding-3-small"

In [2]:
from openai import OpenAI
client = OpenAI()

response = client.embeddings.create(
    input="Proviamo a creare un embedding di questo testo",
    model=OPENAI_MODEL
)

print(response.data[0].embedding)

[0.01857130602002144, 0.006740863900631666, 0.024701420217752457, -0.028162334114313126, -0.015019911341369152, -0.04155357927083969, -0.014522263780236244, 0.014126407913863659, -0.002703131642192602, -0.03101249784231186, 0.023434679955244064, 0.017609940841794014, -0.023140616714954376, -0.0035231192596256733, 0.012463811784982681, 0.01742897741496563, 0.022394144907593727, -0.0032969156745821238, 0.04159881919622421, 0.034315068274736404, 0.02406805008649826, -0.018028417602181435, -0.027393242344260216, 0.03343287482857704, 0.03137442469596863, -0.06252264231443405, -0.011649479158222675, 0.02130836807191372, 0.04732176661491394, -0.004145178943872452, -0.01204533502459526, -0.041734542697668076, 0.034699615091085434, -0.03331977128982544, -0.009279998019337654, 0.03406624495983124, 0.0015622178325429559, 0.03363645821809769, -0.059627238661050797, 0.0032403648365288973, 0.026692010462284088, 0.024158531799912453, 0.03363645821809769, 0.012429880909621716, 0.030107682570815086, 0.

In [4]:
def get_embedding(text, model="text-embedding-3-small"):
    text = text.replace("\n", " ")
    return client.embeddings.create(input = [text], model=model).data[0].embedding

df['ada_embedding'] = df.combined.apply(lambda x: get_embedding(x, model='text-embedding-3-small'))
df.to_csv('output/embedded_1k_reviews.csv', index=False)

NameError: name 'df' is not defined

In [3]:
import pandas as pd
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import matplotlib

df = pd.read_csv('output/embedded_1k_reviews.csv')
matrix = df.ada_embedding.apply(eval).to_list()

# Create a t-SNE model and transform the data
tsne = TSNE(n_components=2, perplexity=15, random_state=42, init='random', learning_rate=200)
vis_dims = tsne.fit_transform(matrix)

colors = ["red", "darkorange", "gold", "turquiose", "darkgreen"]
x = [x for x,y in vis_dims]
y = [y for x,y in vis_dims]
color_indices = df.Score.values - 1

colormap = matplotlib.colors.ListedColormap(colors)
plt.scatter(x, y, c=color_indices, cmap=colormap, alpha=0.3)
plt.title("Amazon ratings visualized in language using t-SNE")

FileNotFoundError: [Errno 2] No such file or directory: 'output/embedded_1k_reviews.csv'