# Compare OpenAI vs Gemini Embeddings  

This script loads embedding vectors generated by **OpenAI** and **Gemini**, checks their dimensions,  
and calculates the **cosine similarity** between corresponding vectors.  

The goal is to evaluate how similar the two models’ embeddings are when applied to the same dataset.  


### 1. Import libraries and define folders  
We import the required libraries and set the folders where the embedding files are stored.
### 2. Load embeddings from JSON files  
We open the selected JSON files and load the embedding vectors into memory.  

In [12]:
import json
import os

# Nombres de archivos
folder_openai = "./embeddingopenAIFiles"
folder_gemini = "./embeddingGeminiFiles"

archivos_openai = [f for f in os.listdir(folder_openai) if f.endswith(".json")]
archivos_gemini = [f for f in os.listdir(folder_gemini) if f.endswith(".json")]

archivo_openai = os.path.join(folder_openai, archivos_openai[0])
archivo_gemini = os.path.join(folder_gemini, archivos_gemini[0])

print("📂 Archivo OpenAI:", archivo_openai)
print("📂 Archivo Gemini:", archivo_gemini)

# Cargar los embeddings
with open(archivo_openai, "r") as f:
    embeddings_openai = json.load(f)

with open(archivo_gemini, "r") as f:
    embeddings_gemini = json.load(f)

# Verificación
print("✔️ Vectores en OpenAI:", len(embeddings_openai))
print("✔️ Vectores en Gemini:", len(embeddings_gemini))

if len(embeddings_openai) != len(embeddings_gemini):
    raise ValueError("⚠️ Los archivos tienen diferente número de vectores.")

print("📏 Dimensión del vector OpenAI:", len(embeddings_openai[0]))
print("📏 Dimensión del vector Gemini:", len(embeddings_gemini[0]))


📂 Archivo OpenAI: ./embeddingopenAIFiles/10ER3iMDW5w4lIlSnHBrIq-in_embeddings.json
📂 Archivo Gemini: ./embeddingGeminiFiles/10ER3iMDW5w4lIlSnHBrIq-in_embeddings.json
✔️ Vectores en OpenAI: 41
✔️ Vectores en Gemini: 41
📏 Dimensión del vector OpenAI: 768
📏 Dimensión del vector Gemini: 768


### 3. Convert embeddings to NumPy arrays  
We convert the lists of embeddings into **NumPy arrays** for efficient numerical computation.  

### 4. Function: Cosine similarity  
We define a function to compute the **cosine similarity** between two vectors.  
This measures how close the direction of the vectors is (1 = identical, 0 = orthogonal).  
We compare embeddings pair by pair (OpenAI vs Gemini).  

In [14]:
import numpy as np
from numpy.linalg import norm

# Convertir listas de listas a arrays de NumPy para eficiencia
openai_array = np.array(embeddings_openai)
gemini_array = np.array(embeddings_gemini)

# Verificar dimensiones
assert openai_array.shape == gemini_array.shape

# Calcular similitud coseno entre cada par de vectores
def cosine_similarity(a, b):
    return np.dot(a, b) / (norm(a) * norm(b))

# Lista para guardar los resultados
similaridades = []

for i in range(len(openai_array)):
    sim = cosine_similarity(openai_array[i], gemini_array[i])
    similaridades.append(sim)

# Mostrar algunas similitudes
for i, sim in enumerate(similaridades):
    print(f"Frase {i+1}: similitud = {sim:.4f}")

# Mostrar promedio general
media = np.mean(similaridades)
print(f"\n🔍 Similitud media entre embeddings: {media:.4f}")


Frase 1: similitud = -0.0258
Frase 2: similitud = -0.0111
Frase 3: similitud = -0.0365
Frase 4: similitud = 0.0000
Frase 5: similitud = -0.0253
Frase 6: similitud = 0.0079
Frase 7: similitud = -0.0052
Frase 8: similitud = -0.0764
Frase 9: similitud = -0.0462
Frase 10: similitud = -0.0766
Frase 11: similitud = -0.0458
Frase 12: similitud = 0.0499
Frase 13: similitud = -0.0234
Frase 14: similitud = -0.0340
Frase 15: similitud = 0.0223
Frase 16: similitud = -0.0151
Frase 17: similitud = 0.0176
Frase 18: similitud = 0.0432
Frase 19: similitud = -0.0411
Frase 20: similitud = -0.0427
Frase 21: similitud = -0.0799
Frase 22: similitud = 0.0057
Frase 23: similitud = -0.0245
Frase 24: similitud = 0.0430
Frase 25: similitud = 0.0101
Frase 26: similitud = -0.0333
Frase 27: similitud = -0.0705
Frase 28: similitud = -0.0234
Frase 29: similitud = -0.0286
Frase 30: similitud = -0.0178
Frase 31: similitud = -0.0356
Frase 32: similitud = -0.0330
Frase 33: similitud = -0.0791
Frase 34: similitud = 0.0141

### 5. Optimized vectorized computation  
We can also calculate all cosine similarities at once using matrix operations for efficiency.  

In [16]:
import numpy as np

# Convertir a matrices numpy
A = np.array(embeddings_openai)  # shape (N, d)
B = np.array(embeddings_gemini)  # shape (N, d)

# Calcular normas fila a fila
norms_A = np.linalg.norm(A, axis=1)
norms_B = np.linalg.norm(B, axis=1)

# Producto punto fila a fila (producto escalar de cada par de vectores)
dot_products = np.sum(A * B, axis=1)

# Similitud coseno para cada fila
similaridades = dot_products / (norms_A * norms_B)

# Mostrar primeros resultados
for i, sim in enumerate(similaridades[:10]):
    print(f"Frase {i+1}: similitud = {sim:.4f}")

# Media general
media = np.mean(similaridades)
print(f"\n🔍 Similitud media entre embeddings: {media:.4f}")


Frase 1: similitud = -0.0258
Frase 2: similitud = -0.0111
Frase 3: similitud = -0.0365
Frase 4: similitud = 0.0000
Frase 5: similitud = -0.0253
Frase 6: similitud = 0.0079
Frase 7: similitud = -0.0052
Frase 8: similitud = -0.0764
Frase 9: similitud = -0.0462
Frase 10: similitud = -0.0766

🔍 Similitud media entre embeddings: -0.0188
