# Reto 03-C-Embeddings 

## 1. Descripción General 

En el último desafío (`03-B-Chunking`), trabajamos para entender los límites de tokens con LLM y utilizar la segmentación. Ahora, si hay gigabytes de datos, también tendremos muchos fragmentos por crear. ¿Hay alguna manera de seleccionar los fragmentos de texto más relevantes? La respuesta es sí. Para resolver este problema, podemos observar un proceso llamado Embeddings. Embeddings nos ayuda a crear representaciones numéricas para todos los fragmentos. Luego, podemos encontrar los fragmentos más similares en la lista de embeddings. Una forma popular de encontrar los fragmentos similares es mediante la similitud del coseno.

### **Descripción general de Embeddings**

Un embedding es un formato especial de representación de datos que puede ser fácilmente utilizado por modelos y algoritmos de machine learning. El embedding es una representación densa en información del significado semántico de un fragmento de texto. Cada embedding es un vector de números de punto flotante, de modo que la distancia entre dos embeddings en el espacio vectorial está correlacionada con la similitud semántica entre dos entradas en el formato original. Por ejemplo, si dos textos son similares, entonces sus representaciones vectoriales también deberían ser similares.

Diferentes modelos de embedding de Azure OpenAI están específicamente creados para ser buenos en tareas particulares:
- Los embeddings de similitud son buenos para capturar la similitud semántica entre dos o más fragmentos de texto.
- Los embeddings de búsqueda de texto ayudan a encontrar qué documento largo es relevante para una consulta corta.
- Los embeddings de búsqueda de código son útiles para incrustar fragmentos de código y consultas de búsqueda en lenguaje natural.

Los embeddings facilitan hacer machine learning en grandes entradas que representan palabras al capturar las similitudes semánticas en un espacio vectorial. Por lo tanto, podemos usar embeddings para determinar si dos fragmentos de texto están semánticamente relacionados o son similares, y de manera inherente proporcionar una puntuación para evaluar la similitud.

### **Similitud del Coseno**
Un enfoque utilizado anteriormente para emparejar documentos similares se basaba en contar el número máximo de palabras comunes entre documentos. Esto es defectuoso ya que, a medida que aumenta el tamaño del documento, aumenta la superposición de palabras comunes incluso si los temas difieren. Por lo tanto, la similitud del coseno es un mejor enfoque.

Matemáticamente, la similitud del coseno mide el coseno del ángulo entre dos vectores proyectados en un espacio multidimensional. Esto es beneficioso porque si dos documentos están muy separados por la distancia euclidiana debido al tamaño, aún podrían tener un ángulo más pequeño entre ellos y, por lo tanto, una mayor similitud del coseno.

Los embeddings de Azure OpenAI se basan en la similitud del coseno para calcular la similitud entre documentos y una consulta.

### **Aplicaciones**

Se pueden crear embeddings para todos los diferentes tipos de datos, incluyendo imágenes, audio, video y texto. En este notebook, veremos la generación de embeddings para archivos de texto y CSV.

Hay muchas aplicaciones en las que los embeddings pueden ser útiles. Por ejemplo, digamos que quieres clasificar un fragmento de texto. Una vez que se generan los embeddings, se pueden insertar en un modelo de aprendizaje automático para predecir la etiqueta correcta. Además, puedes utilizar embeddings para la similitud en datos de series temporales, datos de gráficos o para perfiles de usuarios o productos. Un caso de uso muy popular es el que implica la búsqueda semántica. Si deseas recuperar documentos que sean muy relevantes para tu consulta, se pueden generar embeddings tanto para la consulta como para los documentos con el fin de obtener una respuesta precisa. Veremos un ejemplo de esto en el Desafío 4.

## 2. Comencemos con la Implementación

Necesitarás importar los módulos necesarios. Las siguientes celdas son pasos de configuración de claves que ya completaste en los desafíos anteriores.

In [1]:
! pip install num2words
! pip install plotly
! pip install "openai==0.28.1" 


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m24.3.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3 -m pip install --upgrade pip[0m
Collecting openai==0.28.1
  Downloading openai-0.28.1-py3-none-any.whl.metadata (11 kB)
Downloading openai-0.28.1-py3-none-any.whl (76 kB)
Installing collected packages: openai
  Attempting uninstall: openai
    Found existing installation: openai 0.27.2
    Uninstalling openai-0.27.2:
      Successfully uninstalled openai-0.27.2
Successfully installed openai-0.28.1

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m

In [2]:
import openai
import os
import re 
import requests
import sys
from num2words import num2words 
import pandas as pd 
import numpy as np
from openai.embeddings_utils import get_embedding, cosine_similarity 
import tiktoken
from dotenv import load_dotenv
from tenacity import retry, wait_random_exponential, stop_after_attempt
load_dotenv() 

True

Configura tu entorno para acceder a tus claves de Azure OpenAI. Consulta tu recurso de Azure OpenAI en el Portal de Azure para obtener información sobre tu punto de conexión y claves de Azure OpenAI.

Por razones de seguridad, almacena tu información sensible en un archivo .env.

In [6]:
openai.api_type = os.getenv("OPENAI_API_TYPE")
openai.api_key = os.environ.get("OPENAI_API_KEY")
openai.api_base = os.environ.get("OPENAI_API_BASE")
openai.api_version = os.getenv("OPENAI_API_VERSION")
embedding_model=os.getenv("EMBEDDING_MODEL_NAME")

## 3. Generar Embeddings en texto

#### Tarea #1 del Estudiante:
Utiliza la clase Azure OpenAI Embeddings para crear un embedding para el texto de entrada mostrado a continuación.

In [24]:
print(embedding_model)

input="I would like to order a pizza"
response = openai.Embedding.create(
    model=embedding_model,  # Especificar el modelo de embeddings de Azure OpenAI
    input=input
)
embedding = response['data'][0]['embedding']
print(embedding)

text-embedding-ada-002


InvalidRequestError: Must provide an 'engine' or 'deployment_id' parameter to create a <class 'openai.api_resources.embedding.Embedding'>

El método `openai.Embedding.create()` tomará una lista de texto - aquí tenemos una sola oración - y luego devolverá una lista que contiene un solo embedding. Puedes utilizar estos embeddings al buscar, proporcionar recomendaciones, clasificación y más.

### 3.1 Generar Embeddings para un archivo CSV

#### Tarea #2 del Estudiante:
Ingresa la ruta del archivo `Automobile.csv` que puedes encontrar en la carpeta `/data`. Ejecuta las celdas a continuación.

In [16]:
df=pd.read_csv(os.path.join(os.getcwd(),r'../data/Automobile.csv'))
df

Unnamed: 0,name,mpg,cylinders,displacement,horsepower,weight,acceleration,model_year,origin
0,chevrolet chevelle malibu,18.0,8,307.0,130.0,3504,12.0,70,usa
1,buick skylark 320,15.0,8,350.0,165.0,3693,11.5,70,usa
2,plymouth satellite,18.0,8,318.0,150.0,3436,11.0,70,usa
3,amc rebel sst,16.0,8,304.0,150.0,3433,12.0,70,usa
4,ford torino,17.0,8,302.0,140.0,3449,10.5,70,usa
...,...,...,...,...,...,...,...,...,...
393,ford mustang gl,27.0,4,140.0,86.0,2790,15.6,82,usa
394,vw pickup,44.0,4,97.0,52.0,2130,24.6,82,europe
395,dodge rampage,32.0,4,135.0,84.0,2295,11.6,82,usa
396,ford ranger,28.0,4,120.0,79.0,2625,18.6,82,usa


In [17]:
shortened_df = df[['name', 'mpg', 'origin']]
shortened_df

Unnamed: 0,name,mpg,origin
0,chevrolet chevelle malibu,18.0,usa
1,buick skylark 320,15.0,usa
2,plymouth satellite,18.0,usa
3,amc rebel sst,16.0,usa
4,ford torino,17.0,usa
...,...,...,...
393,ford mustang gl,27.0,usa
394,vw pickup,44.0,europe
395,dodge rampage,32.0,usa
396,ford ranger,28.0,usa


In [18]:
tokenizer = tiktoken.get_encoding("cl100k_base")
shortened_df['n_tokens'] = shortened_df["name"].apply(lambda x: len(tokenizer.encode(x)))
shortened_df = shortened_df[shortened_df.n_tokens<8192]
len(shortened_df)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  shortened_df['n_tokens'] = shortened_df["name"].apply(lambda x: len(tokenizer.encode(x)))


398

In [19]:
shortened_df

Unnamed: 0,name,mpg,origin,n_tokens
0,chevrolet chevelle malibu,18.0,usa,6
1,buick skylark 320,15.0,usa,7
2,plymouth satellite,18.0,usa,3
3,amc rebel sst,16.0,usa,5
4,ford torino,17.0,usa,2
...,...,...,...,...
393,ford mustang gl,27.0,usa,4
394,vw pickup,44.0,europe,2
395,dodge rampage,32.0,usa,3
396,ford ranger,28.0,usa,2


In [20]:
sample_encode = tokenizer.encode(shortened_df.name[0]) 
decode = tokenizer.decode_tokens_bytes(sample_encode)
decode

[b'che', b'vrolet', b' che', b'velle', b' mal', b'ibu']

In [23]:
len(decode)
shortened_df['ada-v2'] = shortened_df['name'].apply(lambda x : get_embedding(x, engine = embedding_model)) 

In [22]:
shortened_df

Unnamed: 0,name,mpg,origin,n_tokens
0,chevrolet chevelle malibu,18.0,usa,6
1,buick skylark 320,15.0,usa,7
2,plymouth satellite,18.0,usa,3
3,amc rebel sst,16.0,usa,5
4,ford torino,17.0,usa,2
...,...,...,...,...
393,ford mustang gl,27.0,usa,4
394,vw pickup,44.0,europe,2
395,dodge rampage,32.0,usa,3
396,ford ranger,28.0,usa,2


Los embeddings generados a partir del archivo CSV pueden usarse para realizar búsquedas. Puedes calcular la similitud del coseno entre un embedding de consulta y los embeddings del archivo CSV. Luego, puedes clasificar los resultados de la búsqueda según lo más relevante para la consulta. Veremos una aplicación de embeddings en el Desafío 4.

## Criterios de Éxito

Para completar este desafío con éxito:

* Demuestra comprensión de embeddings trabajando con diferentes entradas.