# Recuperación y generación

- Implementación de una recuperación que dado un embedding de consulta, devuelva
los k chunks más similares, por similitud de coseno.
- Implementa una función para llamar a un LLM

**Importe de Librerias**

In [0]:
import requests
import json
import numpy as np
from numpy.linalg import norm
import pandas as pd
from pyspark.sql.functions import udf, col, lit
from pyspark.sql.types import FloatType, ArrayType, StringType



## Carga de embeddings

Estos se encuentran almacenados en la capa silver 

In [0]:
df_embeddings = spark.read.parquet("dbfs:/Volumes/corona/silver/chunk_persistidos")
df_embeddings.show(1)

+--------+--------------------+--------------------+
|chunk_id|          chunk_text|           embedding|
+--------+--------------------+--------------------+
|      26|endaciones propor...|[-0.09033203, -0....|
+--------+--------------------+--------------------+
only showing top 1 row


## Endpoints

**Nota:** Aclaro nuevamente que esta no es una buena practica dejar un token "quemado" y desprotegido en una celda, es debido a que esta generando problema para la configuración de secrets en la versión Free

In [0]:
token = "dapie00a01c63d981b486a2387c2a92580d7"

embed_endpoint = "https://dbc-cdc037aa-2720.cloud.databricks.com/serving-endpoints/databricks-gte-large-en/invocations"
llm_endpoint = "https://dbc-cdc037aa-2720.cloud.databricks.com/serving-endpoints/databricks-meta-llama-3-3-70b-instruct/invocations"

## Similitud de coseno

In [0]:
#convierte dos listas a numpy arrays luego calcula el coseno entre ambos vectores y devuelve un numero entre −1 y 1
#Nota: mientras mas cercano a 1 es mas parecidos son
def cosine_similarity(vec1, vec2):
    if vec1 is None or vec2 is None:
        return -1.0
    
    v1 = np.array(vec1, dtype=float)
    v2 = np.array(vec2, dtype=float)

    denom = norm(v1) * norm(v2)
    if denom == 0:
        return -1.0
    
    return float(np.dot(v1, v2) / denom)


#tratamiento de los embeddings
@udf(FloatType())
def cos_sim_udf(chunk_emb, query_emb):
    return cosine_similarity(chunk_emb, query_emb)



## Recuperación

In [0]:
#Recuperación de los chunks mas similares a partir de un embedding
def retrieve_chunks(query_embedding, df_embeddings, k=3):
    df_scored = df_embeddings.withColumn(
        "similarity",
        cos_sim_udf(col("embedding"), lit(query_embedding))
    )

    return df_scored.orderBy(col("similarity").desc()).limit(k)

## Embedding

In [0]:
def get_embedding(text):
    headers = {
        "Content-Type": "application/json",
        "Authorization": f"Bearer {token}"
    }

    #formato
    payload = { 
        "input": [text]     
    }

    response = requests.post(embed_endpoint, headers=headers, json=payload)

    print("RAW JSON RESPONSE:")
    print(response.text)

    output = response.json()

    return output["data"][0]["embedding"]

## Respuesta Embeddings y Llm

In [0]:
def generate_answer(question, context):
    prompt = f"""
Utiliza el siguiente contexto para responder de manera clara y precisa.

Contexto:
{context}

Pregunta:
{question}

Respuesta:
"""

    response = requests.post(
        llm_endpoint,
        headers={
            "Authorization": f"Bearer {token}",
            "Content-Type": "application/json"
        },
        json={
            "messages": [
                {"role": "user", "content": prompt}
            ],
            "temperature": 0.1  #defino 0.1 ya que quiero que no sea tan "creativo"
        }
    )

    result = response.json()
    print("RAW LLM RESPONSE:", result)

    try:
        return result["choices"][0]["message"]["content"]
    except Exception as e:
        return f"Error leyendo respuesta del modelo: {e}"

## Flujo Completo de Uso

In [0]:
question = "¿Qué es SQL?"
print("\nPREGUNTA:", question)

#embedding de la pregunta
query_embedding = get_embedding(question)

#Recuperación de los chunks similares
retrieved_df = retrieve_chunks(query_embedding, df_embeddings, k=3)
print("\nChunks recuperados:")
retrieved_df.show(truncate=120)

#Contexto
context = "\n".join([row["chunk_text"] for row in retrieved_df.collect()])

#Respuesta del LLM de databrcks
answer = generate_answer(question, context)

print("\n---------------------------------")
print("RESPUESTA GENERADA:")
print("--------------------------------------------------\n")
print(answer)


PREGUNTA: ¿Qué es SQL?
RAW JSON RESPONSE:
{"id":"0ce1d20d-21bd-4b1e-8331-4c0ae48b5a25","object":"list","model":"gte-large-en-v1.5","data":[{"index":0,"object":"embedding","embedding":[-0.6708984375,-0.69091796875,-0.99169921875,1.1533203125,-0.796875,0.345703125,0.5712890625,0.086181640625,-0.373291015625,-0.7119140625,-0.266845703125,-0.2332763671875,0.127685546875,0.57080078125,-0.5830078125,-0.373779296875,0.5283203125,0.03717041015625,0.222412109375,-0.3193359375,1.390625,-0.172119140625,-0.033935546875,-2.80078125,-0.6416015625,0.0185394287109375,0.3740234375,-0.1185302734375,-0.48974609375,-0.1575927734375,0.9609375,0.68359375,-0.1563720703125,0.6806640625,1.07421875,0.65185546875,0.336181640625,-0.2939453125,-0.27880859375,-0.09130859375,-0.52392578125,-0.2308349609375,-1.146484375,-0.391357421875,1.005859375,-0.171875,0.1734619140625,0.7841796875,0.60400390625,0.01415252685546875,-0.525390625,-0.830078125,-1.8232421875,-1.1376953125,-0.701171875,0.07574462890625,0.71435546875,

## Conclución:

Se logra el objetivo propuesto inicialmente de construir un sistema sencillo de preguntas y respuestas sobre documentación técnica de
Azure a traves de la construcción de todo el flujo (basico) de RAG. Dentro de los puntos que mas dificultad me genero fue con el tema de recursos para la creación de secrets, como para el consumo como tal de modelo por temas de respuesta del mismo. En general, retadora y chevere la prueba. Muchas gracias