ENCODER

In [37]:
!pip install -q langchain-text-splitters
from datasets import load_dataset
from langchain_text_splitters import RecursiveCharacterTextSplitter
import re

# --- 1. CARGA Y REDUCCI√ìN DEL DATASET ---
# Cargamos el dataset completo
ds_full = load_dataset("corbt/all-recipes", split="train")

# **Paso de Reducci√≥n:** Tomamos solo las primeras 2000 filas para acelerar el proceso.
# Esto reduce dr√°sticamente el n√∫mero de chunks y el tiempo de vectorizaci√≥n.
ds = ds_full.select(range(2000))

print(f"Dataset reducido a: {len(ds)} documentos.")

def clean_text(s: str) -> str:
    if s is None:
        return ""
    s = str(s)
    s = s.replace("\n", " ")
    s = re.sub(r"\s+", " ", s).strip()
    return s

# Aplicamos limpieza y renombramos la columna
ds = ds.map(lambda row: {
    "text": clean_text(row["input"])
})

print("Texto limpio de la primera receta (ej.):", ds[0]["text"][:300])

# Filtramos filas vac√≠as
ds = ds.filter(lambda row: row["text"] != "")
print(f"Documentos despu√©s de filtrar y limpiar: {len(ds)}")


# --- 2. CREACI√ìN DE CHUNKS ---

# Aumentamos de 512 a 1500 caracteres.
# Esto asegura que quepan los ingredientes Y las instrucciones completas.
splitter = RecursiveCharacterTextSplitter(
    chunk_size=1500,     # <--- CAMBIO CR√çTICO
    chunk_overlap=200,   # Un poco de solapamiento para no perder contexto
    separators=["\n\n", "Ingredients:", "Directions:", "\n", " "]
)

docs_texts = []
docs_meta = []

# Iteramos sobre el dataset reducido
for i, row in enumerate(ds):
    chunks = splitter.split_text(row["text"])
    for j, ch in enumerate(chunks):
        docs_texts.append(ch)
        docs_meta.append({
            "doc_id": i,
            "chunk": j
        })

print(f"Total chunks creados (reducido): {len(docs_texts)}")

Dataset reducido a: 2000 documentos.
Texto limpio de la primera receta (ej.): No-Bake Nut Cookies Ingredients: - 1 c. firmly packed brown sugar - 1/2 c. evaporated milk - 1/2 tsp. vanilla - 1/2 c. broken nuts (pecans) - 2 Tbsp. butter or margarine - 3 1/2 c. bite size shredded rice biscuits Directions: - In a heavy 2-quart saucepan, mix brown sugar, nuts, evaporated milk and 
Documentos despu√©s de filtrar y limpiar: 2000
Total chunks creados (reducido): 2000


In [38]:
!pip install -q langchain-community faiss-cpu
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
import torch

# Determinar el dispositivo disponible (GPU si Colab la asign√≥)
DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
EMB_MODEL = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"

print(f"\n--- 1. Vectorizaci√≥n Optimizada (Encoder) ---")
print(f"Dispositivo de procesamiento: {DEVICE}")
print(f"Cargando modelo de embedding: {EMB_MODEL}...")

# *** CAMBIO CLAVE: Especificar device y usar batch_size ***
# batch_size=128 permite procesar 128 chunks al mismo tiempo en la GPU, acelerando el proceso
embeddings = HuggingFaceEmbeddings(
    model_name=EMB_MODEL,
    model_kwargs={'device': DEVICE},
    encode_kwargs={'batch_size': 128} # Aumenta la velocidad usando lotes
)

# 2. Creaci√≥n del Vector Store
print("Creando FAISS vectorstore...")
# Este paso ahora ser√° mucho m√°s r√°pido
vectorstore = FAISS.from_texts(
    texts=docs_texts,
    embedding=embeddings,
    metadatas=docs_meta
)

print("FAISS vectorstore creada exitosamente.")

# Persistir la base de datos (vital si el proceso falla, para no rehacerlo)
FAISS_PATH = "/content/recetas_faiss_index"
vectorstore.save_local(FAISS_PATH)
print(f"Vectorstore guardada localmente en: {FAISS_PATH}")


--- 1. Vectorizaci√≥n Optimizada (Encoder) ---
Dispositivo de procesamiento: cuda
Cargando modelo de embedding: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2...
Creando FAISS vectorstore...
FAISS vectorstore creada exitosamente.
Vectorstore guardada localmente en: /content/recetas_faiss_index


In [39]:
def retrieve_recipes(query: str, k: int = 4):
    """
    Realiza una consulta a la base de datos vectorial y retorna los k chunks m√°s relevantes.
    """
    print(f"\n--- 2. Consultando el RAG (Retrieval) ---")

    # Usamos similarity_search_with_score para ver tanto el chunk como su relevancia
    relevant_chunks_with_scores = vectorstore.similarity_search_with_score(query, k=k)

    print(f"\nConsulta: '{query}'")
    print(f"Top {k} chunks m√°s relevantes encontrados:")

    results = []
    for i, (chunk_doc, score) in enumerate(relevant_chunks_with_scores):
        print(f"--- Resultado {i+1} (Score: {score:.4f}) ---")
        # El page_content es el chunk de texto real
        print(f"Contenido (inicio): {chunk_doc.page_content[:300]}...")
        print(f"Metadatos: Doc ID={chunk_doc.metadata['doc_id']}, Chunk ID={chunk_doc.metadata['chunk']}")
        results.append(chunk_doc)
    return results

# --- Ejemplos de Consulta ---
# Recuperar 3 chunks sobre recetas de postres
postre_query = "¬øRecetas r√°pidas sin horno con chocolate?"
retrieved_postres = retrieve_recipes(postre_query, k=3)

print("\n--------------------------------------------------")

# Recuperar 5 chunks sobre recetas de pollo
pollo_query = "¬øC√≥mo marinar y asar pollo al horno para que quede jugoso?"
retrieved_pollo = retrieve_recipes(pollo_query, k=5)


--- 2. Consultando el RAG (Retrieval) ---

Consulta: '¬øRecetas r√°pidas sin horno con chocolate?'
Top 3 chunks m√°s relevantes encontrados:
--- Resultado 1 (Score: 14.8637) ---
Contenido (inicio): Chocolate Fudge Ingredients: - 1/2 c. margarine - 1 tall can evaporated milk - 4 c. sugar - 32 marshmallows - 4 sq. baking chocolate - 9 oz. bar milk chocolate - 12 oz. pkg. semi-sweet chocolate - 1 Tbsp. vanilla - 2 c. chopped nuts Directions: - Combine margarine, milk and sugar in Dutch oven. - Pl...
Metadatos: Doc ID=189, Chunk ID=0
--- Resultado 2 (Score: 15.2208) ---
Contenido (inicio): Reeses Cups(Candy) Ingredients: - 1 c. peanut butter - 3/4 c. graham cracker crumbs - 1 c. melted butter - 1 lb. (3 1/2 c.) powdered sugar - 1 large pkg. chocolate chips Directions: - Combine first four ingredients and press in 13 x 9-inch ungreased pan. - Melt chocolate chips and spread over mixtur...
Metadatos: Doc ID=4, Chunk ID=0
--- Resultado 3 (Score: 15.4935) ---
Contenido (inicio): Instant Cream

In [52]:
# --- 3. EL CEREBRO EN LA NUBE (API) ---
# Usamos esto para acceder a un modelo mucho m√°s inteligente (7B)
# sin que se estalle la memoria de tu Colab.

from huggingface_hub import InferenceClient

# 1. PON TU TOKEN AQU√ç (Gratis en hf.co/settings/tokens)
HF_TOKEN = "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"  # <--- ¬°PEGA TU TOKEN AQU√ç!

# Usamos Mistral-7B-Instruct (Es excelente siguiendo instrucciones)
REPO_ID = "mistralai/Mistral-7B-Instruct-v0.2" # <--- Modelo actualizado

client = InferenceClient(model=REPO_ID, token=HF_TOKEN)

def rag_pipeline_cloud(pregunta_usuario: str):
    # --- PASO A: RETRIEVAL LOCAL (Tu buscador FAISS) ---
    # Esto sigue corriendo en tu m√°quina, es r√°pido y privado.
    docs_recuperados = retrieve_recipes(pregunta_usuario, k=3)

    if not docs_recuperados:
        return "No encontr√© recetas."

    # Preparamos el contexto
    contexto_texto = "\n\n".join([f"RECETA #{i+1}:\n{doc.page_content}" for i, doc in enumerate(docs_recuperados)])

    # --- PASO B: PROMPT ENGINEERING ---
    # Mistral es muy listo, no necesita tantas reglas, solo claridad.
    prompt_sistema = """
    Eres un Chef Experto biling√ºe (Ingl√©s-Espa√±ol).
    Tu tarea es leer las recetas en ingl√©s proporcionadas y explicar C√ìMO hacerlas en espa√±ol.

    REGLAS CR√çTICAS DE TRADUCCI√ìN:
    1. Cocoa = CACAO en polvo (¬°NO es man√≠/cacahuate!).
    2. Stick of butter = 1 Barra de mantequilla.
    3. Icing = Glaseado/Cubierta.

    Si hay varias opciones (ej. Icing y Cake), explica la receta del PASTEL (Cake), no solo la cubierta.
    """

    prompt_usuario = f"""
    CONTEXTO (RECETAS EN INGL√âS):
    {contexto_texto}

    PREGUNTA DEL USUARIO:
    {pregunta_usuario}

    Responde en Espa√±ol con el T√≠tulo, Ingredientes y Pasos.
    """

    # --- PASO C: LLAMADA A LA API (Nube) ---
    print(f"--- Consultando al Chef Mistral en la nube... ---")

    respuesta = client.chat_completion(
        messages=[
            {"role": "system", "content": prompt_sistema},
            {"role": "user", "content": prompt_usuario}
        ],
        max_tokens=1000,
        temperature=0.1  # Precisi√≥n m√°xima
    )

    return respuesta.choices[0].message.content

# --- PRUEBA FINAL ---
print("\n" + "="*50)
query = "¬øC√≥mo hago un Mac and Cheese (Macarrones con queso) cl√°sico?"
print(rag_pipeline_cloud(query))
print("="*50)



--- 2. Consultando el RAG (Retrieval) ---

Consulta: '¬øC√≥mo hago un Mac and Cheese (Macarrones con queso) cl√°sico?'
Top 3 chunks m√°s relevantes encontrados:
--- Resultado 1 (Score: 10.4858) ---
Contenido (inicio): Very Cheese-Y Macaroni Ingredients: - 8 oz. elbow macaroni - 1 c. broccoli florets - 4 Tbsp. butter - 2 Tbsp. flour - 2 c. low-fat milk - 1 c. shredded sharp Cheddar cheese - 1/2 c. grated Parmesan cheese - 1/2 tsp. salt - 1/4 tsp. cayenne pepper - 1/4 c. whole wheat bread crumbs Directions: - In me...
Metadatos: Doc ID=1326, Chunk ID=0
--- Resultado 2 (Score: 10.8721) ---
Contenido (inicio): Macaroni And Cottage Cheese Ingredients: - 3 c. uncooked macaroni - 1 small carton cottage cheese - 1/2 stick butter - salt and pepper to taste Directions: - Cook macaroni until tender. - Drain. - Put into dish and mix in 1 small carton cottage cheese. - Brown butter in skillet and pour over mixture...
Metadatos: Doc ID=933, Chunk ID=0
--- Resultado 3 (Score: 11.3988) ---
Contenido

In [53]:
test_questions = [
    "Necesito una receta de brownies con cacao.",
    "Tengo pollo y br√≥coli, ¬øqu√© cocino?",
    "Quiero algo dulce para el desayuno.",
    "¬øC√≥mo preparo cemento para construcci√≥n?", # Prueba negativa
    "Receta de macarrones con queso."
]

print("üõ†Ô∏è INICIANDO BATER√çA DE PRUEBAS üõ†Ô∏è\n")

for i, q in enumerate(test_questions):
    print(f"üîπ PRUEBA #{i+1}: {q}")
    try:
        # Llamamos a tu funci√≥n de nube
        respuesta = rag_pipeline_cloud(q)
        print(f"ü§ñ RESPUESTA:\n{respuesta[:500]}...") # Imprimimos solo los primeros 500 caracteres
    except Exception as e:
        print(f"‚ùå ERROR: {e}")
    print("-" * 60 + "\n")

üõ†Ô∏è INICIANDO BATER√çA DE PRUEBAS üõ†Ô∏è

üîπ PRUEBA #1: Necesito una receta de brownies con cacao.

--- 2. Consultando el RAG (Retrieval) ---

Consulta: 'Necesito una receta de brownies con cacao.'
Top 3 chunks m√°s relevantes encontrados:
--- Resultado 1 (Score: 9.7485) ---
Contenido (inicio): Best Brownies Ingredients: - 1/4 lb. butter - 1/2 c. cocoa - 2 c. sugar - 4 eggs - 2 tsp. vanilla - 1 1/2 c. flour - 1/4 tsp. salt - 1 c. flaked coconut Directions: - Preheat oven to 350¬∞. - Melt the butter. - Pour into mixing bowl. - Beat in cocoa and sugar. - When mixture is smooth, beat in eggs, ...
Metadatos: Doc ID=250, Chunk ID=0
--- Resultado 2 (Score: 10.0534) ---
Contenido (inicio): Brownies Ingredients: - 1 1/2 c. white sugar - 1 1/2 c. brown sugar - 4 Tbsp. cocoa - 2 c. flour - 6 eggs - 1 1/2 sticks oleo, melted - 1/2 c. milk - 1 tsp. vanilla - 1/4 tsp. salt - 1/2 c. nuts Directions: - Mix all ingredients together; add nuts. - Pour into a greased and floured cookie sheet. - B.