In [20]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

/kaggle/input/consumer-reviews-of-amazon-products/Datafiniti_Amazon_Consumer_Reviews_of_Amazon_Products.csv
/kaggle/input/consumer-reviews-of-amazon-products/1429_1.csv
/kaggle/input/consumer-reviews-of-amazon-products/Datafiniti_Amazon_Consumer_Reviews_of_Amazon_Products_May19.csv


In [21]:
!pip install -q -U sentence-transformers faiss-cpu gradio google-generativeai

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


In [22]:
import pandas as pd
import torch
import numpy as np
from sentence_transformers import SentenceTransformer, CrossEncoder, util
from PIL import Image
import os

print("--- INICIANDO PARTE A: INDEXACI√ìN (CORREGIDA) ---")

# 1. Configuraci√≥n de Hardware
device = "cuda" if torch.cuda.is_available() else "cpu"

# 2. Carga del Dataset
ruta_kaggle = '/kaggle/input/consumer-reviews-of-amazon-products/Datafiniti_Amazon_Consumer_Reviews_of_Amazon_Products_May19.csv'

try:
    df_raw = pd.read_csv(ruta_kaggle, low_memory=False)
except FileNotFoundError:
    df_raw = pd.read_csv('Datafiniti_Amazon_Consumer_Reviews_of_Amazon_Products_May19.csv', low_memory=False)

# 3. Limpieza de Datos e Im√°genes
def limpiar_url(url_str):
    if pd.isna(url_str): return "https://via.placeholder.com/150?text=Sin+Imagen"
    return url_str.split(',')[0]

df_raw['imagen_final'] = df_raw['imageURLs'].apply(limpiar_url)

# === CORRECCI√ìN ANTI-DUPLICADOS ===
# Detectamos cu√°l columna existe y la seleccionamos ESPEC√çFICAMENTE
col_origen = 'primaryCategories' if 'primaryCategories' in df_raw.columns else 'categories'

# Creamos el dataframe limpio SELECCIONANDO primero (evita duplicados al renombrar)
df = df_raw[['name', col_origen, 'reviews.text', 'imagen_final']].copy()

# Ahora renombramos la columna seleccionada a un est√°ndar 'categories'
df.rename(columns={col_origen: 'categories'}, inplace=True)

# Limpieza de nulos
df = df.dropna(subset=['name', 'categories'])

# Mezclamos y tomamos 5000 muestras (Shuffle)
#if len(df) > 5000:
    #df = df.sample(n=5000, random_state=42).reset_index(drop=True)
#else:
df = df.reset_index(drop=True)

print(f"‚úÖ Datos cargados y limpios: {len(df)} productos.")

# 4. Carga del Modelo Multimodal
print("‚è≥ Cargando modelo CLIP (puede tardar un poco)...")
bi_encoder = SentenceTransformer('clip-ViT-B-32', device=device)

# 5. Generaci√≥n de Embeddings
# Ahora esto funcionar√° porque 'categories' es una columna √∫nica
corpus_textos = (df['name'] + " " + df['categories']).tolist()
print("‚è≥ Generando vectores...")
corpus_embeddings = bi_encoder.encode(corpus_textos, convert_to_tensor=True, show_progress_bar=True)

print("‚úÖ PARTE A COMPLETADA: √çndice vectorial listo.")

--- INICIANDO PARTE A: INDEXACI√ìN (CORREGIDA) ---
‚úÖ Datos cargados y limpios: 28332 productos.
‚è≥ Cargando modelo CLIP (puede tardar un poco)...
‚è≥ Generando vectores...


Batches:   0%|          | 0/886 [00:00<?, ?it/s]

‚úÖ PARTE A COMPLETADA: √çndice vectorial listo.


In [23]:
print("--- CONFIGURANDO PARTE B: RETRIEVAL ---")

def etapa_retrieval_flexible(query_input, input_type="text", k=50):
    """
    Recupera candidatos iniciales.
    input_type puede ser: 
    - 'text': Consulta normal
    - 'image': Ruta de archivo de imagen (image-to-product)
    - 'vector': Vector matem√°tico (para refinamientos de memoria)
    """
    query_emb = None

    # 1. Convertir la entrada a vector seg√∫n su tipo
    if input_type == 'vector':
        query_emb = query_input
    elif input_type == 'image':
        # Procesa la imagen con CLIP
        try:
            query_emb = bi_encoder.encode(Image.open(query_input), convert_to_tensor=True)
        except Exception as e:
            print(f"Error al abrir imagen: {e}")
            return [], None
    else: # text
        query_emb = bi_encoder.encode(query_input, convert_to_tensor=True)

    # 2. B√∫squeda de Similitud (Coseno)
    # Compara el vector de la consulta contra todo el corpus
    scores = util.cos_sim(query_emb, corpus_embeddings)[0]
    
    # 3. Recuperar Top-K
    top_results = torch.topk(scores, k=k)
    
    return top_results.indices.cpu().numpy(), query_emb

print(" PARTE B LISTA: Funci√≥n de b√∫squeda configurada.")

--- CONFIGURANDO PARTE B: RETRIEVAL ---
 PARTE B LISTA: Funci√≥n de b√∫squeda configurada.


In [24]:
print("--- CONFIGURANDO PARTE C: RE-RANKING ---")

# Cargamos un modelo especializado en comparar pares (Pregunta <-> Documento)
cross_encoder = CrossEncoder('cross-encoder/ms-marco-MiniLM-L-6-v2', device=device)

def etapa_reranking_cross_encoder(query_text, indices_recuperados):
    """
    Reordena los candidatos bas√°ndose en una lectura profunda del texto.
    """
    if len(indices_recuperados) == 0:
        return pd.DataFrame()

    # Extraer textos de los candidatos
    candidatos_texto = df.iloc[indices_recuperados]['name'].tolist()
    
    # Crear pares para el modelo
    model_inputs = [[query_text, cand] for cand in candidatos_texto]
    
    # Predecir relevancia
    scores_rerank = cross_encoder.predict(model_inputs)
    
    # Ordenar √≠ndices basados en el nuevo score
    orden_indices = np.argsort(scores_rerank)[::-1] # Descendente
    
    # Seleccionar Top 5
    top_5_indices_locales = orden_indices[:5]
    indices_finales = [indices_recuperados[i] for i in top_5_indices_locales]
    
    return df.iloc[indices_finales].copy()

print(" PARTE C LISTA: Cross-Encoder cargado.")

--- CONFIGURANDO PARTE C: RE-RANKING ---
 PARTE C LISTA: Cross-Encoder cargado.


In [25]:
print("--- CONFIGURANDO PARTE E: MEMORIA ---")

class MemoriaSesion:
    def __init__(self):
        self.ancla_vector = None # Aqu√≠ guardamos la "intenci√≥n" principal (ej. la imagen)

    def actualizar_ancla(self, nuevo_vector):
        self.ancla_vector = nuevo_vector

    def obtener_vector_combinado(self, vector_texto_refinamiento):
        """
        Combina el contexto anterior (ancla) con el nuevo texto.
        F√≥rmula: 70% Ancla (Contexto visual/previo) + 30% Refinamiento (Texto nuevo)
        """
        if self.ancla_vector is None:
            return vector_texto_refinamiento
        
        # Promedio ponderado para mover el vector hacia la nueva direcci√≥n sin perder el origen
        vector_fusionado = (self.ancla_vector * 0.7) + (vector_texto_refinamiento * 0.3)
        return vector_fusionado

# Instanciamos la memoria global
sesion = MemoriaSesion()
print("PARTE E LISTA: Sistema de memoria activado.")

--- CONFIGURANDO PARTE E: MEMORIA ---
PARTE E LISTA: Sistema de memoria activado.


In [26]:
import google.generativeai as genai
import time

print("--- CONFIGURANDO PARTE D: RAG (INTENTO GEMINI 2.5 CON RESPALDO) ---")

MY_API_KEY = "AIzaSyAazs8UMCaxaRDQBw7cA-owoCyCk5V8qfU"

genai.configure(api_key=MY_API_KEY)

# -----------------------------------------------------------
# SELECTOR DE MODELO INTELIGENTE
# Intenta cargar el 2.5/2.0 Flash primero. Si falla, usa el Pro.
# -----------------------------------------------------------
modelos_a_probar = ['gemini-2.5-flash', 'gemini-2.0-flash', 'gemini-1.5-flash', 'gemini-pro']
gemini = None
nombre_modelo_final = ""

for modelo in modelos_a_probar:
    try:
        print(f"üõ†Ô∏è Probando modelo: {modelo}...")
        temp_model = genai.GenerativeModel(modelo)
        # Hacemos una prueba muda para ver si responde o da error 404/429
        temp_model.generate_content("test", request_options={'timeout': 5})
        gemini = temp_model
        nombre_modelo_final = modelo
        print(f"‚úÖ ¬°√âXITO! Usando: {modelo}")
        break
    except Exception as e:
        print(f"‚ùå {modelo} fall√≥ o no disponible. Error: {str(e)[:50]}...")
        continue

if gemini is None:
    print("‚ö†Ô∏è Fallaron todos los modelos Flash. Usando 'gemini-pro' como √∫ltimo recurso.")
    gemini = genai.GenerativeModel('gemini-pro')
    nombre_modelo_final = "gemini-pro"

# -----------------------------------------------------------
# FUNCI√ìN GENERATIVA
# -----------------------------------------------------------
def generar_respuesta_rag(consulta_usuario, df_resultados):
    # 1. Construcci√≥n del Contexto
    contexto = ""
    for _, row in df_resultados.iterrows():
        contexto += f"- Producto: {row['name']}\n  Categor√≠a: {row['categories']}\n  Rese√±a: {row['reviews.text'][:300]}...\n\n"

   # Pront
    prompt = f"""
    Eres un asistente experto de la EPN. 
    El sistema ha realizado una b√∫squeda (posiblemente visual o por texto) y ha recuperado estos productos:
    {contexto}
    
    Pregunta/Acci√≥n del usuario: "{consulta_usuario}"
    
    Instrucciones:
    1. Si el usuario subi√≥ una imagen, describe los productos recuperados que m√°s se parecen a ella.
    2. Usa las rese√±as para decir si son buenos productos o no.
    3. No digas que 'no hay informaci√≥n sobre b√∫squeda por imagen', simplemente act√∫a como un vendedor que ve lo que el usuario busca."""
    
    # 3. Llamada a la API
    try:
        # Si usamos un modelo Flash, podemos ser m√°s r√°pidos (menos sleep)
        tiempo_espera = 1 if "flash" in nombre_modelo_final else 3
        time.sleep(tiempo_espera) 
        
        response = gemini.generate_content(prompt)
        return response.text
        
    except Exception as e:
        print(f"‚ö†Ô∏è Alerta API: {e}")
        return f"Nota: Hubo una interrupci√≥n moment√°nea con el modelo {nombre_modelo_final}, pero aqu√≠ tienes los productos encontrados (ver cat√°logo visual)."

print(f"‚úÖ PARTE D LISTA (Modelo activo: {nombre_modelo_final})")

--- CONFIGURANDO PARTE D: RAG (INTENTO GEMINI 2.5 CON RESPALDO) ---
üõ†Ô∏è Probando modelo: gemini-2.5-flash...
‚úÖ ¬°√âXITO! Usando: gemini-2.5-flash
‚úÖ PARTE D LISTA (Modelo activo: gemini-2.5-flash)


In [27]:
import gradio as gr

print("--- CONFIGURANDO PARTE F: INTERFAZ (CON ARREGLO DE IM√ÅGENES) ---")

def pipeline_principal(texto, imagen, es_refinamiento):
    global sesion
    
    indices = []
    vector_busqueda = None
    query_rerank = "" 
    texto_usuario = ""

    # --- L√ìGICA DE B√öSQUEDA (Igual que antes) ---
    if imagen is not None:
        indices, vector_busqueda = etapa_retrieval_flexible(imagen, input_type='image')
        sesion.actualizar_ancla(vector_busqueda)
        query_rerank = "Visualmente similar"
        texto_usuario = "B√∫squeda por imagen"
    elif texto:
        vector_texto = bi_encoder.encode(texto, convert_to_tensor=True)
        texto_usuario = texto
        if es_refinamiento and sesion.ancla_vector is not None:
            vector_busqueda = sesion.obtener_vector_combinado(vector_texto)
            indices, _ = etapa_retrieval_flexible(vector_busqueda, input_type='vector')
            sesion.actualizar_ancla(vector_busqueda)
            query_rerank = texto
        else:
            vector_busqueda = vector_texto
            indices, _ = etapa_retrieval_flexible(texto, input_type='text')
            sesion.actualizar_ancla(vector_busqueda)
            query_rerank = texto
    else:
        return "Escribe algo...", ""

    # Re-ranking
    top_productos = etapa_reranking_cross_encoder(query_rerank, indices)
    if top_productos.empty: return "No se encontraron productos.", ""

    # Generaci√≥n RAG (Con el blindaje que pusimos en Parte D)
    respuesta_ia = generar_respuesta_rag(texto_usuario, top_productos)
    
    # --- GALER√çA VISUAL MEJORADA ---
    galeria_html = "<div style='display: flex; flex-wrap: wrap; gap: 15px; justify-content: center;'>"
    
    for _, row in top_productos.iterrows():
        # URL de respaldo por si falla la original
        img_backup = "https://via.placeholder.com/150?text=Sin+Imagen"
        
        tarjeta = f"""
        <div style="border: 1px solid #e0e0e0; padding: 10px; width: 180px; border-radius: 8px; background: white; box-shadow: 0 2px 5px rgba(0,0,0,0.1);">
            <div style="height: 150px; display: flex; align-items: center; justify-content: center; overflow: hidden;">
                <img src="{row['imagen_final']}" 
                     onerror="this.onerror=null; this.src='{img_backup}';" 
                     style="max-height: 100%; max-width: 100%; object-fit: contain;">
            </div>
            <h4 style="margin: 8px 0; font-size: 13px; color: #333; height: 3.6em; overflow: hidden; display: -webkit-box; -webkit-line-clamp: 3; -webkit-box-orient: vertical;">
                {row['name']}
            </h4>
            <span style="font-size: 10px; color: #666; background: #f0f0f0; padding: 2px 5px; border-radius: 4px;">
                {str(row['categories'])[:20]}
            </span>
        </div>
        """
        galeria_html += tarjeta
        
    galeria_html += "</div>"
    
    return respuesta_ia, galeria_html

# Lanzamiento
with gr.Interface(
    fn=pipeline_principal,
    inputs=[
        gr.Textbox(label="üîç ¬øQu√© buscas?", placeholder="Ej: Tablet for kids..."),
        gr.Image(type="filepath", label="üì∑ B√∫squeda Visual"),
        gr.Checkbox(label="üîó Refinar (Memoria)", value=False)
    ],
    outputs=[
        gr.Markdown(label="ü§ñ Asistente"),
        gr.HTML(label="üõçÔ∏è Cat√°logo")
    ],
    title="üõí Buscador Multimodal Amazon",
    description="Sistema RAG H√≠brido: Texto + Imagen + Memoria."
) as demo:
    demo.launch(share=True)

--- CONFIGURANDO PARTE F: INTERFAZ (CON ARREGLO DE IM√ÅGENES) ---
* Running on local URL:  http://127.0.0.1:7862
* Running on public URL: https://4cbe13025387a54188.gradio.live

This share link expires in 1 week. For free permanent hosting and GPU upgrades, run `gradio deploy` from the terminal in the working directory to deploy to Hugging Face Spaces (https://huggingface.co/spaces)


‚ö†Ô∏è Alerta API: 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. To monitor your current usage, head to: https://ai.dev/rate-limit. 
* Quota exceeded for metric: generativelanguage.googleapis.com/generate_content_free_tier_requests, limit: 20, model: gemini-2.5-flash
Please retry in 25.842748128s. [links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, violations {
  quota_metric: "generativelanguage.googleapis.com/generate_content_free_tier_requests"
  quota_id: "GenerateRequestsPerDayPerProjectPerModel-FreeTier"
  quota_dimensions {
    key: "model"
    value: "gemini-2.5-flash"
  }
  quota_dimensions {
    key: "location"
    value: "global"
  }
  quota_value: 20
}
, retry_delay {
  seconds: 25
}
]
‚ö†Ô∏è Alerta API: 429 You exceeded your current quota, please check your plan and billing