# Taller 11: Utilizando una base vectorial en conjunto a un LLM

## Paso 1: Instalación de librería


In [21]:
!pip install google-genai numpy faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.13.0-cp39-abi3-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (7.7 kB)
Downloading faiss_cpu-1.13.0-cp39-abi3-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (23.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.6/23.6 MB[0m [31m30.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.13.0
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [22]:
from google.genai import types
import faiss
import numpy as np
import pickle
import os


In [35]:
from google import genai

genai_client = genai.Client(api_key="AIzaSyAx6kww9SktsnXkIVno5wCaoXN2VjO8jtM")


In [24]:
company_description = """
TechSolutions Pro es una empresa especializada en servicios de consultoría tecnológica 
y desarrollo de software. Ofrecemos soluciones integrales para empresas que buscan 
digitalizar sus procesos y optimizar su infraestructura tecnológica.
"""

services_data = [
    {
        "id": "servicio_1",
        "nombre": "Desarrollo Web Completo",
        "descripcion": "Desarrollo Web Completo por $5,500. Incluye diseño responsivo, desarrollo frontend y backend, integración de base de datos, hosting por 1 año y 3 meses de mantenimiento gratuito.",
        "precio": 5500,
        "categoria": "desarrollo"
    },
    {
        "id": "servicio_2",
        "nombre": "Análisis de Datos y Business Intelligence",
        "descripcion": "Análisis de Datos y Business Intelligence por $4,200. Incluye recolección y limpieza de datos, creación de dashboards interactivos, reportes automatizados y 2 sesiones de capacitación.",
        "precio": 4200,
        "categoria": "datos"
    },
    {
        "id": "servicio_3",
        "nombre": "Implementación de IA",
        "descripcion": "Implementación de IA por $8,900. Incluye análisis de requisitos, desarrollo de modelos personalizados, integración con sistemas existentes, documentación técnica y 6 meses de soporte.",
        "precio": 8900,
        "categoria": "inteligencia_artificial"
    },
    {
        "id": "servicio_4",
        "nombre": "Consultoría en Ciberseguridad",
        "descripcion": "Consultoría en Ciberseguridad por $3,800. Incluye auditoría completa de seguridad, plan de remediación, implementación de medidas correctivas y manual de buenas prácticas.",
        "precio": 3800,
        "categoria": "seguridad"
    }
]

In [25]:
FAISS_INDEX_PATH = "./faiss_index.bin"
METADATA_PATH = "./services_metadata.pkl"

In [26]:
def generate_embedding(text, model="gemini-embedding-001", output_dim=768):
    """Genera embedding usando Gemini"""
    text = text.replace("\n", " ")
    result = genai_client.models.embed_content(
        model=model,
        contents=text,
        config=types.EmbedContentConfig(output_dimensionality=output_dim)
    )
    return result.embeddings[0].values


In [27]:
def create_faiss_index(embeddings_list, dimension=768):
    """Crea un índice FAISS con los embeddings"""
    embeddings_np = np.array(embeddings_list).astype('float32')

    index = faiss.IndexFlatL2(dimension)
    
    # Agregar vectores al índice
    index.add(embeddings_np)
    
    return index

In [28]:
def save_faiss_index(index, metadata):
    """Guarda el índice FAISS y metadatos en disco"""
    faiss.write_index(index, FAISS_INDEX_PATH)
    with open(METADATA_PATH, 'wb') as f:
        pickle.dump(metadata, f)
    print(f"✓ Índice FAISS guardado en {FAISS_INDEX_PATH}")
    print(f"✓ Metadatos guardados en {METADATA_PATH}")

In [29]:
def load_faiss_index():
    """Carga el índice FAISS y metadatos desde disco"""
    if os.path.exists(FAISS_INDEX_PATH) and os.path.exists(METADATA_PATH):
        index = faiss.read_index(FAISS_INDEX_PATH)
        with open(METADATA_PATH, 'rb') as f:
            metadata = pickle.load(f)
        print("✓ Índice FAISS y metadatos cargados desde disco")
        return index, metadata
    return None, None

In [30]:
def store_services_in_faiss():
    """Genera embeddings y los almacena en FAISS"""
    print("Generando embeddings y creando índice FAISS...\n")
    
    embeddings_list = []
    metadata_list = []
    
    for service in services_data:
        embedding = generate_embedding(service["descripcion"])
        embeddings_list.append(embedding)
        
        # Guardar metadata asociada
        metadata_list.append({
            "id": service["id"],
            "nombre": service["nombre"],
            "descripcion": service["descripcion"],
            "precio": service["precio"],
            "categoria": service["categoria"]
        })
        
        print(f"✓ {service['nombre']} - Embedding generado (dim: {len(embedding)})")
    
    dimension = len(embeddings_list[0])
    faiss_index = create_faiss_index(embeddings_list, dimension)
    
    save_faiss_index(faiss_index, metadata_list)
    
    print(f"\n✓ {len(services_data)} servicios almacenados en FAISS")
    print(f"✓ Total de vectores en el índice: {faiss_index.ntotal}\n")
    
    return faiss_index, metadata_list

In [31]:
def search_similar_services(query, index, metadata, k=2):
    query_embedding = generate_embedding(query)
    query_vector = np.array([query_embedding]).astype('float32')
    
    distances, indices = index.search(query_vector, k)
    
    results = []
    for i, idx in enumerate(indices[0]):
        service = metadata[idx].copy()
        service['distancia'] = float(distances[0][i])
        service['similitud'] = 1 / (1 + distances[0][i])  # Convertir distancia a similitud
        results.append(service)
    
    return results

In [41]:
def query_with_gemini(user_question, index, metadata):
    """Busca servicios relevantes y genera respuesta con Gemini"""
    print(f"\n{'='*80}")
    print(f"Pregunta del usuario: {user_question}")
    print(f"{'='*80}\n")
    
    relevant_services = search_similar_services(user_question, index, metadata, k=2)
    
    print("Servicios encontrados:")
    for i, service in enumerate(relevant_services, 1):
        print(f"{i}. {service['nombre']}")
        print(f"   Precio: ${service['precio']}")
        print(f"   Similitud: {service['similitud']:.4f}")
        print()
    
    context = f"Información de la empresa:\n{company_description}\n\n"
    context += "Servicios relevantes encontrados:\n"
    for service in relevant_services:
        context += f"\n- {service['nombre']}: {service['descripcion']}\n"
    
    prompt = f"""{context}

        Pregunta del cliente: {user_question}
        
        Por favor, proporciona una respuesta útil, profesional y breve basándote en los servicios disponibles. 
    """
    
    response = genai_client.models.generate_content(
        model="gemini-2.5-pro",
        contents=prompt
    )
    
    return response.text, relevant_services

In [36]:
faiss_index, metadata = load_faiss_index()
if faiss_index is None:
        faiss_index, metadata = store_services_in_faiss()

Generando embeddings y creando índice FAISS...

✓ Desarrollo Web Completo - Embedding generado (dim: 768)
✓ Análisis de Datos y Business Intelligence - Embedding generado (dim: 768)
✓ Implementación de IA - Embedding generado (dim: 768)
✓ Consultoría en Ciberseguridad - Embedding generado (dim: 768)
✓ Índice FAISS guardado en ./faiss_index.bin
✓ Metadatos guardados en ./services_metadata.pkl

✓ 4 servicios almacenados en FAISS
✓ Total de vectores en el índice: 4



In [42]:
        respuesta, servicios = query_with_gemini("Necesito crear una página web para mi negocio, ¿qué opciones tengo?", faiss_index, metadata)
        print(f"Respuesta de Gemini:")
        print(f"{'-'*80}")
        print(respuesta)
        print(f"\n{'='*80}\n")


Pregunta del usuario: Necesito crear una página web para mi negocio, ¿qué opciones tengo?

Servicios encontrados:
1. Desarrollo Web Completo
   Precio: $5500
   Similitud: 0.8064

2. Análisis de Datos y Business Intelligence
   Precio: $4200
   Similitud: 0.7767

Respuesta de Gemini:
--------------------------------------------------------------------------------
¡Hola! Gracias por contactar a TechSolutions Pro.

Para la creación de una página web para tu negocio, te ofrecemos nuestro servicio de **Desarrollo Web Completo**.

Es una solución integral que incluye todo lo necesario para establecer tu presencia en línea de manera profesional. El paquete cubre:

*   Diseño responsivo (adaptable a móviles).
*   Desarrollo frontend y backend.
*   Integración de base de datos.
*   Hosting por 1 año.
*   3 meses de mantenimiento gratuito.

El costo de este servicio es de **$5,500**.

Si te interesa, podemos agendar una breve reunión para entender mejor las necesidades de tu negocio. Quedamos 