# Sistema de Búsqueda Semántica y Detección de Tendencias en una Empresa de Consultoría

## Objetivos de la práctica

1. Generar el dataset

- Crear un CSV llamado documentos_consultoria.csv con al menos 1000 informes.

- Cada documento debe tener los campos:

  id_doc (identificador único)

  titulo

  contenido (extracto o texto técnico)

  categoria (Tecnología, Finanzas, Energía, Educación, Salud)

  autor

  fecha_publicacion (YYYY-MM-DD)

2. Simulación de embeddings

  Convertir cada documento en un vector de alta dimensión (p. ej., 512 dimensiones).

  Normalizar los vectores y guardarlos junto con los metadatos.

3. Implementar la Base de Datos Vectorial

  StorageEngine: guardar vectores y metadatos con persistencia en disco.

  IndexBuilder: construir índices simulados (IVF y HNSW) y comparar eficiencia.

  QueryEngine: permitir consultas textuales transformadas a embeddings, calcular similitud con Cosine, Euclidean y Dot Product, y permitir filtrado por categoría, autor o fecha.

  MetadataStore: recuperar texto original a partir del ID y permitir búsquedas combinadas con los vectores.

4. Casos de uso

  Búsqueda semántica: encontrar los 5 documentos más similares a una consulta textual, mostrando título, autor, categoría, fecha y puntuación de similitud.

  Detección de tendencias: insertar nuevos documentos, calcular similitud con históricos y marcar documentos demasiado distintos (cosine < 0.7) como tendencias emergentes. Guardar en tendencias_detectadas.csv.

  Optimización y caching: implementar cache de consultas frecuentes, medir tiempos de respuesta y latencia promedio.

5. Evaluación

  Comparar tiempos y precisión de búsqueda con diferentes índices: sin índice, IVF, HNSW.

  Analizar dimensionalidad (128, 256, 512), métricas de similitud (Cosine vs Euclidean) y compresión de contexto (PCA).

  Guardar resultados en evaluacion_resultados.csv.

6. Visualización

Graficar:

  Tiempo vs precisión por tipo de índice.

  Mapa 2D de documentos por categoría usando PCA o t-SNE.

  Barras con las principales categorías de tendencias emergentes.

7. Extensión opcional

  Crear un módulo que genere resúmenes automáticos de los documentos más relevantes.

  Implementar una CLI para ejecutar consultas y filtrar por categoría, autor o fecha.

  Agregar logging de eventos y errores.