# Pr√°ctica: An√°lisis comparativo de tecnolog√≠as usando RAG

Objetivo de la pr√°ctica

Cargar varios archivos de documentos de diferentes fuentes (por ejemplo, art√≠culos cient√≠ficos, noticias, informes t√©cnicos) y generar embeddings para cada uno.

Implementar un retriever que busque documentos relevantes seg√∫n consultas comparativas o de an√°lisis.

Implementar un generator que combine los documentos recuperados y genere un resumen que permita comparar o evaluar la informaci√≥n.

Probar el sistema con preguntas de an√°lisis cr√≠tico y comparativo.

1. Preparaci√≥n de datos

- La carpeta Data contiene archivos .csv o .txt de diferentes fuentes sobre energ√≠a renovable (solar, e√≥lica, almacenamiento).

- Generar embeddings para cada documento usando un modelo de embeddings (por ejemplo, text-embedding-3-small).

In [None]:
# Paso 1: Instalar e importar librer√≠as
# Ejecutar esta celda primero para instalar las dependencias necesarias
# !pip install sentence-transformers scikit-learn -q

import os
import glob
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
from sentence_transformers import SentenceTransformer

print("üì¶ Importando librer√≠as...")

# Cargar modelo de embeddings LOCAL (100% GRATIS, sin API key necesaria)
print("\nüì• Cargando modelo de embeddings local (Sentence Transformers)...")
embedding_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
print("‚úÖ Modelo de embeddings cargado")

print("\n‚úÖ Inicializaci√≥n completada")

‚ö†Ô∏è  No se encontr√≥ OPENAI_API_KEY en las variables de entorno
‚úì Librer√≠as importadas correctamente
‚úì Cliente OpenAI configurado
‚úì Librer√≠as importadas correctamente
‚úì Cliente OpenAI configurado


In [None]:
# Paso 2: Cargar documentos desde la carpeta Data
data_folder = "Data"
documents = []

print("üìÇ Cargando documentos desde carpeta Data...")
txt_files = glob.glob(os.path.join(data_folder, "ejer4_*.txt"))

for file_path in txt_files:
    with open(file_path, 'r', encoding='utf-8') as f:
        content = f.read()
        source_name = os.path.basename(file_path).replace('.txt', '').replace('ejer4_', '')
        documents.append({
            'source': source_name,
            'content': content,
            'file_path': file_path
        })

print(f"\n‚úÖ Se cargaron {len(documents)} documentos:")
for doc in documents:
    print(f"   ‚Ä¢ {doc['source']}: {len(doc['content'])} caracteres")

In [None]:
# Paso 3: Generar embeddings para cada documento
def generate_embedding(text):
    """Genera embedding usando Sentence Transformers (modelo local)"""
    return embedding_model.encode(text, convert_to_numpy=True)

print("üîÑ Generando embeddings (esto puede tardar unos segundos)...")
for i, doc in enumerate(documents, 1):
    doc['embedding'] = generate_embedding(doc['content'])
    print(f"   ‚úì [{i}/{len(documents)}] {doc['source']}")

print(f"\n‚úÖ Embeddings generados exitosamente")
print(f"üìä Dimensi√≥n de cada embedding: {len(documents[0]['embedding'])} dimensiones")

2. Implementaci√≥n del Retriever

El retriever debe permitir:

- Buscar documentos relevantes por tema.

- Buscar documentos relevantes por comparaci√≥n, es decir, identificar informaci√≥n sobre dos tecnolog√≠as o conceptos diferentes.

- Utilizar b√∫squeda sem√°ntica con embeddings para medir similitud.

In [None]:
# Implementaci√≥n del Retriever
class SemanticRetriever:
    """
    Retriever que busca documentos relevantes usando similitud sem√°ntica
    """
    def __init__(self, documents):
        self.documents = documents
        self.embeddings = np.array([doc['embedding'] for doc in documents])
    
    def retrieve(self, query, top_k=3):
        """
        Recupera los top_k documentos m√°s relevantes para una consulta
        """
        # Generar embedding de la consulta
        query_embedding = generate_embedding(query).reshape(1, -1)
        
        # Calcular similitud coseno
        similarities = cosine_similarity(query_embedding, self.embeddings)[0]
        
        # Obtener √≠ndices de los m√°s similares
        top_indices = np.argsort(similarities)[-top_k:][::-1]
        
        # Retornar resultados
        results = []
        for idx in top_indices:
            results.append({
                'document': self.documents[idx],
                'similarity_score': similarities[idx]
            })
        return results
    
    def retrieve_for_comparison(self, query, technologies, top_k=2):
        """
        Recupera documentos espec√≠ficos para comparaci√≥n de tecnolog√≠as
        """
        results = {}
        
        for tech in technologies:
            # Crear consulta espec√≠fica para cada tecnolog√≠a
            tech_query = f"{query} {tech}"
            tech_embedding = generate_embedding(tech_query).reshape(1, -1)
            
            # Calcular similitud
            similarities = cosine_similarity(tech_embedding, self.embeddings)[0]
            top_indices = np.argsort(similarities)[-top_k:][::-1]
            
            results[tech] = []
            for idx in top_indices:
                results[tech].append({
                    'document': self.documents[idx],
                    'similarity_score': similarities[idx]
                })
        
        return results

# Crear instancia del retriever
retriever = SemanticRetriever(documents)
print("‚úÖ Retriever creado e inicializado correctamente")

In [None]:
# Prueba del retriever con una consulta simple
test_query = "energ√≠a solar y paneles fotovoltaicos"
print(f"üîç Probando retriever con: '{test_query}'")
print("="*80)

results = retriever.retrieve(test_query, top_k=3)

for i, result in enumerate(results, 1):
    print(f"\n{i}. üìÑ Fuente: {result['document']['source']}")
    print(f"   üìä Similitud: {result['similarity_score']:.4f}")
    print(f"   üìù Preview: {result['document']['content'][:120]}...")

print("\n" + "="*80)
print("‚úÖ Retriever funcionando correctamente")

3. Implementaci√≥n del Generator

El generator debe:

   - Tomar los documentos recuperados y resumir los puntos clave.

   - Comparar tecnolog√≠as, m√©todos o resultados si la consulta lo solicita.

   - Generar un texto coherente y estructurado, por ejemplo:

       Introducci√≥n breve.

       Comparaci√≥n de caracter√≠sticas, ventajas y desventajas.

       Conclusi√≥n resumida.

In [None]:
# Implementaci√≥n del Generator (versi√≥n simplificada sin LLM)
class ComparativeGenerator:
    """
    Generador que crea an√°lisis comparativos mostrando documentos recuperados
    """
    
    def generate_summary(self, query, retrieved_docs):
        """Genera un resumen mostrando los documentos recuperados"""
        output = f"\n{'='*80}\n"
        output += f"RESUMEN SOBRE: {query}\n"
        output += f"{'='*80}\n\n"
        
        for i, doc_result in enumerate(retrieved_docs, 1):
            doc = doc_result['document']
            output += f"üìÑ DOCUMENTO {i}: {doc['source'].upper()}\n"
            output += f"üìä Similitud: {doc_result['similarity_score']:.4f}\n"
            output += f"{'‚îÄ'*80}\n"
            output += f"{doc['content']}\n"
            output += f"{'‚îÄ'*80}\n\n"
        
        return output
    
    def generate_comparison(self, query, comparison_docs):
        """Genera una comparaci√≥n mostrando documentos por tecnolog√≠a"""
        output = f"\n{'='*80}\n"
        output += f"COMPARACI√ìN: {query}\n"
        output += f"{'='*80}\n\n"
        
        for tech, docs in comparison_docs.items():
            output += f"üî¨ TECNOLOG√çA: {tech.upper()}\n"
            output += f"{'='*80}\n"
            
            for i, doc_result in enumerate(docs, 1):
                doc = doc_result['document']
                output += f"\nüìÑ Documento {i}: {doc['source']}\n"
                output += f"üìä Similitud: {doc_result['similarity_score']:.4f}\n"
                output += f"{'‚îÄ'*80}\n"
                output += f"{doc['content']}\n"
                output += f"{'‚îÄ'*80}\n"
            
            output += "\n"
        
        return output

# Crear instancia del generador
generator = ComparativeGenerator()
print("‚úÖ Generator creado e inicializado (versi√≥n simplificada sin LLM)")

In [None]:
# Sistema RAG completo
def rag_system(query, comparison_mode=False, technologies=None, top_k=3):
    """
    Sistema RAG completo: Retrieval + Generation (versi√≥n simplificada)
    """
    print(f"\n{'='*80}")
    print(f"üìù CONSULTA: {query}")
    print('='*80)
    
    if comparison_mode and technologies:
        print(f"üîç Modo: COMPARACI√ìN entre {' vs '.join(technologies)}")
        print("\nRecuperando documentos relevantes...")
        
        retrieved = retriever.retrieve_for_comparison(query, technologies, top_k=top_k)
        
        print("\nüìÑ Documentos recuperados por tecnolog√≠a:")
        for tech, docs in retrieved.items():
            print(f"\n  {tech.upper()}:")
            for i, doc_result in enumerate(docs, 1):
                print(f"    {i}. {doc_result['document']['source']} (similitud: {doc_result['similarity_score']:.4f})")
        
        print("\nüìù Generando an√°lisis comparativo...")
        response = generator.generate_comparison(query, retrieved)
        
    else:
        print(f"üîç Modo: RESUMEN GENERAL")
        print("\nRecuperando documentos relevantes...")
        
        retrieved = retriever.retrieve(query, top_k=top_k)
        
        print("\nüìÑ Documentos recuperados:")
        for i, doc_result in enumerate(retrieved, 1):
            print(f"  {i}. {doc_result['document']['source']} (similitud: {doc_result['similarity_score']:.4f})")
        
        print("\nüìù Generando resumen...")
        response = generator.generate_summary(query, retrieved)
    
    print('='*80)
    return response

print("‚úÖ Sistema RAG completo configurado y listo para usar")

4. Consultas de prueba

- ‚ÄúComparar eficiencia entre c√©lulas solares de perovskita y de silicio.‚Äù

- ‚ÄúVentajas y desventajas del almacenamiento en bater√≠as vs. hidr√≥geno.‚Äù

- ‚Äú√öltimas innovaciones en energ√≠a e√≥lica frente a energ√≠a solar.‚Äù

In [None]:
# CONSULTA 1: Comparar eficiencia entre c√©lulas solares de perovskita y de silicio

query1 = "Comparar eficiencia entre c√©lulas solares de perovskita y de silicio"
response1 = rag_system(
    query=query1,
    comparison_mode=True,
    technologies=["perovskita", "silicio"],
    top_k=2
)

print("\nüìä RESPUESTA GENERADA:\n")
print(response1)
print("\n" + "="*80)

In [None]:
# CONSULTA 2: Ventajas y desventajas del almacenamiento en bater√≠as vs. hidr√≥geno

query2 = "Ventajas y desventajas del almacenamiento en bater√≠as vs. hidr√≥geno"
response2 = rag_system(
    query=query2,
    comparison_mode=True,
    technologies=["bater√≠as", "hidr√≥geno"],
    top_k=2
)

print("\nüìä RESPUESTA GENERADA:\n")
print(response2)
print("\n" + "="*80)

In [None]:
# CONSULTA 3: √öltimas innovaciones en energ√≠a e√≥lica frente a energ√≠a solar

query3 = "√öltimas innovaciones en energ√≠a e√≥lica frente a energ√≠a solar"
response3 = rag_system(
    query=query3,
    comparison_mode=True,
    technologies=["e√≥lica", "solar"],
    top_k=2
)

print("\nüìä RESPUESTA GENERADA:\n")
print(response3)
print("\n" + "="*80)

## Prueba adicional: Consulta sin modo comparaci√≥n

Vamos a probar tambi√©n el sistema con una consulta simple (sin comparaci√≥n) para ver c√≥mo funciona el modo de resumen general.

In [None]:
# CONSULTA ADICIONAL: An√°lisis general sobre almacenamiento de energ√≠a

query_extra = "¬øCu√°les son los principales desaf√≠os del almacenamiento de energ√≠a renovable?"
response_extra = rag_system(
    query=query_extra,
    comparison_mode=False,
    top_k=3
)

print("\nüìä RESPUESTA GENERADA:\n")
print(response_extra)
print("\n" + "="*80)