In [1]:
import os
import time
import numpy as np
from typing import List, Dict, Any, Tuple
from sentence_transformers import SentenceTransformer
import openai
from langchain.text_splitter import RecursiveCharacterTextSplitter
from pinecone import Pinecone, PodSpec


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
import pdfplumber

def extraer_texto_pdf(ruta_pdf):
    texto = ""
    with pdfplumber.open(ruta_pdf) as pdf:
        for pagina in pdf.pages:
            texto += pagina.extract_text() + "\n"
    return texto

# Ejemplo de uso
texto_cv = extraer_texto_pdf("cv_de_pedro_es.pdf")

In [3]:
texto_cv

'IGNACIO TOM√ÅS DE PEDRO MERMIER\nINFORMACI√ìN PERSONAL\nNombre: Ignacio Tom√°s de Pedro Mermier Nacionalidad: Argentina\nFecha de nacimiento: 14/01/1995 Edad: 29 a√±os\nCorreo electr√≥nico: idepedro@fi.uba.ar\nEXPERIENCIA LABORAL\n2023 - Actualidad ‚Äî Allegro Microsystems ‚Äî Analog Design Engineer\nDise√±o de circuitos anal√≥gicos a nivel de bloque y top para circuitos\nintegrados orientados a sensores magn√©ticos e inductivos. Verificaci√≥n por\nmedio de simulaciones por medio de herramientas espec√≠ficas tales como\nADE, SDE and AMS-DE. Desarrollo de scripts de python para analizar\nresultados y realizar verificaciones a nivel de wafer.\n2021 - 2023 ‚Äî Allegro Microsystems ‚Äî Layout Design Engineer\nResponsable del dise√±o, floorplaning e implementaci√≥n de layout de circuitos\nde se√±ales mixtas, dentro del sector dedicado a sensores magn√©ticos\n(MPSBU). Desarrollo de script para mejorar el funcionamiento del PDK.\n2018 - 2023 ‚Äî Facultad de Ingenier√≠a, Universidad de Buenos

In [4]:
import re
# Reemplazar los saltos de l√≠nea con un espacio
texto_cv_clean = texto_cv.replace('\n', ' ')
texto_cv_clean = texto_cv_clean.replace('\n\n', ' ')
texto_cv_clean = re.sub(r'\s+', ' ', texto_cv_clean).strip()
print(texto_cv_clean[:500])  # Mostrar los primeros 500 caracteres del CV limpio

IGNACIO TOM√ÅS DE PEDRO MERMIER INFORMACI√ìN PERSONAL Nombre: Ignacio Tom√°s de Pedro Mermier Nacionalidad: Argentina Fecha de nacimiento: 14/01/1995 Edad: 29 a√±os Correo electr√≥nico: idepedro@fi.uba.ar EXPERIENCIA LABORAL 2023 - Actualidad ‚Äî Allegro Microsystems ‚Äî Analog Design Engineer Dise√±o de circuitos anal√≥gicos a nivel de bloque y top para circuitos integrados orientados a sensores magn√©ticos e inductivos. Verificaci√≥n por medio de simulaciones por medio de herramientas espec√≠ficas tales com


In [5]:
# Configuraci√≥n
nombre_indice = "tp2-pln2"
PINECONE_ENVIRONMENT = "us-west1-gcp"
PINECONE_API_KEY = os.getenv("PINECONE_API_KEY")
GROQ_API_KEY = os.getenv("GROQ_API_KEY")


In [9]:

# ================================
# 1. CONFIGURACI√ìN INICIAL
# ================================

def configurar_pinecone():
    """
    Configura la conexi√≥n con Pinecone usando variables de entorno.
    
    Variables necesarias:
    - PINECONE_API_KEY: Tu clave API de Pinecone
    - PINECONE_ENVIRONMENT: El entorno de Pinecone (ej: 'us-west1-gcp')
    """
    
    # Obtener credenciales desde variables de entorno
    api_key = PINECONE_API_KEY
    environment = PINECONE_ENVIRONMENT
    
    if not api_key:
        raise ValueError("PINECONE_API_KEY no est√° configurada en las variables de entorno")
    
    # Inicializar Pinecone
    pc = Pinecone(api_key=api_key)
    
    print(f"‚úÖ Pinecone configurado correctamente en {environment}")
    return True

In [10]:
class GeneradorEmbeddings:
    """
    Clase para generar embeddings usando diferentes modelos.
    """
    
    def __init__(self, modelo: str = "sentence-transformers/all-MiniLM-L6-v2"):
        """
        Inicializa el generador de embeddings.
        
        Args:
            modelo (str): Nombre del modelo de Sentence Transformers
        """
        self.modelo_nombre = modelo
        self.modelo = SentenceTransformer(modelo)
        self.dimension = self.modelo.get_sentence_embedding_dimension()
        
        print(f"‚úÖ Modelo '{modelo}' cargado (dimensi√≥n: {self.dimension})")
    
    def generar_embedding(self, texto: str) -> List[float]:
        """
        Genera embedding para un texto individual.
        
        Args:
            texto (str): Texto a convertir en embedding
            
        Returns:
            List[float]: Vector de embedding
        """
        embedding = self.modelo.encode(texto)
        return embedding.tolist()
    
    def generar_embeddings_lote(self, textos: List[str]) -> List[List[float]]:
        """
        Genera embeddings para m√∫ltiples textos de manera eficiente.
        
        Args:
            textos (List[str]): Lista de textos
            
        Returns:
            List[List[float]]: Lista de vectores de embedding
        """
        embeddings = self.modelo.encode(textos)
        return [emb.tolist() for emb in embeddings]


In [11]:
def crear_indice(nombre_indice: str, dimension: int = 384, metrica: str = "cosine"):
    """
    Crea un nuevo √≠ndice en Pinecone.
    
    Args:
        nombre_indice (str): Nombre del √≠ndice a crear
        dimension (int): Dimensi√≥n de los vectores (depende del modelo de embedding)
        metrica (str): M√©trica de similitud ('cosine', 'euclidean', 'dotproduct')
    
    Configuraci√≥n de infraestructura:
        - Pods: Unidades de c√≥mputo paralelo que procesan las consultas
          ‚Ä¢ 1 pod = suficiente para desarrollo y proyectos peque√±os
          ‚Ä¢ M√°s pods = mayor capacidad de consultas simult√°neas pero mayor costo
        
        - R√©plicas: Copias id√©nticas del √≠ndice distribuidas geogr√°ficamente
          ‚Ä¢ 1 r√©plica = configuraci√≥n b√°sica
          ‚Ä¢ M√°s r√©plicas = mayor disponibilidad y tolerancia a fallos
        
        - Tipos de pod disponibles:
          ‚Ä¢ p1.x1: 1 vCPU, ~5GB RAM (plan gratuito/starter)
          ‚Ä¢ p1.x2: 2 vCPU, ~10GB RAM
          ‚Ä¢ p1.x4: 4 vCPU, ~20GB RAM
          ‚Ä¢ p2.x1: Optimizado para performance
    
    Returns:
        bool: True si se cre√≥ exitosamente
    """
    
    # # Verificar si el √≠ndice ya existe
    # indices_existentes = pinecone.list_indexes().names()
    
    # if nombre_indice in indices_existentes:
    #     print(f"‚ö†Ô∏è  El √≠ndice '{nombre_indice}' ya existe")
    #     return True
    

    pc = Pinecone(api_key=PINECONE_API_KEY)
   
        
    # Crear el √≠ndice
    if nombre_indice not in pc.list_indexes().names():
        
        pc.create_index(
            name=nombre_indice,
            dimension=dimension,
            metric=metrica,
            spec=ServerlessSpec(
                cloud='aws',
                region="us-east-1"
            )
            # pods=1,  # Pods: Unidades de c√≥mputo que procesan queries. M√°s pods = mayor throughput pero mayor costo
            # replicas=1,  # R√©plicas: Copias del √≠ndice para alta disponibilidad. M√°s r√©plicas = mayor disponibilidad
            # pod_type="p1.x1"  # Tipo de pod: p1.x1 (gratuito, 1 vCPU), p1.x2 (2 vCPU), p2.x1 (optimizado), etc.
        )
    
        
    else:
        print(f"‚ÑπÔ∏è  El √≠ndice '{nombre_indice}' ya existe, no se crear√° uno nuevo")
        return True
    
    # Esperar a que el √≠ndice est√© listo
    print(f"üîÑ Creando √≠ndice '{nombre_indice}'...")
    # while nombre_indice not in pinecone.list_indexes():
    #     time.sleep(1)
    
    print(f"‚úÖ √çndice '{nombre_indice}' creado exitosamente")
    return True


In [12]:
# ================================
# 3. POBLACI√ìN DEL √çNDICE
# ================================

def poblar_indice_ejemplo(nombre_indice: str, generador: GeneradorEmbeddings):
    """
    Puebla el √≠ndice con datos de ejemplo.
    
    Args:
        nombre_indice (str): Nombre del √≠ndice de Pinecone
        generador (GeneradorEmbeddings): Instancia del generador de embeddings
    """
    
    pc = Pinecone(api_key=PINECONE_API_KEY)
    
    # Conectar al √≠ndice
    indice = pc.Index(nombre_indice)
    
    # Generar los chunks del texto
    print("üîÑ Generando chunks del texto...")
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=360,chunk_overlap=20,
        length_function=len
    )
    chunks = text_splitter.create_documents([texto_cv_clean])
    
    print(f"üîÑ Poblando √≠ndice con {len(chunks)} chunks...")
    
    # Generar embeddings para todos los textos
    textos = [chunk.page_content for chunk in chunks]
    embeddings = generador.generar_embeddings_lote(textos)
    
    # Preparar datos para inserci√≥n en lotes
    vectors_para_insertar = []
    
    for i, doc in enumerate(textos):
        vector_data = {
            "id": str(i),
            "values": embeddings[i],
            "metadata": {
                "texto": str(doc),  # Aqu√≠ puedes agregar m√°s metadata si es necesario
                "categoria": "cv",  # Ejemplo de categor√≠a
            }
        }
        vectors_para_insertar.append(vector_data)
    
    # Insertar vectores en el √≠ndice
    indice.upsert(vectors=vectors_para_insertar)
    
    # Verificar estad√≠sticas del √≠ndice
    estadisticas = indice.describe_index_stats()
    print(f"‚úÖ √çndice poblado exitosamente")
    print(f"   üìä Total de vectores: {estadisticas['total_vector_count']}")
    print(f"   üìè Dimensi√≥n: {estadisticas['dimension']}")
    
    return True

In [13]:
# ================================
# 4. B√öSQUEDAS EN EL √çNDICE
# ================================

def buscar_documentos_similares(
    nombre_indice: str, 
    consulta: str, 
    generador: GeneradorEmbeddings,
    top_k: int = 3,
    filtro_metadata: Dict = None
) -> List[Dict[str, Any]]:
    """
    Realiza una b√∫squeda por similitud en el √≠ndice.
    
    Args:
        nombre_indice (str): Nombre del √≠ndice de Pinecone
        consulta (str): Texto de consulta para buscar
        generador (GeneradorEmbeddings): Generador de embeddings
        top_k (int): N√∫mero de resultados m√°s similares a devolver
        filtro_metadata (Dict): Filtros opcionales por metadata
        
    Returns:
        List[Dict]: Lista de documentos similares con scores
    """
    
    pc = Pinecone(api_key=PINECONE_API_KEY)
    
    # Conectar al √≠ndice
    indice = pc.Index(nombre_indice)
    
    # Generar embedding para la consulta
    print(f"üîç Buscando documentos similares a: '{consulta}'")
    embedding_consulta = generador.generar_embedding(consulta)
    
    # Realizar la b√∫squeda
    resultados = indice.query(
        vector=embedding_consulta,
        top_k=top_k,
        include_metadata=True,
        filter=filtro_metadata
    )
    
    # Procesar y formatear resultados
    documentos_encontrados = []
    
    print(f"\nüìã Resultados encontrados ({len(resultados['matches'])}):")
    print("=" * 80)
    
    for i, match in enumerate(resultados['matches'], 1):
        documento = {
            "posicion": i,
            "id": match["id"],
            "score": round(match["score"], 4),
            "texto": match["metadata"]["texto"],
        }
        
        documentos_encontrados.append(documento)
        
        # Mostrar resultado formateado
        print(f"{i}. ID: {documento['id']}")
        print(f"   üìä Score: {documento['score']}")
        print(f"   üìù Texto: {documento['texto'][:100]}...")
        print("-" * 80)
    
    return documentos_encontrados



In [14]:
# ================================
# 5. GESTI√ìN DEL √çNDICE
# ================================

def obtener_estadisticas_indice(nombre_indice: str):
    """
    Muestra estad√≠sticas detalladas del √≠ndice.
    
    Args:
        nombre_indice (str): Nombre del √≠ndice
    """
    
    pc = Pinecone(api_key=PINECONE_API_KEY)
    
    # Conectar al √≠ndice
    indice = pc.Index(nombre_indice)
    estadisticas = indice.describe_index_stats()
    
    print(f"\nüìä ESTAD√çSTICAS DEL √çNDICE '{nombre_indice}'")
    print("=" * 50)
    print(f"üì¶ Total de vectores: {estadisticas.get('total_vector_count', 0)}")
    print(f"üìè Dimensi√≥n: {estadisticas.get('dimension', 0)}")
    
    # Mostrar estad√≠sticas por namespace si existen
    if 'namespaces' in estadisticas:
        print(f"üè∑Ô∏è  Namespaces:")
        for namespace, stats in estadisticas['namespaces'].items():
            print(f"   - {namespace}: {stats.get('vector_count', 0)} vectores")

In [15]:
def buscar_con_filtros_ejemplo(nombre_indice: str, generador: GeneradorEmbeddings):
    """
    Demuestra b√∫squedas con filtros de metadata.
    
    Args:
        nombre_indice (str): Nombre del √≠ndice
        generador (GeneradorEmbeddings): Generador de embeddings
    """
    
    print("\nüîç EJEMPLO DE B√öSQUEDAS CON FILTROS")
    print("=" * 50)
    
    # B√∫squeda 1: Sin filtros
    print("\n1Ô∏è‚É£:")
    buscar_documentos_similares(
        nombre_indice, 
        "machine learning", 
        generador,
        top_k=3
    )
    
    # B√∫squeda 2: Con filtro por categor√≠a
    print("\n2Ô∏è‚É£:")
    buscar_documentos_similares(
        nombre_indice,
        "processamiento de datos",
        generador,
        top_k=2,
    )
    
    # B√∫squeda 3: Con filtro por fecha
    print("\n3Ô∏è‚É£:")
    buscar_documentos_similares(
        nombre_indice,
        "redes neuronales",
        generador,
        top_k=5,
    )


In [16]:
def limpiar_indice_completo(nombre_indice: str):
    """
    Elimina todos los vectores del √≠ndice.
    
    Args:
        nombre_indice (str): Nombre del √≠ndice a limpiar
    """
    
    pc = Pinecone(api_key=PINECONE_API_KEY)
    
    # Conectar al √≠ndice
    indice = pc.Index(nombre_indice)
    
    print(f"üßπ Limpiando √≠ndice '{nombre_indice}' completamente...")
    indice.delete(delete_all=True)
    
    print("‚úÖ √çndice limpiado exitosamente")


In [17]:
limpiar_indice_completo(nombre_indice)

üßπ Limpiando √≠ndice 'tp2-pln2' completamente...
‚úÖ √çndice limpiado exitosamente


In [19]:
"""
Ejecuta un ejemplo completo de uso de Pinecone:
1. Configuraci√≥n
2. Creaci√≥n del √≠ndice
3. Poblaci√≥n con datos
4. B√∫squedas de ejemplo
5. Limpieza (opcional)
"""

try:
    print("üöÄ INICIANDO EJEMPLO DE PINECONE")
    print("=" * 50)
    
    # 1. Configurar conexi√≥n
    configurar_pinecone()
    
    # 2. Inicializar generador de embeddings
    generador = GeneradorEmbeddings()
    
    # 3. Crear √≠ndice
    crear_indice(nombre_indice, dimension=generador.dimension)
    
    # 4. Poblar √≠ndice con datos de ejemplo
    poblar_indice_ejemplo(nombre_indice, generador)
    
    # 5. Mostrar estad√≠sticas
    obtener_estadisticas_indice(nombre_indice)
    
    # 6. Realizar b√∫squedas de ejemplo
    buscar_con_filtros_ejemplo(nombre_indice, generador)
    
    # 7. B√∫squeda personalizada
    print("\nüéØ B√öSQUEDA PERSONALIZADA")
    print("=" * 30)
    consulta_personalizada = "Nacionalidad"
    resultados = buscar_documentos_similares(
        nombre_indice, 
        consulta_personalizada, 
        generador,
        top_k=2
    )
    
    print(f"\n‚úÖ EJEMPLO COMPLETADO EXITOSAMENTE")
    print(f"üìÅ √çndice '{nombre_indice}' est√° listo para usar")
    
    # Opcional: Comentar la siguiente l√≠nea si quieres mantener el √≠ndice
    # eliminar_indice(nombre_indice)
    
except Exception as e:
    print(f"‚ùå Error durante la ejecuci√≥n: {str(e)}")
    raise


üöÄ INICIANDO EJEMPLO DE PINECONE
‚úÖ Pinecone configurado correctamente en us-west1-gcp
‚úÖ Modelo 'sentence-transformers/all-MiniLM-L6-v2' cargado (dimensi√≥n: 384)
‚ÑπÔ∏è  El √≠ndice 'tp2-pln2' ya existe, no se crear√° uno nuevo
üîÑ Generando chunks del texto...
üîÑ Poblando √≠ndice con 22 chunks...
‚úÖ √çndice poblado exitosamente
   üìä Total de vectores: 22
   üìè Dimensi√≥n: 384

üìä ESTAD√çSTICAS DEL √çNDICE 'tp2-pln2'
üì¶ Total de vectores: 22
üìè Dimensi√≥n: 384
üè∑Ô∏è  Namespaces:
   - : 22 vectores

üîç EJEMPLO DE B√öSQUEDAS CON FILTROS

1Ô∏è‚É£:
üîç Buscando documentos similares a: 'machine learning'

üìã Resultados encontrados (3):
1. ID: 11
   üìä Score: 0.3452
   üìù Texto: (EAMTA) - Machine Learning en VLSI - Presentador: Dr. Ing. Pedro Julian - Track b√°sico VLSI - 2017 -...
--------------------------------------------------------------------------------
2. ID: 5
   üìä Score: 0.2205
   üìù Texto: INASE, incluyendo manejo de FrontEnd, BackEnd y adminis

In [16]:
from langchain_pinecone import PineconeVectorStore  
from langchain_community.embeddings import HuggingFaceEmbeddings
pc = Pinecone(api_key=PINECONE_API_KEY)
    
# Conectar al √≠ndice
indice = pc.Index(nombre_indice)
embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
text_field = "texto"  
vectorstore = PineconeVectorStore(  
    indice, embeddings, text_field  
) 

  embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")


In [17]:
query = "Machine Learning y Deep Learning"  
vectorstore.similarity_search(  
    query,  # our search query  
    k=3  # return 3 most relevant docs  
)  

[Document(id='25', metadata={'categoria': 'cv'}, page_content='(EAMTA) - Machine Learning en VLSI - Presentador: Dr. Ing. Pedro Julian - Track b√°sico VLSI - 2017 - Presentador: Dr. Ing. Pedro Juli√°n - Dise√±o de circuitos integrados para aplicaciones implacables'),
 Document(id='24', metadata={'categoria': 'cv'}, page_content='Laboratorio de Control de Accionamientos, Tracci√≥n y Potencia FORMACI√ìN COMPLEMENTARIA Escuela Argentina de Micro y Nano Tecnolog√≠a y Aplicaciones (EAMTA) - Machine Learning en VLSI - Presentador:'),
 Document(id='16', metadata={'categoria': 'cv'}, page_content='Ingenier√≠a Universidad de Buenos Aires ‚Äî 2024 - Actualidad T√≠tulo: Master en Inteligencia Artificial Embebida. Facultad de Ingenier√≠a Universidad de Buenos Aires ‚Äî 2014 - 2019 T√≠tulo: Ingeniero')]

In [18]:
from groq import Groq           # Cliente oficial de Groq para acceso a LLMs
from langchain_groq import ChatGroq              # Integraci√≥n LangChain-Groq

model = "llama3-8b-8192"  # Modelo Groq seleccionado por el usuario
groq_chat = ChatGroq(
    groq_api_key=GROQ_API_KEY,     # Clave API para autenticaci√≥n
    model_name=model,              # Modelo seleccionado por el usuario
    temperature=0.7,               # Creatividad de las respuestas (0=determinista, 1=creativo)
    max_tokens=1000,               # M√°ximo n√∫mero de tokens en la respuesta
)

In [21]:
from langchain.chains import RetrievalQA  

query = "Todas las nacionalidades de Ignacio"


qa = RetrievalQA.from_chain_type(  
    llm=groq_chat,  
    chain_type="stuff",  
    retriever=vectorstore.as_retriever()  
)  

# qa_cv = RetrievalQA.from_chain_type(  
#     llm=groq_chat,  
#     chain_type="stuff",  
#     retriever=vectorstore_cv.as_retriever()  
# ) 
result = qa.invoke(query)

print(result['result'])

Seg√∫n la informaci√≥n proporcionada, Ignacio Tom√°s de Pedro Mermier tiene la nacionalidad Argentina.
