In [1]:
# ===========================
# Importación de librerías
# ===========================
import fitz  # Para manipular archivos PDF
from pinecone import Pinecone, ServerlessSpec  # Para gestión de vectores en Pinecone
from openai import OpenAI  # Cliente OpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter  # Para dividir texto en chunks
from langchain.docstore.document import Document  # Para manejar documentos
from pdfminer.high_level import extract_text  # Para extraer texto de PDFs
from sentence_transformers import SentenceTransformer  # Para obtener embeddings con modelos locales

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# ===========================
# Configuración y claves API
# ===========================
PINECONE_API_KEY = ""
PINECONE_ENV = "gcp-starter"
OPENAI_API_KEY = ""
GROQ_API_KEY =""

In [3]:
# ===========================
# Inicialización de clientes
# ===========================

# Cliente OpenAI para llamadas API
client = OpenAI(api_key=OPENAI_API_KEY)

# Cliente Pinecone para gestión de vectores
pc = Pinecone(api_key=PINECONE_API_KEY)

# CV LARA 

In [4]:
PINECONE_INDEX = "cv-lara-index"

In [5]:
# ===========================
# Configuración del índice en Pinecone
# ===========================

# Verificar si el índice existe; si no, crearlo
if PINECONE_INDEX not in pc.list_indexes().names():
    pc.create_index(
        name=PINECONE_INDEX,
        dimension=384,  # Dimensión de los vectores (se define por el modelo utilizado para generar embeddings)
        metric='euclidean',  # Métrica para comparación
        spec=ServerlessSpec(
            cloud='aws',  
            region='us-east-1'  
        )
    )

# Conectar al índice
index = pc.Index(PINECONE_INDEX)

In [6]:
# ===========================
# Función para extraer texto de PDF usando 'fitz'
# ===========================
def extract_text_from_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    text = ""
    for page in doc:
        text += page.get_text()
    return text.strip()


In [7]:
# ===========================
# Función para obtener embeddings usando OpenAI
# ===========================
def get_embedding(texto):
    response = client.embeddings.create(
        input=[texto],
        model="text-embedding-3-small"  # Modelo de embedding (puede variar)
    )
    return response.data[0].embedding

In [8]:
# ===========================
# Función para cargar y extraer texto de PDF con 'pdfminer'
# ===========================
def extract_text_from_pdf(file_path):
    return extract_text(file_path)

In [9]:
# ===========================
# Función para crear un objeto Document de LangChain
# ===========================
def create_document(text, metadata=None):
    if metadata is None:
        metadata = {}
    return Document(page_content=text, metadata=metadata)

In [10]:
# ===========================
# Función para dividir texto en chunks
# ===========================
def chunk_text(document, chunk_size=1000, chunk_overlap=200):
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    return splitter.split_documents([document])


In [13]:
# ===========================
# Uso del proceso completo
# ===========================
pdf_path = "CV LARA ROSENBERG.pdf"

# Extraer todo el texto del PDF
full_text = extract_text_from_pdf(pdf_path)

# Crear un objeto Document con el texto completo y metadata
doc = create_document(full_text, metadata={"source": pdf_path})

# Dividir el texto en chunks 
chunks = chunk_text(doc)

# Mostrar algunos ejemplos de los chunks generados
for i, chunk in enumerate(chunks):
    print(f"\n--- Chunk {i+1} ---")
    print(chunk.page_content[:100])  # Muestra los primeros 100 caracteres del chunk


--- Chunk 1 ---
DATOS PERSONALES 
Lara Rosenberg  
Buenos Aires, Argentina  
Email: lararosenberg21@gmail.com  
Telé

--- Chunk 2 ---
Credit Risk Modeling Sr Analyst (Marzo 2023 - Marzo 2024)   
- Desarrollo de modelos de score de rie

--- Chunk 3 ---
BANCO PATAGONIA  (Septiembre 2019 - Marzo 2020) 
Analista de Riesgos Financieros     
- Evaluación d

--- Chunk 4 ---
EDUCACIÓN: 
Posgrado en Inteligencia Artiﬁcial   
Universidad de Buenos Aires   
2024 - Actualidad  


In [14]:
# ===========================
# Obtenemos los embeddings con modelo local
# ===========================

# Cargar modelo de embeddings local
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')  

# Función para obtener embedding usando modelo local
def get_embedding(text):
    return embedding_model.encode(text).tolist()

# Crear lista de textos desde los chunks
text_chunks = [chunk.page_content for chunk in chunks]

# Crear vectores con embeddings y metadatos
vectors = []
for i, chunk in enumerate(text_chunks):
    vector = {
        "id": f"chunk-{i}",
        "values": get_embedding(chunk),
        "metadata": {
            "text": chunk
        }
    }
    vectors.append(vector)

In [15]:
# ===========================
# Se envian los embeddings a pinecone
# ===========================

index.upsert(vectors=vectors)
print(index.describe_index_stats())

{'dimension': 384,
 'index_fullness': 0.0,
 'metric': 'euclidean',
 'namespaces': {},
 'total_vector_count': 0,
 'vector_type': 'dense'}


# CV CLAUDIO 

In [16]:
PINECONE_INDEX = "cv-claudio-index"

In [17]:
# ===========================
# Configuración del índice en Pinecone
# ===========================

# Verificar si el índice existe; si no, crearlo
if PINECONE_INDEX not in pc.list_indexes().names():
    pc.create_index(
        name=PINECONE_INDEX,
        dimension=384,  # Dimensión de los vectores (se define por el modelo utilizado para generar embeddings)
        metric='euclidean',  # Métrica para comparación
        spec=ServerlessSpec(
            cloud='aws',  
            region='us-east-1'  
        )
    )

# Conectar al índice
index = pc.Index(PINECONE_INDEX)

In [18]:
# ===========================
# Función para extraer texto de PDF usando 'fitz'
# ===========================
def extract_text_from_pdf(pdf_path):
    doc = fitz.open(pdf_path)
    text = ""
    for page in doc:
        text += page.get_text()
    return text.strip()


In [19]:
# ===========================
# Función para obtener embeddings usando OpenAI
# ===========================
def get_embedding(texto):
    response = client.embeddings.create(
        input=[texto],
        model="text-embedding-3-small"  # Modelo de embedding (puede variar)
    )
    return response.data[0].embedding

In [20]:
# ===========================
# Función para cargar y extraer texto de PDF con 'pdfminer'
# ===========================
def extract_text_from_pdf(file_path):
    return extract_text(file_path)

In [21]:
# ===========================
# Función para crear un objeto Document de LangChain
# ===========================
def create_document(text, metadata=None):
    if metadata is None:
        metadata = {}
    return Document(page_content=text, metadata=metadata)

In [22]:
# ===========================
# Función para dividir texto en chunks
# ===========================
def chunk_text(document, chunk_size=1000, chunk_overlap=200):
    splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap
    )
    return splitter.split_documents([document])


In [23]:
# ===========================
# Uso del proceso completo
# ===========================

pdf_path = "Claudio Barril CV.pdf"

# Extraer todo el texto del PDF
full_text = extract_text_from_pdf(pdf_path)

# Crear un objeto Document con el texto completo y metadata
doc = create_document(full_text, metadata={"source": pdf_path})

# Dividir el texto en chunks 
chunks = chunk_text(doc)

# Mostrar algunos ejemplos de los chunks generados
for i, chunk in enumerate(chunks):
    print(f"\n--- Chunk {i+1} ---")
    print(chunk.page_content[:100])  # Muestra los primeros 100 caracteres del chunk


--- Chunk 1 ---
CLAUDIO BARRIL 

INGENIERO DE SOFTWARE 

Camargo 914, CABA, Argentina 

claudiobarril@gmail.com 

+5

--- Chunk 2 ---
■  Desarrollo de aplicaciones usando JavaScript, NodeJS, TypeScript y 

React. 

■  Experiencia en l

--- Chunk 3 ---
técnicas. 

●  Mercado Libre 

○  Marzo 2019-Marzo 2020 

○ 

Ingeniero de Software Senior 

■  Des

--- Chunk 4 ---
■  Estimación de esfuerzos y diseño técnico de soluciones. 
■ 

Instalación y mantenimiento de las i

--- Chunk 5 ---
HABILIDADES TÉCNICAS 

●  Lenguajes de Programación: Java, NodeJS, TypeScript, JavaScript, React, 




In [24]:
# ===========================
# Obtenemos los embeddings con modelo local
# ===========================

# Cargar modelo de embeddings local
embedding_model = SentenceTransformer('all-MiniLM-L6-v2')  

# Función para obtener embedding usando modelo local
def get_embedding(text):
    return embedding_model.encode(text).tolist()

# Crear lista de textos desde los chunks
text_chunks = [chunk.page_content for chunk in chunks]

# Crear vectores con embeddings y metadatos
vectors = []
for i, chunk in enumerate(text_chunks):
    vector = {
        "id": f"chunk-{i}",
        "values": get_embedding(chunk),
        "metadata": {
            "text": chunk
        }
    }
    vectors.append(vector)

In [25]:
# ===========================
# Se envian los embeddings a pinecone
# ===========================

index.upsert(vectors=vectors)
print(index.describe_index_stats())

{'dimension': 384,
 'index_fullness': 0.0,
 'metric': 'euclidean',
 'namespaces': {},
 'total_vector_count': 0,
 'vector_type': 'dense'}
