#### Documents Loaders

In [None]:
from langchain_community.document_loaders import PyPDFLoader
loader = PyPDFLoader("ES Resume Alejandro Muñoz.pdf")
pages = loader.load()

for i, page in enumerate(pages):
    print(f"=== Pagina {i+1} ===")
    print(f"Contenido: {page.page_content}")
    print(f"Metadatos: {page.metadata}")

In [9]:
from langchain_community.document_loaders import WebBaseLoader

loader = WebBaseLoader("https://techmind.ac/")
docs = loader.load()
print(docs)

[Document(metadata={'source': 'https://techmind.ac/', 'title': 'TechMind Academy - Cursos IA Generativa, Hacking Ético y Ciberseguridad | Santiago Hernández', 'description': 'Cursos especializados en IA Generativa, ChatGPT, LLMs, n8n, Hacking Ético y Ciberseguridad. 140k+ estudiantes. Aprende Inteligencia Artificial, automatización con IA, ciberseguridad y hacking ético con Santiago Hernández en TechMind Academy.', 'language': 'es'}, page_content='\n\n\n\n\nTechMind Academy - Cursos IA Generativa, Hacking Ético y Ciberseguridad | Santiago Hernández\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n')]


In [1]:
from langchain_community.document_loaders import GoogleDriveLoader

credentials_path = './credentials.json'
token_path = './token.json'

loader = GoogleDriveLoader(
    folder_id = "1lb1eOoS7l2ZaAISws6kMuSIey7BrAUgL",
    credentials_path=credentials_path,
    token_path=token_path,
    recursive=True
)

documents = loader.load()
print(f"Metadatos {documents[4].metadata}")
print(f"Contenido: {documents[4].page_content}")

  loader = GoogleDriveLoader(


Metadatos {'source': 'https://drive.google.com/file/d/1hl9L8D4vUu-5oTN4oXWfkcCWVCf1L2bt/view', 'title': 'CONTRATO DE ARRENDAMIENTO DE PLAZA DE GARAJE.pdf', 'page': 1}
Contenido: Cuarta. Renta y forma de pago  
1. LA ARRENDATARIA abonará a EL ARRENDADOR una renta de CIENTO VEINTE EUROS 
(120,00  €) mensuales.  
2. El pago se realizará por adelantado dentro de los cinco (5) primeros días  de cada mes 
mediante transferencia bancaria a la cuenta IBAN  ES75  0182  6200  8201  2345  6789 , o a 
la que EL ARRENDADOR designe por escrito.  
3. La renta se actualizará anualmente conforme al porcentaje de variación del Índice de 
Precios al Consumo (IPC) General  publicado por el INE para los doce meses 
inmediatamente anteriores, aplicándose la primera actualización a partir del 1 de julio 
de 2026 . 
Quinta. Fianza y garantía adicional  
1. En este acto, LA ARRENDATARIA entrega a EL ARRENDADOR la cantidad de 
DOSCIENTOS CUARENTA EUROS (240,00  €), equivalente a dos mensualidades de 
renta , en

#### TextSplitters

In [None]:
from langchain_community.document_loaders import PyPDFLoader
from langchain_openai import ChatOpenAI
from langchain_text_splitters import RecursiveCharacterTextSplitter

# 1. Cargar el documento PDF
loader = PyPDFLoader('./quijote.pdf')
pages = loader.load()

# Dividir el texto en chunks
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=3000,
    chunk_overlap=200 # Solapamiento de 200 caracteres
)



chunks = text_splitter.split_documents(pages)

# 3. Pasar a un llm
llm = ChatOpenAI(model="gpt-4o-mini", temperature=0.2)
summaries = []

i = 0
for chunk in chunks:
    if i > 5:
        break
    response = llm.invoke(f'Haz un resumen de los puntos más importantes del siguiente texto {chunk.page_content}')
    summaries.append(response.content)
    i += 1

final_summary = llm.invoke(f"Combina y sintetiza estos resumenes en un resumen coherente y completo {" ".join(summaries)}")
print(final_summary.content)

"El ingenioso hidalgo Don Quijote de la Mancha" es una obra maestra de Miguel de Cervantes que narra las aventuras de Alonso Quijano, un noble que, tras leer numerosas novelas de caballería, decide convertirse en caballero andante bajo el nombre de Don Quijote. Acompañado de su fiel escudero, Sancho Panza, se embarca en una serie de peripecias donde confunde la realidad con la fantasía, enfrentándose a molinos de viento que cree son gigantes y defendiendo a los desvalidos.

La obra explora varios temas fundamentales, como la locura de Don Quijote, cuya obsesión por las novelas de caballería lo lleva a perder el sentido de la realidad. La relación entre Don Quijote y Sancho Panza, que contrasta el idealismo del caballero con el pragmatismo del escudero, enriquece la narrativa y añade un tono humorístico y trágico. Cervantes también utiliza la figura de Don Quijote para criticar la sociedad de su tiempo, cuestionando las instituciones y los valores de la época, y explorando la delgada lí

#### Embeddings

In [5]:
from langchain_openai import OpenAIEmbeddings
import numpy as np

embeddings = OpenAIEmbeddings(model="text-embedding-3-large")

texto1="La capital de Francia es París"
texto2 = "Paris es la ciudad capital de Francia"

vec1 = embeddings.embed_query(texto1)
vec2 = embeddings.embed_query(texto2)

print(f"Dimensión de los vectores {len(vec1)}")

cos_sim = np.dot(vec1, vec2) / (np.linalg.norm(vec1)* np.linalg.norm(vec2))

print(f"Similitud coseno entre vec1 y vec2: {cos_sim:.3f}")

Dimensión de los vectores 3072
Similitud coseno entre vec1 y vec2: 0.818


### Bases de datos Vectoriales

#### MultiQueryRetriever

El MultiQueryRetriever aborda las limitaciones de la búsqueda por similitud basada en distancia generando múltiples "perspectivas" alternativas de tu consulta original. En lugar de hacer una sola búsqueda, utiliza un LLM para crear varias versiones de la misma pregunta y luego combina los resultados.

- Cuando tu consulta original puede ser interpretada de múltiples formas
- Para mejorar la diversidad de resultados recuperados
- En casos donde la consulta inicial podría no capturar todos los aspectos relevantes

In [None]:
# MultiQueryRetriever
from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_openai import ChatOpenAI
 

# Configurar el retriever
llm = ChatOpenAI(temperature=0)
multi_query_retriever = MultiQueryRetriever.from_llm(
    retriever=vector_store.as_retriever(),
    llm=llm
)
 
# Una pregunta se convierte en múltiples perspectivas
results = multi_query_retriever.invoke("¿Cómo aprenden las redes neuronales?")

#### ContextualCompressionRetriever: El Filtro Inteligente

Uno de los desafíos con la recuperación es que normalmente no conoces las consultas específicas que enfrentará tu sistema de almacenamiento de documentos cuando ingieres datos al sistema. Esto significa que la información más relevante para una consulta puede estar enterrada en un documento con mucho texto irrelevante

- Reduce costos de llamadas a LLM al eliminar texto irrelevante
- Mejora la calidad de las respuestas al proporcionar contexto más preciso
- Permite pasar más documentos relevantes dentro del límite de tokens

In [None]:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor
 
# Crear compresor que extrae solo contenido relevante
compressor = LLMChainExtractor.from_llm(llm)
 
compression_retriever = ContextualCompressionRetriever(
    base_compressor=compressor,
    base_retriever=vector_store.as_retriever()
)
 
# Solo obtener las partes relevantes
compressed_results = compression_retriever.invoke(
    "Explica el algoritmo de retropropagación"
)

##### Pipeline avanzado

In [None]:
from langchain.retrievers.document_compressors import DocumentCompressorPipeline
from langchain_community.document_transformers import EmbeddingsRedundantFilter
from langchain_text_splitters import CharacterTextSplitter
 
# Pipeline: dividir -> filtrar redundantes -> comprimir por relevancia
splitter = CharacterTextSplitter(chunk_size=300, chunk_overlap=0, separator=".")
redundant_filter = EmbeddingsRedundantFilter(embeddings=embeddings)
relevant_filter = LLMChainExtractor.from_llm(llm)
 
pipeline_compressor = DocumentCompressorPipeline(
    transformers=[splitter, redundant_filter, relevant_filter]
)

#### EnsembleRetriever

El EnsembleRetriever soporta la combinación de resultados de múltiples retrievers. Los EnsembleRetrievers reordenan los resultados de los retrievers constituyentes basándose en el algoritmo de Fusión de Ranking Recíproco.

Casos de uso ideales
- Búsquedas que requieren tanto precisión léxica como semántica
- Documentos técnicos con terminología específica
- Sistemas de búsqueda empresarial

In [None]:
from langchain.retrievers import EnsembleRetriever
from langchain_community.retrievers import BM25Retriever
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
 
# Crear retriever BM25 (búsqueda por palabras clave)
bm25_retriever = BM25Retriever.from_documents(documents)
bm25_retriever.k = 5
 
# Crear retriever vectorial (búsqueda semántica)
embedding = OpenAIEmbeddings()
vectorstore = FAISS.from_documents(documents, embedding)
vector_retriever = vectorstore.as_retriever(search_kwargs={"k": 5})
 
# Combinar ambos con pesos
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, vector_retriever],
    weights=[0.3, 0.7]  # 30% BM25, 70% vectorial
)

#### ParentDocumentRetriever

El equilibrio perfecto

El ParentDocumentRetriever logra ese equilibrio dividiendo y almacenando pequeños trozos de datos. Durante la recuperación, primero obtiene los trozos pequeños pero luego busca los IDs padre de esos trozos y devuelve esos documentos más grandes.

- Embeddings precisos: Los chunks pequeños crean embeddings más representativos
- Contexto completo: Devuelve documentos padre con contexto suficiente
- Flexibilidad: Puedes ajustar el tamaño de chunks padre e hijo independientemente

In [None]:
from langchain.retrievers import ParentDocumentRetriever
from langchain.storage import InMemoryStore
from langchain_community.vectorstores import Chroma
from langchain_text_splitters import RecursiveCharacterTextSplitter
 
# Splitter para documentos padre (chunks grandes)
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=2000)
 
# Splitter para documentos hijo (chunks pequeños para embedding)
child_splitter = RecursiveCharacterTextSplitter(chunk_size=400)
 
# Vector store para los chunks pequeños
vectorstore = Chroma(
    collection_name="parent_docs",
    embedding_function=OpenAIEmbeddings()
)
 
# Almacenamiento para documentos padre
store = InMemoryStore()
 
retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
    parent_splitter=parent_splitter,
)
 
# Agregar documentos
retriever.add_documents(documents)

#### SelfQueryRetriever: Búsqueda Estructurada Inteligente

SelfQueryRetriever utilizará un LLM para generar una consulta que es potencialmente estructurada, por ejemplo, puede construir filtros para la recuperación además de la selección habitual dirigida por similitud semántica.

Casos de uso
- Bases de datos con metadatos ricos
- Consultas que combinan contenido y filtros
- Sistemas que requieren búsqueda estructurada automática

In [None]:
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
 
# Definir metadatos de los documentos
metadata_field_info = [
    AttributeInfo(
        name="genre",
        description="El género de la película",
        type="string"
    ),
    AttributeInfo(
        name="year",
        description="El año de lanzamiento de la película",
        type="integer"
    ),
    AttributeInfo(
        name="rating",
        description="La calificación de la película (1-10)",
        type="float"
    ),
]
 
document_content_description = "Breve resumen de una película"
 
retriever = SelfQueryRetriever.from_llm(
    llm=ChatOpenAI(temperature=0),
    vectorstore=vectorstore,
    document_content_description=document_content_description,
    metadata_field_info=metadata_field_info,
)
 
# Consulta que se convertirá en filtros estructurados
results = retriever.invoke("películas de ciencia ficción de después de 2010 con calificación alta")

#### TimeWeightedVectorStoreRetriever: Memoria que Desvanece

Para información sensible al tiempo

Este retriever asigna mayor importancia a documentos más recientes, simulando cómo funciona la memoria humana.

In [None]:
from langchain.retrievers import TimeWeightedVectorStoreRetriever
from datetime import datetime, timedelta
 
tw_retriever = TimeWeightedVectorStoreRetriever(
    vectorstore=vectorstore,
    decay_rate=0.999,  # Qué tan rápido "olvida" documentos antiguos
    k=5
)
 
# Los documentos más antiguos tendrán menos peso
yesterday = datetime.now() - timedelta(days=1)
tw_retriever.add_documents([Document(page_content="Noticia vieja")], timestamps=[yesterday])
tw_retriever.add_documents([Document(page_content="Noticia nueva")])


### Técnicas Avanzadas y Combinaciones

#### Retrieval con Reranking

In [None]:
from langchain.retrievers.document_compressors import CohereRerank
 
# Primer pase: recuperar muchos documentos
base_retriever = vectorstore.as_retriever(search_kwargs={"k": 20})
 
# Segundo pase: reordenar con Cohere
reranker = CohereRerank(
    model="rerank-multilingual-v2.0",
    top_n=5
)
 
compression_retriever = ContextualCompressionRetriever(
    base_compressor=reranker,
    base_retriever=base_retriever
)

#### Retrieval MMR (Maximum Marginal Relevance)

In [None]:
# Balancear relevancia con diversidad
mmr_retriever = vectorstore.as_retriever(
    search_type="mmr",
    search_kwargs={
        "k": 10,
        "lambda_mult": 0.7  # Balance entre relevancia (1.0) y diversidad (0.0)
    }
)
