<em style="text-align:center">Copyright Iván Pinar Domínguez</em>

## 0. Importar librerías

In [1]:
from langchain.document_loaders import WikipediaLoader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import TextLoader
from langchain_community.vectorstores import SKLearnVectorStore

## 1. Carga de documentos

In [None]:
loader = WikipediaLoader(query='Lenguaje Python',lang="es")
documents = loader.load()

In [9]:
documents

[Document(metadata={'title': 'Python', 'summary': 'Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta parcialmente la orientación a objetos, programación imperativa y, en menor medida, programación funcional. Es un lenguaje interpretado, dinámico y multiplataforma.\nAdministrado por Python Software Foundation, posee una licencia de código abierto, denominada Python Software Foundation License.[3]\u200b Python se clasifica constantemente como uno de los lenguajes de programación más populares.[4]\u200b', 'source': 'https://es.wikipedia.org/wiki/Python'}, page_content="Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta parcialmente la orientación a objetos, programación imperativa y, en menor medida, 

In [10]:
len(documents)

24

## 2. Split de Documentos

In [11]:
# División en fragmentos
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(chunk_size=500)
docs = text_splitter.split_documents(documents)

Created a chunk of size 636, which is longer than the specified 500
Created a chunk of size 515, which is longer than the specified 500
Created a chunk of size 591, which is longer than the specified 500
Created a chunk of size 542, which is longer than the specified 500
Created a chunk of size 653, which is longer than the specified 500
Created a chunk of size 742, which is longer than the specified 500


In [14]:
len(docs)

57

## 3. Conectar a OpenAI para los embeddings

In [12]:
f = open('../OpenAI_key.txt')
api_key = f.read()
funcion_embedding = OpenAIEmbeddings(openai_api_key=api_key)

## 4. Incrustar documentos en BD Vectores

In [16]:
persist_path="./ejemplo_wiki_bd"  #ruta donde se guardará la BBDD vectorizada

#Creamos la BBDD de vectores a partir de los documentos y la función embeddings
vector_store = SKLearnVectorStore.from_documents(
    documents=docs,
    embedding=funcion_embedding,
    persist_path=persist_path,
    serializer="parquet", #el serializador o formato de la BD lo definimos como parquet
)

In [17]:
# Fuerza a guardar los nuevos embeddings en el disco
vector_store.persist()

## 5a. Consulta normal similitud coseno

In [28]:
#Creamos un nuevo documento que será nuestra "consulta" para buscar el de mayor similitud en nuestra Base de Datos de Vectores y devolverlo
consulta = "¿Por qué el lenguaje Python se llama así?"
docs = vector_store.similarity_search(consulta)
print(docs[0].page_content)

Python es un lenguaje de alto nivel de programación interpretado cuya filosofía hace hincapié en la legibilidad de su código. Se trata de un lenguaje de programación multiparadigma, ya que soporta parcialmente la orientación a objetos, programación imperativa y, en menor medida, programación funcional. Es un lenguaje interpretado, dinámico y multiplataforma.
Administrado por Python Software Foundation, posee una licencia de código abierto, denominada Python Software Foundation License.[3]​ Python se clasifica constantemente como uno de los lenguajes de programación más populares.[4]​


== Historia ==

Python fue creado a finales de los años ochenta por Guido van Rossum en Stichting Mathematisch Centrum (CWI),[5]​ en Países Bajos, como un sucesor del lenguaje de programación ABC, capaz de manejar excepciones e interactuar con el sistema operativo Amoeba.[6]​
El nombre del lenguaje proviene de la afición de su creador por los humoristas británicos Monty Python.[7]​
Guido van Rossum es el

## 5b. Consulta con compresión contextual usando LLMs

In [20]:
from langchain_openai import ChatOpenAI
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainExtractor

In [22]:
llm = ChatOpenAI(temperature=0,openai_api_key=api_key) #el parámetro temperatura define la aleatoriedad de las respuestas, temperatura = 0 significa el mínimo de aleatoriedad
compressor = LLMChainExtractor.from_llm(llm)

In [23]:
compression_retriever = ContextualCompressionRetriever(base_compressor=compressor, base_retriever=vector_store.as_retriever())

In [29]:
compressed_docs = compression_retriever.invoke("¿Por qué el lenguaje Python se llama así?")

In [30]:
compressed_docs[0].page_content

'El nombre del lenguaje proviene de la afición de su creador por los humoristas británicos Monty Python.'