<em style="text-align:center">Copyright Iván Pinar Domínguez</em>

## Importar librerías

In [107]:
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.document_loaders import TextLoader

### Carga de documento y split

In [96]:
# Cargar el documento
loader = TextLoader('Fuentes datos/Historia España.txt', encoding="utf8")
documents = loader.load()

In [97]:
# Dividir en chunks
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(chunk_size=500) #Otro método de split basándose en tokens
docs = text_splitter.split_documents(documents)

Created a chunk of size 506, which is longer than the specified 500
Created a chunk of size 1009, which is longer than the specified 500
Created a chunk of size 2228, which is longer than the specified 500


### Conectar a OpenAI para los embeddings

In [108]:
f = open('../OpenAI_key.txt')
api_key = f.read()

In [109]:
funcion_embedding = OpenAIEmbeddings(openai_api_key=api_key)

# Alternativa con SKLearn Vector Store

In [100]:
from langchain_community.vectorstores import SKLearnVectorStore #pip install scikit-learn / pip install pandas pyarrow

In [101]:
persist_path="./ejemplosk_embedding_db"  #ruta donde se guardará la BBDD vectorizada

#Creamos la BBDD de vectores a partir de los documentos y la función embeddings
vector_store = SKLearnVectorStore.from_documents(
    documents=docs,
    embedding=funcion_embedding,
    persist_path=persist_path,
    serializer="parquet", #el serializador o formato de la BD lo definimos como parquet
)

In [102]:
# Fuerza a guardar los nuevos embeddings en el disco
vector_store.persist()

In [103]:
#Creamos un nuevo documento que será nuestra "consulta" para buscar el de mayor similitud en nuestra Base de Datos de Vectores y devolverlo
consulta = "dame información de la Primera Guerra Mundial"
docs = vector_store.similarity_search(consulta)
print(docs[0].page_content)

Primera Guerra Mundial
Artículos principales: España en la Primera Guerra Mundial y Economía de España durante la Primera Guerra Mundial.
La neutralidad de España en la Primera Guerra Mundial le permitió convertirse en un proveedor de material para los contendientes, lo que provocó una burbuja económica durante los años de la contienda. La Guerra del Rif, el brote de la gripe de 1918 en España y en otros lugares, junto con una desaceleración económica importante en el período de posguerra, llegó a España particularmente difícil, y el país entró en crisis. Como intento por superar dicha situación, el rey Alfonso XIII decidió apoyar a la dictadura del general Miguel Primo de Rivera.

Crisis de la Restauración
Artículos principales: Crisis de la Restauración, Crisis española de 1917 y Trienio Bolchevique.
A partir de 1917, se constata una descomposición interna del régimen político canovista de la restauración, caracterizado por la atomización en bandos personalista de los partidos políti

## Cargar la BD de vectores (uso posterior una vez tenemos creada ya la BD)

In [110]:
vector_store_connection = SKLearnVectorStore(
    embedding=funcion_embedding, persist_path=persist_path, serializer="parquet"
)
print("Una instancia de la BBDD de vectores se ha cargado desde ", persist_path)

Una instancia de la BBDD de vectores se ha cargado desde  ./ejemplosk_embedding_db


In [111]:
vector_store_connection

<langchain_community.vectorstores.sklearn.SKLearnVectorStore at 0x15ca1cc7910>

In [116]:
nueva_consulta = "¿Qué paso en el siglo de Oro?"

In [117]:
docs = vector_store_connection.similarity_search(nueva_consulta)
print(docs[0].page_content)

El área de influencia de España se expandió, constituyéndose en la mayor potencia económica del mundo durante el siglo xvi, el comercio floreció a través del Atlántico entre la península ibérica y las Américas, y en el Pacífico desde Asia del Este y las Filipinas hasta México, y en el aspecto militar, durante varios siglos el Imperio español dominaría los mares y océanos con la armada y los campos de batallas con la infantería de los tercios. Aunque a partir del siglo xvii su poder e influencia en el centro de Europa e Italia se vio ampliamente contestado.

Durante su apogeo económico, el imperio tuvo gran prestigio cultural e influencia militar. Muchas cosas que provenían de España eran a menudo imitadas. Las expresiones artísticas más cultivadas en España fueron la literatura, las artes plásticas, la música y la arquitectura, mientras el saber se acumulaba y se enseñaba desde prestigiosas universidades como las de Salamanca o Alcalá de Henares. Sin embargo, a diferencia de lo que pas

# Alternativa con ChromaDB

In [None]:
import chromadb #pip install chromadb en una terminal
from langchain_chroma import Chroma #pip install langchain_chroma en una terminal

In [45]:
# Cargar en ChromaDB
#db = Chroma.from_documents(docs, funcion_embedding,collection_name="langchain",persist_directory='./ejemplo_embedding_db')
#Se crean en el directorio persistente la carpeta con los vectores y otra con las string, aparte de una carpeta "index" que mapea vectores y strings

In [39]:
# Fuerzar a guardar los nuevos embeddings en el disco
db.persist()

### Cargar los Embeddings desde el disco creando la conexión a ChromaDB

In [54]:
db_connection = Chroma(persist_directory='./ejemplo_embedding_db/',embedding_function=funcion_embedding)

In [55]:
#Creamos un nuevo documento para buscar el de mayor similitud en nuestra Base de Datos de Vectores y devolverlo
nuevo_documento = "What did FDR say about the cost of food law?"

In [56]:
docs = db_connection.similarity_search(nuevo_documento)

In [43]:
#print(docs[0].page_content) #El primer elemento es el de mayor similitud, por defecto se devuelven hasta 4 vectores (k=4)

## Añadir nueva información a la BD de vectores

In [44]:
# Cargar documento y dividirlo
loader = TextLoader('Fuentes datos/Nuevo_documento.txt', encoding="utf8")
documents = loader.load()

In [45]:
text_splitter = CharacterTextSplitter.from_tiktoken_encoder(chunk_size=500)
docs = text_splitter.split_documents(documents)

Created a chunk of size 611, which is longer than the specified 500
Created a chunk of size 539, which is longer than the specified 500
Created a chunk of size 686, which is longer than the specified 500


In [47]:
# Cargar en Chroma
db = Chroma.from_documents(docs, embedding_function,persist_directory='./ejemplo_embedding_db')

In [48]:
docs = db.similarity_search('insertar_nueva_búsqueda')

In [44]:
#docs[0].page_content