In [1]:
import ollama
models = ["llama3", "gemma", "llama3-chatqa"]

In [2]:
model = models[1]

In [3]:
pregunta="¿Quién fue el primer ingeniero egresado de la UBA?"

In [4]:
response = ollama.chat(
    model=model,
    messages=[
        {
            "role": "user",
            "content": pregunta,
        },
    ],
)
print(response["message"]["content"])

El primer ingeniero egresado de la Universidad de Buenos Aires fue **Luis María Romero**. Graduó en 1918 en la Facultad de Ingenieriros.


### Mejoramos la respuesta usando RAG

In [5]:
import ollama
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter


In [6]:
#Load documents
loader = TextLoader("./textos/huergo.txt")
text_documents = loader.load()
print(text_documents)

[Document(page_content='El día de la Ingeniería Argentina se celebra el 6 de junio de todos los años.\nEl 6 de junio de 1870 egresó, del Departamento de Ciencias Exactas de la Universidad de Buenos Aires, el primer ingeniero civil de Argentina: Luis Augusto Huergo; lo acompañaron en esa primera promoción otros once egresados.1\u200b\nPor eso establecieron esta fecha como el “Día de la Ingeniería en Argentina”.\nDebe distinguirse del Día del Ingeniero que se celebra el 16 de junio, en conmemoración de la creación de la carrera de ingeniería, lo que se hizo tomando como base el Departamento de Ciencias Exactas en 1865 para mejorarla.2\u200b', metadata={'source': './textos/huergo.txt'})]


In [39]:
# Partimos el texto en trozos más pequeños
text_splitter = RecursiveCharacterTextSplitter(chunk_size=15000, chunk_overlap=1000)
documents = text_splitter.split_documents(text_documents)
print(documents)

[Document(page_content='El día de la Ingeniería Argentina se celebra el 6 de junio de todos los años.\nEl 6 de junio de 1870 egresó, del Departamento de Ciencias Exactas de la Universidad de Buenos Aires, el primer ingeniero civil de Argentina: Luis Augusto Huergo; lo acompañaron en esa primera promoción otros once egresados.1\u200b\nPor eso establecieron esta fecha como el “Día de la Ingeniería en Argentina”.\nDebe distinguirse del Día del Ingeniero que se celebra el 16 de junio, en conmemoración de la creación de la carrera de ingeniería, lo que se hizo tomando como base el Departamento de Ciencias Exactas en 1865 para mejorarla.2\u200b', metadata={'source': './textos/huergo.txt'})]


In [8]:
fullDocument = ''
for i, d in enumerate(documents):
   fullDocument = fullDocument+ d.page_content

print(fullDocument)

El día de la Ingeniería Argentina se celebra el 6 de junio de todos los años.
El 6 de junio de 1870 egresó, del Departamento de Ciencias Exactas de la Universidad de Buenos Aires, el primer ingeniero civil de Argentina: Luis Augusto Huergo; lo acompañaron en esa primera promoción otros once egresados.1​
Por eso establecieron esta fecha como el “Día de la Ingeniería en Argentina”.
Debe distinguirse del Día del Ingeniero que se celebra el 16 de junio, en conmemoración de la creación de la carrera de ingeniería, lo que se hizo tomando como base el Departamento de Ciencias Exactas en 1865 para mejorarla.2​


In [9]:
# generamos una repsuesta utilizando el archivo de texto como contexto

output = ollama.generate(
  model=model,
  prompt=f"Usando estos datos: {fullDocument}. Responde a esta pregunta: {pregunta}"
)

print(output['response'])

El primer ingeniero egresado de la UBA fue **Luis Augusto Huergo**.


# chroma: the AI-native open-source embedding database
![image.png](attachment:f1f4164e-2eb0-40fe-beb6-5f070171496a.png)

### Chroma DB es un almacén vectorial de código abierto que se utiliza para almacenar y recuperar incrustaciones vectoriales. Su uso principal es guardar incrustaciones junto con metadatos para que los utilicen posteriormente grandes modelos lingüísticos. Admite distintas opciones de almacenamiento, puede ser en memoria o en un archivo.
### Utiliza SQLite

In [10]:
##Utilizar solo si falla la siguiente celda:
%pip install --upgrade chromadb

Note: you may need to restart the kernel to use updated packages.


In [11]:
import chromadb
client = chromadb.Client()
collection = client.create_collection(name="docs-uba")

# store each document in a vector embedding database
for i, d in enumerate(documents):
  response = ollama.embeddings(model=model, prompt=d.page_content)
  embedding = response["embedding"]
  
  collection.add(
    ids=[str(i)],
    embeddings=[embedding],
    documents=[d.page_content]
  )

In [12]:
print(collection)

name='docs-uba' id=UUID('f23e69e7-5926-4644-a1c2-9f70c7d4bc55') metadata=None tenant='default_tenant' database='default_database'


In [13]:
# Hacemos un query a la base de datos vectorial, y recuperamos el documento más relavante
response = ollama.embeddings(
  prompt=pregunta,
  model=model
)
results = collection.query(
  query_embeddings=[response["embedding"]],
  n_results=1
)
print(results)

{'ids': [['0']], 'distances': [[56243.734375]], 'metadatas': [[None]], 'embeddings': None, 'documents': [['El día de la Ingeniería Argentina se celebra el 6 de junio de todos los años.\nEl 6 de junio de 1870 egresó, del Departamento de Ciencias Exactas de la Universidad de Buenos Aires, el primer ingeniero civil de Argentina: Luis Augusto Huergo; lo acompañaron en esa primera promoción otros once egresados.1\u200b\nPor eso establecieron esta fecha como el “Día de la Ingeniería en Argentina”.\nDebe distinguirse del Día del Ingeniero que se celebra el 16 de junio, en conmemoración de la creación de la carrera de ingeniería, lo que se hizo tomando como base el Departamento de Ciencias Exactas en 1865 para mejorarla.2\u200b']], 'uris': None, 'data': None}


In [14]:
data = results['documents'][0][0]
print(data)

El día de la Ingeniería Argentina se celebra el 6 de junio de todos los años.
El 6 de junio de 1870 egresó, del Departamento de Ciencias Exactas de la Universidad de Buenos Aires, el primer ingeniero civil de Argentina: Luis Augusto Huergo; lo acompañaron en esa primera promoción otros once egresados.1​
Por eso establecieron esta fecha como el “Día de la Ingeniería en Argentina”.
Debe distinguirse del Día del Ingeniero que se celebra el 16 de junio, en conmemoración de la creación de la carrera de ingeniería, lo que se hizo tomando como base el Departamento de Ciencias Exactas en 1865 para mejorarla.2​


In [15]:
# generamos una repsuesta utilizando el archivo de texto como contexto

output = ollama.generate(
  model=model,
  prompt=f"Usando estos datos: {data}. Responde a esta pregunta: {pregunta}"
)

print(output['response'])

El primer ingeniero egresado de la UBA fue **Luis Augusto Huergo**.


# pgvector
## Open-source vector similarity search for Postgres
![image.png](attachment:44309013-216f-4ebd-9034-98ac69e7efa8.png)

In [16]:
%pip install langchain_postgres

Note: you may need to restart the kernel to use updated packages.


In [17]:
import os
from langchain_community.embeddings import OllamaEmbeddings
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector
from dotenv import load_dotenv
from typing import List, Tuple
from langchain.docstore.document import Document

In [24]:
load_dotenv()

True

In [25]:
db_host=os.getenv('DB_HOST')
db_port=os.getenv('DB_PORT')
db_database=os.getenv('DB_DATABASE')
db_user=os.getenv('DB_USER')
db_password=os.getenv('DB_PASSWORD')

# Uses psycopg3!
connection = f"postgresql+psycopg://{db_user}:{db_password}@{db_host}:{db_port}/{db_database}"
print(f"Connecting to {connection}...")

collection_name = 'rag-tutorial'

Connecting to postgresql+psycopg://postgres:postgres@localhost:5432/postgres...


In [27]:
#Creamos la tabla
embeddings = OllamaEmbeddings(
    model=model
)

db = PGVector(
  embeddings=embeddings,
  collection_name=collection_name,
  connection=connection,
  use_jsonb=True,
)


In [28]:
print("Eliminar colecciones y remover tablas...")
db.delete_collection()
db.drop_tables()

print("Crear tablas y colecciones...")
db.create_tables_if_not_exists()
db.create_collection()

Delete colletion and drop tables...
Create tables abd collection...


In [29]:
#insertamos los documentos en la base de datos
db.add_documents(documents)

['8fffaf4f-d07e-43ca-b816-8fe1bedaa536']

In [42]:
#Cargamos otro documento
loader = TextLoader("./textos/cienciaDeDatos.txt")
text_documents_2 = loader.load()

# Partimos el texto en trozos más pequeños
documents2 = text_splitter.split_documents(text_documents_2)
print(documents2)

# insertamos un nuevo documento en la base de datos
db.add_documents(documents2)

[Document(page_content='La ciencia de datos es un campo académico interdisciplinario que utiliza estadística, computación científica, métodos, procesos, algoritmos y sistemas científicos para obtener (recolectar o extraer), tratar, analizar y presentar informes a partir de datos ruidosos, estructurados y no estructurados.\nLa ciencia de datos es multifacética y puede describirse como una ciencia, un paradigma de investigación, un método de investigación, una disciplina, un flujo de trabajo o una profesión.', metadata={'source': './textos/cienciaDeDatos.txt'})]


['56cc2583-ed84-4556-9bef-2676ccfca20a']

In [53]:
#Una puntuación más baja representa una mayor similitud.Porque es una distancia
docs_with_score: List[Tuple[Document, float]] = db.similarity_search_with_score(query=pregunta, k=1)
print(docs_with_score[0][0].page_content)

#si nos devuelve mas de un documento (k > 1), podemos ordernarlos con este comando
#sorted_by_scores = (sorted(docs_with_score, key=lambda a: a[-1], reverse=True))

El día de la Ingeniería Argentina se celebra el 6 de junio de todos los años.
El 6 de junio de 1870 egresó, del Departamento de Ciencias Exactas de la Universidad de Buenos Aires, el primer ingeniero civil de Argentina: Luis Augusto Huergo; lo acompañaron en esa primera promoción otros once egresados.1​
Por eso establecieron esta fecha como el “Día de la Ingeniería en Argentina”.
Debe distinguirse del Día del Ingeniero que se celebra el 16 de junio, en conmemoración de la creación de la carrera de ingeniería, lo que se hizo tomando como base el Departamento de Ciencias Exactas en 1865 para mejorarla.2​


In [56]:
data2 = docs_with_score[0][0].page_content
output = ollama.generate(
  model=model,
  prompt=f"Usando estos datos: {data2}. Responde a esta pregunta: {pregunta}"
)

print(output['response'])

El primer ingeniero egresado de la Universidad de Buenos Aires fue **Luis Augusto Huergo**.
