<a href="https://colab.research.google.com/github/rubuntu/uaa-417-sistemas-de-gestion-de-bases-de-datos-avanzados/blob/main/pgvector.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
%%capture
# Instalar postgresql
!if [ -f /etc/apt/sources.list.d/pitti-postgresql-$(lsb_release --codename --short).list ]; then rm /etc/apt/sources.list.d/pitti-postgresql-$(lsb_release --codename --short).list; fi
!echo "deb http://apt.postgresql.org/pub/repos/apt/ $(lsb_release --codename --short)-pgdg main" > /etc/apt/sources.list.d/pgdg.list
!wget --quiet -O - http://apt.postgresql.org/pub/repos/apt/ACCC4CF8.asc | apt-key add -
!apt-get update
!apt-get install pgdg-keyring

!apt-get install postgresql-17-pgvector postgresql-contrib-17

In [2]:
# Obtener datos
!git clone https://github.com/rubuntu/datasets.git

Cloning into 'datasets'...
remote: Enumerating objects: 1296, done.[K
remote: Counting objects: 100% (1296/1296), done.[K
remote: Compressing objects: 100% (297/297), done.[K
remote: Total 1296 (delta 994), reused 1289 (delta 990), pack-reused 0 (from 0)[K
Receiving objects: 100% (1296/1296), 20.52 MiB | 23.35 MiB/s, done.
Resolving deltas: 100% (994/994), done.


In [3]:
# Iniciar postgresql
!service postgresql start
!sudo -u postgres psql -c "ALTER USER postgres PASSWORD 'postgres';"
!sudo -u postgres psql -c "CREATE DATABASE ragdb;"

# Crear la extensión pgvector
!sudo -u postgres psql -d ragdb -c "CREATE EXTENSION IF NOT EXISTS vector;"
#!sudo -u postgres psql -d ragdb -c "\\dx"

 * Starting PostgreSQL 17 database server
   ...done.
ALTER ROLE
CREATE DATABASE
CREATE EXTENSION


In [4]:
%%capture
# Instalar bibliotecas necesarias
!pip install openai psycopg2-binary sentence-transformers
# Instalar AI Suite
!pip install aisuite[all]

In [5]:
import warnings; warnings.filterwarnings('ignore')
import os
import openai
import psycopg2
from psycopg2.extensions import register_adapter, AsIs
from psycopg2.extras import execute_values
from sentence_transformers import SentenceTransformer

In [6]:
# Configurar modelo para embeddings
#model = SentenceTransformer('all-MiniLM-L6-v2')
model = SentenceTransformer('distiluse-base-multilingual-cased-v1')

# Configuración de la conexión a PostgreSQL
DB_NAME = "ragdb"
DB_USER = "postgres"
DB_PASSWORD = "postgres"
DB_HOST = "localhost"
DB_PORT = "5432"

modules.json:   0%|          | 0.00/341 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/2.47k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/556 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/539M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/452 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.58M [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.58M [00:00<?, ?B/s]

2_Dense/config.json:   0%|          | 0.00/114 [00:00<?, ?B/s]

In [7]:
def connect_to_db():
    """Establecer conexión con la base de datos PostgreSQL."""
    return psycopg2.connect(
        dbname=DB_NAME, user=DB_USER, password=DB_PASSWORD, host=DB_HOST, port=DB_PORT
    )

def create_table():
    """Crear tabla para almacenar los embeddings."""
    query = """
    CREATE TABLE IF NOT EXISTS markdown_embeddings (
        id SERIAL PRIMARY KEY,
        file_path TEXT NOT NULL,
        content TEXT NOT NULL,
        embedding VECTOR(512)
    );
    """
    with connect_to_db() as conn:
        with conn.cursor() as cur:
            cur.execute(query)
            conn.commit()

def process_markdown_files(root_dir):
    """Leer archivos Markdown y generar embeddings."""
    data_to_insert = []
    for dirpath, _, filenames in os.walk(root_dir):
        for filename in filenames:
            if filename.endswith('.md'):
                file_path = os.path.join(dirpath, filename)
                with open(file_path, 'r', encoding='utf-8') as file:
                    content = file.read()
                    embedding = model.encode(content).tolist()
                    data_to_insert.append((file_path, content, embedding))
    return data_to_insert

def insert_embeddings(data):
    """Insertar embeddings en la base de datos."""
    query = """
    INSERT INTO markdown_embeddings (file_path, content, embedding)
    VALUES %s
    """
    with connect_to_db() as conn:
        with conn.cursor() as cur:
            execute_values(cur, query, data, template=None)
            conn.commit()

In [8]:
import warnings; warnings.filterwarnings('ignore')

# Crear tabla si no existe
create_table()

# Procesar archivos Markdown
root_directory = "datasets/www.indufar.com.py/"
embeddings_data = process_markdown_files(root_directory)

# Insertar datos en la base de datos
insert_embeddings(embeddings_data)
print(f"Procesados e insertados {len(embeddings_data)} archivos Markdown en la base de datos.")

Procesados e insertados 123 archivos Markdown en la base de datos.


In [9]:
# Generar el embedding de la pregunta
question = "¿Qué productos tiene Indufar para la fiebre?"
question_embedding = model.encode(question).tolist()

In [10]:
# Crear la extensión si no existe
def ensure_pgvector_extension():
    with psycopg2.connect(
        dbname=DB_NAME, user=DB_USER, password=DB_PASSWORD, host=DB_HOST, port=DB_PORT
    ) as conn:
        with conn.cursor() as cur:
            cur.execute("CREATE EXTENSION IF NOT EXISTS vector;")
            conn.commit()

# Buscar documentos más cercanos a la pregunta
def find_similar_documents(embedding):
    query = """
        SELECT file_path, content, embedding <-> vector(%s) AS distance
        FROM markdown_embeddings
        ORDER BY distance ASC
        LIMIT 5;
    """
    # Convertir embedding a formato compatible con PostgreSQL
    embedding_str = f"[{','.join(map(str, embedding))}]"

    with psycopg2.connect(
        dbname=DB_NAME, user=DB_USER, password=DB_PASSWORD, host=DB_HOST, port=DB_PORT
    ) as conn:
        with conn.cursor() as cur:
            cur.execute(query, (embedding_str,))
            results = cur.fetchall()
    return results

In [11]:
# Asegurar la extensión y buscar documentos
ensure_pgvector_extension()  # Crear la extensión si no existe

# Buscar documentos similares
results = find_similar_documents(question_embedding)

# Mostrar resultados
print("Documentos similares a la pregunta:")
texto=""
for result in results:
    file_path, content, distance = result
    print(f"Archivo: {file_path}\nDistancia: {distance}\nContenido: {content[:100]}...\n")
    texto = texto + "\n"+ "-"*50 + "\n" + content  # Separar documentos

Documentos similares a la pregunta:
Archivo: datasets/www.indufar.com.py/files/shares/prospectos/400000186.md
Distancia: 0.9260957722829252
Contenido: Dermafar 
Loción
Antipruriginoso - Antialérgico
Suavizante - Refrescante
FÓRMULA
Cada 100 mL contien...

Archivo: datasets/www.indufar.com.py/files/shares/prospectos_/400000696.md
Distancia: 0.9563682283603754
Contenido: Paracetamol - Pseudoefedrina - Clorfeniramina
Antigripal - Analgésico - Antifebril
FÓRMULA
Cada sobr...

Archivo: datasets/www.indufar.com.py/files/shares/prospectos_/400000559.md
Distancia: 0.9616737956394911
Contenido: Z-CAL REUMA CREMA
Diclofenac  -  Salicilato  de  Metilo
Via  de  Administración:  Tópica
Analgésico ...

Archivo: datasets/www.indufar.com.py/files/shares/prospectos_/400000818.md
Distancia: 0.9628599521788817
Contenido: Paracetamol 500 mg
Analgésico y antifebril que no irrita la mucosa gástrica.
Polvo  Efervescente
Via...

Archivo: datasets/www.indufar.com.py/files/shares/prospectos/400000364.md
Distanc

In [12]:
# Instalar pciutils, lshw
!sudo apt-get install -y pciutils lshw

# Instalar Ollama para Linux
!curl -fsSL https://ollama.com/install.sh | sh

# Iniciar Ollama
!nohup ollama serve &
!sleep 10

# Verificar Ollama
!ss -ltpn | grep :11434

# Obtener modelo phi3:mini
!ollama pull phi3:mini


Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following additional packages will be installed:
  libpci3 pci.ids usb.ids
The following NEW packages will be installed:
  libpci3 lshw pci.ids pciutils usb.ids
0 upgraded, 5 newly installed, 0 to remove and 52 not upgraded.
Need to get 883 kB of archives.
After this operation, 3,256 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/main amd64 pci.ids all 0.0~2022.01.22-1 [251 kB]
Get:2 http://archive.ubuntu.com/ubuntu jammy/main amd64 libpci3 amd64 1:3.7.0-6 [28.9 kB]
Get:3 http://archive.ubuntu.com/ubuntu jammy/main amd64 lshw amd64 02.19.git.2021.06.19.996aaad9c7-2build1 [321 kB]
Get:4 http://archive.ubuntu.com/ubuntu jammy/main amd64 pciutils amd64 1:3.7.0-6 [63.6 kB]
Get:5 http://archive.ubuntu.com/ubuntu jammy/main amd64 usb.ids all 2022.04.02-1 [219 kB]
Fetched 883 kB in 1s (1,360 kB/s)
debconf: unable to initialize frontend: Dialog
debconf: (

In [13]:
import aisuite as ai
client = ai.Client()
messages = [
    {"role": "system", "content": "Eres un asistente útil. Responde la pregunta basándose únicamente en el texto que aparece a continuación."},
    {"role": "user", "content": f"Responde la pregunta como markdown basándose en el siguiente texto:\n\n{texto}\n\nPregunta: {question}\n"},
]

In [14]:
ollama_tinyllama = "ollama:tinyllama"
ollama_phi3mini = "ollama:phi3:mini"
response = client.chat.completions.create(model=ollama_phi3mini, messages=messages, temperature=0.75)
#print(response.choices[0].message.content)

In [15]:
from IPython.display import display, Markdown

display(Markdown(response.choices[0].message.content))

El texto proporciona información sobre un medicamento de indufar, CISA (División de INDUFAR), que se ofrece bajo receta médica y contiene Levocetirizina Dipropína Revestida en Acción Sostenida para el tratamiento del resfriado común o la gripe. Según este texto, Indufar no menciona productos específicos de fiebre como se solicita; sin embargo, los síntomas descritos pueden asociarse con episodios febriles. 

Para obtener información sobre el tratamiento para la fiebre en particular y cómo utilizar o comprar estos medicamentos desde Indufar, es necesario dirigirse al número de teléfono proporcionado (220-418) del Centro Nacional de Toxicología del Centro de Emergencias Médicas. El regente mencionado, Dr. Humberto Simón con el Registro Nº 535, podría ser un punto de contacto para pedir más información o realizar una consulta médica relacionada con medicamentos como Levocetirizina Dipropína Revestida en Acción Sostenida y su uso potenicó.