### OCI Data Science - Useful Tips
<details>
<summary><font size="2">Check for Public Internet Access</font></summary>

```python
import requests
response = requests.get("https://oracle.com")
assert response.status_code==200, "Internet connection failed"
```
</details>
<details>
<summary><font size="2">Helpful Documentation </font></summary>
<ul><li><a href="https://docs.cloud.oracle.com/en-us/iaas/data-science/using/data-science.htm">Data Science Service Documentation</a></li>
<li><a href="https://docs.cloud.oracle.com/iaas/tools/ads-sdk/latest/index.html">ADS documentation</a></li>
</ul>
</details>
<details>
<summary><font size="2">Typical Cell Imports and Settings for ADS</font></summary>

```python
%load_ext autoreload
%autoreload 2
%matplotlib inline

import warnings
warnings.filterwarnings('ignore')

import logging
logging.basicConfig(format='%(levelname)s:%(message)s', level=logging.ERROR)

import ads
from ads.dataset.factory import DatasetFactory
from ads.automl.provider import OracleAutoMLProvider
from ads.automl.driver import AutoML
from ads.evaluations.evaluator import ADSEvaluator
from ads.common.data import ADSData
from ads.explanations.explainer import ADSExplainer
from ads.explanations.mlx_global_explainer import MLXGlobalExplainer
from ads.explanations.mlx_local_explainer import MLXLocalExplainer
from ads.catalog.model import ModelCatalog
from ads.common.model_artifact import ModelArtifact
```
</details>
<details>
<summary><font size="2">Useful Environment Variables</font></summary>

```python
import os
print(os.environ["NB_SESSION_COMPARTMENT_OCID"])
print(os.environ["PROJECT_OCID"])
print(os.environ["USER_OCID"])
print(os.environ["TENANCY_OCID"])
print(os.environ["NB_REGION"])
```
</details>

In [2]:
import oci
import zipfile
import os
import shutil

In [3]:

archivo_zip = 'Wallet_agent.zip'
# Carpeta destino 'wallet' en el mismo directorio que el zip
directorio_base = os.path.dirname(archivo_zip)
carpeta_destino = os.path.join(directorio_base, 'wallet')

# Crear la carpeta si no existe
os.makedirs(carpeta_destino, exist_ok=True)

# Extraer el contenido
with zipfile.ZipFile(archivo_zip, 'r') as zip_ref:
    zip_ref.extractall(carpeta_destino)

In [17]:
#!pip install oci oracledb pandas python-dotenv
print(carpeta_destino)

wallet


In [10]:


# Paths
carpeta_oci = os.path.expanduser('~/.oci')
os.makedirs(carpeta_oci, exist_ok=True)

# Nombre del archivo de clave que ya tienes en tu workspace
nombre_archivo_clave = 'jorge.galan@oracle.com-2025-11-05T19_29_29.010Z.pem'
origen_clave = nombre_archivo_clave
destino_clave = os.path.join(carpeta_oci, 'oci_api_key')

# Mover el archivo .pem a ~/.oci/oci_api_key
shutil.move(origen_clave, destino_clave)

# Cambiar permisos a 600 (solo dueño lee y escribe)
os.chmod(destino_clave, 0o600)

In [11]:
contenido_config = """
[DEFAULT]
user=ocid1.user.oc1..aaaaaaaabj2uwt3ur2gj5thdhq5iwu6hyq2lsc3ds65p2k4hzvmusf43ifsa
fingerprint=a3:35:81:ad:58:4a:48:47:81:d9:1a:31:49:a3:0b:c9
tenancy=ocid1.tenancy.oc1..aaaaaaaa5mkffwhdps3ctd6qyahzfdrlm7iorxelsnk5cthtasrjznqwtzfq
region=us-ashburn-1
key_file={}
""".format(destino_clave)

config_path = os.path.join(carpeta_oci, 'config')
with open(config_path, 'w', encoding='utf-8') as f:
    f.write(contenido_config.strip())

print('Archivo config y clave movidos correctamente.')

Archivo config y clave movidos correctamente.


In [8]:


# Cargar configuración por defecto de ~/.oci/config
config = oci.config.from_file()

# Crear cliente de Identity
identity = oci.identity.IdentityClient(config)

# OCID del tenancy
tenancy_id = config['tenancy']

# Listar compartments
compartments = oci.pagination.list_call_get_all_results(
    identity.list_compartments,
    tenancy_id,
    compartment_id_in_subtree=True
).data

print("Compartments disponibles:")
for compartment in compartments:
    print(f"{compartment.name} - {compartment.id}")
    
try:
    notebook_path = os.path.abspath("")  # Por defecto, es el directorio del notebook (.ipynb)
    print("Ruta del notebook:", notebook_path)
except Exception as e:
    print("Error al obtener la ruta:", e)



compartment = 'ocid1.compartment.oc1..aaaaaaaaa2ezr2z2tsqzi3admdau4bgdbw4ezbq3dnmjeqnojxwkv2npcnzq'

Compartments disponibles:
agentesai - ocid1.compartment.oc1..aaaaaaaaa2ezr2z2tsqzi3admdau4bgdbw4ezbq3dnmjeqnojxwkv2npcnzq
Ruta del notebook: /home/datascience/vectorRAG/1_ingestar-vectores-from-md


In [20]:
contenido_env = """# Database Configuration
DB_USER=agente
DB_PASSWORD=Welcome123456$
DB_CONFIG_DIR=/home/datascience/vectorRAG/1_ingestar-vectores-from-md/wallet
DB_WALLET_LOCATION=/home/datascience/vectorRAG/1_ingestar-vectores-from-md/wallet
DB_WALLET_PASSWORD=Nueva123
DB_DSN=agent_medium

# OCI Configuration
OCI_CONFIG_FILE=~/.oci/config
OCI_PROFILE=DEFAULT
OCI_COMPARTMENT_ID=ocid1.compartment.oc1..aaaaaaaaa2ezr2z2tsqzi3admdau4bgdbw4ezbq3dnmjeqnojxwkv2npcnzq
OCI_ENDPOINT=https://inference.generativeai.us-chicago-1.oci.oraclecloud.com
OCI_EMBED_MODEL_ID=cohere.embed-v4.0

# Application Configuration
MARKDOWN_DIR=md
TABLE_NAME=documentos_vectoriales_genai
CHUNK_SIZE=1000
CHUNK_OVERLAP=200
BATCH_SIZE=50
"""

# Escribir el archivo .env
with open('.env', 'w', encoding='utf-8') as f:
    f.write(contenido_env)

print('Archivo .env creado correctamente.')

Archivo .env creado correctamente.


In [1]:
# probar conexion

%run 0-test_connection.py


INFO:__main__:Iniciando prueba de conexión a la base de datos con wallet...
INFO:__main__:Intentando establecer conexión...
INFO:__main__:¡Conexión exitosa!
INFO:__main__:Versión de Oracle DB: 23.10.0.25.10
INFO:__main__:La prueba de conexión ha finalizado exitosamente.


In [3]:
%run 1-create_vector_table.py

INFO:__main__:Iniciando la configuración de la tabla 'documentos_vectoriales_genai'...
INFO:__main__:DSN disponibles en tnsnames.ora: agent_high, agent_low, agent_medium, agent_tp, agent_tpurgent
INFO:__main__:Usando DSN: agent_medium
INFO:__main__:Objeto de conexión creado.
INFO:__main__:Verificando conexión a la base de datos...
INFO:__main__:✓ Conexión exitosa. Versión Oracle: 23.10.0.25.10
INFO:__main__:Intentando eliminar la tabla 'documentos_vectoriales_genai' si existe...
ERROR:class_adw:Error en la conexión: ORA-00942: table or view "AGENTE"."DOCUMENTOS_VECTORIALES_GENAI" does not exist
Help: https://docs.oracle.com/error-help/db/ora-00942/
INFO:__main__:La tabla 'documentos_vectoriales_genai' no existía, no fue necesario eliminarla.
INFO:__main__:Creando la tabla 'documentos_vectoriales_genai'...
INFO:__main__:✓ Tabla 'documentos_vectoriales_genai' creada con éxito.
INFO:__main__:Creando el índice vectorial 'idx_vector_documentos_vectoriales_genai'...
INFO:__main__:✓ Índice ve

In [4]:
%run 2-ingest_markdown.py

INFO:__main__:Iniciando proceso de ingesta en formato GenAI...
INFO:__main__:Probando conexión a la base de datos...
INFO:__main__:Conexión exitosa a Oracle DB version: 23.10.0.25.10
INFO:__main__:Embedder de Cohere OCI inicializado correctamente.
INFO:__main__:Se encontraron 2 archivos para procesar.
INFO:__main__:Procesando archivo: Mision y Vision.md
INFO:__main__:Archivo dividido en 4 chunks
INFO:__main__:Vectorizando chunk 1/4 de Mision y Vision.md...
INFO:__main__:✓ Chunk 1/4 de Mision y Vision.md preparado.
INFO:__main__:Vectorizando chunk 2/4 de Mision y Vision.md...
INFO:__main__:✓ Chunk 2/4 de Mision y Vision.md preparado.
INFO:__main__:Vectorizando chunk 3/4 de Mision y Vision.md...
INFO:__main__:✓ Chunk 3/4 de Mision y Vision.md preparado.
INFO:__main__:Vectorizando chunk 4/4 de Mision y Vision.md...
INFO:__main__:✓ Chunk 4/4 de Mision y Vision.md preparado.
INFO:__main__:✓ Archivo Mision y Vision.md completado. 4 chunks procesados.
INFO:__main__:Procesando archivo: SUIN.md

In [5]:
%run 3-test-rag.py

INFO:__main__:Inicializando componentes del sistema RAG...
INFO:__main__:✓ Componentes inicializados correctamente
INFO:__main__:✓ Conectado a Oracle DB versión: 23.10.0.25.10
INFO:__main__:
INFO:__main__:CONSULTA: ¿que es SIUN?

INFO:__main__:1. Generando embedding de la consulta...
INFO:__main__:✓ Vector generado: 1536 dimensiones
INFO:__main__:
2. Buscando documentos similares...
INFO:__main__:✓ Encontrados 3 documentos relevantes
INFO:__main__:
Documentos encontrados:
INFO:__main__:  [1] SUIN.md (similitud: 0.267)
INFO:__main__:  [2] Mision y Vision.md (similitud: 0.109)
INFO:__main__:  [3] Mision y Vision.md (similitud: 0.099)
INFO:__main__:
3. Generando respuesta con contexto...
INFO:__main__:
INFO:__main__:RESPUESTA GENERADA
INFO:__main__:Modelo: grok-3-mini
INFO:__main__:Documentos consultados: 3
INFO:__main__:Fuentes: SUIN.md, Mision y Vision.md, Mision y Vision.md
INFO:__main__:
✓ Prueba RAG completada exitosamente



## RESUMEN
SUIN, o Sistema Único de Información Normativa, es una plataforma digital del Estado colombiano que proporciona acceso gratuito y rápido a normas jurídicas y jurisprudencia desde 1886. Este sistema permite consultar documentos como constituciones, leyes, decretos y resoluciones, junto con sus concordancias y afectaciones, facilitando la investigación legal en el país.

## DETALLES
El SUIN es una herramienta en línea administrada por el Estado colombiano, actualizada hasta el 14 de diciembre de 2022, que centraliza la información normativa para facilitar su consulta. Incluye normas de carácter general y abstracto, como las constituciones de 1886 y 1991, actos legislativos, leyes, decretos, directivas presidenciales, resoluciones y circulares, todas disponibles desde 1886. Además, ofrece acceso a jurisprudencia relacionada con el control de constitucionalidad y legalidad, emitida por entidades como la antigua Sala Constitucional de la Corte Suprema de Justicia (de 1910 a 1991

In [15]:
import logging
import oracledb
from class_adw import OracleADBConnection
import oci
import configparser
import os

# Configurar logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Leer datos de config OCI (~/.oci/config)
oci_config_path = os.path.expanduser("~/.oci/config")
config = configparser.ConfigParser()
config.read(oci_config_path)
profile = "DEFAULT"
user = config[profile]["user"]
tenancy = config[profile]["tenancy"]
fingerprint = config[profile]["fingerprint"]
key_file_path = os.path.expanduser(config[profile]["key_file"])

# Leer private key desde archivo
with open(key_file_path, "r") as f:
    private_key_multiline = f.read()
private_key = "".join(private_key_multiline.splitlines())

# OJO: coloca aquí el compartment OCID que corresponda.
compartment_ocid = compartment

# BLOQUE 1: Eliminar credencial existente
plsql_drop = """
BEGIN
   DBMS_VECTOR.drop_credential(credential_name => 'OCI_CREDENTIAL_VECTOR');
   COMMIT;
EXCEPTION
   WHEN OTHERS THEN
      NULL;
END;
"""

# BLOQUE 2: Crear credencial
plsql_create = f"""
DECLARE
  jo json_object_t;
BEGIN
  jo := json_object_t();
  jo.put('user_ocid',    '{user}');
  jo.put('tenancy_ocid', '{tenancy}');
  jo.put('compartment_ocid', '{compartment_ocid}');
  jo.put('private_key',  '{private_key}');
  jo.put('fingerprint',  '{fingerprint}');
  DBMS_OUTPUT.put_line(jo.to_string);
  DBMS_VECTOR.create_credential(
    credential_name => 'OCI_CREDENTIAL_VECTOR',
    params => json(jo.to_string)
  );
END;
"""

# BLOQUE 3: Crear función de búsqueda vectorial
plsql_create_function = """
CREATE OR REPLACE FUNCTION busqueda_vectorial_robust (
  p_query IN VARCHAR2,
  top_k IN NUMBER
) RETURN SYS_REFCURSOR IS
  v_results SYS_REFCURSOR;
  query_vec VECTOR;
BEGIN
  query_vec := dbms_vector.utl_to_embedding(
    p_query,
    json('{
      "provider": "OCIGenAI",
      "credential_name": "OCI_CREDENTIAL_VECTOR",
      "url": "https://inference.generativeai.us-chicago-1.oci.oraclecloud.com/20231130/actions/embedText",
      "model": "cohere.embed-v4.0"
     }')
  );

  OPEN v_results FOR
    SELECT
      DOCID,
      REGEXP_REPLACE(
        REGEXP_REPLACE(
          TRANSLATE(
            SUBSTR(BODY, 1, 3500),
            CHR(10) || CHR(13) || CHR(9) || '"' || CHR(92),
            '     '
          ),
          '[[:cntrl:]]',
          ' '
        ),
        '\s{2,}',
        ' '
      ) as BODY,
      VECTOR_DISTANCE(vector, query_vec) as SCORE
    FROM
      documentos_vectoriales_genai
    ORDER BY SCORE ASC
    FETCH FIRST top_k ROWS ONLY;

  RETURN v_results;
END busqueda_vectorial_robust;
"""

# BLOQUE 4: Probar la función
plsql_test_function = """
DECLARE
  v_cursor SYS_REFCURSOR;
  v_docid VARCHAR2(500);
  v_body VARCHAR2(4000);
  v_score NUMBER;
BEGIN
  v_cursor := busqueda_vectorial_robust('que es bre-b', 3);

  LOOP
    FETCH v_cursor INTO v_docid, v_body, v_score;
    EXIT WHEN v_cursor%NOTFOUND;

    DBMS_OUTPUT.PUT_LINE('===================');
    DBMS_OUTPUT.PUT_LINE('DocID: ' || v_docid);
    DBMS_OUTPUT.PUT_LINE('Score: ' || v_score);
    DBMS_OUTPUT.PUT_LINE('Body: ' || SUBSTR(v_body, 1, 200) || '...');
  END LOOP;

  CLOSE v_cursor;
END;
"""

output_lines = []
try:
    from config import DB_CONFIG
    db = OracleADBConnection(**DB_CONFIG)
    logger.info("Intentando establecer conexión...")
    with db.get_connection() as conn:
        logger.info(f"¡Conexión exitosa!")
        cursor = conn.cursor()

        cursor.callproc("dbms_output.enable")

        # EJECUTAR BLOQUE 1: DROP CREDENTIAL
        logger.info("Ejecutando bloque PL/SQL para eliminar credencial existente...")
        cursor.execute(plsql_drop)
        logger.info("✓ Bloque DROP ejecutado.")
        
        # EJECUTAR BLOQUE 2: CREATE CREDENTIAL
        logger.info("Ejecutando bloque PL/SQL para crear credencial...")
        cursor.execute(plsql_create)
        logger.info("✓ Bloque CREATE CREDENTIAL ejecutado.")
        
        # EJECUTAR BLOQUE 3: CREATE FUNCTION
        logger.info("Ejecutando bloque PL/SQL para crear función de búsqueda vectorial...")
        cursor.execute(plsql_create_function)
        logger.info("✓ Función busqueda_vectorial_robust creada.")
        
        # EJECUTAR BLOQUE 4: TEST FUNCTION
        logger.info("Ejecutando prueba de la función de búsqueda vectorial...")
        cursor.execute(plsql_test_function)
        logger.info("✓ Prueba de función ejecutada.")

        # Capturar salida DBMS_OUTPUT
        lines_var = cursor.arrayvar(str, 100)
        num_lines_var = cursor.var(int)
        num_lines_var.setvalue(0, 100)
        
        logger.info("\n--- Resultados de DBMS_OUTPUT ---")
        while True:
            cursor.callproc("dbms_output.get_lines", (lines_var, num_lines_var))
            num_lines = num_lines_var.getvalue()
            lines = lines_var.getvalue()
            for i in range(num_lines):
                line = lines[i]
                if line is not None:
                    print(line)
                    output_lines.append(line)
            if num_lines < 100:
                break

        conn.commit()
        success_message = "\n¡Todos los bloques ejecutados exitosamente!"
        logger.info(success_message)
        output_lines.append(success_message)

except Exception as e:
    error_message = f"Ocurrió un error: {e}"
    logger.error(error_message)
    output_lines.append(error_message)
    import traceback
    traceback.print_exc()


INFO:__main__:Intentando establecer conexión...
INFO:__main__:¡Conexión exitosa!
INFO:__main__:Ejecutando bloque PL/SQL para eliminar credencial existente...
INFO:__main__:✓ Bloque DROP ejecutado.
INFO:__main__:Ejecutando bloque PL/SQL para crear credencial...
INFO:__main__:✓ Bloque CREATE CREDENTIAL ejecutado.
INFO:__main__:Ejecutando bloque PL/SQL para crear función de búsqueda vectorial...
INFO:__main__:✓ Función busqueda_vectorial_robust creada.
INFO:__main__:Ejecutando prueba de la función de búsqueda vectorial...
INFO:__main__:✓ Prueba de función ejecutada.
INFO:__main__:
--- Resultados de DBMS_OUTPUT ---
INFO:__main__:
¡Todos los bloques ejecutados exitosamente!


{"user_ocid":"ocid1.user.oc1..aaaaaaaabj2uwt3ur2gj5thdhq5iwu6hyq2lsc3ds65p2k4hzvmusf43ifsa","tenancy_ocid":"ocid1.tenancy.oc1..aaaaaaaa5mkffwhdps3ctd6qyahzfdrlm7iorxelsnk5cthtasrjznqwtzfq","compartment_ocid":"ocid1.compartment.oc1..aaaaaaaaa2ezr2z2tsqzi3admdau4bgdbw4ezbq3dnmjeqnojxwkv2npcnzq","private_key":"-----BEGIN PRIVATE KEY-----MIIEvgIBADANBgkqhkiG9w0BAQEFAASCBKgwggSkAgEAAoIBAQCldsURYd0C/fjKwYUpT9+cv6Q29lYirkQ1t0sMRqp5a+2hCh3HmHuexVUsDQ4OD/T0na7SXaQf65t8F6gwq9OLl3UiDDXUi4QrwqKChA4LzVzjznq1wvNb26lNrdqMMHMlgnxaJ0TahNCret0E0bhg1rJunsaQUSanDq//2cv2bUrEkVLp4oBc/0Nu+LO/FcqqTpeJBnTz2nqrTTsmSIQ1mKSRXfu47B1Ra63Y8T321RZhG89nWvaA+2afsdrry9pu3Ts7Joh59zjdgCxGJ4VPytOKHY3/BSAS8Kq4mAZr3vBuQF3ZbZoha9Kngnhiz4C2LGsv53ylIxOHvKez6Y4bAgMBAAECggEASsJDXsurKl9qid1u11AN1comnWimWUwIaIa0w0qoWmz/tBuYgeZssDszdNA/Me5WvDEEXGrPrVZr7WDY7oir722SkDwZFDunD4iEmVil6gIy/oB7o+T9xFqWf5DV5jI7zE5M9gS5EMwiZeAAvV0uI57Nhrp5N5pazu8NaRlUFLXo2RViYb/+NNki4DtFOTkuonJE/2sZvuYvhLTJcLP3+rquXpn8gYcCVhzsTsNA/W00Lw7Y2HhXYFejSIllRuYyY/em