In [49]:
import os
import json
import re

from langchain_openai import AzureOpenAIEmbeddings
from azure.core.credentials import AzureKeyCredential
from azure.search.documents import SearchClient
# from azure.search.documents.aio import SearchClient
from azure.search.documents.models import QueryType
from azure.search.documents._generated.models import QueryCaptionResult

from openai import AzureOpenAI
import tiktoken

from dotenv import load_dotenv

load_dotenv()

def num_tokens_from_string(string: str, encoding_name: str = "cl100k_base") -> int:
    """Returns the number of tokens in a text string."""
    encoding = tiktoken.get_encoding(encoding_name)
    num_tokens = len(encoding.encode(string))
    return num_tokens

class AzureEmbeddings:

    def __init__(self):
        pass

    @staticmethod
    def get_embedding():
        return AzureOpenAIEmbeddings(
            azure_deployment=os.getenv("OPENAI_AZURE_DEPLOYMENT"), 
            openai_api_version="2023-08-01-preview",
            openai_api_key=os.getenv("OPENAI_API_KEY"),
            azure_endpoint=os.getenv("OPEN_AI_AZURE_URL")
        )

    @staticmethod
    def generate_embeddings(content: str):
        embeddings = AzureOpenAIEmbeddings(
            azure_deployment=os.getenv("OPENAI_AZURE_DEPLOYMENT"), 
            openai_api_version="2023-08-01-preview",
            openai_api_key=os.getenv("OPENAI_API_KEY"),
            azure_endpoint=os.getenv("OPEN_AI_AZURE_URL")
        )

        doc_result = embeddings.embed_documents([content])

        return doc_result[0]

openai_client = AzureOpenAI(
    api_key=os.getenv("AZURE_OPENAI_API_KEY"), 
    api_version=os.getenv("AZURE_OPENAI_API_VERSION"), 
    azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT")
    )

embeddings_client = AzureEmbeddings()
store_search_url: str = f'https://{os.getenv('AZURE_COGNITIVE_SEARCH_SERVICE_NAME')}.search.windows.net'
search_client = SearchClient(
            store_search_url, os.getenv("AZURE_COGNITIVE_SEARCH_INDEX_NAME"),
            AzureKeyCredential(os.getenv("AZURE_COGNITIVE_SEARCH_API_KEY"))
        )

In [50]:
# user_input = "¬øQu√© dice el art√≠culo 103 del C√≥digo Penal?"  # 1
# user_input = "¬øCu√°les son las causales de agravaci√≥n del homicidio?"  # 2
# user_input = "Si A le roba el celular a B, ¬øqu√© delito comete?"  # 3
# user_input = "¬øCu√°l es la diferencia entre dolo eventual y culpa con representaci√≥n?"  # 4
# user_input = "¬øCu√°les son las formas de autor√≠a en derecho penal?"  # 5
# user_input = "¬øCu√°ndo se consuma el hurto?"  # 6
# user_input = "¬øLas personas jur√≠dicas pueden ser sujetos pasivos de los delitos de injuria y calumnia?"  # 7
# user_input = "¬øCu√°l es el t√©rmino que tiene la Fiscal√≠a para formular acusaci√≥n?"  # 8
# user_input = "¬øSe puede archivar una investigaci√≥n cuando se encuentra que el procesado actu√≥ en leg√≠tima defensa?"  # 9
# user_input = "¬øSe puede precluir una investigaci√≥n antes de formular imputaci√≥n?"  # 10
# user_input = "¬øCu√°les son las causales de ausencia de responsabilidad en el derecho penal?"  # 11
# user_input = "¬øCu√°les son las causales gen√©ricas de atenuaci√≥n punitiva?"  # 12
# user_input = "¬øQu√© se entiende por ‚Äúdocumento‚Äù en el derecho penal?"  # 13
# user_input = "¬øCu√°les son las causales de agravaci√≥n de la estafa?" #14
# user_input = "¬øSe pueden realizar preguntas sugestivas en el contrainterrogatorio del juicio oral?" #15
# user_input = "¬øUn juez debe ordenar la captura del procesado cuando anuncie sentido de fallo condenatorio?" #16
# user_input = "¬øCu√°les son las fuentes de posici√≥n de garante seg√∫n el c√≥digo penal?" #17
# user_input = "¬øLa b√∫squeda selectiva en base de datos requiere control previo?" #18
# user_input = "¬øCu√°ndo procede la captura en flagrancia?" #19
# user_input = "Si alguien falsifica un documento y lo usa como medio para enga√±ar a otra persona y llevarlo a que le pague algo que no le debe, ¬øqu√© delito(s) comete?" #20

# user_input = "Cu√°l es la sanci√≥n por no presentar la declaraci√≥n de renta a timepo?"
# user_input = "Qu√© es el derecho a la vida?"
# user_input = "En qu√© art√≠culo de la constituci√≥n est√° consagrado el derecho a la vida?"
# user_input = "En qu√© art√≠culo del c√≥digo penal se contempla la definici√≥n de documento?"
# user_input = "¬øQu√© dice el art√≠culo 14 del c√≥digo penal?"
user_input = "¬øQu√© dice el art√≠culo 14 de la ley 599 del 2000?"
# user_input = "¬øQu√© dice el art√≠culo 241 del c√≥digo penal?"
# user_input = "¬øQu√© se entiende por ‚Äúdocumento‚Äù en el c√≥digo penal?"
# user_input = "¬øQu√© dice el art√≠culo 249 del c√≥digo penal?"
# user_input = "¬øQu√© dice el art√≠culo 221 del c√≥digo penal?"
# user_input = "¬øEn qu√© art√≠culo se encuentra el delito de calumnia?"
# user_input = "Si B imputa falsamente a A un delito que no ha cometido ¬øEn qu√© conducta punible incurre?"
# user_input = "En qu√© delito incurre una persona que entre sin autorizaci√≥n en un sistema inform√°tico?"
# user_input = "Daniel Andr√©s F√∫quenes Barriga, en su condici√≥n de auxiliar de la justicia y secuestre, recaud√≥ una suma de dinero por concepto de arrendamiento, espec√≠ficamente $684,000 entre febrero y julio de 2015. Este dinero deb√≠a ser entregado a su due√±o o poseedor, pero F√∫quenes Barriga retuvo la suma para s√≠ mismo, incumpliendo con la obligaci√≥n de devolverla. Este acto de retenci√≥n y apropiaci√≥n del dinero, que se le hab√≠a confiado por un t√≠tulo no traslativo de dominio, ¬øQu√© delito cometi√≥?"
# user_input = "¬øQu√© delito comti√≥ una persona que adquiri√≥ un bien cuyo origen inmediato es una actividad il√≠cita?"
# user_input = "¬øQu√© dice el art√≠culo 323 del c√≥digo penal?"
# user_input = "¬øQu√© art√≠culo contiene el delito de lavado de activos en el c√≥digo penal?"
# user_input = "¬øQu√© delito comete un juez que profiere una sentencia manifiestamente contraria a la ley?"
# user_input = "¬øD√≥nde se considera realizada la conducta punible?"
# user_input = "Si A dispara a B en Barrranquilla pero B se muere en Cartagena, ¬øD√≥nde se entiende realizado el homicidio?"
# user_input = "Seg√∫n el art√≠culo 14 del c√≥digo penal si A dispara a B en Barrranquilla pero B se muere en Cartagena, ¬øD√≥nde se entiende realizado el homicidio?"
# user_input = "¬øQu√© se entiende por servido p√∫blico en c√≥digo penal?"
# user_input = "¬øCu√°les son las formas de autor√≠a para el c√≥digo penal?"

print("üßë User input:")
print(user_input)

üßë User input:
¬øQu√© dice el art√≠culo 14 de la ley 599 del 2000?


In [51]:
query_system_template = """Below is a history of the conversation so far, and a new question asked by the user that needs to be answered by searching in a knowledge base.
    You have access to Azure AI Search index with 100's of documents.
    Generate a search query based on the conversation and the new question.
    Do not include cited source filenames and document names e.g info.txt or doc.pdf in the search query terms.
    Do not include any text inside [] or <<>> in the search query terms.
    Do not include any special characters like '+'.
    If the question is not in English, translate the question to English before generating the search query.
    If you cannot generate a search query, return just the number 0.
    """

query_few_shots = [
    {"role": "user", "content": "¬øQu√© dice el art√≠culo 103 del C√≥digo Penal?"},
    {"role": "assistant", "content": '"Art√≠culo 103" Ley 599 de 2000'},
    {
        "role": "user",
        "content": "¬øCu√°les son las causales de agravaci√≥n del homicidio?",
    },
    {
        "role": "assistant",
        "content": '"Causales de agravaci√≥n del homicidio" "Ley 599 de 2000"',
    },
    {"role": "user", "content": "Si A le roba el celular a B, ¬øqu√© delito comete?"},
    {"role": "assistant", "content": '"Hurto" "Ley 599 de 2000" "Celular"'},
    {
        "role": "user",
        "content": "¬øEn qu√© art√≠culo de la Constituci√≥n Pol√≠tica se consagra el principio de dignidad humana?",
    },
    {
        "role": "assistant",
        "content": '"Principio de dignidad humana" "Constituci√≥n Pol√≠tica de Colombia"',
    },
    {"role": "user", "content": "¬øCu√°les son las formas de autor√≠a en derecho penal?"},
    {
        "role": "assistant",
        "content": 'Formas de autor√≠a en derecho penal "Ley 599 de 2000"',
    },
    {"role": "user", "content": "¬øCu√°ndo se consuma el hurto?"},
    {"role": "assistant", "content": '"Hurtoconsumaci√≥n" "Ley 599 de 2000"'},
    {
        "role": "assistant",
        "content": '"Principio de dignidad humana" "Constituci√≥n Pol√≠tica de Colombia"',
    },
    {
        "role": "user",
        "content": "¬øLas personas jur√≠dicas pueden ser sujetos pasivos de los delitos de injuria y calumnia?",
    },
    {
        "role": "assistant",
        "content": '"Personas jur√≠dicas" "sujetos pasivos" "delitos de injuria y calumnia"',
    },
    {
        "role": "user",
        "content": "¬øSe puede archivar una investigaci√≥n cuando se encuentra que el procesado actu√≥ en leg√≠tima defensa?",
    },
    {
        "role": "assistant",
        "content": '"Archivo de investigaci√≥n" "leg√≠tima defensa" "Ley 906 de 2004"',
    },
    {"role": "user", "content": "¬øCu√°les son los requisitos de la denuncia?"},
    {"role": "assistant", "content": '"Requisitos de la denuncia" Ley 906 de 2004'},
]

query_user_content_template = f"Generate search query for: {user_input}."

query_messages = [
    {"role": "system", "content": query_system_template},
    *query_few_shots,
    {"role": "user", "content": query_user_content_template},
]

In [52]:
query_completion = (
    openai_client.chat.completions.create(
        messages=query_messages,
        model=os.getenv("AZURE_OPENAI_DEPLOYMENT"),
        temperature=0.0,
        n=1,
    )
    .choices[0]
    .message.content
)

query = re.sub(r'"', "", query_completion)
# query = "servido p√∫blico en c√≥digo penal"

query_vectors = embeddings_client.generate_embeddings(content=query)

print("üîé Query for:")
print(query)

üîé Query for:
Art√≠culo 14 Ley 599 de 2000


In [53]:
results = search_client.search(
    search_text=query,
    top=5,
    query_type=QueryType.SEMANTIC,
    vector_queries=[
        {
            "vector": query_vectors,
            "k": 5,
            "fields": "content_vector",
            "kind": "vector",
            "exhaustive": True,
        }
    ],
    # semantic_configuration_name="default",
    semantic_configuration_name="none",
    # semantic_query="",
    query_caption="extractive|highlight-false",
    scoring_profile="none",
    search_fields=["content"],
    # scoring_profile="legal",
    # scoring_parameters=[
    #     "tagx6-Constitucional",
    #     "tagx5-Legal",
    #     "tagx4-Infralegal",
    #     "tagx3-Jurisprudencia",
    #     "tagx2-Doctrina",
    # ],
)


def add_to_context(results, token_limit=3500):
    printer_documents = []

    results_list = list(results)

    top_results = results_list[:5]
    supporting_results = results_list[5:]

    documents = []

    for document in top_results:
        # print(document)
        doc_formatted = {
            # "score": document["@search.score"],
            # "rerank": document["@search.reranker_score"],
            "id": document["id"],
            "page": document["page"],
            "title": document["title"],
            "content": document["content"],
            "external_id": document["external_id"],
            "author": document["author"],
            "keywords": document["keywords"],
            "category": document["category"],
            "year": document["year"],
        }
        documents.append(doc_formatted)
        printer_documents.append(json.dumps(doc_formatted, indent=4))

    current_token_count = num_tokens_from_string(str(documents))

    additional_documents = []
    for document in supporting_results:
        captions: QueryCaptionResult = document["@search.captions"]
        captions_text = " // ".join([caption.text for caption in captions])
        doc_formatted = {
            # "score": document["@search.score"],
            # "rerank": document["@search.reranker_score"],
            "id": document["id"],
            "title": document["title"],
            "page": document["page"],
            "captions": captions_text,
            "external_id": document["external_id"],
            "author": document["author"],
            "keywords": document["keywords"],
            "category": document["category"],
            "year": document["year"],
        }

        new_token_count = current_token_count + num_tokens_from_string(
            str(doc_formatted)
        )

        if new_token_count <= token_limit:
            additional_documents.append(doc_formatted)
            printer_documents.append(json.dumps(doc_formatted, indent=4))
            current_token_count = new_token_count
        else:
            break

    response = {
        "sources": documents + additional_documents,
        "documents": documents,
        "printer_documents": printer_documents,
        "additional_documents": additional_documents,
        "token_count": current_token_count,
    }

    return response


sources = add_to_context(results)
documents = sources["sources"]

print("Legal profile - Query for: ")
print(query)
print("Num of docs:", len(documents), " ---  Tokens: ", sources["token_count"])
print("=============================")
print("\n".join(sources["printer_documents"]))

Legal profile - Query for: 
Art√≠culo 14 Ley 599 de 2000
Num of docs: 5  ---  Tokens:  2505
{
    "id": "20240719190518externadoleccionesdederechopenalpartegeneralpdf_chunk203",
    "page": 145,
    "title": "EXTERNADO - Lecciones de Derecho Penal. Parte General",
    "content": "adoptada por la legislaci\u00f3n nacional, donde cobra relevancia tanto el lugar\ndonde se desarroll\u00f3 total o parcialmente la acci\u00f3n como donde se produjo o\ndebi\u00f3 producirse el resultado.\nPara el efecto, el art\u00edculo 14 de la Ley 599 de 2000, como anteriormente\nlo hac\u00eda el art\u00edculo 13 del Decreto 100 de 1980, fija unos par\u00e1metros claros,\nseg\u00fan los cuales la conducta punible se considera realizada:\na. En el lugar donde se desarroll\u00f3 total o parcialmente la acci\u00f3n (aspecto\nque resulta relevante en materia de extradici\u00f3n).\nb. En el sitio donde debi\u00f3 realizarse la acci\u00f3n omitida, en los casos de\ncomisi\u00f3n por omisi\u00f3n.\nc. Donde se pro

In [54]:
response_system_template = f'Eres Ariel, un asistente para la investigaci√≥n legal \n\n    S√© lo m√°s detallado y preciso posible en tus respuestas. Cita el m√°ximo n√∫mero de fuentes posible, sin salirte del tema. En caso de encontrar informaci√≥n contradictoria, se√±√°lala y sugiere una posible causa. Expresa toda la informaci√≥n que encuentres en las fuentes proporcionadas. Solamente si la respuesta no est√° en las fuentes proporcionadas, responde "No encuentro informaci√≥n con esos t√©rminos, ¬øpuedes reformular tu consulta?". Al incluir t√≠tulos en tu respuesta, usa formato html (ej: titulos, <strong>).\n\nCada fuente tiene un nombre seguido por dos puntos y la informaci√≥n real, siempre incluye el nombre de la fuente para cada hecho que uses en la respuesta. Todas las fuentes son PDFs. Utiliza corchetes para referenciar la fuente, por ejemplo [info1.pdf]. No combines fuentes, lista cada fuente por separado, por ejemplo [info1.txt] [info2.pdf]. El formato de algunas fuentes puede incluir acentos, puntos o guiones. Aseg√∫rate de capturar todo antes de ".pdf", por ejemplo: [SFC - T√≠tulos valores electr√≥nicos. Pagar√©s. Dep√≥sito centralizado de valores. Exigencia Concepto 2020086426-003 del 24 de junio de 2020 id2020086426.pdf]. No dividas los nombres de archivo por ninguna raz√≥n, ya que todos deben terminar en .pdf. Escribe la respuesta en formato HTML, pero sin incluir los tags "```html" al principio o final principio de tu respuesta.'

response_few_shots = []

response_user_content_template = f"{user_input} Sources: {documents}"

response_messages = [
    {"role": "system", "content": response_system_template},
    *query_few_shots,
    {"role": "user", "content": response_user_content_template},
]

In [55]:
response = (
    openai_client.chat.completions.create(
        messages=response_messages,
        model=os.getenv("AZURE_OPENAI_DEPLOYMENT"),
        temperature=0.2,
        n=1,
    )
    .choices[0]
    .message.content
)

In [56]:
print(user_input)
print("Query: ", query)
print("")
print("=============================================")
print("")
print(response)
# d√≥nde se considera realizada la conducta punible Ley 599 de 2000
# lugar de realizaci√≥n de la conducta punible Ley 599 de 2000
# lugar de realizaci√≥n de la conducta punible Ley 599 de 2000

# homicidio lugar de realizaci√≥n disparo en un lugar muerte en otro Ley 599 de 2000
# homicidio lugar de realizaci√≥n disparo en una ciudad muerte en otra

¬øQu√© dice el art√≠culo 14 de la ley 599 del 2000?
Query:  Art√≠culo 14 Ley 599 de 2000


<strong>Art√≠culo 14 de la Ley 599 de 2000</strong>

El art√≠culo 14 de la Ley 599 de 2000 establece el principio de territorialidad de la ley penal en Colombia. Seg√∫n este art√≠culo, la conducta punible se considera realizada en los siguientes lugares:

a. En el lugar donde se desarroll√≥ total o parcialmente la acci√≥n.
b. En el sitio donde debi√≥ realizarse la acci√≥n omitida, en los casos de comisi√≥n por omisi√≥n.
c. Donde se produjo o debi√≥ producirse el resultado, para los eventos de los delitos tentados.

Estas reglas son particularmente √∫tiles para asumir la investigaci√≥n de delitos continuados y de ejecuci√≥n permanente, aplicando la ley penal nacional cuando la acci√≥n se efectu√≥ en Colombia, la acci√≥n omitida debi√≥ ejecutarse en Colombia, o los resultados de la omisi√≥n se producen en Colombia, as√≠ como en los delitos tentados cuando el resultado debi√≥ producirse en Colombia 