In [None]:
#@title Installations
# Basic stuff
! pip install langchain langchain_community langchain_chroma
! pip install -qU langchain-openai

# For loading PDF's
! pip install --upgrade --quiet pypdf

# For indexing PDF's
! pip install --upgrade --quiet faiss-cpu
# use `pip install faiss-gpu` for CUDA GPU support

# For sentence embedding with HuggingFace
! pip install sentence-transformers

# AutoModelForCausalLM and AutoTokenizer are used to load the model and tokenizer.
! pip install transformers torch

# For the open-source llm
! pip install langchain_huggingface

Collecting langchain
  Downloading langchain-0.2.14-py3-none-any.whl.metadata (7.1 kB)
Collecting langchain_community
  Downloading langchain_community-0.2.12-py3-none-any.whl.metadata (2.7 kB)
Collecting langchain_chroma
  Downloading langchain_chroma-0.1.3-py3-none-any.whl.metadata (1.5 kB)
Collecting langchain-core<0.3.0,>=0.2.32 (from langchain)
  Downloading langchain_core-0.2.35-py3-none-any.whl.metadata (6.2 kB)
Collecting langchain-text-splitters<0.3.0,>=0.2.0 (from langchain)
  Downloading langchain_text_splitters-0.2.2-py3-none-any.whl.metadata (2.1 kB)
Collecting langsmith<0.2.0,>=0.1.17 (from langchain)
  Downloading langsmith-0.1.104-py3-none-any.whl.metadata (13 kB)
Collecting tenacity!=8.4.0,<9.0.0,>=8.1.0 (from langchain)
  Downloading tenacity-8.5.0-py3-none-any.whl.metadata (1.2 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain_community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting chromadb!=0.5.4,!=0.5.5,<0.6.0,>=0.4.0 

In [None]:
#@title Setting OpenAI's and LangChain's API keys
import getpass
import os

os.environ["OPENAI_API_KEY"] = getpass.getpass()

os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_API_KEY"] = getpass.getpass()



··········
··········


In [None]:
#@title Load the LLM -- OpenAI

from langchain_openai import ChatOpenAI

llm = ChatOpenAI(model="gpt-4o-mini")


In [None]:
#@title Load the LLM -- Open-Source

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
from langchain import HuggingFacePipeline

# Load a model and tokenizer that supports Spanish and is suited for text generation
# model_name = "EleutherAI/gpt-j-6B"  # too heavy
model_name = "EleutherAI/gpt-neo-2.7B"

model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Create a Hugging Face pipeline for text generation
hf_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)

# Wrap the Hugging Face pipeline in a LangChain-compatible LLM class
llm = HuggingFacePipeline(pipeline=hf_pipeline)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/1.46k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/10.7G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/200 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/798k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/90.0 [00:00<?, ?B/s]

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.
  warn_deprecated(


## 1. Indexing: Load


In [None]:
# Upload a PDF
from google.colab import files
uploaded_file = files.upload()


Saving codigo_penal.pdf to codigo_penal.pdf


In [None]:
from langchain_community.document_loaders import PyPDFLoader

file_path = (
    "./codigo_penal.pdf"
)
loader = PyPDFLoader(file_path)
pages = loader.load_and_split()

pages[0]

Document(metadata={'source': './codigo_penal.pdf', 'page': 0}, page_content='Código Penal\nLey 11.179\nBUENOS AIRES, 21 de Diciembre de 1984\nBoletín Oficial, 16 de Enero de 1985\nVigente, de alcance general\nEnciclopedia: Integridad y Transparencia\nId SAIJ: LNS0002677\nTEMA\nCódigo penal, modificación del Código Penal, integridad en el ejercicio de la función pública, delitos cometidos\npor funcionarios públicos, incumplimiento de los deberes del funcionario público, enriquecimiento injustificado en\nla función pública, funcionarios públicos, empleados públicos, deberes del empleado público, abuso de\nautoridad, inhabilidades especiales de los funcionarios públicos, personal de las fuerzas de seguridad, delitos\ncontra la integridad\nCODIGO PENAL DE LA NACION ARGENTINA L I B R O P R I M E R O D I S P O S I C I\nO N E S G E N E R A L E S\nTITULO I APLICACION DE LA LEY PENAL\nARTICULO 1. - Este Código se aplicará:\n1) Por delitos cometidos o cuyos efectos deban producirse en el territo

In [None]:
print(len(pages[0].page_content))
print(pages[0].page_content)
print(pages[0].metadata)

1886
Código Penal
Ley 11.179
BUENOS AIRES, 21 de Diciembre de 1984
Boletín Oficial, 16 de Enero de 1985
Vigente, de alcance general
Enciclopedia: Integridad y Transparencia
Id SAIJ: LNS0002677
TEMA
Código penal, modificación del Código Penal, integridad en el ejercicio de la función pública, delitos cometidos
por funcionarios públicos, incumplimiento de los deberes del funcionario público, enriquecimiento injustificado en
la función pública, funcionarios públicos, empleados públicos, deberes del empleado público, abuso de
autoridad, inhabilidades especiales de los funcionarios públicos, personal de las fuerzas de seguridad, delitos
contra la integridad
CODIGO PENAL DE LA NACION ARGENTINA L I B R O P R I M E R O D I S P O S I C I
O N E S G E N E R A L E S
TITULO I APLICACION DE LA LEY PENAL
ARTICULO 1. - Este Código se aplicará:
1) Por delitos cometidos o cuyos efectos deban producirse en el territorio de la Nación Argentina, o en los
lugares sometidos a su jurisdicción.
2) Por delitos 

In [None]:
import pandas as pd
lenghts = [len(pages[i].page_content) for i in range(len(pages))]
length = pd.Series(lenghts, name='chunk_size')
length.describe()

Unnamed: 0,chunk_size
count,78.0
mean,2709.346154
std,507.317847
min,372.0
25%,2480.75
50%,2679.0
75%,3024.75
max,3883.0


## 2. Indexing: Split

In [None]:
#@title OpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)

all_splits = text_splitter.split_documents(pages)

all_splits[0]

Document(metadata={'source': './codigo_penal.pdf', 'page': 0}, page_content='Código Penal\nLey 11.179\nBUENOS AIRES, 21 de Diciembre de 1984\nBoletín Oficial, 16 de Enero de 1985\nVigente, de alcance general\nEnciclopedia: Integridad y Transparencia\nId SAIJ: LNS0002677\nTEMA\nCódigo penal, modificación del Código Penal, integridad en el ejercicio de la función pública, delitos cometidos\npor funcionarios públicos, incumplimiento de los deberes del funcionario público, enriquecimiento injustificado en\nla función pública, funcionarios públicos, empleados públicos, deberes del empleado público, abuso de\nautoridad, inhabilidades especiales de los funcionarios públicos, personal de las fuerzas de seguridad, delitos\ncontra la integridad\nCODIGO PENAL DE LA NACION ARGENTINA L I B R O P R I M E R O D I S P O S I C I\nO N E S G E N E R A L E S\nTITULO I APLICACION DE LA LEY PENAL\nARTICULO 1. - Este Código se aplicará:\n1) Por delitos cometidos o cuyos efectos deban producirse en el territo

In [None]:
#@title For the Open-Source model
from langchain.text_splitter import RecursiveCharacterTextSplitter

# text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=50)
# achico esto porque the GPT-Neo-2.7B model can handle up to 2048 tokens as input

all_splits = text_splitter.split_documents(pages)

all_splits[0]

Document(metadata={'source': './codigo_penal.pdf', 'page': 0}, page_content='Código Penal\nLey 11.179\nBUENOS AIRES, 21 de Diciembre de 1984\nBoletín Oficial, 16 de Enero de 1985')

## 3. Indexing: Store

In [None]:
#@title OpenAI
from langchain_chroma import Chroma
from langchain_openai import OpenAIEmbeddings

vectorstore = Chroma.from_documents(documents=all_splits, embedding=OpenAIEmbeddings())

In [None]:
#@title Open-Source
from langchain_chroma import Chroma
from sentence_transformers import SentenceTransformer
from langchain.embeddings import HuggingFaceEmbeddings

# Load a pre-trained model from SentenceTransformers
# model_name = "all-MiniLM-L6-v2"
model_name = "distiluse-base-multilingual-cased-v2"
# sentence_transformer = SentenceTransformer(model_name)

# Use HuggingFaceEmbeddings with the SentenceTransformers model
# embedding = HuggingFaceEmbeddings(model=sentence_transformer)
embedding = HuggingFaceEmbeddings(model_name=model_name)

# Create the vector store with the documents and the open-source embeddings
vectorstore = Chroma.from_documents(documents=all_splits, embedding=embedding)


KeyboardInterrupt: 

## 4. Retrieval and Generation: Retrieve


In [None]:
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6})

question = "¿Hay artículos que prevean delitos cometidos por argentinos en el extrangero?"

retrieved_docs = retriever.invoke(question)

len(retrieved_docs)

6

In [None]:
retrieved_docs[0]

Document(metadata={'page': 0, 'source': './codigo_penal.pdf'}, page_content='ARTICULO 1. - Este Código se aplicará:\n1) Por delitos cometidos o cuyos efectos deban producirse en el territorio de la Nación Argentina, o en los\nlugares sometidos a su jurisdicción.\n2) Por delitos cometidos en el extranjero por agentes o empleados de autoridades argentinas en desempeño de\nsu cargo.\n3) Por el delito previsto en el artículo 258 bis cometido en el extranjero, por ciudadanos argentinos o personas\njurídicas con domicilio en la República Argentina, ya sea aquel fijado en sus estatutos o el correspondiente a los\nestablecimientos o sucursales que posea en el territorio argentino.\nARTICULO 2. - Si la ley vigente al tiempo de cometerse el delito fuere distinta de la que exista al pronunciarse\nel fallo o en el tiempo intermedio, se aplicará siempre la más benigna.\nSi durante la condena se dictare una ley más benigna, la pena se limitará a la establecida por esa ley.\nEn todos los casos del pr

## 5. Retrieval and Generation: Generate

In [None]:
from langchain import hub

prompt = hub.pull("rlm/rag-prompt")

example_messages = prompt.invoke(
    {"context": "filler context", "question": "filler question"}
).to_messages()

example_messages

  warn_beta(


[HumanMessage(content="You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.\nQuestion: filler question \nContext: filler context \nAnswer:")]

Tengo que reemplazar llm por algo open-source.

In [None]:
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough


def format_docs(docs):
    return "\n\n".join(doc.page_content for doc in docs)


rag_chain = (
    {"context": retriever | format_docs, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

for chunk in rag_chain.stream("What is Task Decomposition?"):
    print(chunk, end="", flush=True)

I don't know.

In [None]:
question = "¿Hay artículos que prevean delitos cometidos por argentinos en el extrangero?"
rag_chain.invoke(question)

'Sí, hay artículos que prevén delitos cometidos por argentinos en el extranjero. En particular, el artículo 1 establece que se aplicará la ley argentina a delitos cometidos en el extranjero por ciudadanos argentinos o personas jurídicas con domicilio en Argentina. Además, el artículo 258 bis menciona específicamente delitos cometidos en el extranjero por ciudadanos argentinos.'