In [3]:
"""
This notebook is used to test the langchain library. We are looking to test the index / retrieval capabilities of the library.
langchain is a python library that allows you interact with LLM (large language model) models. 

We explore here the interaction with Juridicial corpus.

"""
import langchain

from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.embeddings.cohere import CohereEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores.elastic_vector_search import ElasticVectorSearch
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQAWithSourcesChain
from langchain import OpenAI

import os

# We load the OpenAI API key from the environment variable OPENAI_API_KEY
# we first read the key from the key.txt file (not in the repo)
with open("../key.txt", "r") as f:
    key = f.read()

os.environ["OPENAI_API_KEY"] = key



In [40]:

with open("../data/Codecivil.txt") as f:
    codecivil = f.read()

text_splitter = CharacterTextSplitter(chunk_size=1500, chunk_overlap=500, separator=" ")
texts = text_splitter.split_text(codecivil)

embeddings = OpenAIEmbeddings()


In [47]:
len(texts)

2045

In [42]:
docsearch = Chroma.from_texts(texts, embeddings, metadatas=[{"source": f"{i}-pl"} for i in range(len(texts))])

Using embedded DuckDB without persistence: data will be transient


In [43]:
chain = RetrievalQAWithSourcesChain.from_chain_type(OpenAI(temperature=0), chain_type="stuff", retriever=docsearch.as_retriever())

In [52]:
chain({"question": "Qu'est qun'un bailleur ?"}, return_only_outputs=False)


{'question': "Qu'est qun'un bailleur ?",
 'answer': " Un bailleur est une personne qui loue une chose à un preneur. Le bailleur est tenu de délivrer la chose en bon état de réparations de toute espèce et doit entretenir cette chose en état de servir à l'usage pour lequel elle a été louée.\n",
 'sources': '1601-pl, 1612-pl, 1617-pl, 1620-pl.'}

In [56]:
texts[1620]

'à la charge du bailleur : Travaux en cas de vétusté ou force majeure\nCirculaires et Instructions\n> CIRCULAIRE N° 90000/GEND/DSF/SDIL relative à l\'établissement des états des lieux des logements d\'habitation détenus par la gendarmerie.\n1756     \n Legif.   \n Plan   \n Jp.C.Cass.   \n Jp.Appel   \n Jp.Admin.   \n Juricaf\nLe curement des puits et celui des fosses d\'aisances sont à la charge du bailleur s\'il n\'y a clause contraire.\nservice-public.fr\n> Entretien courant et "réparations locatives" à la charge du locataire : Fosse septique\n1757     \n Legif.   \n Plan   \n Jp.C.Cass.   \n Jp.Appel   \n Jp.Admin.   \n Juricaf\nLe bail des meubles fournis pour garnir une maison entière, un corps de logis entier, une boutique, ou tous\nautres appartements, est censé fait pour la durée ordinaire des baux de maison, corps de logis, boutiques ou\nautres appartements, selon l\'usage des lieux.\n1758     \n Legif.   \n Plan   \n Jp.C.Cass.   \n Jp.Appel   \n Jp.Admin.   \n Juricaf\nLe b