# Steps

- Research for small capable models (to fit in a 4GB GPU, that understands and replies in French)
- Use LangChain for Information retrieval

# Resources
- https://python.langchain.com/docs/get_started/quickstart
- https://python.langchain.com/docs/integrations/vectorstores/faiss
- https://python.langchain.com/docs/integrations/llms/huggingface_pipelines
- https://huggingface.co/sentence-transformers/all-MiniLM-L12-v2
- https://python.langchain.com/docs/integrations/text_embedding/sentence_transformers
- https://huggingface.co/Qwen

# LLM: Qwen-1_8B-Chat-Int4

In [1]:
from langchain_community.llms.huggingface_pipeline import HuggingFacePipeline
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

MAX_NEW_TOKENS = 8192
"""
Source: 
- context length: https://huggingface.co/Qwen/Qwen-1_8B-Chat-Int4
"""
MODEL_ID = "Qwen/Qwen-1_8B-Chat-Int4"

tokenizer = AutoTokenizer.from_pretrained(MODEL_ID, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(MODEL_ID,device_map="auto",trust_remote_code=True)
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, max_new_tokens=MAX_NEW_TOKENS)
hf = HuggingFacePipeline(pipeline=pipe)

  from .autonotebook import tqdm as notebook_tqdm
CUDA extension not installed.
CUDA extension not installed.
Try importing flash-attention for faster inference...


# Test LLM with specific context

In [2]:
from langchain.prompts import PromptTemplate
from langchain.chains.combine_documents import create_stuff_documents_chain

template = """
Vous êtes un assistant spécialisé en droit français.

<context>
{context}
</context>

Question: {input}

Réponse: Expliquez les termes simplement. """
prompt = PromptTemplate.from_template(template)

document_chain = create_stuff_documents_chain(hf, prompt)

In [3]:
from langchain_core.documents import Document

specific_context = """
D'un point de vue idéologique, le droit français désigne un système juridique fondé sur une structure
écrite et codifiée, qui s'oppose tout à la fois aux autres droits européens influencés par le droit
romano-civiliste et aux systèmes de common law.
""" 

document_chain.invoke({
    "input": "C'est quoi le droit français?",
    "context": [Document(page_content=specific_context)]
})

'五大权利 réconçus en France.\n\n- La liberté d\'expression\n- L\'律师 profession\n- L\'collectif des médicaments\n- Le droit du travail\n- La liberte religieuse\n\nBien entendu, il est important de souligner que le droit français n\'a pas pas d\'iconsité gérale sur les droits étraniels, car il convient de l\'équitablement à tous les droits.\n捉\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n哨\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n姬\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n

# Sentence Transformers
- Il faut trouver un modèle Sentence Transformers gratuit (donc pas de OpenAI Embeddings ni Ollama Embeddings)
- Ce modèle doit être pre-entrainé pour la comparaison semantique
- Ce modèle doit comprendre le français

Source https://www.sbert.net/docs/pretrained_models.html

In [4]:
from langchain_community.embeddings import HuggingFaceEmbeddings
embeddings_model_id = 'sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2'
embeddings = HuggingFaceEmbeddings(model_name=embeddings_model_id)

pytorch_model.bin: 100%|██████████| 471M/471M [00:14<00:00, 31.7MB/s] 
sentence_bert_config.json: 100%|██████████| 53.0/53.0 [00:00<00:00, 204kB/s]
sentencepiece.bpe.model: 100%|██████████| 5.07M/5.07M [00:00<00:00, 34.5MB/s]
special_tokens_map.json: 100%|██████████| 239/239 [00:00<00:00, 1.62MB/s]
tokenizer.json: 100%|██████████| 9.08M/9.08M [00:00<00:00, 32.7MB/s]
tokenizer_config.json: 100%|██████████| 480/480 [00:00<00:00, 1.86MB/s]
unigram.json: 100%|██████████| 14.8M/14.8M [00:00<00:00, 35.1MB/s]
modules.json: 100%|██████████| 229/229 [00:00<00:00, 1.12MB/s]


# Corpus

In [17]:
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.document_loaders import TextLoader

CHUNK_SIZE = 100
CHUNK_OVERLAP = 20

loader = TextLoader("data/education.md")
documents = loader.load()
text_splitter = CharacterTextSplitter(chunk_size=CHUNK_SIZE, chunk_overlap=CHUNK_OVERLAP)
docs = text_splitter.split_documents(documents)

Created a chunk of size 808, which is longer than the specified 100
Created a chunk of size 443, which is longer than the specified 100
Created a chunk of size 230, which is longer than the specified 100
Created a chunk of size 319, which is longer than the specified 100
Created a chunk of size 355, which is longer than the specified 100
Created a chunk of size 165, which is longer than the specified 100
Created a chunk of size 261, which is longer than the specified 100
Created a chunk of size 536, which is longer than the specified 100
Created a chunk of size 302, which is longer than the specified 100
Created a chunk of size 168, which is longer than the specified 100
Created a chunk of size 110, which is longer than the specified 100
Created a chunk of size 914, which is longer than the specified 100
Created a chunk of size 221, which is longer than the specified 100
Created a chunk of size 203, which is longer than the specified 100
Created a chunk of size 385, which is longer tha

In [18]:
docs[0]

Document(page_content="---\ntitle: Code de l'éducation\ndate: 2024-01-15\n---\n\n## Partie législative", metadata={'source': 'data/education.md'})

In [19]:
docs[1]

Document(page_content='### Première partie : Dispositions générales et communes', metadata={'source': 'data/education.md'})

In [27]:
len(docs)

22974

# Vector Database

In [21]:
from langchain_community.vectorstores import FAISS

vector = FAISS.from_documents(docs, embeddings)

# Querying the Database
On voit que les docs récuperés de la base de données sont en fait similaires au requête

In [22]:
query = "Qu'est ce que tu connais sur l'éducation des jeunes sourds?"
docs_and_scores = vector.similarity_search_with_score(query)

In [23]:
docs_and_scores

[(Document(page_content='###### Section 3 : Dispositions particulières en faveur des jeunes sourds.\n\n**Art. R351-21**', metadata={'source': 'data/education.md'}),
  11.307245),
 (Document(page_content="Les établissements ou services relevant du 2° du I de l'article L. 312-1 du code de l'action sociale et des familles qui soit assurent en leur sein la scolarisation des jeunes sourds, soit contribuent à leur projet personnalisé de scolarisation lorsqu'ils sont scolarisés dans des écoles ou des établissements scolaires, ainsi que les établissements dont la création ou l'extension sont envisagées, élaborent un document annexé au projet d'établissement ou de service relatif aux conditions d'éducation et au parcours scolaire proposés aux jeunes sourds.", metadata={'source': 'data/education.md'}),
  11.999353),
 (Document(page_content="L'utilisation de la langue des signes dans l'éducation des jeunes sourds est régie par les articles R. 351-21 à R. 351-26.", metadata={'source': 'data/educat

In [24]:
from langchain.chains import create_retrieval_chain

retriever = vector.as_retriever()
retrieval_chain = create_retrieval_chain(retriever, document_chain)

In [25]:
response = retrieval_chain.invoke({"input": query})
print(response["answer"])

1) Lorsque la personne est scolarisée, combien de options il y a ? 2) Quelles sont les options utilisées ?呀
者の réponse sera basse, mais elle comprend la plesse. 1) Pour combiner les options disponibles, combien de options ont-vous ? 2) Les deux questions sont essentielles pour connaître s'il existe des options supplémentaires, qui peuvent être utilisées.：</


In [26]:
response

{'input': "Qu'est ce que tu connais sur l'éducation des jeunes sourds?",
 'context': [Document(page_content='###### Section 3 : Dispositions particulières en faveur des jeunes sourds.\n\n**Art. R351-21**', metadata={'source': 'data/education.md'}),
  Document(page_content="Les établissements ou services relevant du 2° du I de l'article L. 312-1 du code de l'action sociale et des familles qui soit assurent en leur sein la scolarisation des jeunes sourds, soit contribuent à leur projet personnalisé de scolarisation lorsqu'ils sont scolarisés dans des écoles ou des établissements scolaires, ainsi que les établissements dont la création ou l'extension sont envisagées, élaborent un document annexé au projet d'établissement ou de service relatif aux conditions d'éducation et au parcours scolaire proposés aux jeunes sourds.", metadata={'source': 'data/education.md'}),
  Document(page_content="L'utilisation de la langue des signes dans l'éducation des jeunes sourds est régie par les articles R

# TODO
- Clean data before indexing (embeddings computation)
- increase model output tokens ? 