# Cours LangChain TP5

## Use case

Ce TP est inspiré du cas d'utilisation de compréhension du [code émis dans la bibliothèque LangChain](https://colab.research.google.com/github/langchain-ai/langchain/blob/master/docs/docs/use_cases/code_understanding.ipynb). Il vous permettra d'utiliser LangChain pour analyser du code et en générer

L'analyse du code source est l'une des applications LLM les plus populaires (par exemple, GitHub Copilot, Code Interpreter, Codium et Codeium) pour des cas d'utilisation tels que :

* Q&R sur la base de code pour comprendre comment elle fonctionne
* Utilisation des LLM pour suggérer des refactors ou des améliorations
* Utilisation des LLM pour documenter le code

![Image description](https://raw.githubusercontent.com/langchain-ai/langchain/master/docs/static/img/code_understanding.png)


## Vue d'ensemble

Le pipeline pour l'assurance qualité sur le code suit les étapes que nous suivons pour répondre aux questions sur les documents, avec quelques différences :

En particulier, nous pouvons employer une stratégie de splitting qui fait plusieurs choses :

* Chaque fonction et classe de haut niveau du code est chargée dans des documents distincts.
* Le code source est chargé dans des documents distincts.
* Conserve les métadonnées sur l'origine de chaque fractionnement.

## QuickStart

In [2]:
!pip install --upgrade --quiet  langchain-openai tiktoken chromadb langchain gitpython
# Set env var OPENAI_API_KEY or load from a .env file

import os
os.environ['OPENAI_API_KEY'] = "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" # À Modifier

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.8 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━[0m [32m0.9/1.8 MB[0m [31m26.0 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m1.8/1.8 MB[0m [31m31.9 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m23.9 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m525.5/525.5 kB[0m [31m28.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m807.5/807.5 kB[0m [31m34.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m195.4/195.4 kB[0m [31m22.6 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m256.9/256.9 kB[0m [31m26.3 MB/s[0m eta [36m0:00:00[0m
[2K     [

Nous suivrons la structure de [ce notebook](https://github.com/cristobalcl/LearningLangChain/blob/master/notebooks/04%20-%20QA%20with%20code.ipynb) et utiliserons le [context aware code splitting](https://python.langchain.com/docs/integrations/document_loaders/source_code).

In [3]:
from git import Repo
from langchain_community.document_loaders.generic import GenericLoader
from langchain_community.document_loaders.parsers import LanguageParser
from langchain_text_splitters import Language

# Clone
repo_path = "test_repo/"
repo = Repo.clone_from("https://github.com/langchain-ai/langchain", to_path=repo_path)

On charge le code Python en utilisant [`LanguageParser`](https://python.langchain.com/docs/integrations/document_loaders/source_code), qui va:

* Conserver les fonctions et les classes de haut niveau ensemble (dans un seul document)
* Mettre le reste du code dans un document séparé
* Conserve les métadonnées sur l'origine de chaque split

In [4]:
# Load
loader = GenericLoader.from_filesystem(
    repo_path + "/libs/langchain/langchain",
    glob="**/*",
    suffixes=[".py"],
    exclude=["**/non-utf8-encoding.py"],
    parser=LanguageParser(language=Language.PYTHON, parser_threshold=500),
)
documents = loader.load()
len(documents)

1562

In [33]:
type(documents[1])

### Splitting

On fractionnne le `Document` en morceaux (chunks) pour les tranformer en embedding et les stocker en vectorDB

Nous pouvons utiliser `RecursiveCharacterTextSplitter` avec `language` spécifié.

**Exercice**

Utiliser `RecursiveCharacterTextSplitter` pour fractionner le document contenant le repo github de langchain

In [20]:
from langchain_text_splitters import RecursiveCharacterTextSplitter

python_splitter = RecursiveCharacterTextSplitter.from_language(language=Language.PYTHON, chunk_size=1000, chunk_overlap=100)
texts = python_splitter.split_documents(documents)

In [29]:
print(len(texts))

3607


### RetrievalQ&R

Nous devons stocker les documents de manière à pouvoir effectuer des recherches sémantiques sur leur contenu.

L'approche la plus courante consiste à intégrer le contenu de chaque document, puis à stocker l'intégration et le document dans un magasin vectoriel.

Lors de la configuration de l'extracteur vectoriel :

* Nous testons [max marginal relevance](/docs/use_cases/question_answering) pour la recherche.
* Et 8 documents sont retournés

In [21]:
texts[:1500]

[Document(page_content='"""For backwards compatibility."""\nfrom langchain_community.utilities.python import PythonREPL\n\n__all__ = ["PythonREPL"]', metadata={'source': 'test_repo/libs/langchain/langchain/python.py', 'language': <Language.PYTHON: 'python'>}),
 Document(page_content='"""Deprecated module for BaseLanguageModel class, kept for backwards compatibility."""\nfrom __future__ import annotations\n\nfrom langchain_core.language_models import BaseLanguageModel\n\n__all__ = ["BaseLanguageModel"]', metadata={'source': 'test_repo/libs/langchain/langchain/base_language.py', 'language': <Language.PYTHON: 'python'>}),
 Document(page_content='"""DEPRECATED: Kept for backwards compatibility."""\nfrom langchain_core.utils.formatting import StrictFormatter, formatter\n\n__all__ = ["StrictFormatter", "formatter"]', metadata={'source': 'test_repo/libs/langchain/langchain/formatting.py', 'language': <Language.PYTHON: 'python'>}),
 Document(page_content='def __getattr__(name: str) -> Any:\n  

**Exercice**

Créer des embeddings de votre code source splitté et stocké les dans une VectorDB de votre choix

In [18]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma

In [22]:
embeddings = OpenAIEmbeddings(disallowed_special=())

db =  Chroma.from_documents(texts, embeddings)
retriever = db.as_retriever(
    search_type="mmr",  # Also test "similarity"
    search_kwargs={"k": 8},
)

### Chat

**Exercice**

Créer un model de chat avec Mémoire et Une chain de RAG à partir du retriever appelant la VectorDB
tester votre code en demandant des questions au LLM sur Lngchain

In [25]:
from langchain.chains import ConversationalRetrievalChain
from langchain.memory import ConversationSummaryMemory
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(temperature=0)
qr_model = ConversationalRetrievalChain.from_llm(llm, retriever=retriever)

In [27]:
chat_history = []


In [31]:
question = "Expliques moi à quoi sert LangSmith une composante de LangChain?"
result = qr_model({"question": question, "chat_history": chat_history})
chat_history.append((question, result["answer"]))
result["answer"]

"LangSmith est une composante de LangChain qui fournit des utilitaires pour se connecter à LangSmith, permettant ainsi d'évaluer les chaînes et d'autres composants d'application de modèle de langage à l'aide d'évaluateurs LangChain."

In [None]:
#qr_model.memory.clear()