<a href="https://colab.research.google.com/github/SonnyDev/llm-apps-langchain/blob/main/Document_Loaders_et_Document_Transformers.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### 1. Chargement de la clé d'API

In [None]:
import os
import openai

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file
openai.api_key = os.environ['OPENAI_API_KEY']

### 2. Les chargeurs de documents

In [None]:
## TextLoader

In [None]:
from langchain.document_loaders import TextLoader

loader = TextLoader("./langchain.txt", encoding="utf-8")

docs = loader.load()

docs

[Document(page_content="1. Modules\n\n• Modèles : Les modèles sont des composants clés de LangChain qui permettent d'utiliser différents types de modèles de langage, tels que GPT-3, BERT, ou encore T5. Ces modèles peuvent être utilisés pour générer du texte, répondre à des questions, ou effectuer d'autres tâches liées au langage naturel.\n• Prompts : Les prompts sont des instructions ou des exemples donnés aux modèles de langage pour les guider dans leur génération de texte. Ils peuvent être utilisés pour spécifier le contexte, poser des questions ou fournir des indications supplémentaires.\n• Mémoire : La mémoire permet de stocker des informations entre les appels d'une chaîne ou d'un agent. Elle peut être utilisée pour conserver des états, des variables ou des résultats intermédiaires lors de l'exécution d'une séquence d'appels.\n• Indexes : Les indexes permettent de combiner des modèles de langage avec vos propres données textuelles. Ils facilitent la recherche et l'accès aux inform

In [None]:
len(docs)

1

In [None]:
### CSVLoader

In [None]:
from langchain.document_loaders.csv_loader import CSVLoader
loader = CSVLoader(file_path='./titanic.csv')
data = loader.load()

In [None]:
data

[Document(page_content='PassengerId: 1\nSurvived: 0\nPclass: 3\nName: Braund, Mr. Owen Harris\nSex: male\nAge: 22\nSibSp: 1\nParch: 0\nTicket: A/5 21171\nFare: 7.25\nCabin: \nEmbarked: S', metadata={'source': './titanic.csv', 'row': 0}),
 Document(page_content='PassengerId: 2\nSurvived: 1\nPclass: 1\nName: Cumings, Mrs. John Bradley (Florence Briggs Thayer)\nSex: female\nAge: 38\nSibSp: 1\nParch: 0\nTicket: PC 17599\nFare: 71.2833\nCabin: C85\nEmbarked: C', metadata={'source': './titanic.csv', 'row': 1}),
 Document(page_content='PassengerId: 3\nSurvived: 1\nPclass: 3\nName: Heikkinen, Miss. Laina\nSex: female\nAge: 26\nSibSp: 0\nParch: 0\nTicket: STON/O2. 3101282\nFare: 7.925\nCabin: \nEmbarked: S', metadata={'source': './titanic.csv', 'row': 2}),
 Document(page_content='PassengerId: 4\nSurvived: 1\nPclass: 1\nName: Futrelle, Mrs. Jacques Heath (Lily May Peel)\nSex: female\nAge: 35\nSibSp: 1\nParch: 0\nTicket: 113803\nFare: 53.1\nCabin: C123\nEmbarked: S', metadata={'source': './titani

In [None]:
len(data)

891

In [None]:
### DirectoryLoader

In [None]:
# Ce chargeur nécessite le module unstructured
!pip install unstructured

In [None]:
from langchain.document_loaders import DirectoryLoader

loader = DirectoryLoader("./document_loaders/files")
docs = loader.load()

In [None]:
docs[1]

Document(page_content="Les modèles sont des composants essentiels de LangChain qui permettent de réaliser des tâches de traitement du langage naturel. Ils sont conçus pour comprendre et générer du texte en fonction des instructions et des données d'entrée. Voici une explication détaillée sur les modèles dans LangChain :\n\nTypes de modèles :\n\nModèles de langage : Ces modèles sont formés pour prédire la probabilité d'une séquence de mots dans un langage donné. Ils sont utilisés pour générer du texte cohérent et fluide en fonction du contexte.\n\nModèles de traduction : Ces modèles sont spécifiquement conçus pour traduire du texte d'une langue source vers une langue cible. Ils utilisent des techniques de traduction automatique pour générer des traductions précises.\n\nModèles de question\n\nréponse : Ces modèles sont entraînés pour répondre à des questions spécifiques en utilisant des connaissances préalables ou des documents de référence. Ils extraient les informations pertinentes et 

In [None]:
### HTML
# BSHTMLLoader nécessite le module bs4
from langchain.document_loaders import BSHTMLLoader

loader = BSHTMLLoader("./document_loaders/index.html")

data = loader.load()

In [None]:
data

[Document(page_content='\n\nWIP-Privacy Policy\n\n\n\nWIP Privacy Policy\nThis Privacy Policy describes Our policies and procedures on the collection, use and disclosure of Your information when You use the Service and tells You about Your privacy rights and how the law protects You.\nWe use Your Personal data to provide and improve the Service. By using the Service, You agree to the collection and use of information in accordance with this Privacy Policy. This Privacy Policy has been created with the help of the Privacy Policy Generator.\nInterpretation and Definitions\nInterpretation\nThe words of which the initial letter is capitalized have meanings defined under the following conditions. The following definitions shall have the same meaning regardless of whether they appear in singular or in plural.\nDefinitions\nFor the purposes of this Privacy Policy:\n\n\nAccount means a unique account created for You to access our Service or parts of our Service.\n\n\nAffiliate means an entity 

In [None]:
### URLLoader (Unstructured)

from langchain.document_loaders import UnstructuredURLLoader

urls = [
    "https://www.lemondeinformatique.fr/actualites/lire-langchain-un-framework-qui-facilite-le-developpement-autour-des-llm-91921.html",
]

loader = UnstructuredURLLoader(urls=urls)

data = loader.load()

In [None]:
### URLLoader (Selenium : !pip install selenium) : supporte Javascript

from langchain.document_loaders import SeleniumURLLoader

urls = [
    "https://python.langchain.com/docs/modules/data_connection/document_loaders/",
    "https://python.langchain.com/docs/modules/data_connection/document_loaders/csv",
    "https://python.langchain.com/docs/modules/data_connection/document_loaders/file_directory",
    "https://python.langchain.com/docs/modules/data_connection/document_loaders/html",
    "https://python.langchain.com/docs/modules/data_connection/document_loaders/json",
    "https://python.langchain.com/docs/modules/data_connection/document_loaders/markdown",
    "https://python.langchain.com/docs/modules/data_connection/document_loaders/pdf"
]

loader = SeleniumURLLoader(urls=urls)

data = loader.load()

In [None]:
data[1]

Document(page_content='\n\nModules\n\nRetrieval\n\nDocument loaders\n\nCSV\n\nCSV\n\nA comma-separated values (CSV) file is a delimited text file that uses a comma to separate values. Each line of the file is a data record. Each record consists of one or more fields, separated by commas.\n\nLoad CSV data with a single row per document.\n\nfrom\n\nlangchain\n\ndocument_loaders\n\ncsv_loader\n\nimport\n\nCSVLoader\n\nloader\n\nCSVLoader\n\nfile_path\n\n\'./example_data/mlb_teams_2012.csv\'\n\ndata\n\nloader\n\nload\n\nprint\n\ndata\n\n[Document(page_content=\'Team: Nationals\\n"Payroll (millions)": 81.34\\n"Wins": 98\', lookup_str=\'\', metadata={\'source\': \'./example_data/mlb_teams_2012.csv\', \'row\': 0}, lookup_index=0), Document(page_content=\'Team: Reds\\n"Payroll (millions)": 82.20\\n"Wins": 97\', lookup_str=\'\', metadata={\'source\': \'./example_data/mlb_teams_2012.csv\', \'row\': 1}, lookup_index=0), Document(page_content=\'Team: Yankees\\n"Payroll (millions)": 197.96\\n"Wins"

In [None]:
### PyPDFDirectoryLoader

from langchain.document_loaders import PyPDFDirectoryLoader

loader = PyPDFDirectoryLoader("document_loaders/pdfs/")

docs = loader.load()

In [None]:
len(docs)

48

In [None]:
docs[0]

Document(page_content='A call to place g ender equality a t the heart of theGlobal Digit al Compact\nThechoicesthatwillbemadetodevelopsharedprinciplesforanopen,freeandsecuredigitalfutureforall-the“GlobalDigitalCompact”-willshapethedigitaltransformationofoursocietiesfortheyearstocome.Ifwefailatintersectingthedigitalevolutionandgenderequality,theworldwill miss out on the opportunity to build a better, safer and more equal future.\nInthepastyears,wehaveseenhowtechnologyoftenreinforcesaperniciouscycleinwhichexistinginequalitiesandstereotypesareamplifiedandperpetuated.Tobreakthiscycle,theActionCoalitiononTechnologyandInnovationforGenderEqualityisunitingpublic,civilsocietyandprivatepartnerstorevitalizetheglobalpartnershipfortheachievementofSDG51andsparkaworldleantowardsagender-diverse digital transformation.\nGenderequalityisnotanisolatedgoal:itiscriticaltosecuringasustainablefuturefortheplanet,addressingtherootcausesofpovertyandupholdinghumanrights,toleaveno-onebehind.Ourcalltoadoptafeminis

### 3. Transformation de documents

Les transformeurs de documents LangChain permettent d’adapter les données selon les besoins, comme diviser un long document en parties plus petites. Ces outils intégrés permettent facilement de scinder, combiner, filtrer et manipuler les documents.


In [None]:
### RecursiveCharacterSplit

# Load documents

from langchain.document_loaders import TextLoader

loader = TextLoader("./langchain.txt", encoding="utf-8")

docs = loader.load()

docs

# Transform documents

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=20,
    length_function=len,
    add_start_index=True,
)

texts = text_splitter.split_documents(docs)
texts[5]

Document(page_content='• Prompts : Les prompts sont des instructions ou des exemples donnés aux modèles de langage pour', metadata={'source': './langchain.txt', 'start_index': 314})

In [None]:
### Split by Token (!pip install tiktoken)

# Load documents
from langchain.document_loaders import DirectoryLoader

loader = DirectoryLoader("./document_loaders/files")
docs = loader.load()

# Split documents
from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter.from_tiktoken_encoder(
    chunk_size=500, chunk_overlap=0
)
texts = text_splitter.split_documents(docs)

print(len(docs))
print(len(texts))
print(texts[0])
print(len(texts[0].page_content))

2
5
page_content='Les chaînes (chains) sont un concept clé dans LangChain. Elles permettent de créer des flux de travail complexes en enchaînant les appels à des modèles de langage ou à d\'autres utilitaires. Voici une explication détaillée sur les chaînes dans LangChain :\n\nComposition des chaînes :\n\nLes chaînes sont composées de plusieurs étapes, appelées "runnables", qui peuvent être des modèles de langage, des utilitaires de traitement du texte ou d\'autres composants de LangChain.\n\nChaque runnable dans une chaîne reçoit une entrée et produit une sortie. La sortie d\'un runnable est transmise comme entrée au runnable suivant dans la chaîne.\n\nLes chaînes peuvent être linéaires, où les runnables sont exécutés séquentiellement, ou elles peuvent être plus complexes avec des branches et des fusions pour permettre des flux de travail parallèles ou conditionnels.\n\nUtilisation des chaînes :\n\nLes chaînes permettent de créer des pipelines de traitement du langage naturel en combin

In [None]:
texts[4]

Document(page_content="Les modèles dans LangChain sont des outils puissants pour le traitement du langage naturel. Ils permettent de générer du texte, de répondre à des questions, de traduire des phrases, de classer des documents, et bien plus encore. En comprenant le fonctionnement et l'utilisation des modèles, vous pouvez exploiter pleinement les capacités de LangChain pour développer des applications basées sur le langage.", metadata={'source': 'document_loaders\\files\\modèles.txt'})