In [201]:
from langchain.document_loaders import UnstructuredFileLoader
from langchain.chains.summarize import load_summarize_chain
from langchain.chains.question_answering import load_qa_chain
import os
from dotenv import load_dotenv, find_dotenv


## Charger les documents

In [202]:
long_loader = UnstructuredFileLoader("docs-to-load/arrete-07-avril.txt")
long_doc = long_loader.load() 

### Obtenir le nombre de mots dans chaque document

In [203]:
def doc_preview(docs):
    print (f'Tu as {len(docs)} document(s)')

    #we split the doc word by word with using a space separator ```doc.page_content.split(' ')````
    # we get the number of words with ```len()````
    # then we loop over the docs to get the number of words separated by a space
    num_words = sum([len(doc.page_content.split(' ')) for doc in docs])

    #we print the number of words in the doc
    print (f'Tu as en gros {num_words} mots dans ton document')
    
    print()
    
    #we preview the first document 
    print (f'Aper√ßu: {docs[0].page_content.split(". ")}[0]')

In [204]:
doc_preview(long_doc)

Tu as 1 document(s)
Tu as en gros 3261 mots dans ton document

Aper√ßu: ["Arr√™t√© du 7 avril 2020 relatif aux modalit√©s d'admission aux formations conduisant aux dipl√¥mes d'Etat d'aide-soignant et d'auxiliaire de pu√©riculture Derni√®re mise √† jour des donn√©es de ce texte : 12 juin 2023\n\nTITRE 1ER : DISPOSITIONS G√âN√âRALES (Articles 1 √† 8 ter) Article 1 Modifi√© par Arr√™t√© du 12 avril 2021 - art", "1\n\nI.- Les formations conduisant au dipl√¥me d'Etat d'aide-soignant et au dipl√¥me d'Etat d'auxiliaire de pu√©riculture sont accessibles, sans condition de dipl√¥me, par les voies suivantes :\n\n1¬∞ La formation initiale, dans les conditions fix√©es par le pr√©sent arr√™t√© ;\n\n2¬∞ La formation professionnelle continue, dans les conditions fix√©es par le pr√©sent arr√™t√© ;\n\n3¬∞ La validation, partielle ou totale, des acquis de l'exp√©rience, dans les conditions fix√©es par arr√™t√© du ministre charg√© de la sant√©.\n\nLes candidats doivent √™tre √¢g√©s de dix-sept ans au moi

## Charger le mod√®le de langage

In [205]:
from langchain_openai.llms import OpenAI

In [206]:
OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

In [207]:
from langchain_openai import ChatOpenAI

## D√©couper le long texte en morceaux

In [208]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [209]:
textsplitter = RecursiveCharacterTextSplitter (chunk_size=400, chunk_overlap=0)

In [210]:
document_long_morceaux = textsplitter.split_documents(long_doc)

In [211]:
doc_preview(document_long_morceaux)
print(f" \n ‚≠êÔ∏è Remarque : au lieu d'avoir {len(long_doc)} document, nous avons maintenant {len(document_long_morceaux)} plus petits documents")

Tu as 76 document(s)
Tu as en gros 3326 mots dans ton document

Aper√ßu: ["Arr√™t√© du 7 avril 2020 relatif aux modalit√©s d'admission aux formations conduisant aux dipl√¥mes d'Etat d'aide-soignant et d'auxiliaire de pu√©riculture Derni√®re mise √† jour des donn√©es de ce texte : 12 juin 2023\n\nTITRE 1ER : DISPOSITIONS G√âN√âRALES (Articles 1 √† 8 ter) Article 1 Modifi√© par Arr√™t√© du 12 avril 2021 - art", '1'][0]
 
 ‚≠êÔ∏è Remarque : au lieu d'avoir 1 document, nous avons maintenant 76 plus petits documents


## R√©sumer puis utiliser les liens et la r√©duction pour √©viter les probl√®mes de d√©passements de tokens dans les textes longs

### R√©sum√©

In [212]:
from langchain.chains.combine_documents.stuff import StuffDocumentsChain
from langchain.chains.llm import LLMChain
from langchain_core.prompts import PromptTemplate
from langchain.chains import MapReduceDocumentsChain, ReduceDocumentsChain


In [213]:
llm = ChatOpenAI(temperature=0)

## ‚ùå üëéüèΩ Essai de r√©sum√© avec "load_summarize_chain" (donne le r√©sum√© en anglais!!)

- tutoriel YT de Greg Kamradt : https://www.youtube.com/watch?v=f9_BWhCI4ZoGithub
- Github: https://github.com/gkamradt/langchain-tutorials/blob/main/chains/Chain%20Types.ipynb

In [221]:
# Define prompt
prompt_template = """Ecris un r√©sum√© concis de ce qui suit :
"{long_doc_chunked}"
RESUME CONCIS:"""
prompt = PromptTemplate.from_template(prompt_template)

# Define LLM chain
llm = ChatOpenAI(temperature=0, model_name="gpt-3.5-turbo-16k")
llm_chain = LLMChain(llm=llm, prompt=prompt)

chain = load_summarize_chain(llm, chain_type="map_reduce")

to_translate = chain.invoke(document_long_morceaux[:3])

to_translate


{'input_documents': [Document(page_content="Arr√™t√© du 7 avril 2020 relatif aux modalit√©s d'admission aux formations conduisant aux dipl√¥mes d'Etat d'aide-soignant et d'auxiliaire de pu√©riculture Derni√®re mise √† jour des donn√©es de ce texte : 12 juin 2023\n\nTITRE 1ER : DISPOSITIONS G√âN√âRALES (Articles 1 √† 8 ter) Article 1 Modifi√© par Arr√™t√© du 12 avril 2021 - art. 1", metadata={'source': 'docs-to-load/arrete-07-avril.txt'}),
  Document(page_content="I.- Les formations conduisant au dipl√¥me d'Etat d'aide-soignant et au dipl√¥me d'Etat d'auxiliaire de pu√©riculture sont accessibles, sans condition de dipl√¥me, par les voies suivantes :\n\n1¬∞ La formation initiale, dans les conditions fix√©es par le pr√©sent arr√™t√© ;\n\n2¬∞ La formation professionnelle continue, dans les conditions fix√©es par le pr√©sent arr√™t√© ;", metadata={'source': 'docs-to-load/arrete-07-avril.txt'}),
  Document(page_content="3¬∞ La validation, partielle ou totale, des acquis de l'exp√©rience, dan

In [223]:
from deep_translator import GoogleTranslator
translated = GoogleTranslator(source='auto',target='fr').translate(str(to_translate))
translated

'{\'input_documents\': [Document(page_content="Arr√™t√© du 7 avril 2020 relatif aux modalit√©s d\'admission aux formations conduisant aux dipl√¥mes d\'Etat d\'aide-soignant et d\'auxiliaire de pu√©riculture Derni√®re mise √† jour des donn√©es de ce texte : 12 juin 2023\\n\\nTITRE 1ER : DISPOSITIONS G√âN√âRALES (Articles 1 √† 8 ter) Article 1 Modifi√© par Arr√™t√© du 12 avril 2021 - art. 1", metadata={\'source\': \'docs-to-load/arrete-07-avril.txt\'}), Document(page_content="I.- Les formations conduisant au dipl√¥me d\'Etat d\'aide-soignant et au dipl√¥me d\'Etat d\'auxiliaire de pu√©riculture sont accessibles, sans condition de dipl√¥me, par les voies suivantes :\\n\\n1¬∞ La formation initiale, dans les conditions fix√©es par le pr√©sent arr√™t√© ;\\n\\n2¬∞ La formation professionnelle continue, dans les conditions fix√©es par le pr√©sent arr√™t√© ;", metadata={\'source\': \'docs-to-load/arrete-07-avril.txt\'}), Document(page_content="3¬∞ La validation, partielle ou totale, des acquis 

## ‚úÖ üëçüèΩüéâ Essai en d√©taillant toute la Pipeline √©quivalente √† l'objet "load_summarize_chain" : donne le r√©sum√© en fran√ßais 

source : https://python.langchain.com/v0.1/docs/use_cases/summarization/

In [215]:
# Map
map_template = """Ce qui suit est un ensemble de documents
{document_long_morceaux}
Sur la base de cette liste de long_doc_chunked, identifie les principaux th√®mes 
R√©ponses Utiles:"""
map_prompt = PromptTemplate.from_template(map_template)
map_chain = LLMChain(llm=llm, prompt=map_prompt)

In [216]:
# Reduce
reduce_template = """Ce qui suit est un ensemble de r√©sum√©s :
{document_long_morceaux}
Prends-les et distille-les dans un r√©sum√© final et consolid√© des principaux th√®mes. 
R√©ponses Utiles:"""
reduce_prompt = PromptTemplate.from_template(reduce_template)

In [217]:
#Run the Reduce chain
reduce_chain = LLMChain(llm=llm, prompt=reduce_prompt)

In [218]:
# Takes a list of documents, combines them into a single string, and passes this to an LLMChain
combine_documents_chain = StuffDocumentsChain(
    llm_chain=reduce_chain, document_variable_name="document_long_morceaux"
)

In [219]:
# Combines and iteratively reduces the mapped documents
reduce_documents_chain = ReduceDocumentsChain(
    # This is final chain that is called.
    combine_documents_chain=combine_documents_chain,
    # If documents exceed context for `StuffDocumentsChain`
    collapse_documents_chain=combine_documents_chain,
    # The maximum number of tokens to group documents into.
    token_max=4096,
)

In [220]:
#we run the summarization on the first 5 chunks ("docs") of the long doc not to waste the api query usage
reduce_documents_chain.invoke(document_long_morceaux[:3])

{'input_documents': [Document(page_content="Arr√™t√© du 7 avril 2020 relatif aux modalit√©s d'admission aux formations conduisant aux dipl√¥mes d'Etat d'aide-soignant et d'auxiliaire de pu√©riculture Derni√®re mise √† jour des donn√©es de ce texte : 12 juin 2023\n\nTITRE 1ER : DISPOSITIONS G√âN√âRALES (Articles 1 √† 8 ter) Article 1 Modifi√© par Arr√™t√© du 12 avril 2021 - art. 1", metadata={'source': 'docs-to-load/arrete-07-avril.txt'}),
  Document(page_content="I.- Les formations conduisant au dipl√¥me d'Etat d'aide-soignant et au dipl√¥me d'Etat d'auxiliaire de pu√©riculture sont accessibles, sans condition de dipl√¥me, par les voies suivantes :\n\n1¬∞ La formation initiale, dans les conditions fix√©es par le pr√©sent arr√™t√© ;\n\n2¬∞ La formation professionnelle continue, dans les conditions fix√©es par le pr√©sent arr√™t√© ;", metadata={'source': 'docs-to-load/arrete-07-avril.txt'}),
  Document(page_content="3¬∞ La validation, partielle ou totale, des acquis de l'exp√©rience, dan