In [36]:
from langchain_community.document_loaders import (
    PyPDFLoader,
    TextLoader,
    UnstructuredHTMLLoader,
    JSONLoader,
    UnstructuredMarkdownLoader,
)
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings

# from langchain_experimental.text_splitter import SemanticChunker, RecursiveCharacterTextSplitter
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter


In [47]:
def accept_document_return_chunks(document: str):

    if document.split(".")[-1] == "pdf":
        loader = PyPDFLoader(document)
    elif document.split(".")[-1] == "txt":
        loader = TextLoader(document)
    elif document.split(".")[-1] == "json":
        loader = JSONLoader(document)
    elif document.split(".")[-1] == "html":
        loader = UnstructuredHTMLLoader(document)
    elif document.split(".")[-1] == "md":
        loader = UnstructuredMarkdownLoader(document)
    else:
        raise ValueError("File type not supported")

    pages = loader.load_and_split()

    unify_content = ""
    for page in pages:
        unify_content += "\n" + page.page_content

    embedder = SentenceTransformerEmbeddings(
        model_name="dangvantuan/sentence-camembert-large")

    semantic_splitter = SemanticChunker(embedder)

    docs = semantic_splitter.create_documents([unify_content])

    text_splitter = RecursiveCharacterTextSplitter(
        # Set a really small chunk size, just to show.
        chunk_size=500,
        chunk_overlap=20,
        length_function=len,
        is_separator_regex=False,
    )

    docs2 = text_splitter.create_documents([unify_content])

    return docs, docs2


data = accept_document_return_chunks("lettre_1.txt")

No sentence-transformers model found with name dangvantuan/sentence-camembert-large. Creating a new one with MEAN pooling.


config.json:   0%|          | 0.00/683 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.35G [00:00<?, ?B/s]

In [44]:
data[0]

[Document(page_content='\nProfession : sans\nTaille: 158\nG : 3 P : 2 \nSérologie :\n/RAI:\tRub +; Toxo -(09/16); CMV: +; \nAg HBs nég/Ac nég/ anti-core nég (04/16);  HbC-(04/16); Syph -(04/16); HIV -(04/16); Chlamydia -;\nAgglu irr. - (08/16);  \n\nMénarche: 12\nRègles: +- réguliers  \nAntécédents obstétricaux : 21/03/07: 39w6C/S pour SFA F2810g Alyena AM\n2010: accht eutocique \nAntécédents médicaux : \ngastrite\nRisques : 1 Césarienne dans antécédents\nFibrinogène: 2.86 ( 12/08/16) \n\nGrossesses antérieures : \n\nGrossesse n° 1 \tsuivie par: Dr. Alain Claudot \taccouchée par: Dr. A. Loos  \nTerme prévu: 22/03/2007 \tFin de grossesse le 21/03/2007 à 39 s.'),
 Document(page_content="6 j. Résumé de la grossesse:\nrhogam 10/11 sur métro, refait le 5/1, Anémie sidéroprive, traitée par supplément martial  \nAccouchement: Présentation: céphalique \nMotif d'entrée: Rupture prématurée des membranes avec entrée en travail spontané dans les 24 heures  \nTravail: optimalisé en salle de travail

In [45]:
data[1]

[Document(page_content='Profession : sans\nTaille: 158\nG : 3 P : 2 \nSérologie :\n/RAI:\tRub +; Toxo -(09/16); CMV: +; \nAg HBs nég/Ac nég/ anti-core nég (04/16);  HbC-(04/16); Syph -(04/16); HIV -(04/16); Chlamydia -;\nAgglu irr. - (08/16);  \n\nMénarche: 12\nRègles: +- réguliers  \nAntécédents obstétricaux : 21/03/07: 39w6C/S pour SFA F2810g Alyena AM\n2010: accht eutocique \nAntécédents médicaux : \ngastrite\nRisques : 1 Césarienne dans antécédents\nFibrinogène: 2.86 ( 12/08/16) \n\nGrossesses antérieures :'),
 Document(page_content="Grossesse n° 1 \tsuivie par: Dr. Alain Claudot \taccouchée par: Dr. A. Loos  \nTerme prévu: 22/03/2007 \tFin de grossesse le 21/03/2007 à 39 s. 6 j. \nRésumé de la grossesse:\nrhogam 10/11 sur métro, refait le 5/1, Anémie sidéroprive, traitée par supplément martial  \nAccouchement: Présentation: céphalique \nMotif d'entrée: Rupture prématurée des membranes avec entrée en travail spontané dans les 24 heures"),
 Document(page_content="Travail: optimalisé

In [19]:
# recursive_splitter = chunker.recursive_splitter(chunk_size=512,overlap=20)

# For this method we need to define an embedder
embedder = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
semantic_splitter = semantic_chunker(embedder)
# # semantic_splitter_openai = semantic_chunker(OpenAIEmbeddings())

# text_splitter = SemanticChunker(OpenAIEmbeddings())

docs = semantic_splitter.create_documents([unify_content])
print(docs[0].page_content)

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]


Profession : sans
Taille: 158
G : 3 P : 2 
Sérologie :
/RAI:	Rub +; Toxo -(09/16); CMV: +; 
Ag HBs nég/Ac nég/ anti-core nég (04/16);  HbC-(04/16); Syph -(04/16); HIV -(04/16); Chlamydia -;
Agglu irr. - (08/16);  

Ménarche: 12
Règles: +- réguliers  
Antécédents obstétricaux : 21/03/07: 39w6C/S pour SFA F2810g Alyena AM
2010: accht eutocique 
Antécédents médicaux : 
gastrite
Risques : 1 Césarienne dans antécédents
Fibrinogène: 2.86 ( 12/08/16) 

Grossesses antérieures : 

Grossesse n° 1 	suivie par: Dr. Alain Claudot 	accouchée par: Dr. A. Loos  
Terme prévu: 22/03/2007 	Fin de grossesse le 21/03/2007 à 39 s.


In [21]:
len(docs)

2

In [23]:
docs[0]

Document(page_content='\nProfession : sans\nTaille: 158\nG : 3 P : 2 \nSérologie :\n/RAI:\tRub +; Toxo -(09/16); CMV: +; \nAg HBs nég/Ac nég/ anti-core nég (04/16);  HbC-(04/16); Syph -(04/16); HIV -(04/16); Chlamydia -;\nAgglu irr. - (08/16);  \n\nMénarche: 12\nRègles: +- réguliers  \nAntécédents obstétricaux : 21/03/07: 39w6C/S pour SFA F2810g Alyena AM\n2010: accht eutocique \nAntécédents médicaux : \ngastrite\nRisques : 1 Césarienne dans antécédents\nFibrinogène: 2.86 ( 12/08/16) \n\nGrossesses antérieures : \n\nGrossesse n° 1 \tsuivie par: Dr. Alain Claudot \taccouchée par: Dr. A. Loos  \nTerme prévu: 22/03/2007 \tFin de grossesse le 21/03/2007 à 39 s.')

In [24]:
docs[1]

Document(page_content="6 j. Résumé de la grossesse:\nrhogam 10/11 sur métro, refait le 5/1, Anémie sidéroprive, traitée par supplément martial  \nAccouchement: Présentation: céphalique \nMotif d'entrée: Rupture prématurée des membranes avec entrée en travail spontané dans les 24 heures  \nTravail: optimalisé en salle de travail par perfusion de syntocinon® rupture spontanée des membranes laissant s'écouler un liquide amniotique clair, à 1 cm  Anesthésie: 8h45: Péridurale de confort Médications: Buscopan !!!réaction +++\nPérinée: Intact \nSuites de couches:\nPathologie post-partum: Infection urinaire à E Coli, trt Clamoxyl, anémie Hb 11.2 \nGamma-globulines: reçues \nAllaitement: maternel \nEnfant(s):\n• Alyena AVCI Sexe: Féminin\n Monitoring foetal: Cl 3, UCL Terminaison: Césarienne en urgence pour souffrance foetale, Cordon: Bretelle, Délivrance: Délivrance manuelle, Révision utérine,  \npoids: 2810, Taille: 49 PC: 33  Apgar: 9/10/10\nGroupe sanguin: Rhésus D positif\nPathologie néo-n