In [8]:
# !pip install -U transformers langchain langchain_huggingface langchain_community sentence-transformers langchain_huggingface langchain_core chromadb ipywidgets

In [33]:
# !pip install -U ipywidgets

In [1]:
import os
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_core.documents import Document  # นำเข้า Document


In [6]:
def ingestFromText(text: str):
    # สร้าง Document
    documents = [Document(page_content=text, metadata={
        "source":"website.txt"
    })]
    
    # Split the text by char
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=512,
        chunk_overlap=51,
        length_function=len,
        strip_whitespace=True,
    )
    chunks = text_splitter.split_documents(documents)
    print(f"Split text into {len(chunks)} chunks.")

    # Use HuggingFaceEmbeddings with BAAI/bge-m3 model
    # embedding = HuggingFaceEmbeddings(
    #     model_name="BAAI/bge-m3"
    # )

    model_name = "BAAI/bge-m3"
    model_kwargs = {'device': 'cpu'}
    encode_kwargs = {'normalize_embeddings': False}
    
    embedding = HuggingFaceEmbeddings(
        model_name=model_name,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs
    )

    # สร้างไดเรกทอรีสำหรับบันทึก embeddings
    embeddings_dir = "./embeddings-test_embedding"
    os.makedirs(embeddings_dir, exist_ok=True)
    
    # สร้าง vectorstore และบันทึก embeddings ลงในไฟล์
    Chroma.from_documents(documents=chunks, embedding=embedding, persist_directory=embeddings_dir)

    print("--- Ingest Text Successc ---")

In [7]:
ingestFromText("โลกออนไลน์ต่างแชร์โพสต์ของ ผู้ใช้เฟซบุ๊ก “ตรีทิพยนิภา สุวรรณละมัย” ไปมากกว่า 2 หมื่นแชร์ หลังจากที่เธอโพสต์อุทาหรณ์การเสียชีวิตของ “ยุ้ย” ดาว TikTok ที่มีผู้ติดตามมากกว่า 3 แสนคน")

Split text into 1 chunks.
--- Ingest Text Successc ---
