In [36]:
%pip install --upgrade --quiet  langchain langchain-community langchain-ollama langchain-experimental neo4j tiktoken yfiles_jupyter_graphs python-dotenv json-repair langchain-openai langchain_core

Note: you may need to restart the kernel to use updated packages.


In [3]:
from langchain_core.runnables import  RunnablePassthrough
from langchain_core.prompts import ChatPromptTemplate
from pydantic import BaseModel, Field
from langchain_core.output_parsers import StrOutputParser
from langchain_community.graphs import Neo4jGraph
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.chat_models import ChatOllama
from langchain_experimental.graph_transformers import LLMGraphTransformer
from neo4j import GraphDatabase
from yfiles_jupyter_graphs import GraphWidget
from langchain_community.vectorstores import Neo4jVector
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores.neo4j_vector import remove_lucene_chars
from langchain_ollama import OllamaEmbeddings
import os
from langchain_experimental.llms.ollama_functions import OllamaFunctions
from neo4j import  Driver
from llm_config import get_llm, get_embeddings

from dotenv import load_dotenv

load_dotenv()

True

In [4]:
graph = Neo4jGraph()

  graph = Neo4jGraph()


In [5]:
loader = TextLoader(file_path="dummytext_vi.txt", encoding="utf-8")
docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=250, chunk_overlap=24)
documents = text_splitter.split_documents(documents=docs)

dummytext.txt → đọc toàn bộ nội dung → tách nhỏ ra nhiều document (~250 ký tự mỗi document, có overlap 24 ký tự)



In [8]:

llm = get_llm()

llm_transformer = LLMGraphTransformer(llm=llm)

graph_documents = llm_transformer.convert_to_graph_documents(documents)


documents (text chunks) → Gemini (LLM) → entity + relation extraction → graph_documents


In [9]:
graph_documents[0]

GraphDocument(nodes=[], relationships=[], source=Document(metadata={'source': 'dummytext_vi.txt'}, page_content='1. Câu Chuyện Gia Đình Amico: Di Sản của Tình Yêu và Truyền Thống'))

In [10]:
graph.add_graph_documents(
    graph_documents,
    baseEntityLabel=True,
    include_source=True
)

graph_documents → add_graph_documents → Neo4j:

    - Tạo các Node (entities)

    - Tạo các Relationship (edges)

    - Thêm label "Entity" nếu bật baseEntityLabel
    
    - Thêm metadata source nếu bật include_source


In [11]:
embeddings = get_embeddings()

vector_index = Neo4jVector.from_existing_graph(
    embeddings,
    search_type="hybrid",
    node_label="Document",
    text_node_properties=["text"],
    embedding_node_property="embedding"
)
vector_retriever = vector_index.as_retriever()

[Neo4j Graph DB]

       ↑

(LLM sinh entity + relation → lưu vào Graph)

       ↓

[Neo4j Vector Index]

       ↑

(embedding của text trong Document node → lưu vào embedding field)

       ↓
       
[User query → vector_retriever → top-k relevant documents → LLM answer]


In [12]:
driver = GraphDatabase.driver(
        uri = os.environ["NEO4J_URI"],
        auth = (os.environ["NEO4J_USERNAME"],
                os.environ["NEO4J_PASSWORD"]))

def create_fulltext_index(tx):
    query = '''
    CREATE FULLTEXT INDEX `fulltext_entity_id` 
    FOR (n:__Entity__) 
    ON EACH [n.id];
    '''
    tx.run(query)

# Function to execute the query
def create_index():
    with driver.session() as session:
        session.execute_write(create_fulltext_index)
        print("Fulltext index created successfully.")

# Call the function to create the index
try:
    create_index()
except:
    pass

# Close the driver connection
driver.close()

In [13]:

class Entities(BaseModel):
    """Identifying information about entities."""

    names: list[str] = Field(
        ...,
        description="All the person, organization, or business entities that "
        "appear in the text",
    )

prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "You are extracting organization and person entities from the text.",
        ),
        (
            "human",
            "Use the given format to extract information from the following "
            "input: {question}",
        ),
    ]
)


entity_chain = llm.with_structured_output(Entities)

In [14]:
entity_chain.invoke("Nonna Lucia và Giovanni Caruso là ai?")

Entities(names=['Nonna Lucia', 'Giovanni Caruso'])

In [15]:
def generate_full_text_query(input: str) -> str:
    words = [el for el in remove_lucene_chars(input).split() if el]
    if not words:
        return ""
    full_text_query = " AND ".join([f"{word}~2" for word in words])
    print(f"Generated Query: {full_text_query}")
    return full_text_query.strip()


# Fulltext index query
def graph_retriever(question: str) -> str:
    """
    Collects the neighborhood of entities mentioned
    in the question
    """
    result = ""
    entities = entity_chain.invoke(question)
    for entity in entities.names:
        response = graph.query(
            """CALL db.index.fulltext.queryNodes('fulltext_entity_id', $query, {limit:2})
            YIELD node,score
            CALL {
              WITH node
              MATCH (node)-[r:!MENTIONS]->(neighbor)
              RETURN node.id + ' - ' + type(r) + ' -> ' + neighbor.id AS output
              UNION ALL
              WITH node
              MATCH (node)<-[r:!MENTIONS]-(neighbor)
              RETURN neighbor.id + ' - ' + type(r) + ' -> ' +  node.id AS output
            }
            RETURN output LIMIT 50
            """,
            {"query": entity},
        )
        result += "\n".join([el['output'] for el in response])
    return result

In [16]:
print(graph_retriever("Nonna Lucia là ai?"))

Nonna Lucia - GUIDE -> Gia Đình
Nonna Lucia - IS -> Người Hướng Dẫn
Nonna Lucia - IS -> Người Mẹ
Nonna Lucia - TEACH -> Sicilian Cooking
Nonna Lucia - INFLUENCE -> Amico
Nonna Lucia - GRANDPARENT -> Amico
Nonna Lucia - MENTOR -> Nonna Lucia
Nonna Lucia - MATRIARCH -> Nonna Lucia
Nonna Lucia - MENTOR -> Nonna Lucia
Nonna Lucia - MATRIARCH -> Nonna Lucia
Lucia - RELATED_TO -> Baking
Lucia - FOCUSES_ON -> Sustainable Cooking Methods
Lucia - RELATED_TO -> Seafood Processing
Lucia - COMMITMENT -> Sustainability
Lucia - SUPPORT -> Artist
Lucia - TEACH -> Đầu Bếp Trẻ
Lucia - LOCATION -> Los Angeles
Lucia - SUPPORTS -> Artists
Lucia - OWNS -> Bella Vita
Lucia - GRANDMOTHER -> Amico
Lucia - SISTER -> Antonio
Lucia - MOTHER -> Caruso Family
Lucia - FOCUSES_ON -> Sustainable Cooking Practices
Lucia - LOCATED_IN -> Los Angeles
Lucia - TEACHES -> Local Ingredients
Lucia - TEACHES -> Organic Ingredients
Lucia - OWNER -> Bella Vita
Lucia - MATRIARCH -> Caruso Family
Antonio - SIBLING -> Lucia
Bella V

In [17]:
def full_retriever(question: str):
    graph_data = graph_retriever(question)
    vector_data = [el.page_content for el in vector_retriever.invoke(question)]
    final_data = f"""Graph data:
{graph_data}
vector data:
{"#Document ". join(vector_data)}
    """
    return final_data

In [18]:
template = """Answer the question based only on the following context:
{context}

Question: {question}
Use natural language and be concise.
Answer:"""
prompt = ChatPromptTemplate.from_template(template)

chain = (
        {
            "context": full_retriever,
            "question": RunnablePassthrough(),
        }
    | prompt
    | llm
    | StrOutputParser()
)

In [19]:
chain.invoke(input="Nonna Lucia là ai? Bà ấy có dạy ai về nhà hàng hay nấu ăn không?")

'Nonna Lucia là Người Hướng Dẫn, Người Mẹ, và người dạy nấu ăn Sicilian. Bà dạy Amico nấu ăn.'

In [21]:
# Thử với một số câu hỏi đơn giản
test_questions = [
    "Câu chuyện chính là gì?",
    "Nhân vật chính là ai?",
    "Những sự kiện chính trong câu chuyện là gì?"
]

for question in test_questions:
    print(f"\nQuestion: {question}")
    answer = chain.invoke(question)
    print(f"Answer: {answer}")


Question: Câu chuyện chính là gì?
Answer: Câu chuyện chính là về Antonio, một người kể chuyện có sức hút, người thừa hưởng niềm đam mê từ cha mẹ và nổi tiếng với việc thu hút gia đình và làng xóm bằng những câu chuyện.

Question: Nhân vật chính là ai?
Answer: Không có thông tin về nhân vật chính.

Question: Những sự kiện chính trong câu chuyện là gì?
Answer: Các sự kiện chính là các buổi biểu diễn trực tiếp, trình diễn nấu ăn và chợ thủ công.


In [23]:
# Kiểm tra cấu trúc graph đã được tạo
query = """
MATCH (n)
RETURN n
LIMIT 5
"""
result = graph.query(query)
print("Graph Structure:")
print(result)

Graph Structure:
[{'n': {'id': '03df7629bb2ac3c69a29fff4d805bae7', 'source': 'dummytext.txt', 'text': '1. The Story of Amicoâ€™s Family: A Legacy of Love and Tradition', 'embedding': [0.0417407862842083, 0.004727156367152929, -0.050816819071769714, 0.01514335349202156, 0.06470074504613876, 0.04419071227312088, 0.018587619066238403, -0.036840811371803284, -0.026592368260025978, 0.06551841646432877, 0.013313244096934795, 0.006278320215642452, 0.007576028350740671, 0.01843903586268425, 0.020223692059516907, 0.01560420636087656, 0.019146597012877464, 0.029884792864322662, -0.00535178417339921, -0.03337370604276657, 0.031939927488565445, 0.027219519019126892, -0.01561819203197956, -0.0062865279614925385, 0.0029365133959800005, -0.02123573049902916, 0.03426673635840416, -0.044752638787031174, -0.04279404133558273, 0.015368037857115269, -0.062021300196647644, -0.004831366706639528, -0.057192567735910416, 0.015832247212529182, 0.02536698430776596, -0.05392560362815857, -0.029109947383403778, -

In [23]:
# Test vector search với một câu hỏi
test_query = "Câu chuyện nói về điều gì??"
results = vector_retriever.get_relevant_documents(test_query)
print("\nRelevant Documents:")
for doc in results:
    print(f"\nContent: {doc.page_content}")
    print(f"Metadata: {doc.metadata}")
    


Relevant Documents:

Content: 
text: món ăn quốc tế khác. Những lễ hội này có các buổi biểu diễn trực tiếp, trình diễn nấu ăn và chợ thủ công, tạo nên một bầu không khí sôi động và bao trùm. Các sự kiện không chỉ là một lễ kỷ niệm về ẩm thực mà còn là một nền tảng cho giao lưu văn hóa,
Metadata: {'source': 'dummytext_vi.txt'}

Content: 
text: 1. Câu Chuyện Gia Đình Amico: Di Sản của Tình Yêu và Truyền Thống
Metadata: {'source': 'dummytext_vi.txt'}

Content: 
text: hưởng của Nonna Lucia vượt ra ngoài căn bếp; bà là trụ cột của sức mạnh và trí tuệ, hướng dẫn gia đình bằng tình yêu và bàn tay vững vàng. Những bài học của bà vượt xa các công thức nấu ăn, truyền dạy những bài học về cuộc sống, tình yêu và tầm quan
Metadata: {'source': 'dummytext_vi.txt'}

Content: 
text: ấn không thể xóa nhòa trong thế giới ẩm thực. Mỗi thành viên trong gia đình, với nền tảng và tài năng độc đáo của mình, đã đóng góp vào di sản của gia đình, tạo nên một đế chế ẩm thực trải dài qua nhiều lục địa. Cam kết củ