# **CN230 MiniProject G10-Finlafei**

**ภาพรวมโครงการ (Project Overview)**
โครงการนี้คือการพัฒนาและทดสอบระบบ Retrieval-Augmented Generation (RAG) ที่ผสานการทำงานของฐานข้อมูล 2 ประเภทเข้าด้วยกันเพื่อเสริมความสามารถของ LLM ในการตรวจจับและวิเคราะห์การฉ้อโกงทางการเงิน (Fraud Detection)

| ส่วนประกอบ | เทคโนโลยี |
|:---:|:-----------------------------|
|**LLM**| Gemini 2.5-Flash |
|**Vector DB**| FAISS |
|**Graph DB**| Neo4j |
|**Framework**| LangChain |
|**Dataset**| Kaggle: Synthetic Financial Datasets For Fraud Detection |








## **Prepare Zone:**
- Install Package
- Import & Environment Setup
- Data Ingestion

### **PREP 01:** Install Package

| ลำดับ | ไลบรารี | หน้าที่หลัก | หมายเหตุ |
|:---:|:-----------------------------|:---------------------------------|:-----------------------------------------------|
|1|**langchain==1.0.5**|แกนหลักของ LangChain Framework|ใช้จัดการโมเดล LLM, Agent, Prompt และการเชื่อมต่อเครื่องมือภายนอก เพื่อสร้าง Workflow ของ RAG|
|2|**langchain-text-splitters**|แบ่งข้อความเป็นส่วนย่อย (Chunks)|เตรียมข้อมูลให้เหมาะกับการสร้าง Embedding และลดภาระการประมวลผล (เช่น การใช้ TokenTextSplitter)|
|3|**langchain-community**|รวม Integration จากนักพัฒนาชุมชน|เพิ่มฟังก์ชันการเชื่อมต่อกับบริการหรือโมเดลใหม่ ๆ |
|4|**neo4j**|ตัวเชื่อมต่อฐานข้อมูลกราฟ (Graph Database)|ใช้จัดการความสัมพันธ์ระหว่างข้อมูลในรูปแบบ Node–Relationship และรัน Cypher Query|
|5|**tiktoken**|นับจำนวน Token ของข้อความ|ใช้ควบคุมความยาวข้อความไม่ให้เกินขีดจำกัดของโมเดล LLM และใช้โดย TokenTextSplitter|
|6|**langchain-neo4j**|เชื่อม LangChain กับ Neo4j Vector Store/Graph|รองรับการค้นหาความคล้ายคลึง (Similarity Search) ใน Neo4j และการสร้าง GraphCypherQAChain|
|7|**langchain-huggingface**|ใช้โมเดลจาก Hugging Face|รองรับทั้ง Embedding Models และ Generative Models ที่มาจาก Hugging Face Hub|
|8|**sentence_transformers**|สร้างเวกเตอร์แทนความหมายของข้อความ (Text Embedding)|เป็นไลบรารีหลักที่ใช้ในการแปลงข้อมูลข้อความเป็นตัวเลขหลายมิติสำหรับ Vector Search|
|9|**langchain-google-genai**|ใช้โมเดล Gemini ของ Google|ช่วยให้ LangChain สามารถเรียกใช้โมเดล Generative AI ของ Google (เช่น Gemini 2.5-Flash) ได้โดยตรงเพื่อสร้างคำตอบ|
|10|**faiss-cpu**|Vector Database สำหรับค้นหาความคล้ายคลึง|ทำงานรวดเร็ว เหมาะกับงานค้นหาเอกสารในระบบ Local และเป็นตัวเลือกสำหรับ RAG Pattern 01|
|11|**kagglehub**|ดึงข้อมูลจาก Kaggle API|ใช้สำหรับดาวน์โหลด Dataset จาก Kaggle มาใช้เป็นข้อมูลดิบในโปรเจกต์|
|12|**pandas/numpy**|การจัดการข้อมูลและการคำนวณ|ใช้สำหรับจัดการข้อมูลในรูปแบบตาราง (DataFrame) และใช้สำหรับการคำนวณเชิงตัวเลข (เช่น Feature Engineering)|
|13|**tqdm**|แสดงแถบสถานะ (Progress Bar)|ใช้แสดงความคืบหน้าของงานที่ใช้เวลานาน เช่น การประมวลผลข้อมูลจำนวนมากหรือการสร้าง Embedding|


In [None]:
!pip install langchain==1.0.5 langchain-text-splitters langchain-community \
    neo4j tiktoken langchain-neo4j langchain-huggingface \
    sentence_transformers langchain-google-genai faiss-cpu kagglehub \
    pandas numpy tqdm

Collecting langchain==1.0.5
  Downloading langchain-1.0.5-py3-none-any.whl.metadata (4.9 kB)
Collecting langchain-text-splitters
  Downloading langchain_text_splitters-1.0.0-py3-none-any.whl.metadata (2.6 kB)
Collecting langchain-community
  Downloading langchain_community-0.4.1-py3-none-any.whl.metadata (3.0 kB)
Collecting neo4j
  Downloading neo4j-6.0.3-py3-none-any.whl.metadata (5.2 kB)
Collecting langchain-neo4j
  Downloading langchain_neo4j-0.6.0-py3-none-any.whl.metadata (4.5 kB)
Collecting langchain-huggingface
  Downloading langchain_huggingface-1.1.0-py3-none-any.whl.metadata (2.8 kB)
Collecting langchain-google-genai
  Downloading langchain_google_genai-3.2.0-py3-none-any.whl.metadata (2.7 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.13.0-cp39-abi3-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (7.7 kB)
Collecting langchain-classic<2.0.0,>=1.0.0 (from langchain-community)
  Downloading langchain_classic-1.0.0-py3-none-any.whl.metadata (3.9 kB)
Collecting reque

### **PREP 02:** Imports and Environment Setup


In [None]:
import os
import pandas as pd
import numpy as np
from tqdm import tqdm
import faiss

# Check if running in Google Colab
try:
    import google.colab
    from google.colab import output
    output.enable_custom_widget_manager()
    print("Running in Google Colab")
except:
    print("Running locally")

Running in Google Colab


Environment Variables


In [None]:
os.environ["NEO4J_URI"] = "neo4j+s://664dfc07.databases.neo4j.io"
os.environ["NEO4J_USERNAME"] = "neo4j"
os.environ["NEO4J_PASSWORD"] = "5wzW1838vJ4P64rN76xud2uq0Xa9F-GXIFREYVnD5V4"

os.environ["GOOGLE_API_KEY"] = "AIzaSyDtLQ3Rht60JAe4f6A1skDtLUAhclFmVeU"
os.environ["HUGGINGFACEHUB_API_TOKEN"] = "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"

### **PREP 03:** Data Ingestion

Data Gathering

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("ealaxi/paysim1")
csv_path = path + "/PS_20174392719_1491204439457_log.csv"

print("Path to dataset files:", path)

Downloading from https://www.kaggle.com/api/v1/datasets/download/ealaxi/paysim1?dataset_version_number=2...


100%|██████████| 178M/178M [00:09<00:00, 20.4MB/s]

Extracting files...





Path to dataset files: /root/.cache/kagglehub/datasets/ealaxi/paysim1/versions/2


Data Scanning & Sampling

In [None]:
chunk_size = 100000
flagged_data = []
fraud_data = []
multi_tx_data = []
normal_data = []

total_rows = 0
total_fraud = 0
total_flagged = 0

print("Scanning dataset for fraud patterns...\n")

for i, chunk in enumerate(pd.read_csv(csv_path, chunksize=chunk_size)):
    total_rows += len(chunk)
    fraud_count = (chunk['isFraud'] == 1).sum()
    flagged_count = (chunk['isFlaggedFraud'] == 1).sum()

    total_fraud += fraud_count
    total_flagged += flagged_count

    # PRIORITY 1: Collect ALL flagged fraud
    if flagged_count > 0:
        flagged_data.append(chunk[chunk['isFlaggedFraud'] == 1])

    # PRIORITY 2: Collect fraud samples
    if fraud_count > 0:
        fraud_chunk = chunk[(chunk['isFraud'] == 1) & (chunk['isFlaggedFraud'] == 0)]
        if len(fraud_chunk) > 0:
            fraud_data.append(fraud_chunk.sample(n=min(100, len(fraud_chunk)), random_state=42))

    # PRIORITY 3: Multi-transaction accounts
    acc_counts = chunk['nameOrig'].value_counts()
    multi_accs = acc_counts[acc_counts > 1].index
    if len(multi_accs) > 0:
        multi_chunk = chunk[chunk['nameOrig'].isin(multi_accs)]
        multi_chunk = multi_chunk[(multi_chunk['isFraud'] == 0) & (multi_chunk['isFlaggedFraud'] == 0)]
        if len(multi_chunk) > 0:
            multi_tx_data.append(multi_chunk.sample(n=min(200, len(multi_chunk)), random_state=42))

    # PRIORITY 4: Normal transactions
    normal_chunk = chunk[(chunk['isFraud'] == 0) & (chunk['isFlaggedFraud'] == 0)]
    if len(normal_chunk) > 0:
        normal_data.append(normal_chunk.sample(n=min(100, len(normal_chunk)), random_state=42))

    if (i + 1) % 10 == 0:
        print(f"Progress: {total_rows:,} rows | Fraud: {total_fraud} | Flagged: {total_flagged}")

# Combine datasets
df_parts = []

if flagged_data:
    df_flagged = pd.concat(flagged_data, ignore_index=True)
    df_parts.append(df_flagged)
    print(f"Including {len(df_flagged)} flagged fraud cases")

if fraud_data:
    df_fraud = pd.concat(fraud_data, ignore_index=True)
    df_parts.append(df_fraud)
    print(f"Including {len(df_fraud)} fraud cases")

if multi_tx_data:
    df_multi = pd.concat(multi_tx_data, ignore_index=True)
    df_parts.append(df_multi)
    print(f"Including {len(df_multi)} multi-transaction accounts")

if normal_data:
    df_normal = pd.concat(normal_data, ignore_index=True)
    current = sum(len(p) for p in df_parts)
    target = 10000
    if current < target:
        remaining = target - current
        if len(df_normal) > remaining:
            df_normal = df_normal.sample(n=remaining, random_state=42)
        df_parts.append(df_normal)
        print(f"Including {len(df_normal)} normal transactions")

df = pd.concat(df_parts, ignore_index=True).drop_duplicates()

print(f"\n{'='*80}")
print(f"Final dataset: {len(df):,} transactions")
print(f"  - Flagged: {(df['isFlaggedFraud'] == 1).sum()}")
print(f"  - Fraud: {((df['isFraud'] == 1) & (df['isFlaggedFraud'] == 0)).sum()}")
print(f"  - Normal: {((df['isFraud'] == 0) & (df['isFlaggedFraud'] == 0)).sum()}")
print(f"{'='*80}\n")

Scanning dataset for fraud patterns...

Progress: 1,000,000 rows | Fraud: 535 | Flagged: 0
Progress: 2,000,000 rows | Fraud: 2036 | Flagged: 0
Progress: 3,000,000 rows | Fraud: 2619 | Flagged: 1
Progress: 4,000,000 rows | Fraud: 3381 | Flagged: 3
Progress: 5,000,000 rows | Fraud: 3935 | Flagged: 3
Progress: 6,000,000 rows | Fraud: 4815 | Flagged: 6
Including 16 flagged fraud cases
Including 3601 fraud cases
Including 245 multi-transaction accounts
Including 6138 normal transactions

Final dataset: 10,000 transactions
  - Flagged: 16
  - Fraud: 3601
  - Normal: 6383



Data Cleaning

In [None]:
df = df.dropna().drop_duplicates()
df = df.rename(columns={
    'step': 'time_step',
    'type': 'transaction_type',
    'nameOrig': 'account',
    'nameDest': 'receiver',
    'isFraud': 'is_fraud',
    'isFlaggedFraud': 'is_flagged'
})

print(f"Data cleaned: {df.shape[0]:,} records")

Data cleaned: 10,000 records


Data Aggregation & Feature Engineering

In [None]:
df_agg = df.groupby('account').agg({
    'amount': ['sum', 'count', 'max', 'mean', 'std'],
    'transaction_type': lambda x: ', '.join(sorted(x.unique())),
    'is_fraud': ['max', 'sum'],
    'is_flagged': ['max', 'sum'],
    'oldbalanceOrg': 'mean',
    'newbalanceOrig': 'mean'
}).reset_index()

df_agg.columns = [
    'account', 'total_amount', 'num_tx', 'max_amount', 'avg_amount', 'std_amount',
    'types', 'has_fraud', 'fraud_count', 'has_flagged', 'flagged_count',
    'avg_old_balance', 'avg_new_balance'
]

df_agg['std_amount'] = df_agg['std_amount'].fillna(0)

# Feature Engineering
threshold_amount = df['amount'].quantile(0.99)
threshold_count = df.groupby('account')['amount'].count().quantile(0.90)
threshold_avg = df['amount'].quantile(0.95)

df_agg['is_high_total'] = df_agg['total_amount'] > threshold_amount
df_agg['is_high_count'] = df_agg['num_tx'] > threshold_count
df_agg['is_high_avg'] = df_agg['avg_amount'] > threshold_avg
df_agg['balance_drop_pct'] = ((df_agg['avg_old_balance'] - df_agg['avg_new_balance']) /
                               (df_agg['avg_old_balance'] + 1)) * 100

print(f"Aggregated data: {len(df_agg):,} unique accounts")

Aggregated data: 9,878 unique accounts


In [None]:
df_agg.head()

Unnamed: 0,account,total_amount,num_tx,max_amount,avg_amount,std_amount,types,has_fraud,fraud_count,has_flagged,flagged_count,avg_old_balance,avg_new_balance,is_high_total,is_high_count,is_high_avg,balance_drop_pct
0,C1000126591,351902.82,1,351902.82,351902.82,0.0,TRANSFER,0,0,0,0,0.0,0.0,False,False,False,0.0
1,C1000331499,2016790.84,1,2016790.84,2016790.84,0.0,TRANSFER,1,1,0,0,2016790.84,0.0,False,False,False,99.99995
2,C1000513158,40388.58,1,40388.58,40388.58,0.0,TRANSFER,1,1,0,0,40388.58,0.0,False,False,False,99.997524
3,C100203424,22880.75,1,22880.75,22880.75,0.0,CASH_OUT,0,0,0,0,21.0,0.0,False,False,False,95.454545
4,C1002049149,19971.66,1,19971.66,19971.66,0.0,PAYMENT,0,0,0,0,0.0,0.0,False,False,False,0.0


## **RAG PATTERN 01**: Vector DB using FAISS

### 1.1 Create Google Gemini 2.5 Flash Model

In [None]:
from langchain_google_genai import ChatGoogleGenerativeAI

model = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash",
    temperature=0.3
)

print("Gemini model initialized")

Gemini model initialized


### 1.2 Create Embedding Model

ใช้ paraphrase-multilingual-MiniLM จาก HuggingFace

In [None]:
from langchain_huggingface import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(
    model_name="sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
)

print("Embedding model loaded")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/645 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/471M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/480 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Embedding model loaded


### 1.3 Create FAISS Vector Store

In [None]:
from langchain_community.docstore.in_memory import InMemoryDocstore
from langchain_community.vectorstores import FAISS

embedding_dim = len(embeddings.embed_query("hello world"))
index = faiss.IndexFlatL2(embedding_dim)

vector_store = FAISS(
    embedding_function=embeddings.embed_query,
    index=index,
    docstore=InMemoryDocstore({}),
    index_to_docstore_id={}
)

print(f"FAISS vector store initialized")



FAISS vector store initialized


### 1.4 Text Generation

In [None]:
def create_text(row):
    fraud_status = "มีการโกง (fraud)" if row['has_fraud'] == 1 else "ปกติ"
    flagged_status = "ถูก FLAG!" if row['has_flagged'] == 1 else "ไม่ถูก flag"
    amount_desc = "สูงผิดปกติ" if row['is_high_total'] else "ปกติ"
    avg_desc = "สูงมาก" if row['is_high_avg'] else "ปานกลาง"

    if row['num_tx'] == 1:
        count_desc = "ทำเพียงครั้งเดียว"
    elif row['num_tx'] <= 5:
        count_desc = f"ทำ {int(row['num_tx'])} ครั้ง"
    elif row['num_tx'] <= 10:
        count_desc = f"ทำบ่อย ({int(row['num_tx'])} ครั้ง)"
    else:
        count_desc = f"ทำบ่อยมาก ({int(row['num_tx'])} ครั้ง)"

    variability = ""
    if row['num_tx'] > 1 and row['std_amount'] > 0:
        cv = (row['std_amount'] / row['avg_amount']) * 100
        if cv > 100:
            variability = f", ความผันแปรสูง (std={row['std_amount']:,.0f})"
        elif cv > 50:
            variability = f", ความผันแปรปานกลาง (std={row['std_amount']:,.0f})"

    risks = []
    if row['has_fraud']:
        risks.append(f"มีธุรกรรมโกง {int(row['fraud_count'])} ครั้ง")
    if row['has_flagged']:
        risks.append(f"ถูก FLAG {int(row['flagged_count'])} ครั้ง")
    if row['is_high_total']:
        risks.append("ยอดรวมสูงผิดปกติ")
    if row['is_high_count']:
        risks.append("จำนวนครั้งสูงผิดปกติ")
    if row['balance_drop_pct'] > 90:
        risks.append(f"ยอดคงเหลือลด {row['balance_drop_pct']:.0f}%")

    risk_text = "; ".join(risks) if risks else "ไม่มีสัญญาณเสี่ยง"

    return (f"บัญชี {row['account']} {count_desc}, "
            f"ยอดรวม {row['total_amount']:,.2f} บาท ({amount_desc}), "
            f"เฉลี่ย {row['avg_amount']:,.2f} บาท ({avg_desc}){variability}, "
            f"สูงสุด {row['max_amount']:,.2f} บาท. "
            f"ประเภท: {row['types']}. "
            f"สถานะ: {fraud_status}, {flagged_status}. "
            f"ความเสี่ยง: {risk_text}")

combined_texts = []
for _, row in tqdm(df_agg.iterrows(), total=len(df_agg), desc="Generating texts"):
    combined_texts.append(create_text(row))

df_combined = pd.DataFrame({
    'ID': range(1, len(combined_texts) + 1),
    'account': df_agg['account'],
    'combined_text': combined_texts,
    'has_fraud': df_agg['has_fraud'],
    'has_flagged': df_agg['has_flagged'],
    'total_amount': df_agg['total_amount'],
    'num_tx': df_agg['num_tx']
})

print(f"Generated {len(combined_texts):,} Thai descriptions")

Generating texts: 100%|██████████| 9878/9878 [00:01<00:00, 7905.63it/s]

Generated 9,878 Thai descriptions





In [None]:
combined_texts[0]

'บัญชี C1000126591 ทำเพียงครั้งเดียว, ยอดรวม 351,902.82 บาท (ปกติ), เฉลี่ย 351,902.82 บาท (ปานกลาง), สูงสุด 351,902.82 บาท. ประเภท: TRANSFER. สถานะ: ปกติ, ไม่ถูก flag. ความเสี่ยง: ไม่มีสัญญาณเสี่ยง'

### 1.5 Create Document & Storing Vector

In [None]:
from langchain_core.documents import Document
documents = []
for _, row in df_combined.iterrows():
    doc = Document(
        page_content=row['combined_text'],
        metadata={
            'account': row['account'],
            'has_fraud': row['has_fraud'],
            'has_flagged': row['has_flagged'],
            'total_amount': row['total_amount'],
            'num_tx': row['num_tx']
        }
    )
    documents.append(doc)

document_ids = vector_store.add_documents(documents=documents)

print(f"Added {len(document_ids)} documents to FAISS")
print(f"  Sample IDs: {document_ids[:3]}")

Added 9878 documents to FAISS
  Sample IDs: ['f81cde0d-bb06-49c9-9343-5b5a7406bc31', 'fcd84b33-8a42-4554-b66e-dffb50b431b9', 'c421d03b-e6e9-4930-b971-6541b358146e']


In [None]:
documents[0]

Document(metadata={'account': 'C1000126591', 'has_fraud': 0, 'has_flagged': 0, 'total_amount': 351902.82, 'num_tx': 1}, page_content='บัญชี C1000126591 ทำเพียงครั้งเดียว, ยอดรวม 351,902.82 บาท (ปกติ), เฉลี่ย 351,902.82 บาท (ปานกลาง), สูงสุด 351,902.82 บาท. ประเภท: TRANSFER. สถานะ: ปกติ, ไม่ถูก flag. ความเสี่ยง: ไม่มีสัญญาณเสี่ยง')

### 1.6 Create RAG Agent

#### 1.6.1 Create FAISS Retrival tools

In [None]:
from langchain.tools import tool

@tool(response_format="content_and_artifact")
def retrieve_fraud_context(query: str):
    """ค้นหาข้อมูลธุรกรรมที่เกี่ยวข้องจาก FAISS Vector Database"""

    retrieved_docs = vector_store.similarity_search(query, k=3)

    serialized = "\n\n".join(
        f"Source: {doc.metadata.get('account', 'Unknown')}\n"
        f"Fraud: {doc.metadata.get('has_fraud', 0)}\n"
        f"Flagged: {doc.metadata.get('has_flagged', 0)}\n"
        f"Content: {doc.page_content}"
        for doc in retrieved_docs
    )

    return serialized, retrieved_docs

print("Fraud retrieval tool created")

Fraud retrieval tool created


#### 1.6.2 Implement RAG Agent

In [None]:
from langchain.agents import create_agent

tools = [retrieve_fraud_context]

system_prompt = """
คุณเป็น AI Assistant ที่เชี่ยวชาญด้านการตรวจจับธุรกรรมฉ้อโกง
คุณมีเครื่องมือ retrieve_fraud_context สำหรับค้นหาข้อมูลธุรกรรมที่น่าสงสัย
ใช้เครื่องมือนี้เพื่อชวยตอบคำถามของผู้ใช้อย่างแม่นยำ
ตอบเป็นภาษาไทยและระบุความเสี่ยงอย่างชัดเจน
"""

agent = create_agent(
    model=model,
    tools=tools,
    system_prompt=system_prompt
)

print("RAG Agent (Pattern 01) created")


RAG Agent (Pattern 01) created


### **Test RAG Agent**

In [None]:
print("\n" + "="*80)
print("TESTING RAG AGENT (Pattern 01)")
print("="*80 + "\n")

test_query = "มีบัญชีไหนที่มีการโกงและถูก flag บ้าง"

for event in agent.stream(
    {"messages": [{"role": "user", "content": test_query}]},
    stream_mode="values"
):
    event["messages"][-1].pretty_print()


TESTING RAG AGENT (Pattern 01)


มีบัญชีไหนที่มีการโกงและถูก flag บ้าง
Tool Calls:
  retrieve_fraud_context (f85e63cd-6388-40c6-98c6-c89d15a97659)
 Call ID: f85e63cd-6388-40c6-98c6-c89d15a97659
  Args:
    query: บัญชีที่มีการโกงและถูก flag
Name: retrieve_fraud_context

Source: C689608084
Fraud: 1
Flagged: 1
Content: บัญชี C689608084 ทำเพียงครั้งเดียว, ยอดรวม 10,000,000.00 บาท (ปกติ), เฉลี่ย 10,000,000.00 บาท (สูงมาก), สูงสุด 10,000,000.00 บาท. ประเภท: TRANSFER. สถานะ: มีการโกง (fraud), ถูก FLAG!. ความเสี่ยง: มีธุรกรรมโกง 1 ครั้ง; ถูก FLAG 1 ครั้ง

Source: C2140038573
Fraud: 1
Flagged: 1
Content: บัญชี C2140038573 ทำเพียงครั้งเดียว, ยอดรวม 10,000,000.00 บาท (ปกติ), เฉลี่ย 10,000,000.00 บาท (สูงมาก), สูงสุด 10,000,000.00 บาท. ประเภท: TRANSFER. สถานะ: มีการโกง (fraud), ถูก FLAG!. ความเสี่ยง: มีธุรกรรมโกง 1 ครั้ง; ถูก FLAG 1 ครั้ง

Source: C728984460
Fraud: 1
Flagged: 1
Content: บัญชี C728984460 ทำเพียงครั้งเดียว, ยอดรวม 4,953,893.08 บาท (ปกติ), เฉลี่ย 4,953,893.08 บาท (สูงมาก), สูงสุด 4

## **RAG PATTERN 02**: Graph DB using Neo4j Document

Create Neo4j Vector Store

In [None]:
from langchain_neo4j import Neo4jVector

neo4j_db = Neo4jVector.from_documents(
    documents=documents,
    embedding=embeddings,
    url=os.environ["NEO4J_URI"],
    username=os.environ["NEO4J_USERNAME"],
    password=os.environ["NEO4J_PASSWORD"]
)

print("Neo4j Vector Store created")

Neo4j Vector Store created


### 2.1 Neo4J Implement RAG Agent

CREATE NEO4J RAG AGENT

In [None]:
@tool(response_format="content_and_artifact")
def neo4j_retrieve_fraud_context(query: str):
    """ค้นหาข้อมูลธุรกรรมจาก Neo4j Vector Database"""

    retrieved_docs = neo4j_db.similarity_search_with_score(query, k=2)

    serialized = "\n\n".join(
        f"Source: {doc[0].metadata}\nContent: {doc[0].page_content}"
        for doc in retrieved_docs
    )

    return serialized, retrieved_docs

neo4j_tools = [neo4j_retrieve_fraud_context]

neo4j_prompt = """
You are an AI assistant specializing in fraud detection.
Use the Neo4j Vector Database tool to retrieve relevant transaction information.
Provide clear, concise answers in Thai language.
"""

neo4j_agent = create_agent(
    model,
    neo4j_tools,
    system_prompt=neo4j_prompt
)

print("Neo4j RAG Agent (Pattern 02) created")


Neo4j RAG Agent (Pattern 02) created


#### **TEST NEO4J AGENT**

In [None]:
print("\n" + "="*80)
print("TESTING NEO4J AGENT (Pattern 02)")
print("="*80 + "\n")

test_query_neo4j = "หาบัญชีที่มียอดเงินสูงผิดปกติ"

for event in neo4j_agent.stream(
    {"messages": [{"role": "user", "content": test_query_neo4j}]},
    stream_mode="values"
):
    event["messages"][-1].pretty_print()


TESTING NEO4J AGENT (Pattern 02)


หาบัญชีที่มียอดเงินสูงผิดปกติ
Tool Calls:
  neo4j_retrieve_fraud_context (d605b0ab-de71-4679-91db-006c8e68018e)
 Call ID: d605b0ab-de71-4679-91db-006c8e68018e
  Args:
    query: บัญชีที่มียอดเงินสูงผิดปกติ
Name: neo4j_retrieve_fraud_context

Source: {'has_fraud': 1, 'total_amount': 10000000.0, 'num_tx': 1, 'has_flagged': 0, 'account': 'C1214015158'}
Content: บัญชี C1214015158 ทำเพียงครั้งเดียว, ยอดรวม 10,000,000.00 บาท (ปกติ), เฉลี่ย 10,000,000.00 บาท (สูงมาก), สูงสุด 10,000,000.00 บาท. ประเภท: CASH_OUT. สถานะ: มีการโกง (fraud), ไม่ถูก flag. ความเสี่ยง: มีธุรกรรมโกง 1 ครั้ง; ยอดคงเหลือลด 100%

Source: {'has_fraud': 1, 'total_amount': 10000000.0, 'num_tx': 1, 'has_flagged': 0, 'account': 'C1919400809'}
Content: บัญชี C1919400809 ทำเพียงครั้งเดียว, ยอดรวม 10,000,000.00 บาท (ปกติ), เฉลี่ย 10,000,000.00 บาท (สูงมาก), สูงสุด 10,000,000.00 บาท. ประเภท: CASH_OUT. สถานะ: มีการโกง (fraud), ไม่ถูก flag. ความเสี่ยง: มีธุรกรรมโกง 1 ครั้ง; ยอดคงเหลือลด 100%

จากก

### 2.2 Neo4J Implement RAG Chain

In [None]:
from langchain.agents.middleware import dynamic_prompt, ModelRequest

@dynamic_prompt
def prompt_with_neo4j_context(request: ModelRequest):
  last_query = request.state["messages"][-1].text
  retrieved_docs = neo4j_db.similarity_search_with_score(last_query, k=2)
  docs_content = "\n\n".join(doc[0].page_content for doc in retrieved_docs)
  system_message = f"You are an AI assistant specializing in fraud detection. Use the following documents to answer the question:\n\n{docs_content}"
  return system_message

neo4j_agent = create_agent(
    model,
    tools=[],
    middleware=[prompt_with_neo4j_context]
)

#### **Test RAG Chain**

In [None]:
test_query_neo4j = "หาบัญชีที่มียอดเงินสูงผิดปกติ"

for step in neo4j_agent.stream(
    {"messages": [{"role": "user", "content": test_query_neo4j}]},
    stream_mode="values"
):
    step["messages"][-1].pretty_print()


หาบัญชีที่มียอดเงินสูงผิดปกติ

บัญชีทั้งสองรายการมียอดเงินสูงผิดปกติ โดยมีรายละเอียดดังนี้:

*   **บัญชี C1214015158:** มียอดเฉลี่ย 10,000,000.00 บาท ซึ่งระบุว่าเป็น **(สูงมาก)**
*   **บัญชี C1877358148:** มียอดเฉลี่ย 10,000,000.00 บาท ซึ่งระบุว่าเป็น **(สูงมาก)**

แม้ว่ายอดรวมจะระบุว่า "(ปกติ)" แต่ยอดเฉลี่ยที่สูงถึง 10 ล้านบาทและถูกกำกับว่า "(สูงมาก)" บ่งชี้ถึงความผิดปกติของขนาดธุรกรรม


## **RAG PATTERN 03**: Neo4J with Triple Data using CypherQA

### 3.1 Prepare Data

In [None]:

df_sample = df_agg.reset_index(drop=True)

spo_rows = []

for _, row in df_sample.iterrows():
    account = row['account']

    # 1. รวมยอดธุรกรรม
    spo_rows.append((account, "รวมยอดธุรกรรม", f"{row['total_amount']:,.2f} บาท"))

    # 2. จำนวนธุรกรรม
    spo_rows.append((account, "จำนวนธุรกรรม", f"{int(row['num_tx'])} ครั้ง"))

    # 3. สถานะฉ้อโกง (Aggregated Feature)
    status = "มีธุรกรรมฉ้อโกง" if row['has_fraud'] == 1 else "ไม่มีธุรกรรมฉ้อโกง"
    spo_rows.append((account, "มีสถานะ", status))

    # 4. สถานะ Flagged (Aggregated Feature)
    flag_status = "ถูก Flag ตรวจสอบ" if row['has_flagged'] == 1 else "ไม่ถูก Flag"
    spo_rows.append((account, "ถูกตรวจสอบ", flag_status))

    # 5. ประเภทธุรกรรมหลัก
    spo_rows.append((account, "ทำธุรกรรมประเภท", row['types'].split(', ')[0]))

df_spo = pd.DataFrame(spo_rows, columns=["account", "predicate", "object"])

output_path = "transactions_agg_spo.csv"
df_spo.to_csv(output_path, index=False, encoding='utf-8')

print(f"SPO triples (Aggregated) created from {len(df_sample):,} accounts, resulting in {len(df_spo):,} triples.")
display(df_spo.sample(5))

SPO triples (Aggregated) created from 9,878 accounts, resulting in 49,390 triples.


Unnamed: 0,account,predicate,object
44377,C814413517,มีสถานะ,มีธุรกรรมฉ้อโกง
13064,C151289135,ทำธุรกรรมประเภท,CASH_IN
44602,C823164216,มีสถานะ,ไม่มีธุรกรรมฉ้อโกง
20119,C1780638764,ทำธุรกรรมประเภท,PAYMENT
29422,C220508726,มีสถานะ,มีธุรกรรมฉ้อโกง


Neo4j Connection

In [None]:
from neo4j import GraphDatabase

In [None]:
NEO4J_URI = os.getenv("NEO4J_URI")
NEO4J_USER = os.getenv("NEO4J_USERNAME")
NEO4J_PASSWORD = os.getenv("NEO4J_PASSWORD")

driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USER, NEO4J_PASSWORD))

### 3.2 Load SPO Triple into Neo4J

เข้า Neo4j
(ไม่ต้องรันอีก มันอยู่ใน neo4j แล้วฮะ)

In [None]:
#def load_triples_batch(tx, triples):
#    query_create = """
#    UNWIND $triples AS triple
#    MERGE (s:Account {name: triple.account})
#    MERGE (o:Value {name: triple.object})
#    MERGE (s)-[r:REL {name: triple.predicate}]->(o)
#    """
#    tx.run(query_create, triples=triples)

#batch_size = 500
#print(f"Loading {len(df_spo):,} aggregated triples in batches of {batch_size}...")

#with driver.session() as session:

#    for i in tqdm(range(0, len(df_spo), batch_size)):
#        batch = df_spo.iloc[i:i + batch_size].to_dict('records')
#        session.execute_write(load_triples_batch, batch)

#print(f"Successfully uploaded {len(df_spo):,} aggregated triples into Neo4j.")

### 3.3 Graph Database

In [None]:
from langchain_neo4j import Neo4jGraph, GraphCypherQAChain

graph = Neo4jGraph(
    url=os.environ["NEO4J_URI"],
    username=os.environ["NEO4J_USERNAME"],
    password=os.environ["NEO4J_PASSWORD"]
)

chain = GraphCypherQAChain.from_llm(
    model,
    graph=graph,
    verbose=True,
    allow_dangerous_requests=True
)

### **Test**

In [None]:
result = chain.run("บัญชี C1000331499 และบัญชี C1002446735 มี ประเภทธุรกรรม ที่เหมือนหรือแตกต่างกันอย่างไร")
print(result)


  result = chain.run("บัญชี C1000331499 และบัญชี C1002446735 มี ประเภทธุรกรรม ที่เหมือนหรือแตกต่างกันอย่างไร")




[1m> Entering new GraphCypherQAChain chain...[0m
Generated Cypher:
[32;1m[1;3mMATCH (a1:Account {name: "C1000331499"})
OPTIONAL MATCH (a1)-[:REL]->(v1:Value)
WITH a1.name AS account1_name, COLLECT(DISTINCT v1.name) AS types1
MATCH (a2:Account {name: "C1002446735"})
OPTIONAL MATCH (a2)-[:REL]->(v2:Value)
WITH account1_name, types1, a2.name AS account2_name, COLLECT(DISTINCT v2.name) AS types2
RETURN
    account1_name,
    account2_name,
    [type IN types1 WHERE type IN types2] AS common_transaction_types,
    [type IN types1 WHERE NOT type IN types2] AS transaction_types_unique_to_account1,
    [type IN types2 WHERE NOT type IN types1] AS transaction_types_unique_to_account2[0m
Full Context:
[32;1m[1;3m[{'account1_name': 'C1000331499', 'account2_name': 'C1002446735', 'common_transaction_types': ['1 ครั้ง', 'ไม่ถูก Flag', 'มีธุรกรรมฉ้อโกง'], 'transaction_types_unique_to_account1': ['TRANSFER', '2,016,790.84 บาท'], 'transaction_types_unique_to_account2': ['CASH_OUT', '828,720.89