In [16]:
from tqdm import tqdm_notebook as tqdm

## Env setup

In [1]:
from dotenv import load_dotenv
import os

load_dotenv(override=True, verbose=True)

# MySQL connection string format: mysql+pymysql://username:password@host:port/database_name
conn = os.environ.get("DB_CONN", None)


In [4]:
from langchain_community.utilities import SQLDatabase

db = SQLDatabase.from_uri(conn)

In [5]:
r = db.run_no_throw("SELECT full_name, mobile_phone FROM patient WHERE full_name = 'Cường nguyễn'")

In [6]:
r

"[('Cường nguyễn', '0989149111')]"

In [5]:
from pydantic import BaseModel
from typing import List, Optional, Literal


class Conversation(BaseModel):
    question: str
    answer: str
    level: Optional[Literal["easy", "hard"]] = None
    result: Optional[str] = None
    error: Optional[str] = None
    

In [15]:
c = Conversation(question="Có bao nhiêu khách hàng đặt lịch hẹn trong vòng 6 tháng trở lại đây?", answer="SELECT count(*) from patient where patient.id in (select appointment.patient_id FROM appointment where appointment.created_on > date_sub(current_date(), interval 6 month));", level="hard")
c.model_dump_json()


'{"question":"Có bao nhiêu khách hàng đặt lịch hẹn trong vòng 6 tháng trở lại đây?","answer":"SELECT count(*) from patient where patient.id in (select appointment.patient_id FROM appointment where appointment.created_on > date_sub(current_date(), interval 6 month));","level":"hard","error":null}'

In [7]:
import re
from tqdm.notebook import tqdm
# from tqdm import tqdm

data_files = [
    "E:/code/AI/agentic-AI/SQL-QA/data/GSV/generated-data/grok.txt",
    "E:/code/AI/agentic-AI/SQL-QA/data/GSV/generated-data/gemini-2.5-pro.txt",
]

gen_data: List[Conversation] = []
failed_data: List[str] = []

for file in tqdm(data_files[:], desc="Processing files: "):
    with open(file, "r", encoding="utf-8") as f:
        data = f.read()
    data = data.split("---")
    for d in tqdm(data[:], leave=False):
        # print("----")
        # print(d)
        question = re.search(r"question: (.*)(?=answer:)", d, re.DOTALL)
        answer = re.search(r"answer: (.*)(?=level:)", d, re.DOTALL)
        level = re.search(r"level: (.*)", d, re.DOTALL)
        # print(question, answer, level)
        if question and answer and level:
            question = question.group(1)
            answer = answer.group(1)
            level = level.group(1)
            # print(f'question: {question}\nanswer: {answer}\nlevel: {level}\n')
            result = db.run_no_throw(answer)
            if result.lower().startswith('error:'):
                error, result = result, None
            else:
                error = None
            c = Conversation(question=question, answer=answer, level=level.strip(), result=result, error=error)
            gen_data.append(c)
        else:
            failed_data.append(d)


Processing files:   0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/178 [00:00<?, ?it/s]

  0%|          | 0/248 [00:00<?, ?it/s]

In [10]:
failed_data

['', '', '', '\n']

In [12]:
sql_failed_data = [d for d in gen_data if d.error]
len(sql_failed_data)

101

In [None]:
import csv

gen_data[0].model_dump_json()
success_data = [
    d for d in gen_data if d.result and not d.result.lower().startswith("error:")
]
failed_data = [
    d for d in gen_data if not d.result or d.result.lower().startswith("error:")
]

In [16]:
with open(
    "E:/code/AI/agentic-AI/SQL-QA/data/GSV/generated-data/gen_success_data.csv",
    "w",
    encoding="utf-8",
) as f:
    field_names = list(Conversation.model_fields.keys())
    writer = csv.DictWriter(f, fieldnames=field_names)
    writer.writeheader()
    for d in success_data:
        writer.writerow(d.model_dump())

'{"question":"Tìm danh sách các kỹ thuật viên có lịch hẹn tại chi nhánh Hà Đông và có khiếu nại trong tháng 3 năm 2025.\\n","answer":"SELECT DISTINCT e.full_name \\nFROM employee e \\nJOIN appointment a ON e.id = a.technican_id \\nJOIN complaint c ON e.id = c.technican_id \\nWHERE a.branch_id = (SELECT id FROM branch WHERE branch_name = \'Chi nhánh Hà Đông\') \\nAND YEAR(c.created_on) = 2025 \\nAND MONTH(c.created_on) = 3;\\n","level":"hard","result":null,"error":"Error: (pymysql.err.OperationalError) (1054, \\"Unknown column \'e.full_name\' in \'field list\'\\")\\n[SQL: SELECT DISTINCT e.full_name \\nFROM employee e \\nJOIN appointment a ON e.id = a.technican_id \\nJOIN complaint c ON e.id = c.technican_id \\nWHERE a.branch_id = (SELECT id FROM branch WHERE branch_name = \'Chi nhánh Hà Đông\') \\nAND YEAR(c.created_on) = 2025 \\nAND MONTH(c.created_on) = 3;\\n]\\n(Background on this error at: https://sqlalche.me/e/20/e3q8)"}'

In [22]:
with open(
    "E:/code/AI/agentic-AI/SQL-QA/data/GSV/generated-data/gen_failed_data.csv",
    "w",
    encoding="utf-8",
) as f:
    field_names = list(Conversation.model_fields.keys())
    writer = csv.DictWriter(f, fieldnames=field_names)
    writer.writeheader()
    for d in failed_data + sql_failed_data:
        writer.writerow(d.model_dump())

## Validate data

In [19]:
import pandas as pd
import csv

In [47]:
json_gen_data_path = '/mnt/Code/code/AI/agentic-AI/SQL-QA/data/GSV/generated-data/categorized_question_sql.vi.json'
csv_gen_data_path = '/mnt/Code/code/AI/agentic-AI/SQL-QA/data/GSV/generated-data/categorized_question_sql.vi.short.csv'

In [48]:
df = pd.read_json(json_gen_data_path, orient='records', encoding='utf-8')

In [49]:
df.head()

Unnamed: 0,question,query,level
0,What are the full names of patients in the dat...,SELECT full_name FROM gsv.patient WHERE delete...,easy
1,Which employees are currently active?,"SELECT first_name, last_name FROM gsv.employee...",easy
2,List all active branches with their names and ...,"SELECT branch_name, branch_code FROM gsv.branc...",easy
3,What are the names of all suppliers?,SELECT supplier_name FROM gsv.supplier WHERE d...,easy
4,Which items are marked as narcotic?,SELECT item_name FROM gsv.item WHERE is_narcot...,easy


In [51]:
df['gt_answer'] = None
df['gt_error'] = None

In [52]:
errors = []
pbar = tqdm(df.iterrows(), leave=False, total=len(df), desc="Running queries", unit="query")
for idx, row in pbar:
    # if row['level'] == 'hard':
    #     df.at[idx, 'level'] = 'easy'
    query = row['query']
    try:
        response = db.run(query)
        df['gt_answer'].iat[idx] = response
    except Exception as e:
        # errors.append((str(e), query, row['question']))
        df['gt_error'].iat[idx] = str(e)
pbar.close()


Please use `tqdm.notebook.tqdm` instead of `tqdm.tqdm_notebook`
  pbar = tqdm(df.iterrows(), leave=False, total=len(df), desc="Running queries", unit="query")


Running queries:   0%|          | 0/441 [00:00<?, ?query/s]

In [41]:
df.head()

Unnamed: 0,question,query,level,gt_answer
2,List all active branches with their names and ...,"SELECT branch_name, branch_code FROM gsv.branc...",easy,"[('Chi nhánh Hà Đông', 'GSV'), ('Chi nhánh Cầu..."
3,What are the names of all suppliers?,SELECT supplier_name FROM gsv.supplier WHERE d...,easy,"[('Dược phẩm Nam Hà',), ('Công ty Cổ phần Dược..."
4,Which items are marked as narcotic?,SELECT item_name FROM gsv.item WHERE is_narcot...,easy,
5,List all cities in the database.,SELECT city_name FROM gsv.cities WHERE deleted...,easy,
6,What are the names of all active roles?,SELECT role_name FROM gsv.role WHERE is_active...,easy,"[('Quản trị viên',), ('Marketing',), ('Bác sĩ'..."


In [53]:
filter_df = df[df['gt_answer'].str.len() < 1000]

In [54]:
filter_df.to_csv(csv_gen_data_path, encoding='utf-8', quoting=csv.QUOTE_ALL, escapechar='\\', index=False)

In [None]:
filter_df['question'].to_csv('/mnt/Code/code/AI/agentic-AI/SQL-QA/data/GSV/generated-data/categorized_question_sql.en.short.question.csv', index=False, header=False, encoding='utf-8')

In [55]:
vi_question_df = pd.read_csv('/mnt/Code/code/AI/agentic-AI/SQL-QA/data/GSV/generated-data/categorized_question_sql.vi.short.question.csv', header=None, names=['question'])

In [42]:
vi_question_df

Unnamed: 0,question
0,Liệt kê tất cả các chi nhánh đang hoạt động vớ...
1,Tên của tất cả các nhà cung cấp là gì?
2,Những mặt hàng nào được đánh dấu là ma túy?
3,Liệt kê tất cả các thành phố trong cơ sở dữ liệu.
4,Tên của tất cả các vai trò đang hoạt động là gì?
...,...
318,Tìm tất cả các kiểm soát quyền thuộc loại 'API...
319,Liệt kê tất cả bệnh nhân bị 'Hypertension (Tăn...
320,Hiển thị tổng doanh thu hàng ngày từ các dịch ...
321,Tìm người dùng có nhiều hơn 3 vai trò đang hoạ...


In [56]:
filter_df['question'] = vi_question_df['question'].values

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  filter_df['question'] = vi_question_df['question'].values


In [57]:
filter_df.to_csv(csv_gen_data_path, encoding='utf-8', quoting=csv.QUOTE_ALL, escapechar='\\', index=False)

## Save to vector DB

In [1]:
csv_file_path = '/mnt/Code/code/AI/agentic-AI/SQL-QA/data/GSV/generated-data/categorized_question_sql.vi.short.csv'

In [2]:
import csv
import pandas as pd

In [3]:
from sql_qa.config import get_app_config
config = get_app_config()

csv_file_path: /mnt/Code/code/AI/agentic-AI/SQL-QA/scripts/logs/turn_log.csv


In [4]:
df = pd.read_csv(csv_file_path, encoding='utf-8', quoting=csv.QUOTE_ALL, escapechar='\\')

In [5]:
# df[['question', 'level']].head()
print(df[['question', 'level']].tail().to_json(force_ascii=False, orient='records', indent=4))

[
    {
        "question":"Tìm tất cả các kiểm soát quyền thuộc loại 'API' và phương thức 'GET'.",
        "level":"easy"
    },
    {
        "question":"Liệt kê tất cả bệnh nhân bị 'Hypertension (Tăng huyết áp)' (mã ICD) và lớn hơn 50 tuổi.",
        "level":"hard"
    },
    {
        "question":"Hiển thị tổng doanh thu hàng ngày từ các dịch vụ trong 7 ngày qua.",
        "level":"hard"
    },
    {
        "question":"Tìm người dùng có nhiều hơn 3 vai trò đang hoạt động.",
        "level":"hard"
    },
    {
        "question":"Liệt kê tất cả các mặt hàng được đặt hàng lại khi tồn kho giảm xuống dưới 20 đơn vị.",
        "level":"easy"
    }
]


In [6]:
from langchain_huggingface import HuggingFaceEmbeddings

embeddings = HuggingFaceEmbeddings(model_name=config.vector_store['embedding_model'],)

In [None]:
# from sentence_transformers import SentenceTransformer
# model = SentenceTransformer(config.vector_store['embedding_model'])
# hf_embd = model.encode(["Tôi muốn biết có bao nhiêu khách hàng đặt lịch hẹn trong vòng 6 tháng trở lại đây?"])

In [None]:
# hf_embd.shape

(1, 768)

In [43]:
emb = embeddings.embed_query("Tôi muốn biết có bao nhiêu khách hàng đặt lịch hẹn trong vòng 6 tháng trở lại đây?")

In [44]:
len(emb)

768

In [8]:
config.vector_store['collection_name']

'gsv'

In [9]:
import chromadb

persistent_client = chromadb.PersistentClient(path=config.vector_store['persistent_dir'])
collection = persistent_client.get_or_create_collection(config.vector_store['collection_name'])


In [19]:

from langchain_chroma import Chroma
vector_store_from_client = Chroma(
    client=persistent_client,
    collection_name=config.vector_store['collection_name'],
    embedding_function=embeddings,
)

In [11]:
from langchain_core.documents import Document
from uuid import uuid4
vector_store_from_client.add_documents(
    documents=[
        Document(page_content=r["question"], meta_data={"level": r["level"]}) # , id=i)
        for i, r in enumerate( df.tail().to_dict(orient="records") )
    ],
    # embeddings=embeddings.embed_documents(df['question'].tolist())
    ids=[str(uuid4()) for _ in range(len(df.tail()))]
)

['5e97c8aa-e517-4a24-a53d-5158b958cb10',
 '2c19317e-bbbb-4453-b9f5-a62c00c11a9f',
 'f3485df5-b465-4687-b38f-7a7ef2cda551',
 'bc7c256d-3ad5-482f-ae82-3c000b5f4061',
 'f5658091-e56f-4635-9a1f-f362a579077c']

In [36]:
[r for r in df.tail().to_dict(orient='records')]

[{'question': "Tìm tất cả các kiểm soát quyền thuộc loại 'API' và phương thức 'GET'.",
  'query': "SELECT permission_control_name, route, description FROM gsv.permission_control WHERE type = 'API' AND method = 'GET';",
  'level': 'easy',
  'gt_answer': nan,
  'gt_error': nan},
 {'question': "Liệt kê tất cả bệnh nhân bị 'Hypertension (Tăng huyết áp)' (mã ICD) và lớn hơn 50 tuổi.",
  'query': "SELECT DISTINCT p.full_name, p.date_of_birth FROM gsv.patient p JOIN gsv.examination e ON p.id = e.patient_id JOIN gsv.examination_detail ed ON e.id = ed.examination_id JOIN gsv.icd_code icd ON ed.icd_code_id = icd.id WHERE icd.icd_code_name LIKE '%Hypertension%' AND p.date_of_birth <= DATE_SUB(CURDATE(), INTERVAL 50 YEAR);",
  'level': 'hard',
  'gt_answer': nan,
  'gt_error': nan},
 {'question': 'Hiển thị tổng doanh thu hàng ngày từ các dịch vụ trong 7 ngày qua.',
  'query': 'SELECT DATE(r.received_date) AS receipt_date, SUM(rs.total_amount) AS daily_service_revenue FROM gsv.receipt_service rs JO

In [20]:
results = vector_store_from_client.similarity_search_with_score(
    "huyết áp", k=1,#  filter={"source": "news"}
)
for res, score in results:
    print(f"* [SIM={score:3f}] {res.page_content} [{res.metadata}]")

* [SIM=1.059772] Liệt kê tất cả bệnh nhân bị 'Hypertension (Tăng huyết áp)' (mã ICD) và lớn hơn 50 tuổi. [{}]


## New