# This is a sample Jupyter Notebook

Below is an example of a code cell. 
Put your cursor into the cell and press Shift+Enter to execute it and select the next one, or click 'Run Cell' button.

Press Double Shift to search everywhere for classes, files, tool windows, actions, and settings.

To learn more about Jupyter Notebooks in PyCharm, see [help](https://www.jetbrains.com/help/pycharm/ipython-notebook-support.html).
For an overview of PyCharm, go to Help -> Learn IDE features or refer to [our documentation](https://www.jetbrains.com/help/pycharm/getting-started.html).

In [4]:
from langchain.chains import create_sql_query_chain
from langchain.chains import create_sql_query_chain
from langchain_ollama import ChatOllama
from sqlalchemy import create_engine, text
import re
import time
import unicodedata


In [6]:

# Hàm làm sạch dữ liệu đầu ra từ mô hình
def clean_text(text):
    text = text.lower().strip()  # Viết thường toàn bộ
    text = re.sub(r'[^\w\s]', '', text)  # Loại bỏ ký tự đặc biệt
    text = unicodedata.normalize('NFC', text)  # Chuẩn hóa ký tự tiếng Việt
    text = re.sub(r'\s+', ' ', text)  # Chuẩn hóa khoảng trắng
    return text


engine = create_engine("postgresql://postgres:1234@localhost:5432/SocialMedia")


def fetch_content_data():
    with engine.connect() as conn:
        query = text("SELECT id,title,content, author_id FROM posts WHERE content IS NOT NULL")
        result = conn.execute(query).fetchall()

        # Trả về dữ liệu dưới dạng danh sách các tuple (id, title content, author_id)
        return [(row[0], row[1], row[2], row[3]) for row in result]


def prepare_data():
    # Bước 1: Lấy dữ liệu từ database
    raw_data = fetch_content_data()

    # Bước 2: Chuẩn hóa dữ liệu
    cleaned_data = [(post_id, title, clean_text(content), author_id) for post_id, title, content, author_id in raw_data]

    # Bước 3: Lọc dữ liệu không hữu ích
    filtered_data = [
        (post_id, title, content, author_id) for post_id, title, content, author_id in cleaned_data
        if len(content.split()) > 3
    ]

    # Bước 4: Trả về dữ liệu mẫu đã chuẩn bị sẵn
    return [
        {"post_id": post_id, "title": title, "content": content, "author_id": author_id}
        for post_id, title, content, author_id in filtered_data
    ]


filtered_data = prepare_data()
# # Tạo dictionary để lưu schema
schema_dict = {
    "posts": ["post_id", "title", "content", "author_id"]
}
with engine.connect() as filtered_data:
    result = filtered_data.execute(text("SELECT table_name FROM information_schema.tables"))
    for tbl in result:
        schema_dict[tbl[0]] = filtered_data.execute(
            text(f"SELECT column_name FROM information_schema.columns WHERE table_name='{tbl[0]}'")).fetchall()

print(schema_dict)
# # Khởi tạo mô hình Qwen2.5 trong Ollama
llm = ChatOllama(
    model="qwen2.5",
    temperature=0,
)


# Hàm khuyến nghị sách dựa trên mô hình ngôn ngữ
def recommend(schema, llm, conn):
    # Dựa vào dữ liệu muốn out, chỉnh sửa prompt
    # Trong prompt dưới, muốn lấy dựa trên các topic khác nhau, và giới hạn đầu ra dữ liệu, format lại câu truy van để thuc hien chính xac hon
    direct_prompt = f"""
    - Generate a SQL query for PostgreSQL that:

        - Selects 3 random posts from the posts table related to "học tập".
        - Selects 2 random posts from the posts table related to "nấu ăn".
        - Uses subqueries to ensure `LIMIT` is correctly applied before combining results.
        - Ensures the result is different each time the query is executed.
        - Limits the final result to a maximum of 5 entries.
        - Uses `ORDER BY random()` appropriately for randomness in PostgreSQL.


    The database schema is defined as follows:
    {schema}

    Only use the following tables:
    {list(schema.keys())}
    Don't use more columns than strictly necessary. Be careful to not
    query for columns that do not exist. Also, pay attention to which
    column is in which table. Please think carefully before you answer.

    Return only a SQL query and nothing else.

    Question: """

    # Đẩy vào mô hình để thực hiện
    start_time = time.perf_counter()  # Bắt đầu đếm thời gian
    response = llm.invoke(direct_prompt)
    sql_query = response['content']
    # Format lai du lieu, loai bo cac syntax khong can thiec de truy van
    # thuc hien truy van va dua dau ra du lieu
    # result = conn.execute(text(cleaned_response)).fetchall()
    print(f"Recommended: {sql_query}")
    end_time = time.perf_counter()  # Kết thúc đếm thời gian
    print(f"⏱️ Execution time: {end_time - start_time:.2f} seconds")


# Thực thi, mở connect tới db , thử 2 trường hợp để check xem recommend có khác nhau khong, đúng với prompt mình đã cấu hình
with engine.connect() as conn:
    print("recommend 1 : ")
    recommend(filtered_data, llm, conn)

    # print("recommend 2 : ")
    # recommend(schema_dict, llm, conn)




{'pg_statistic': [('starelid',), ('staattnum',), ('stainherit',), ('stanullfrac',), ('stawidth',), ('stadistinct',), ('stakind1',), ('stakind2',), ('stakind3',), ('stakind4',), ('stakind5',), ('staop1',), ('staop2',), ('staop3',), ('staop4',), ('staop5',), ('stacoll1',), ('stacoll2',), ('stacoll3',), ('stacoll4',), ('stacoll5',), ('stanumbers1',), ('stanumbers2',), ('stanumbers3',), ('stanumbers4',), ('stanumbers5',), ('stavalues1',), ('stavalues2',), ('stavalues3',), ('stavalues4',), ('stavalues5',)], 'pg_type': [('oid',), ('typname',), ('typnamespace',), ('typowner',), ('typlen',), ('typbyval',), ('typtype',), ('typcategory',), ('typispreferred',), ('typisdefined',), ('typdelim',), ('typrelid',), ('typsubscript',), ('typelem',), ('typarray',), ('typinput',), ('typoutput',), ('typreceive',), ('typsend',), ('typmodin',), ('typmodout',), ('typanalyze',), ('typalign',), ('typstorage',), ('typnotnull',), ('typbasetype',), ('typtypmod',), ('typndims',), ('typcollation',), ('typdefaultbin',

AttributeError: 'Connection' object has no attribute 'keys'

In [5]:
import re
import unicodedata
import time
from sqlalchemy import create_engine, text
from sqlalchemy.exc import SQLAlchemyError


# Hàm làm sạch dữ liệu
def clean_text(text):
    text = text.lower().strip()
    text = re.sub(r'[^\w\s]', '', text)
    text = unicodedata.normalize('NFC', text)
    text = re.sub(r'\s+', ' ', text)
    return text


# Kết nối cơ sở dữ liệu
engine = create_engine("postgresql://postgres:1234@localhost:5432/SocialMedia")


def fetch_content_data():
    with engine.connect() as conn:
        query = text("SELECT id, title, content, author_id FROM posts WHERE content IS NOT NULL")
        return conn.execute(query).fetchall()


def prepare_data():
    raw_data = fetch_content_data()

    # Chuẩn hóa dữ liệu
    cleaned_data = [
        (post_id, title, clean_text(content), author_id)
        for post_id, title, content, author_id in raw_data
    ]

    # Lọc dữ liệu không hữu ích
    filtered_data = [
        (post_id, title, content, author_id)
        for post_id, title, content, author_id in cleaned_data
        if len(content.split()) > 3
    ]

    return [
        {"post_id": post_id, "title": title, "content": content, "author_id": author_id}
        for post_id, title, content, author_id in filtered_data
    ]


try:
    filtered_data = prepare_data()

    with engine.connect() as conn:
        # Tạo bảng tạm
        conn.execute(text("DROP TABLE IF EXISTS temp_filtered_data"))
        conn.execute(text("""
            CREATE TEMP TABLE temp_filtered_data (
                post_id INTEGER,
                title TEXT,
                content TEXT,
                author_id INTEGER
            )
        """))

        # Chèn dữ liệu tối ưu
        for post in filtered_data:
            conn.execute(text("""
                INSERT INTO temp_filtered_data (post_id, title, content, author_id)
                VALUES (:post_id, :title, :content, :author_id)
            """), post)

        # Truy vấn dữ liệu từ bảng tạm
        result = conn.execute(text("""
            SELECT * FROM temp_filtered_data
            WHERE content ILIKE '%học tập%'
            LIMIT 3
        """))
        print(result.fetchall())


        # Hàm khuyến nghị sách dựa trên mô hình ngôn ngữ
        def recommend(schema, llm, conn):
            direct_prompt = f"""
            - Generate a SQL query for PostgreSQL that:
                - Selects 3 random posts from the posts table related to "học tập".
                - Selects 2 random posts from the posts table related to "nấu ăn".
                - Uses subqueries to ensure `LIMIT` is correctly applied before combining results.
                - Ensures the result is different each time the query is executed.
                - Limits the final result to a maximum of 5 entries.
                - Uses `ORDER BY random()` appropriately for randomness in PostgreSQL.
            """

            start_time = time.perf_counter()
            response = llm.invoke(direct_prompt)
            sql_query = response['content']
            print(f"Recommended: {sql_query}")
            end_time = time.perf_counter()
            print(f"⏱️ Execution time: {end_time - start_time:.2f} seconds")


        recommend(schema_dict, llm, conn)

except SQLAlchemyError as e:
    print(f"Lỗi kết nối cơ sở dữ liệu: {e}")

# Khởi tạo mô hình Qwen2.5 trong Ollama
llm = ChatOllama(
    model="qwen2.5",
    temperature=0,
)


[(7, 'Học tập - Bài viết số 7', 'phương pháp học tập hiệu quả dành cho sinh viên đây là bài viết số 7 trong loạt bài về chủ đề này', 8), (17, 'Học tập - Bài viết số 17', 'phương pháp học tập hiệu quả dành cho sinh viên đây là bài viết số 17 trong loạt bài về chủ đề này', 8), (27, 'Học tập - Bài viết số 27', 'phương pháp học tập hiệu quả dành cho sinh viên đây là bài viết số 27 trong loạt bài về chủ đề này', 8)]


NameError: name 'llm' is not defined

SELECT COUNT(*) FROM books;
Answer: 271360
