# This is a sample Jupyter Notebook

Below is an example of a code cell. 
Put your cursor into the cell and press Shift+Enter to execute it and select the next one, or click 'Run Cell' button.

Press Double Shift to search everywhere for classes, files, tool windows, actions, and settings.

To learn more about Jupyter Notebooks in PyCharm, see [help](https://www.jetbrains.com/help/pycharm/ipython-notebook-support.html).
For an overview of PyCharm, go to Help -> Learn IDE features or refer to [our documentation](https://www.jetbrains.com/help/pycharm/getting-started.html).

In [5]:
from langchain.chains import create_sql_query_chain
from langchain.chains import create_sql_query_chain
from langchain_ollama import ChatOllama
from sqlalchemy import create_engine, text
import re
import time
import unicodedata


In [26]:
from langchain.chains import create_sql_query_chain
from langchain.chains import create_sql_query_chain
from langchain_ollama import ChatOllama
from sqlalchemy import create_engine, text
import re
import time
import unicodedata

# ===========================
# 🔹 Hàm làm sạch dữ liệu đầu ra từ mô hình
# ===========================
def clean_sql_response(response_content):
    cleaned = re.sub(r'```sql|```', '', response_content).strip()
    return cleaned

# ===========================
# 🔹 Kết nối cơ sở dữ liệu PostgreSQL
# ===========================
engine = create_engine("postgresql://postgres:1234@localhost:5432/SocialMedia")

# ===========================
# 🔹 Tạo dictionary để lưu schema
# ===========================
schema_dict = {}
with engine.connect() as conn:
    result = conn.execute(text("SELECT table_name FROM information_schema.tables WHERE table_schema='public'"))
    for tbl in result:
        schema_dict[tbl[0]] = conn.execute(text(f"SELECT column_name FROM information_schema.columns WHERE table_name='{tbl[0]}'")).fetchall()

# ===========================
# 🔹 In thử dữ liệu từ bảng 'posts' để kiểm tra kết nối
# ===========================
with engine.connect() as conn:
    result = conn.execute(text("SELECT * FROM posts LIMIT 5")).fetchall()
    print("Sample data from 'posts':", result)

# ===========================
# 🔹 Khởi tạo mô hình ngôn ngữ Qwen2.5 trong Ollama
# ===========================
llm = ChatOllama(
    model="qwen2.5",
    temperature=0,
)

# ===========================
# 🔹 Hàm khuyến nghị dựa trên mô hình ngôn ngữ
# ===========================
def recommend(schema, llm, conn):
    direct_prompt = f"""
    - Generate a SQL query for PostgreSQL that:
        - Selects 3 random posts from the posts table related to "học tập".
        - Selects 2 random posts from the posts table related to "nấu ăn".
        - Uses subqueries to ensure `LIMIT` is correctly applied before combining results.
        - Ensures the result is different each time the query is executed.
        - Limits the final result to a maximum of 5 entries.
        - Uses `ORDER BY random()` appropriately for randomness in PostgreSQL.

    The database schema is defined as follows:
    {schema}

    Only use the following tables:
    {list(schema.keys())}
    Don't use more columns than strictly necessary. Be careful to not
    query for columns that do not exist. Also, pay attention to which
    column is in which table. Please think carefully before you answer.

    Return only a SQL query and nothing else.

    Question: """

    start_time = time.perf_counter()  # Bắt đầu đếm thời gian
    response = llm.invoke(direct_prompt)
    cleaned_response = clean_sql_response(response.content)

    try:
        result = conn.execute(text(cleaned_response)).fetchall()
        print(f"Recommended: {result}")
    except Exception as e:
        print(f"❌ Error executing query: {e}")

    end_time = time.perf_counter()  # Kết thúc đếm thời gian
    print(f"⏱️ Execution time: {end_time - start_time:.2f} seconds")

# ===========================
# 🔹 Thực thi các khuyến nghị
# ===========================
with engine.connect() as conn:
    print("🔍 recommend 1 : ")
    recommend(schema_dict, llm, conn)

    print("\n🔍 recommend 2 : ")
    recommend(schema_dict, llm, conn)

Sample data from 'posts': [(1, 'Đời sống - Bài viết số 1', 'Làm thế nào để cân bằng giữa công việc và cuộc sống? Đây là bài viết số 1 trong loạt bài về chủ đề này.', 2, datetime.datetime(2022, 6, 27, 11, 41, 53, 320257), datetime.datetime(2025, 3, 22, 11, 41, 53, 320257)), (2, 'Du lịch - Bài viết số 2', 'Top 10 địa điểm du lịch không thể bỏ qua tại châu Âu. Đây là bài viết số 2 trong loạt bài về chủ đề này.', 3, datetime.datetime(2022, 6, 28, 11, 41, 53, 320257), datetime.datetime(2025, 3, 22, 11, 41, 53, 320257)), (3, 'Sức khỏe - Bài viết số 3', 'Bí quyết để có một sức khỏe tốt từ chuyên gia dinh dưỡng. Đây là bài viết số 3 trong loạt bài về chủ đề này.', 4, datetime.datetime(2022, 6, 29, 11, 41, 53, 320257), datetime.datetime(2025, 3, 22, 11, 41, 53, 320257)), (4, 'Kinh doanh - Bài viết số 4', 'Chiến lược đầu tư thông minh trong thời đại số. Đây là bài viết số 4 trong loạt bài về chủ đề này.', 5, datetime.datetime(2022, 6, 30, 11, 41, 53, 320257), datetime.datetime(2025, 3, 22, 11, 4

In [26]:
import re
import unicodedata
import time
from sqlalchemy import create_engine, text
from sqlalchemy.exc import SQLAlchemyError


# Hàm làm sạch dữ liệu
def clean_text(text):
    text = text.lower().strip()
    text = re.sub(r'[^\w\s]', '', text)
    text = unicodedata.normalize('NFC', text)
    text = re.sub(r'\s+', ' ', text)
    return text


# Kết nối cơ sở dữ liệu
engine = create_engine("postgresql://postgres:1234@localhost:5432/SocialMedia")


def fetch_content_data():
    with engine.connect() as conn:
        query = text("SELECT id, title, content, author_id FROM posts WHERE content IS NOT NULL")
        return conn.execute(query).fetchall()


def prepare_data():
    raw_data = fetch_content_data()

    # Chuẩn hóa dữ liệu
    cleaned_data = [
        (post_id, title, clean_text(content), author_id)
        for post_id, title, content, author_id in raw_data
    ]

    # Lọc dữ liệu không hữu ích
    filtered_data = [
        (post_id, title, content, author_id)
        for post_id, title, content, author_id in cleaned_data
        if len(content.split()) > 3
    ]

    return [
        {"post_id": post_id, "title": title, "content": content, "author_id": author_id}
        for post_id, title, content, author_id in filtered_data
    ]

filtered_data = prepare_data()

with engine.connect() as conn:
    conn.execute(text("""
        CREATE TEMP TABLE temp_filtered_data (
            post_id INTEGER,
            title TEXT,
            content TEXT,
            author_id INTEGER
        )
    """))

    # Thêm dữ liệu đã chuẩn hóa vào bảng tạm
    for data in filtered_data:
        conn.execute(text("""
            INSERT INTO temp_filtered_data (post_id, title, content, author_id)
            VALUES (:post_id, :title, :content, :author_id)
        """), data)

    # Lấy thông tin schema từ cơ sở dữ liệu
    result = conn.execute(text("SELECT table_name FROM information_schema.tables"))
    for tbl in result:
        schema_dict[tbl[0]] = conn.execute(
            text(f"SELECT column_name FROM information_schema.columns WHERE table_name='{tbl[0]}'")
        ).fetchall()


lm = ChatOllama(
    model="qwen2.5",
    temperature=0,
)


# Hàm khuyến nghị sách dựa trên mô hình ngôn ngữ
# def recommend(schema, llm):
#     # Dựa vào dữ liệu muốn out, chỉnh sửa prompt
#     # Trong prompt dưới, muốn lấy dựa trên các topic khác nhau, và giới hạn đầu ra dữ liệu, format lại câu truy van để thuc hien chính xac hon
#     direct_prompt = f"""
#     - Generate a SQL query for PostgreSQL that:
#
#         - Selects 3 random posts from the posts table related to "học tập".
#         - Selects 2 random posts from the posts table related to "nấu ăn".
#         - Uses subqueries to ensure `LIMIT` is correctly applied before combining results.
#         - Ensures the result is different each time the query is executed.
#         - Limits the final result to a maximum of 5 entries.
#         - Uses `ORDER BY random()` appropriately for randomness in PostgreSQL.
#
#
#     The database schema is defined as follows:
#     {schema} """
#
#     # Đẩy vào mô hình để thực hiện
#     start_time = time.perf_counter()  # Bắt đầu đếm thời gian
#     response = llm.invoke(direct_prompt)
#     sql_query = response['content']
#     print(f"Recommended: {sql_query}")
#     end_time = time.perf_counter()  # Kết thúc đếm thời gian
#     print(f"⏱️ Execution time: {end_time - start_time:.2f} seconds")
#
#
# # Thực thi, mở connect tới db , thử 2 trường hợp để check xem recommend có khác nhau khong, đúng với prompt mình đã cấu hình
# recommend(filtered_data, llm)

def recommend():
    prompt = "Dựa vào dữ liệu sau, hãy gợi ý 5 bài viết hấp dẫn nhất về các chủ đề học tập hoặc nấu ăn:\n"
    for post in filtered_data:  # Dùng trực tiếp filtered_data thay vì gọi prepare_data()
        prompt += f"- Tiêu đề: {post['title']}\n  Nội dung: {post['content']}\n"

    response = llm.invoke(prompt)
    print(response)

# Kiểm tra kết quả
recommended_posts = recommend()
print(recommended_posts)




content='Dựa trên thông tin bạn đã cung cấp, tôi có thể tóm tắt và phân loại các bài viết như sau:\n\n1. Chủ đề chính:\n- Công nghệ\n- Đời sống\n- Du lịch\n- Sức khỏe\n- Kinh doanh\n- Giải trí\n- Thể thao\n- Học tập\n- Ẩm thực\n- Khoa học\n\n2. Kết cấu:\n- Mỗi chủ đề có nhiều bài viết liên quan, với tổng số 1000 bài.\n- Bài viết được phân chia theo thứ tự từ 1 đến 1000.\n\n3. Nội dung cụ thể của một số bài viết:\n- Công nghệ: Bài viết số 990 và 1000\n- Đời sống: Bài viết số 981, 991, 1000\n- Du lịch: Bài viết số 982, 992, 1000\n- Sức khỏe: Bài viết số 983, 993, 1000\n- Kinh doanh: Bài viết số 984, 994, 1000\n- Giải trí: Bài viết số 985, 995, 1000\n- Thể thao: Bài viết số 986, 996, 1000\n- Học tập: Bài viết số 987, 997, 1000\n- Ẩm thực: Bài viết số 988, 998, 1000\n- Khoa học: Bài viết số 989, 999, 1000\n\n4. Lặp lại nội dung:\nCó sự lặp lại trong nội dung của một số bài viết (ví dụ: Công nghệ - Bài viết số 990 và 1000).\n\n5. Tần suất xuất hiện:\n- Mỗi chủ đề đều có ít nhất 30 bài viết.

In [10]:
# Hàm làm sạch dữ liệu đầu ra từ mô hình
def clean_text(text):
    text = text.lower().strip()  # Viết thường toàn bộ
    text = re.sub(r'[^\w\s]', '', text)  # Loại bỏ ký tự đặc biệt
    text = unicodedata.normalize('NFC', text)  # Chuẩn hóa ký tự tiếng Việt
    text = re.sub(r'\s+', ' ', text)  # Chuẩn hóa khoảng trắng
    return text


engine = create_engine("postgresql://postgres:1234@localhost:5432/SocialMedia")

def create_cleaned_schema():
    """Tạo SCHEMA và bảng nếu chưa tồn tại"""
    with engine.connect() as conn:
        conn.execute(text("CREATE SCHEMA IF NOT EXISTS cleaned_data"))
        conn.execute(text("""
            CREATE TABLE IF NOT EXISTS cleaned_data.cleaned_posts (
                id SERIAL PRIMARY KEY,
                post_id INT UNIQUE REFERENCES posts(id) ON DELETE CASCADE,
                title TEXT,
                content TEXT,
                author_id INT
            )
        """))
        conn.commit()

def fetch_cleaned_data():
    """Kiểm tra bảng `cleaned_posts` đã có dữ liệu chưa"""
    with engine.connect() as conn:
        query = text("SELECT COUNT(*) FROM cleaned_data.cleaned_posts")
        result = conn.execute(query).scalar()
        return result > 0

def insert_cleaned_data(cleaned_data):
    """Chèn dữ liệu đã chuẩn hóa vào bảng mới"""
    with engine.connect() as conn:
            for post in cleaned_data:
                query = text("""
                    INSERT INTO cleaned_data.cleaned_posts (post_id, title, content, author_id)
                    VALUES (:post_id, :title, :content, :author_id)
                    ON CONFLICT (post_id) DO NOTHING
                """)
                conn.execute(query, post)
            conn.commit()
def prepare_data():
    """Chuẩn hóa dữ liệu nếu chưa có trong bảng cleaned_posts"""
    if fetch_cleaned_data():
        print("Dữ liệu đã chuẩn hóa có sẵn, bỏ qua bước chuẩn hóa.")
        return

    with engine.connect() as conn:
        query = text("SELECT id, title, content, author_id FROM posts WHERE content IS NOT NULL")
        raw_data = conn.execute(query).fetchall()

    # Chuẩn hóa dữ liệu
    cleaned_data = [
        {"post_id": post_id, "title": title.strip(), "content": content.strip(), "author_id": author_id}
        for post_id, title, content, author_id in raw_data
        if len(content.split()) > 3
    ]

    # Lưu dữ liệu đã chuẩn hóa vào bảng mới
    insert_cleaned_data(cleaned_data)
    print("Dữ liệu đã chuẩn hóa và được lưu vào bảng `cleaned_posts`.")



llm = ChatOllama(
    model="qwen2.5",
    temperature=0,
)


def main():
    create_cleaned_schema()
    prepare_data()
    print("Chuân bị data")

    # Prompt ví dụ
    direct_prompt = """
    Generate a SQL query for PostgreSQL that:
    - Selects 3 random posts from the cleaned_posts table related to "học tập".
    - Selects 2 random posts from the cleaned_posts table related to "nấu ăn".
    - Uses subqueries to ensure `LIMIT` is correctly applied before combining results.
    - Ensures the result is different each time the query is executed.
    - Limits the final result to a maximum of 5 entries.
    - Uses `ORDER BY random()` appropriately for randomness in PostgreSQL.
    """

    with engine.connect() as conn:
        conn.execute(text("SET search_path TO cleaned_data, public;"))  # Đặt cleaned_data làm mặc định
        generated_query = llm.invoke(direct_prompt)

        print(f"Generated Query:\n{generated_query}")
        result = conn.execute(text(generated_query.content)).fetchall()
        print(result)

if __name__ == "__main__":
    main()

Dữ liệu đã chuẩn hóa có sẵn, bỏ qua bước chuẩn hóa.
Chuân bị data
Generated Query:
content='To achieve this, you can use subqueries with `ORDER BY RANDOM()` and `LIMIT` clauses to select the required number of posts from each category. Then, combine these results using `UNION ALL` and apply a final `LIMIT` clause to ensure that only 5 entries are returned. Here\'s how you can write the SQL query:\n\n```sql\nWITH random_posts_hoc_tap AS (\n    SELECT *\n    FROM cleaned_posts\n    WHERE content LIKE \'%học tập%\'\n    ORDER BY RANDOM()\n    LIMIT 3\n),\nrandom_posts_nau_an AS (\n    SELECT *\n    FROM cleaned_posts\n    WHERE content LIKE \'%nấu ăn%\'\n    ORDER BY RANDOM()\n    LIMIT 2\n)\nSELECT * \nFROM random_posts_hoc_tap\nUNION ALL\nSELECT * \nFROM random_posts_nau_an\nORDER BY RANDOM()\nLIMIT 5;\n```\n\n### Explanation:\n1. **Common Table Expressions (CTEs):**\n   - `random_posts_hoc_tap`: This CTE selects up to 3 posts from the `cleaned_posts` table where the content contains "h

ProgrammingError: (psycopg2.errors.SyntaxError) syntax error at or near "To"
LINE 1: To achieve this, you can use subqueries with `ORDER BY RANDO...
        ^

[SQL: To achieve this, you can use subqueries with `ORDER BY RANDOM()` and `LIMIT` clauses to select the required number of posts from each category. Then, combine these results using `UNION ALL` and apply a final `LIMIT` clause to ensure that only 5 entries are returned. Here's how you can write the SQL query:

```sql
WITH random_posts_hoc_tap AS (
    SELECT *
    FROM cleaned_posts
    WHERE content LIKE '%%học tập%%'
    ORDER BY RANDOM()
    LIMIT 3
),
random_posts_nau_an AS (
    SELECT *
    FROM cleaned_posts
    WHERE content LIKE '%%nấu ăn%%'
    ORDER BY RANDOM()
    LIMIT 2
)
SELECT * 
FROM random_posts_hoc_tap
UNION ALL
SELECT * 
FROM random_posts_nau_an
ORDER BY RANDOM()
LIMIT 5;
```

### Explanation:
1. **Common Table Expressions (CTEs):**
   - `random_posts_hoc_tap`: This CTE selects up to 3 posts from the `cleaned_posts` table where the content contains "học tập". The results are ordered randomly and limited to 3.
   - `random_posts_nau_an`: Similarly, this CTE selects up to 2 posts from the `cleaned_posts` table where the content contains "nấu ăn". The results are also ordered randomly and limited to 2.

2. **Combining Results:**
   - The `UNION ALL` operator is used to combine the results of both CTEs into a single result set, preserving all rows from both queries.

3. **Final Random Selection:**
   - The combined result set is then ordered randomly and limited to 5 entries using the outermost `ORDER BY RANDOM()` and `LIMIT 5`.

This approach ensures that you get a mix of posts related to "học tập" and "nấu ăn", with randomness applied at each step, ensuring different results on each execution.]
(Background on this error at: https://sqlalche.me/e/20/f405)