<a href="https://colab.research.google.com/github/lmquann/-N-to-n/blob/main/Train_v%E1%BB%9Bi_Gemini.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import google.generativeai as genai
import os
import re

# --- CẤU HÌNH ---
# THAY THẾ 'YOUR_GEMINI_API_KEY' BẰNG KHÓA API THỰC TẾ CỦA BẠN HOẶC ĐẶT BIẾN MÔI TRƯỜNG
# Để an toàn, bạn nên đặt khóa API trong biến môi trường GEMINI_API_KEY
# Ví dụ: export GEMINI_API_KEY='...' (trên Linux/macOS) hoặc set GEMINI_API_KEY=... (trên Windows)
# genai.configure(api_key="YOUR_GEMINI_API_KEY") # Cách không khuyến nghị cho production
# Lấy Khoá API
genai.configure(api_key='AIzaSyD0zlXkgaLTTUIOrueypy-wAoZHmbCqyEY')

# Khởi tạo mô hình Gemini 2.5 flash
model = genai.GenerativeModel('gemini-2.5-flash')

# Đường dẫn đến thư mục chứa các tệp bài học đã tách
LESSONS_DIR = 'data_lessons/'
# Mô hình Embeddings của Gemini
EMBEDDING_MODEL = "models/embedding-001" # Hoặc "models/text-embedding-004" nếu có
# Kích thước chunk tối đa (số từ)
MAX_CHUNK_WORDS = 250
# Mức độ chồng chéo giữa các chunk (số từ)
OVERLAP_WORDS = 50



Lỗi: Vui lòng đặt biến môi trường 'GEMINI_API_KEY' với khóa API Gemini của bạn.
Ví dụ: export GEMINI_API_KEY='...' trên Linux/macOS hoặc set GEMINI_API_KEY=... trên Windows.


In [None]:
# --- CÁC HÀM HỖ TRỢ ---

def get_embedding(text, model=EMBEDDING_MODEL, task_type="retrieval_document"):
    """
    Tạo embedding cho văn bản bằng API Gemini.
    """
    try:
        response = genai.embed_content(
            model=model,
            content=text,
            task_type=task_type # Quan trọng: chỉ định loại tác vụ cho embeddings
        )
        return response['embedding']
    except Exception as e:
        print(f"Lỗi khi tạo embedding cho văn bản '{text[:50]}...': {e}")
        return None

def simple_chunker(text, max_words=MAX_CHUNK_WORDS, overlap_words=OVERLAP_WORDS):
    """
    Chia văn bản thành các đoạn (chunks) đơn giản dựa trên số từ.
    """
    words = re.findall(r'\b\w+\b', text.lower()) # Tách từ, bỏ qua dấu câu
    chunks = []
    current_pos = 0

    while current_pos < len(words):
        chunk_words = words[current_pos : current_pos + max_words]
        chunk = ' '.join(chunk_words)
        if chunk:
            chunks.append(chunk)

        # Di chuyển con trỏ cho đoạn tiếp theo, có tính đến overlap
        current_pos += (max_words - overlap_words)
        if current_pos >= len(words) and len(chunk_words) == max_words:
            # Nếu đã hết từ và đoạn cuối cùng đủ kích thước, thoát
            break
        elif current_pos >= len(words) and len(chunk_words) < max_words:
            # Nếu đoạn cuối cùng nhỏ hơn max_words, đã xử lý xong
            break
        elif current_pos < len(words) and len(words[current_pos:]) < (max_words - overlap_words) and len(words[current_pos:]) > 0:
            # Đảm bảo đoạn cuối cùng không quá ngắn nếu còn từ
            if len(words) - current_pos > 0 and len(words) - current_pos < max_words:
                chunks.append(' '.join(words[current_pos:]))
                break


    return chunks




In [None]:
# --- QUY TRÌNH CHÍNH ---

def process_lessons_for_embeddings(lessons_dir):
    """
    Đọc từng tệp bài học, chia nhỏ và tạo embeddings.
    """
    all_chunks_with_embeddings = []

    # Duyệt qua các tệp bài học trong thư mục
    for filename in sorted(os.listdir(lessons_dir)):
        if filename.endswith(".txt") and filename.startswith("bai_"):
            filepath = os.path.join(lessons_dir, filename)

            # Trích xuất số bài và tên bài từ tên tệp
            match = re.match(r"bai_(\d+)_([^\.]+)\.txt", filename)
            lesson_number = match.group(1) if match else "Unknown"
            lesson_name = match.group(2).replace('_', ' ') if match else "Unknown"

            print(f"\nĐang xử lý bài: {lesson_name} (Số: {lesson_number}) từ '{filename}'")

            try:
                with open(filepath, 'r', encoding='utf-8') as f:
                    lesson_content = f.read()

                # Chia nhỏ nội dung bài học thành các đoạn (chunks)
                chunks = simple_chunker(lesson_content)

                print(f"  -> Đã chia thành {len(chunks)} đoạn.")

                for i, chunk in enumerate(chunks):
                    # Tạo embedding cho mỗi đoạn
                    embedding = get_embedding(chunk)

                    if embedding:
                        # Lưu trữ đoạn văn bản, embedding và metadata
                        all_chunks_with_embeddings.append({
                            "text_content": chunk,
                            "embedding": embedding,
                            "metadata": {
                                "lesson_number": lesson_number,
                                "lesson_name": lesson_name,
                                "source_file": filename,
                                "chunk_id": f"{lesson_number}-{i+1}"
                            }
                        })
                        print(f"    - Đã tạo embedding cho đoạn {i+1} (Dài {len(chunk.split())} từ).")
                    else:
                        print(f"    - Bỏ qua đoạn {i+1} do lỗi tạo embedding.")

            except Exception as e:
                print(f"Lỗi khi đọc hoặc xử lý tệp '{filename}': {e}")

    return all_chunks_with_embeddings



In [None]:
# --- CHẠY QUY TRÌNH ---
if __name__ == "__main__":
    print("Bắt đầu quá trình tạo embeddings cho dữ liệu sách giáo khoa...")
    embedded_data = process_lessons_for_embeddings(LESSONS_DIR)

    print(f"\nHoàn tất tạo embeddings cho tổng cộng {len(embedded_data)} đoạn văn bản.")

    if embedded_data:
        print("\n--- Cấu trúc dữ liệu đã tạo (một ví dụ): ---")
        # In một ví dụ để bạn hình dung
        example = embedded_data[0]
        print(f"Nội dung đoạn: \"{example['text_content'][:200]}...\"")
        print(f"Kích thước Embedding: {len(example['embedding'])}")
        print(f"Metadata: {example['metadata']}")
        print("\n--- Các bước tiếp theo: ---")
        print("1. Lưu trữ 'embedded_data' này vào một cơ sở dữ liệu vector (ví dụ: ChromaDB, Qdrant, Pinecone).")
        print("   Mỗi phần tử trong 'embedded_data' là một tài liệu bạn sẽ thêm vào cơ sở dữ liệu vector.")
        print("2. Khi người dùng đặt câu hỏi, tạo embedding cho câu hỏi đó bằng cùng mô hình Gemini.")
        print("3. Tìm kiếm các embedding gần nhất trong cơ sở dữ liệu vector của bạn để truy xuất thông tin liên quan.")
        print("4. Sử dụng thông tin truy xuất được để tăng cường cho lời nhắc gửi đến API Gemini (cho tác vụ tạo văn bản).")
    else:
        print("Không có dữ liệu nào được xử lý. Vui lòng kiểm tra lại thư mục và tệp đầu vào.")