In [3]:
import os
import sys
import subprocess
import shutil
import io

# --- 1. Xoá thư mục chromadb cũ nếu tồn tại ---
if os.path.isdir("chromadb"):
    print("Đang xóa thư mục chromadb cũ...")
    shutil.rmtree("chromadb")

# --- 3. Kiểm tra và cài đặt các thư viện cần thiết ---
def ensure_package(pkg_name, import_name=None):
    try:
        __import__(import_name or pkg_name)
    except ImportError:
        print(f"Thiếu thư viện '{pkg_name}', đang cài đặt...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", pkg_name])
        __import__(import_name or pkg_name)

pkgs = [
    ("chromadb", None),
    ("langchain", None),
    ("ollama", None),
    ("tiktoken", None),
    ("PyPDF2", None)
]

for pkg, imp in pkgs:
    ensure_package(pkg, imp)

Đang xóa thư mục chromadb cũ...


In [None]:
# --- Đọc PDF với decoder UTF-8 để tránh lỗi tuple ---
import os
from PyPDF2 import PdfReader
from langchain.schema import Document

pdf_path = r"D:\Project_self\pdf_place\CleanCode.pdf"  # Thay đường dẫn tới file PDF của bạn
reader = PdfReader(pdf_path)
docs = []

for i, page in enumerate(reader.pages):
    raw_text = page.extract_text() or ""
    # Nếu raw_text là bytes, decode bằng utf-8 và bỏ ký tự không hợp lệ
    if isinstance(raw_text, (bytes, bytearray)):
        text = raw_text.decode("utf-8", errors="ignore")
    else:
        text = raw_text
    docs.append(Document(
        page_content=text,
        metadata={"source": f"{os.path.basename(pdf_path)}_page_{i+1}"}
    ))

In [None]:
from PyPDF2 import PdfReader
from langchain.schema import Document
from langchain.embeddings import SentenceTransformerEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA

In [None]:
# Sử dụng embedding model local
embed_model = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")

In [None]:
# --- 7. Tạo hoặc tải lại vector database local với fallback khi embed thất bại ---
try:
    vectordb = Chroma.from_documents(
        documents=docs,
        embedding=embed_model,
        persist_directory="chromadb"
    )
    vectordb.persist()
    print("🎉 VectorDB khởi tạo thành công với model embedding hiện tại.")
    
except ValueError as e:
    print(f"[Warning] Embed thất bại: {e}")
    print("Chuyển sang model embedding thay thế: sentence-transformers/all-MiniLM-L6-v2")
    # Cài và dùng MiniLM embedding local thay thế
    from langchain.embeddings import SentenceTransformerEmbeddings
    fallback_embed = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
    vectordb = Chroma.from_documents(
        documents=docs,
        embedding=fallback_embed,
        persist_directory="chromadb"
    )
    vectordb.persist()
    embed_model = fallback_embed  # cập nhật cho phần truy vấn sau
    print("🎉 VectorDB đã khởi tạo lại với MiniLM embedding.")

In [1]:
from dotenv import load_dotenv
import os, requests

load_dotenv()  # đọc các biến GEMINI_API_KEY, GEMINI_MODEL,…

API_KEY    = os.getenv("GEMINI_API_KEY")
MODEL_ID   = os.getenv("GEMINI_MODEL") # ví dụ: "gemini-2.5-pro"
PROMPT     = os.getenv(
    "GEMINI_PROMPT",
    "Bạn là một trợ lý hữu ích. Hãy trả lời đầy đủ và chi tiết. Đừng lặp lại câu trả lời nếu không cần thiết."
)
MAX_TOKENS = int(os.getenv("GEMINI_MAX_TOKENS", "256"))
TEMP       = float(os.getenv("GEMINI_TEMPERATURE", "0.7"))

# Kiểm tra
print("API Key   :", "✓" if API_KEY else "✗")
print("Model     :", MODEL_ID)
print("MaxTokens :", MAX_TOKENS)
print("Temperature:", TEMP)



API Key   : ✓
Model     : gemini-2.5-pro
MaxTokens : 1048
Temperature: 0.7


In [16]:
# Cell: Định nghĩa và test với debug
import os
import asyncio
import httpx
import nest_asyncio
from dotenv import load_dotenv
import re
from IPython.display import display, Markdown
from IPython.display import clear_output
# Patch để chạy asyncio.run()/await trong Jupyter
nest_asyncio.apply()

# Load env
load_dotenv()
API_KEY    = os.getenv("GEMINI_API_KEY")
MODEL_ID   = os.getenv("GEMINI_MODEL")       # "gemini-2.5-pro"
MAX_TOKENS = int(os.getenv("GEMINI_MAX_TOKENS", "256"))
TEMP       = float(os.getenv("GEMINI_TEMPERATURE", "0.7"))

BASE_URL = f"https://generativelanguage.googleapis.com/v1/models/{MODEL_ID}:generateContent"

async def generate_content(prompt: str) -> dict:
    payload = {
        "contents": [{"parts": [{"text": prompt}]}],
        "generationConfig": {
            "maxOutputTokens": MAX_TOKENS,
            "temperature": TEMP
        }
    }
    async with httpx.AsyncClient(timeout=30.0) as client:
        resp = await client.post(BASE_URL, params={"key": API_KEY}, json=payload)
        resp.raise_for_status()
        return resp.json()

async def main(prompt: str):
    result = await generate_content(prompt)
    
    # 1) In raw response để debug
    print("🔍 Raw response:")
    import pprint; pprint.pprint(result)
    
    # 2) Show finishReason nếu có
    fr = result.get("candidates", [{}])[0].get("finishReason")
    print(f"\n⚙️ finishReason: {fr}")

    # 3) Extract text nếu có
    cands = result.get("candidates", [])
    if not cands:
        print("❌ No candidates returned.")
        return
    content_obj = cands[0].get("content", {})
    parts = content_obj.get("parts") or []
    # Ghép text và loại bỏ newline ngay tại đây:
    text = "".join(p.get("text", "") for p in parts)
    clean_text = re.sub(r"\s+", " ", text).strip()
    
    if text:
        print("\n🎉 Gemini trả lời đầy đủ:\n")
        print(text)
    else:
        print("\n⚠️ Không tìm thấy text trong parts.")
        print(" Nếu finishReason là MAX_TOKENS, thử tăng GEMINI_MAX_TOKENS lên 512 hoặc 1024 và chạy lại.")
    
    
    # display(Markdown(clean_text))
    
    clear_output(wait=True)
    print(clean_text)

In [17]:
# Chạy test
test_prompt = "Tóm tắt chương 1 của tài liệu PDF cho tôi."
asyncio.run(main(test_prompt))


Chào bạn, Để tóm tắt chương 1 của tài liệu PDF cho bạn, tôi cần có nội dung của chương đó. Vì lý do bảo mật và kỹ thuật, tôi không thể truy cập trực tiếp vào các tệp tin trên máy tính của bạn. Bạn có thể cung cấp nội dung của chương 1 bằng một trong những cách sau: **Cách 1: Sao chép và Dán (Copy & Paste)** Đây là cách đơn giản và nhanh nhất nếu chương 1 không quá dài. Bạn chỉ cần: 1. Mở tệp PDF. 2. Bôi đen và sao chép (copy) toàn bộ văn bản của chương 1. 3. Dán (paste) nội dung đó vào đây. **Cách 2: Gửi liên kết (Link)** Nếu tài liệu PDF của bạn được đăng tải công khai trên mạng, bạn hãy gửi cho tôi liên kết đến tệp đó. *(Lưu ý: Tôi chỉ có thể truy cập các liên kết công khai, không yêu cầu đăng nhập hay mật khẩu).* **Cách 3: Mô tả các ý chính** Nếu bạn không thể sao chép nội dung, bạn có thể tự đọc và liệt kê ra các đề mục chính, các ý tưởng cốt lõi hoặc những đoạn quan trọng nhất trong chương 1. Dựa trên đó, tôi sẽ giúp bạn viết thành một bản tóm tắt hoàn chỉnh. --- Để bản tóm tắt đư

In [None]:
# Cell 5: Định nghĩa wrapper GeminiLLM dùng call_gemini
from langchain.llms.base import LLM
from pydantic import BaseModel
from typing import Optional, List

class GeminiLLM(LLM, BaseModel):
    model_name: str
    api_key:    str
    max_output_tokens: int = 1000
    temperature:       float = 0.6

    @property
    def _llm_type(self) -> str:
        return "gemini"

    def _call(self, prompt: str, stop: Optional[List[str]] = None) -> str:
        # Gọi hàm call_gemini đã định nghĩa ở Cell 3
        return call_gemini(prompt)

    async def _acall(self, prompt: str, stop: Optional[List[str]] = None) -> str:
        return self._call(prompt, stop)

In [None]:
# Cell 6: Khởi tạo pipeline RAG với GeminiLLM và vectordb
from langchain.chains import RetrievalQA

# 1) Khởi tạo GeminiLLM
gemini_llm = GeminiLLM(
    model_name=MODEL_ID,            # từ Cell 2
    api_key=API_KEY,                # từ Cell 2
    max_output_tokens=MAX_TOKENS,   # từ Cell 2
    temperature=TEMP                # từ Cell 2
)

# 2) Tạo RetrievalQA chain
retriever = vectordb.as_retriever(search_kwargs={"k": 4})
qa_chain = RetrievalQA.from_chain_type(
    llm=gemini_llm,
    chain_type="stuff",
    retriever=retriever,
    return_source_documents=True
)

# 3) Định nghĩa hàm ask để hỏi và in kết quả + nguồn
def ask(question: str):
    result = qa_chain.invoke({"query": question})
    print("=== ANSWER ===")
    print(result["result"])
    print("\n=== SOURCES ===")
    for doc in result["source_documents"]:
        print(f"- {doc.metadata.get('source', '')}")


In [None]:
ask("describe details as much as you can about Smell and Heuristic General.")