In [1]:
import os
import dotenv

dotenv.load_dotenv()
os.environ['GOOGLE_API_KEY'] = os.getenv('GOOGLE_API_KEY', 'your-key-is-not-using-env')

In [41]:
!pip install youtube-transcript-api langchain-community langchain-google-genai faiss-cpu tiktoken python-dotenv google langchain



## Import libraries

In [9]:
import os
from langchain_google_genai import ChatGoogleGenerativeAI, GoogleGenerativeAIEmbeddings
from langchain_community.document_loaders import YoutubeLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_classic.chains import create_retrieval_chain
from langchain_classic.chains.combine_documents import create_stuff_documents_chain

In [30]:
from youtube_transcript_api import YouTubeTranscriptApi, TranscriptsDisabled, NoTranscriptFound

video_id = "fAW_UG_1uVs"
transcript_text = ""
try:
    ytt_api = YouTubeTranscriptApi()
    transcript_list = ytt_api.fetch(video_id, languages=['vi', 'en'])
    transcript_text = " ".join([chunk.text for chunk in transcript_list])
    print(transcript_text[:500] + "...") 

except TranscriptsDisabled:
    print(f"Video {video_id} không có phụ đề.")
except NoTranscriptFound:
    print(f"Không tìm thấy phụ đề tiếng Việt.")
except Exception as e:
    print(f"Lỗi khác: {e}")
    
print(transcript_list)

Vũ khí hiện đại rất quan trọng nhưng con người luôn là quyết định của mọi cuộc chiến. Mà hôm nay binh sĩ Campuchia cũng đã trở thành một ví dụ điển hình. Chào mừng các khán thính giả đã trở lại với Sao Đỏ TV trong bản tin chiến sự Campuchia Thái Lan ngày 15 tháng 12. Thưa các bạn, đúng là câu nói vũ khí quan trọng nhưng con người còn quan trọng hơn là không bao giờ sai. Vũ khí hiện đại rất tốt nhưng anh có khai thác sử dụng được hay không lại là chuyện khác. Hôm nay chúng ta sẽ tới với một ví dụ...
FetchedTranscript(snippets=[FetchedTranscriptSnippet(text='Vũ khí hiện đại rất quan trọng nhưng con', start=1.36, duration=3.84), FetchedTranscriptSnippet(text='người luôn là quyết định của mọi cuộc', start=3.679, duration=4.601), FetchedTranscriptSnippet(text='chiến. Mà hôm nay binh sĩ Campuchia cũng', start=5.2, duration=6.08), FetchedTranscriptSnippet(text='đã trở thành một ví dụ điển hình.', start=8.28, duration=5.04), FetchedTranscriptSnippet(text='Chào mừng các khán thính giả đã trở lạ

In [31]:
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
chunks = splitter.create_documents([transcript_text])

In [32]:
chunks

[Document(metadata={}, page_content='Vũ khí hiện đại rất quan trọng nhưng con người luôn là quyết định của mọi cuộc chiến. Mà hôm nay binh sĩ Campuchia cũng đã trở thành một ví dụ điển hình. Chào mừng các khán thính giả đã trở lại với Sao Đỏ TV trong bản tin chiến sự Campuchia Thái Lan ngày 15 tháng 12. Thưa các bạn, đúng là câu nói vũ khí quan trọng nhưng con người còn quan trọng hơn là không bao giờ sai. Vũ khí hiện đại rất tốt nhưng anh có khai thác sử dụng được hay không lại là chuyện khác. Hôm nay chúng ta sẽ tới với một ví dụ điển hình như vậy tại chiến trường Campuchia đại diện cho một sự kiện nổi bật vào ngày hôm qua trong cuộc xung đột này. Trước hết xin phép 1 phút điểm qua tình hình chiến sự sơ bộ. Đúng như tuyên bố không có chuyện ngừng bắn, ngay từ sáng sớm hôm qua, cả hai nước đã lao vào trận chiến ngay từ lúc bình minh. Khoảng 5:00 sáng ngày 14 tháng 12, quân đội Campuchia đã phát động các tấn công vào khu vực xung quanh đền Tà Kawai, đền Kho, Trông Gran, đồi 350, huyện 

## Embedding and turn them to vectorDB

In [34]:
## Embedding
embeddings = GoogleGenerativeAIEmbeddings(
    model="models/text-embedding-004",
    google_api_key=os.environ["GOOGLE_API_KEY"]
)
vector_store = FAISS.from_documents(chunks, embeddings)

## Retrieve relevant documents

In [None]:
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k":4})

retriever.invoke("Xe tăng được đề cập trong video là gì")

[Document(id='c748750b-a225-4714-8e29-23b2d3804e77', metadata={}, page_content='tên lửa qua liên kết dữ liệu để chọn mục tiêu chính xác vào phút chót. Tên lửa được trang bị động cơ kép gồm liều phóng lạnh đẩy đạn ra khỏi bệ trước khi động cơ chính kích hoạt ở cự ly an toàn so với xạ thủ vào bệ phóng. Qua đó cho phép phóng đạn từ hầm hào hoặc không gian kín tầm bán tối đao với phiên bản tiêu chuẩn là sáu cầy. Đặc biệt nếu được bổ sung thêm thiết bị dẫn hướng bổ trợ bao gồm ăten liên kết dữ liệu, màn hình điều khiển cầm tay và UAV tích hợp, tầm tấn công của tên lửa sẽ lên tới 10 cây. Với chế độ tăng tầm này, thường thì sẽ sử dụng chế độ bắn khóa sau khi phóng bởi lúc này tên lửa phóng sẽ không thấy được mục tiêu. Do đó, tên lửa sẽ được bắn về phía mục tiêu vốn đã được xác định vị trí tương đối. Trong quá trình bay, camera ở đầu tên lửa sẽ quay trực tiếp truyền về máy ngắm hay màn hình. Xạ thủ khi thấy mục tiêu trên màn hình thì kích vào khóa mục tiêu để tên lửa lao đến. Đây là phương phá

### Turn them to context for LLM

In [39]:
llm = ChatGoogleGenerativeAI(
    model="gemini-2.5-flash",
    temperature=0.3,
    google_api_key=os.environ["GOOGLE_API_KEY"]
)

In [40]:
from langchain_core.prompts import ChatPromptTemplate
system_prompt = (
    "Bạn là một trợ lý AI hữu ích chuyên tóm tắt và trả lời câu hỏi từ nội dung video."
    "Sử dụng các đoạn văn bản (context) được cung cấp dưới đây để trả lời câu hỏi."
    "Nếu câu trả lời không có trong context, hãy nói 'Tôi không tìm thấy thông tin trong video này'."
    "Giữ câu trả lời ngắn gọn, súc tích trong khoảng 3-4 câu."
    "\n\n"
    "{context}"
)

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", system_prompt),
        ("human", "{input}"),
    ]
)

question_answer_chain = create_stuff_documents_chain(llm, prompt)
rag_chain = create_retrieval_chain(retriever, question_answer_chain)

query = "Xe tăng được đề cập trong video là gì?"
print(f"User: {query}\n")

try:
    response = rag_chain.invoke({"input": query})
    
    print("--- AI Trả lời ---")
    print(response["answer"])
    print("\n--- Nguồn tham khảo (Context) ---")
    for i, doc in enumerate(response["context"]):
        print(f"Chunk {i+1}: {doc.page_content[:100]}...")
        
except Exception as e:
    print(f"Lỗi khi chạy Chain: {e}")

User: Xe tăng được đề cập trong video là gì?

--- AI Trả lời ---
Các xe tăng được đề cập trong video là VT4 và T84 T, thuộc lục quân Thái Lan. Tên lửa được nhắc đến trong video có khả năng bắn hạ các loại tăng hiện đại nhất thế giới này.

--- Nguồn tham khảo (Context) ---
Chunk 1: tên lửa qua liên kết dữ liệu để chọn mục tiêu chính xác vào phút chót. Tên lửa được trang bị động cơ...
Chunk 2: về lý thuyết nó thừa sức bắn tung thắp pháo các siêu tăng của lục quân Thái Lan như VT4 và T84 T. ch...
Chunk 3: kích dữ dội và xe tăng địch đang ập đến, các binh sĩ Campuchia vốn có thể chưa được huấn luyện thuần...
Chunk 4: hay không, cao hơn là phát triển các hệ thống phòng thủ, bảo vệ xe tăng, thiết giáp trong tương lai....
