# Cài đặt thư viện
API Free của Gemini nên không cần private

In [1]:
import os
import fitz  # PyMuPDF
from docx import Document
import google.generativeai as genai
from dotenv import load_dotenv

# Load biến môi trường từ .env
load_dotenv()
GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
genai.configure(api_key=GOOGLE_API_KEY)

# Thiết lập hàm đọc file
Chấp nhận hai định dạng là .doc và .pdf. Đảm bảo file bài giảng nhiều chữ.

In [2]:
def extract_text_from_pdf(pdf_path):
    # Mở file PDF
    doc = fitz.open(pdf_path)
    text = ""
    for page_num in range(doc.page_count):
        page = doc.load_page(page_num)
        text += page.get_text()
    return text

def extract_text_from_docx(docx_path):
    # Mở file DOCX
    doc = Document(docx_path)
    text = ""
    for para in doc.paragraphs:
        text += para.text + "\n"
    return text

def extract_text_from_file(file_path):
    # Kiểm tra loại file và gọi hàm tương ứng
    file_extension = os.path.splitext(file_path)[1].lower()

    if file_extension == '.pdf':
        return extract_text_from_pdf(file_path)
    elif file_extension == '.docx':
        return extract_text_from_docx(file_path)
    else:
        raise ValueError("Unsupported file format. Only PDF and DOCX are supported.")

In [3]:
text = extract_text_from_file("../data/sample.pdf")
print(text)

1 
Biên soạn: Phan Văn Thân 
HAI ĐỨA TRẺ 
(Thạch Lam: 1910-1942) 
 
     
MỤC TÊU CẦN ĐẠT: 
1. Những nét chính về nhà văn Thạch Lam.                      
2.  Thấy được bức tranh thiên nhiên, bức tranh sinh hoạt của phố huyện nghèo và tâm 
trạng  của hai đứa trẻ, từ đó, hiểu được tấm lòng thương cảm sâu xa của Thạch Lam đối 
với  những kiếp sống tối tăm, mòn mỏi và thái độ nâng niu, trân trọng của ông   đối với 
những tâm hồn trẻ thơ nơi phố huyện và vẻ đẹp bình dị mà nên thơ của bức tranh đó. 
3. Thấy được nét tinh tế của nghệ thuật tả cảnh, tả tâm trạng và tạo không khí truyện 
của Thạch Lam trong truyện ngắn “Hai đứa trẻ”. 
4. Tiếp tục rèn luyện kĩ năng phân tích một tác phẩm tự sự giàu chất trữ tình. 
 
 
I. ĐỀ BÀI LUYỆN TẬP 
 
         A. CÁC ĐỀ BÀI BỘ GD-ĐT ĐÃ RA TỪ 2002 ĐẾN 2013: 
   1. Đề thi tuyển sinh ĐH-CĐ khối C, năm 2004: 
        Phân tích hình ảnh thiên nhiên và con người ở phố huyện nghèo lúc chiều 
tối trong truyện ngắn Hai đứa trẻ của Thạch Lam (chú ý làm rõ những nét

# Gọi API tiến hành chia đoạn và phân tích tóm tắt
Đưa ra phân tích và lưu lại file

In [4]:
def split_text_by_semantics(text):
    prompt = f"""
    Bạn là một chuyên gia xử lý văn bản. Hãy chia văn bản sau thành các đoạn có ý nghĩa sao cho mỗi đoạn vừa đủ để giải thích trong khoảng 3 đến 5 câu.

    Văn bản:
    {text}

    Định dạng đầu ra:
    - Phần 1: [Nội dung]
    - Phần 2: [Nội dung]
    - Phần 3: [Nội dung]
    """

    try:
        model = genai.GenerativeModel("gemini-pro")
        response = model.generate_content(prompt)
        result_text = response.text.strip()

        chunks = result_text.split("- Phần ")
        chunks = [chunk.strip() for chunk in chunks if chunk]
        return chunks
    except Exception as e:
        print(f"Lỗi khi gọi API Gemini: {e}")
        return []

def generate_explaination_for_chunks(chunks):
    # Tạo một mô tả ngữ nghĩa tổng quan về văn bản
    overview_prompt = f"""
    Đây là một văn bản có nội dung liên quan đến các chủ đề quan trọng. Bạn sẽ được yêu cầu phân tích và thuyết minh cho từng phần của văn bản sau.
    Văn bản gồm các phần sau:
    {', '.join([f"Phần {i+1}" for i in range(len(chunks))])}.
    
    Xin vui lòng mô tả và giải thích nội dung từng phần theo ngữ nghĩa của nó. Mỗi phần hãy phân tích khoảng 5 câu.
    """

    try:
        # Gọi Gemini để tạo mô tả tổng quan
        model = genai.GenerativeModel("gemini-pro")
        response = model.generate_content(overview_prompt, safety_settings={
                                                                            'HATE': 'BLOCK_NONE',
                                                                            'HARASSMENT': 'BLOCK_NONE',
                                                                            'SEXUAL' : 'BLOCK_NONE',
                                                                            'DANGEROUS' : 'BLOCK_NONE'
                                                                            })
        overview_text = response.text.strip()

        explainations = []
        for idx, chunk in enumerate(chunks, start=1):
            part_prompt = f"""
                            Bạn là một nhà phân tích văn bản tài ba. Dựa trên phần {idx} của một chủ đề lớn, hãy phân tích và giải thích ý nghĩa sâu sắc của đoạn văn sau:  
                            {chunk}

                            Hãy trình bày phân tích một cách rõ ràng, chi tiết và mạch lạc. Đảm bảo rằng:  
                            - Bạn làm rõ những ý tưởng chính và thông điệp quan trọng trong đoạn văn.  
                            - Giải thích bối cảnh và những yếu tố quan trọng như nhân vật (nếu có), tình huống, hoặc các sự kiện xảy ra trong đoạn văn.  
                            - Các câu phải liền mạch, không xuống dòng, không liệt kê. (Quan trọng)
                            - Phân tích các yếu tố văn phong, cách sử dụng ngôn từ, và cách mà chúng góp phần vào việc truyền tải thông điệp của tác giả.  
                            - Làm rõ mối liên hệ giữa các phần trong đoạn văn, đảm bảo sự liên kết chặt chẽ giữa các ý tưởng.  
                            - Sử dụng các ví dụ trong văn bản để minh họa cho các phân tích của bạn một cách thuyết phục.
                            """

            part_response = model.generate_content(part_prompt)
            part_explaination = part_response.text.strip()
            explainations.append(part_explaination)

        return explainations

    except Exception as e:
        print(f"Lỗi khi gọi API Gemini: {e}")
        return []

In [5]:
# Tách văn bản theo ngữ nghĩa sử dụng API Gemini
semantic_chunks = split_text_by_semantics(text)

# Tạo thuyết minh cho từng phần semantic chunk
explainations = generate_explaination_for_chunks(semantic_chunks)

# In kết quả
for idx, explaination in enumerate(explainations, start=1):
    print(f"Giải thích cho Phần {idx}:\n{explaination}\n")

KeyboardInterrupt: 

In [None]:
# Lưu từng câu vào tệp riêng biệt
for idx, explaination in enumerate(explainations, start=1):
    # Tách đoạn văn bản thành các câu dựa trên dấu chấm
    sentences = explaination.split('.')
    
    # Lưu từng câu vào tệp riêng biệt
    for sentence_idx, sentence in enumerate(sentences, start=1):
        sentence = sentence.strip()  # Loại bỏ khoảng trắng thừa
        if sentence:  # Kiểm tra nếu câu không rỗng
            output_file = f"../data/text/{idx}_{sentence_idx}.txt"  # Tên tệp theo định dạng x_y.txt
            with open(output_file, "w", encoding="utf-8") as f:
                f.write(f"'{sentence}'")  # Ghi câu trong dấu nháy đơn
            print(f"Đã lưu: {output_file}")

Đã lưu: ../data/text/1_1.txt
Đã lưu: ../data/text/1_2.txt
Đã lưu: ../data/text/1_3.txt
Đã lưu: ../data/text/1_4.txt
Đã lưu: ../data/text/1_5.txt
Đã lưu: ../data/text/1_6.txt
Đã lưu: ../data/text/1_7.txt
Đã lưu: ../data/text/1_8.txt
Đã lưu: ../data/text/1_9.txt
Đã lưu: ../data/text/1_10.txt
Đã lưu: ../data/text/1_11.txt
Đã lưu: ../data/text/1_12.txt
Đã lưu: ../data/text/1_13.txt
Đã lưu: ../data/text/1_14.txt
Đã lưu: ../data/text/1_15.txt
Đã lưu: ../data/text/2_1.txt
Đã lưu: ../data/text/2_2.txt
Đã lưu: ../data/text/2_3.txt
Đã lưu: ../data/text/2_4.txt
Đã lưu: ../data/text/2_5.txt
Đã lưu: ../data/text/2_6.txt
Đã lưu: ../data/text/2_7.txt
Đã lưu: ../data/text/2_8.txt
Đã lưu: ../data/text/2_9.txt
Đã lưu: ../data/text/2_10.txt
Đã lưu: ../data/text/2_11.txt
Đã lưu: ../data/text/2_12.txt
Đã lưu: ../data/text/2_13.txt
Đã lưu: ../data/text/3_1.txt
Đã lưu: ../data/text/3_2.txt
Đã lưu: ../data/text/3_3.txt
Đã lưu: ../data/text/3_4.txt
Đã lưu: ../data/text/3_5.txt
Đã lưu: ../data/text/3_6.txt
Đã l