In [None]:
import PyPDF2
import google.generativeai as genai

# Khởi tạo API Gemini

genai.configure(api_key="")


def read_pdf(file_path):
    """Đọc nội dung từ file PDF"""
    content = ""
    with open(file_path, "rb") as file:
        reader = PyPDF2.PdfReader(file)
        for page in reader.pages:
            content += page.extract_text()
    return content


def split_text(text, chunk_size=3000):
    """Chia văn bản thành các đoạn nhỏ"""
    chunks = []
    for i in range(0, len(text), chunk_size):
        chunks.append(text[i : i + chunk_size])
    return chunks


def clean_and_summarize_with_gemini(text):
    """Làm sạch và tóm tắt nội dung văn bản bằng Gemini"""
    model = genai.GenerativeModel("gemini-2.0-flash")
    prompt = (
        f"Làm sạch nội dung sau và tóm tắt thành các bullet point cho bài thuyết trình theo từng đề mục, kết quả dưới dạng text bình thường, không sử dụng định dạng đặc biệt. Chỉ đưa ra kết quả, không giải thích hay nói gì thêm:\n{text}"
    )
    response = model.generate_content(prompt)
    return response.text


def example():
    pdf_path = "D:/example.pdf"  # Thay bằng đường dẫn file PDF của bạn
    raw_text = read_pdf(pdf_path)
    
    # Chia nhỏ nội dung nếu quá dài
    text_chunks = split_text(raw_text)
    summarized_chunks = []
    
    # Làm sạch và tóm tắt từng đoạn rồi tổng hợp lại
    for i, chunk in enumerate(text_chunks):
        print(f"Đang làm sạch và tóm tắt đoạn {i + 1}/{len(text_chunks)}...")
        summary_chunk = clean_and_summarize_with_gemini(chunk)
        summarized_chunks.append(summary_chunk)
    
    # Ghép nội dung đã làm sạch và tóm tắt
    summarized_text = "\n".join(summarized_chunks)
    
    # In nội dung đã làm sạch và tóm tắt
    print(summarized_text)

    # Hoặc lưu nội dung ra file
    with open("cleaned_and_summarized_text.txt", "w", encoding="utf-8") as f:
        f.write(summarized_text)

    print("Nội dung đã được làm sạch, tóm tắt và lưu vào 'cleaned_and_summarized_text.txt'")



In [None]:
example()