<a href="https://www.kaggle.com/code/sscarecrow/geminiapiforaic?scriptVersionId=258567893" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

In [17]:
!pip install google-generativeai



In [21]:
from kaggle_secrets import UserSecretsClient
user_secrets = UserSecretsClient()
secret_value_0 = user_secrets.get_secret("GOOGLE_AI_API_KEY")


'AIzaSyDY65nxz-QbWjhv9sIR4z343iqMlKNMnKI'

In [27]:
# Vietnamese Transcript Topic-based Chunking and Key Points Summarizing
# Compatible with Kaggle environment

import os
import re
import json
import time
from typing import List, Dict
import google.generativeai as genai
from pathlib import Path
class VietnameseTranscriptProcessor:
    def __init__(self, api_key: str):
        genai.configure(api_key=api_key)
        self.model = genai.GenerativeModel('gemini-1.5-flash')    
    def clean_transcript_text(self, text: str) -> str:
        text = re.sub(r'\s+', ' ', text)
        text = re.sub(r'\[\d+:\d+:\d+\]', '', text)
        text = re.sub(r'Speaker \d+:', '', text, flags=re.IGNORECASE)
        text = re.sub(r'Người nói \d+:', '', text, flags=re.IGNORECASE)
        text = re.sub(r'\s*\.\s*', '. ', text)
        text = re.sub(r'\s*\?\s*', '? ', text)
        text = re.sub(r'\s*\!\s*', '! ', text)
        text = re.sub(r'\.{2,}', '.', text)
        return text.strip()
    def create_topic_based_chunks(self, text: str) -> List[Dict]:
        prompt = f"""
Bạn là một chuyên gia phân tích ngôn ngữ tiếng Việt. Nhiệm vụ của bạn là phân chia văn bản transcript sau thành các đoạn dựa trên chủ đề (topic-based chunking).

HƯỚNG DẪN CHI TIẾT:
1. Phân tích toàn bộ văn bản để xác định các chủ đề chính
2. Chia văn bản thành các đoạn, mỗi đoạn tập trung vào MỘT chủ đề cụ thể
3. Mỗi đoạn phải có ý nghĩa hoàn chỉnh và độc lập
4. Đảm bảo không bỏ sót nội dung nào từ văn bản gốc
5. Không thay đổi hoặc chỉnh sửa nội dung, chỉ phân chia theo chủ đề
6. Nếu có chuyển đổi chủ đề trong câu, hãy cắt tại điểm chuyển đổi phù hợp

CÁC TIÊU CHÍ PHÂN CHIA CHỦ ĐỀ:
- Thay đổi chủ đề hoặc ý tưởng chính
- Chuyển từ giới thiệu sang phần chính, từ vấn đề sang giải pháp
- Thay đổi bối cảnh thời gian hoặc không gian
- Chuyển từ lý thuyết sang thực hành, từ tổng quan sang chi tiết
- Chuyển đổi người nói hoặc góc nhìn

VĂN BẢN CẦN PHÂN TÍCH:
{text}

ĐỊNH DẠNG TRẢ VỀ (JSON):
{{
  "chunks": [
    {{
      "chunk_id": 1,
      "topic": "Tên chủ đề chính của đoạn này",
      "content": "Nội dung đầy đủ của đoạn văn",
      "description": "Mô tả ngắn gọn về nội dung chủ đề"
    }},
    {{
      "chunk_id": 2,
      "topic": "Tên chủ đề tiếp theo",
      "content": "Nội dung đầy đủ của đoạn văn",
      "description": "Mô tả ngắn gọn về nội dung chủ đề"
    }}
  ]
}}

Hãy trả về kết quả theo đúng định dạng JSON trên.
"""
        try:
            response = self.model.generate_content(prompt)
            response_text = response.text.strip()
            json_match = re.search(r'\{.*\}', response_text, re.DOTALL)
            if json_match:
                chunks_data = json.loads(json_match.group())
                return chunks_data.get("chunks", [])
            else:
                print("Could not parse JSON response from Gemini API")
                return self._fallback_topic_chunking(text)
        except json.JSONDecodeError as e:
            print(f"JSON decode error: {e}")
            print(f"Response text: {response_text[:200]}...")
            return self._fallback_topic_chunking(text)
        except Exception as e:
            print(f"Error in topic-based chunking: {e}")
            return self._fallback_topic_chunking(text)
    def _fallback_topic_chunking(self, text: str) -> List[Dict]:
        print("Using fallback chunking method...")
        paragraphs = [p.strip() for p in text.split('\n\n') if p.strip()]
        if not paragraphs:
            sentences = re.split(r'[.!?]+', text)
            paragraphs = []
            current_para = ""
            for sentence in sentences:
                sentence = sentence.strip()
                if not sentence:
                    continue
                if len(current_para + sentence) > 800 and current_para:
                    paragraphs.append(current_para.strip())
                    current_para = sentence
                else:
                    current_para += " " + sentence if current_para else sentence
            if current_para:
                paragraphs.append(current_para.strip())
        
        chunks = []
        for i, para in enumerate(paragraphs, 1):
            chunks.append({
                "chunk_id": i,
                "topic": f"Chủ đề {i}",
                "content": para,
                "description": f"Đoạn văn số {i}"
            })
            
        return chunks
    def create_overall_key_points_summary(self, chunks: List[Dict]) -> str:
        chunks_info = ""
        for chunk in chunks:
            chunks_info += f"Chủ đề: {chunk['topic']}\n"
            chunks_info += f"Mô tả: {chunk['description']}\n"
            chunks_info += f"Nội dung: {chunk['content'][:300]}...\n\n"
        prompt = f"""
Bạn là một chuyên gia tóm tắt nội dung tiếng Việt. Dựa trên các đoạn văn được phân chia theo chủ đề dưới đây, hãy tạo một bản tóm tắt các điểm chính (key points) cho toàn bộ nội dung transcript.

HƯỚNG DẪN TÓM TẮT:
1. Xác định các ý chính quan trọng nhất từ tất cả các chủ đề
2. Sắp xếp theo thứ tự logic và mức độ quan trọng
3. Sử dụng bullet points để trình bày rõ ràng
4. Mỗi điểm chính nên súc tích nhưng đầy đủ thông tin
5. Bao gồm cả thông điệp chính và kết luận quan trọng
6. Sử dụng tiếng Việt tự nhiên và dễ hiểu

CÁC ĐOẠN VĂN THEO CHỦ ĐỀ:
{chunks_info}

ĐỊNH DẠNG TÓM TẮT:
• [Điểm chính 1]: Mô tả chi tiết điểm chính đầu tiên
• [Điểm chính 2]: Mô tả chi tiết điểm chính thứ hai  
• [Điểm chính 3]: Mô tả chi tiết điểm chính thứ ba
...
• [Kết luận]: Thông điệp hoặc kết luận quan trọng nhất

Hãy tóm tắt các điểm chính:
"""
        try:
            response = self.model.generate_content(prompt)
            return response.text.strip()
        except Exception as e:
            print(f"Error in creating key points summary: {e}")
            return f"Không thể tạo tóm tắt điểm chính. Lỗi: {e}"
    
    def process_transcript_file(self, file_path: str) -> Dict:
        print(f" Processing file: {file_path}")
        try:
            with open(file_path, 'r', encoding='utf-8') as file:
                raw_text = file.read()
        except FileNotFoundError:
            return {"error": f"File not found: {file_path}"}
        except Exception as e:
            return {"error": f"Could not read file: {e}"}
        cleaned_text = self.clean_transcript_text(raw_text)
        chunks = self.create_topic_based_chunks(cleaned_text)
        
        if not chunks:
            return {"error": "No chunks were created"}
        print(f" Created {len(chunks)} topic-based chunks")
        time.sleep(2)
        print(" Generating overall key points summary...")
        overall_summary = self.create_overall_key_points_summary(chunks)
        results = {
            "file_info": {
                "file_path": file_path,
                "original_length_chars": len(raw_text),
                "cleaned_length_chars": len(cleaned_text),
                "processing_timestamp": time.strftime("%Y-%m-%d %H:%M:%S")
            },
            "chunking_results": {
                "total_chunks": len(chunks),
                "chunking_method": "topic-based",
                "chunks": chunks
            },
            "summary": {
                "type": "key_points",
                "language": "vietnamese",
                "content": overall_summary
            }
        }
        
        return results
    def save_results_to_json(self, results: Dict, output_path: str = "vietnamese_transcript_analysis.json"):
        try:
            with open(output_path, 'w', encoding='utf-8') as file:
                json.dump(results, file, ensure_ascii=False, indent=2)
            print(f" Results saved to: {output_path}")
        except Exception as e:
            print(f"❌ Error saving results: {e}")
def main():
    API_KEY = secret_value_0   
    if not API_KEY:
        print("❌ API key not found!")
        return
    transcript_file_path = "/kaggle/input/phowhisperforaic/transcripts/L22_V002.txt"  # Change this to your file path
    if not os.path.exists(transcript_file_path):
        print(f"❌ Transcript file not found: {transcript_file_path}")
        return
    try:
        processor = VietnameseTranscriptProcessor(API_KEY)
    except Exception as e:
        print(f"❌ Failed to initialize Gemini API: {e}")
        return
    print("\n🚀 Starting Vietnamese transcript processing...")
    results = processor.process_transcript_file(transcript_file_path)
    if "error" in results:
        print(f"❌ Processing failed: {results['error']}")
        return
    output_file = "vietnamese_transcript_analysis.json"
    processor.save_results_to_json(results, output_file)
    print("\n" + "PROCESSING RESULTS" + "\n" + "=" * 50)
    print(f"Topic-based chunks: {results['chunking_results']['total_chunks']}")
    print(f"\n IDENTIFIED TOPICS:")
    print("-" * 30)
    for i, chunk in enumerate(results['chunking_results']['chunks'], 1):
        print(f"{i:2d}. {chunk['topic']}")
        print(f"    └─ {chunk['description']}")
    print(f"\n KEY POINTS SUMMARY:")
    print("-" * 30)
    print(results['summary']['content'])
    
    print(f"\n Processing completed successfully!")
    print(f" Full results saved in: {output_file}")
    
    return results
def process_file_directly(file_path: str, api_key: str) -> Dict:
    processor = VietnameseTranscriptProcessor(api_key)
    return processor.process_transcript_file(file_path)
if __name__ == "__main__":
    main()


🚀 Starting Vietnamese transcript processing...
 Processing file: /kaggle/input/phowhisperforaic/transcripts/L22_V002.txt
 Created 16 topic-based chunks
 Generating overall key points summary...
 Results saved to: vietnamese_transcript_analysis.json

PROCESSING RESULTS
Topic-based chunks: 16

 IDENTIFIED TOPICS:
------------------------------
 1. Ngày hội việc làm ngành y tế
    └─ Thông tin về ngày hội việc làm ngành y tế, số lượng bác sĩ được tuyển dụng và sự phân bổ của họ tại các tuyến y tế.
 2. Công bố điểm chuẩn và kết quả xét tuyển đại học
    └─ Thông tin về thời gian và quy trình công bố điểm chuẩn, kết quả xét tuyển đại học và các quy định liên quan.
 3. Cứu sống thai phụ mắc thuyên tắc mạch phổi
    └─ Thông tin về trường hợp cứu sống thành công một thai phụ mắc thuyên tắc mạch phổi nặng tại bệnh viện Chợ Rẫy.
 4. Kiểm tra tiến độ dự án hạ tầng giao thông
    └─ Phó Chủ tịch UBND TP. HCM kiểm tra và yêu cầu các đơn vị khẩn trương khắc phục khó khăn, đảm bảo tiến độ thi công 