# 🏛️ Vietnamese Legal RAG System with TTS

Hệ thống Truy vấn Pháp luật Việt Nam sử dụng VinaLlama-2.7B + RAG + TTS

## 📋 Tính năng chính:
- 🤖 **VinaLlama 2.7B Chat** với 4-bit quantization
- 📊 **Hybrid RAG** (BM25 + BGE-M3)
- 🗂️ **Vector Store** (Weaviate + fallback)
- 📚 **Vietnamese Law Corpus** dataset
- 🔊 **Vietnamese TTS** synthesis
- 💬 **Interactive Demo** interface

## 🔧 Bước 1: Cài đặt thư viện

In [None]:
# Cài đặt các thư viện cần thiết
!pip install -q transformers torch datasets
!pip install -q langchain langchain-community langchain-core
!pip install -q weaviate-client sentence-transformers rank_bm25
!pip install -q FlagEmbedding soundfile librosa pydub IPython
!pip install -q accelerate bitsandbytes
!pip install -q faiss-cpu

## 📥 Bước 2: Tải Vietnamese Legal RAG System

In [None]:
# Download the main system file (nếu cần)
# Hoặc copy-paste code từ vietnamese_legal_rag_system.py

import urllib.request
import os

# Tải file system (thay đổi URL theo repo thực tế)
url = "https://raw.githubusercontent.com/tien2204/INTER_REPORT/main/vietnamese_legal_rag/vietnamese_legal_rag_system.py"
filename = "vietnamese_legal_rag_system.py"

try:
    urllib.request.urlretrieve(url, filename)
    print(f"✅ Đã tải {filename}")
except:
    print("⚠️ Không thể tải file, vui lòng copy-paste code manually")

## 🚀 Bước 3: Khởi tạo hệ thống

In [None]:
# Import và khởi tạo hệ thống
exec(open('vietnamese_legal_rag_system.py').read())

# Hoặc nếu file không tải được, copy-paste toàn bộ code ở đây
print("🚀 Hệ thống đã được import")

## 🧪 Bước 4: Test hệ thống

In [None]:
# Test với một câu hỏi đơn giản
print("🧪 Testing Vietnamese Legal RAG System...")
test_system()

## 🎯 Bước 5: Demo Interactive

In [None]:
# Chạy demo với câu hỏi cụ thể
try:
    rag_system = VietnameseLegalRAG()
    
    # Các câu hỏi demo
    demo_questions = [
        "Tù chung thân là gì?",
        "Luật dân sự quy định gì?",
        "Quyền bào chữa là gì?",
        "Hình phạt tù có mấy loại?",
        "Tòa án có chức năng gì?"
    ]
    
    print("\n🎯 DEMO VIETNAMESE LEGAL RAG SYSTEM")
    print("="*50)
    
    for i, question in enumerate(demo_questions, 1):
        print(f"\n--- Demo {i}: {question} ---")
        try:
            result = rag_system.query(question, return_audio=False)
            print("-" * 50)
        except Exception as e:
            print(f"❌ Lỗi: {e}")
            
except Exception as e:
    print(f"❌ Lỗi khởi tạo: {e}")

## 🎤 Bước 6: Interactive Query

In [None]:
# Interactive query trong Jupyter
def jupyter_query(question):
    """Query function for Jupyter notebook"""
    try:
        result = rag_system.query(question, return_audio=False)
        
        print(f"❓ Câu hỏi: {question}")
        print(f"📝 Trả lời: {result['answer']}")
        print(f"📊 Số tài liệu tham khảo: {result['relevant_docs']}")
        
        # Hiển thị context nếu có
        if result['context']:
            print("\n📚 Ngữ cảnh tham khảo:")
            print(result['context'][:500] + "..." if len(result['context']) > 500 else result['context'])
        
        return result
    except Exception as e:
        print(f"❌ Lỗi: {e}")
        return None

# Ví dụ sử dụng
jupyter_query("Luật hình sự Việt Nam quy định những gì?")

## 🔊 Bước 7: Text-to-Speech Demo

In [None]:
# Test TTS functionality
def test_tts(text):
    """Test TTS với text sample"""
    try:
        tts = VietnameseTTS()
        audio_file = tts.synthesize(text)
        
        if audio_file:
            from IPython.display import Audio, display
            display(Audio(audio_file))
            print(f"🎵 Đã tạo và phát audio: {audio_file}")
        else:
            print("📝 TTS không khả dụng, hiển thị text")
            print(f"Text: {text}")
    except Exception as e:
        print(f"❌ TTS Error: {e}")

# Test với câu sample
test_tts("Xin chào! Đây là hệ thống tư vấn pháp luật Việt Nam.")

## 📊 Bước 8: System Metrics

In [None]:
# Kiểm tra system metrics
import psutil
import torch

def show_system_metrics():
    """Hiển thị metrics hệ thống"""
    print("📊 SYSTEM METRICS")
    print("="*30)
    
    # Memory usage
    memory = psutil.virtual_memory()
    print(f"💾 RAM Usage: {memory.percent}% ({memory.used//1024//1024//1024:.1f}GB/{memory.total//1024//1024//1024:.1f}GB)")
    
    # GPU info
    if torch.cuda.is_available():
        print(f"🔥 GPU: {torch.cuda.get_device_name(0)}")
        print(f"🔥 GPU Memory: {torch.cuda.memory_allocated(0)//1024//1024:.0f}MB allocated")
    else:
        print("💻 CPU Mode (No GPU available)")
    
    # Python info
    import sys
    print(f"🐍 Python: {sys.version.split()[0]}")
    print(f"🔥 PyTorch: {torch.__version__}")
    
show_system_metrics()

## 🎯 Bước 9: Custom Query Interface

In [None]:
# Widget interface cho Jupyter (nếu có ipywidgets)
try:
    import ipywidgets as widgets
    from IPython.display import display, clear_output
    
    # Tạo text input widget
    text_input = widgets.Text(
        placeholder='Nhập câu hỏi pháp luật...',
        description='Câu hỏi:',
        style={'description_width': 'initial'},
        layout=widgets.Layout(width='70%')
    )
    
    # Tạo button
    submit_button = widgets.Button(
        description='Gửi câu hỏi',
        button_style='primary'
    )
    
    # Output area
    output = widgets.Output()
    
    def on_submit_clicked(b):
        with output:
            clear_output()
            if text_input.value.strip():
                print(f"🔍 Đang xử lý: {text_input.value}")
                result = jupyter_query(text_input.value)
            else:
                print("⚠️ Vui lòng nhập câu hỏi")
    
    submit_button.on_click(on_submit_clicked)
    
    # Display interface
    print("🎯 INTERACTIVE LEGAL Q&A INTERFACE")
    display(widgets.VBox([text_input, submit_button, output]))
    
except ImportError:
    print("⚠️ ipywidgets không khả dụng, sử dụng function jupyter_query() thay thế")
    print("Ví dụ: jupyter_query('Câu hỏi của bạn')")

## 📚 Thông tin thêm

### Các tính năng chính:
- ✅ **Model**: VinaLlama-2.7B-Chat với 4-bit quantization
- ✅ **Embeddings**: BGE-M3 multilingual embeddings
- ✅ **Retrieval**: Hybrid BM25 + Vector search
- ✅ **Dataset**: Vietnamese Law Corpus
- ✅ **TTS**: Vietnamese text-to-speech
- ✅ **Interface**: Interactive Jupyter widgets

### Sử dụng:
1. Chạy tất cả cells theo thứ tự
2. Sử dụng `jupyter_query("câu hỏi")` để test
3. Sử dụng widget interface ở cell cuối
4. Check system metrics để monitor performance

### Troubleshooting:
- **Memory Error**: Restart kernel và run lại
- **Model Loading**: Kiểm tra GPU/CPU settings
- **TTS Issues**: Fallback to text display tự động

---
**Made with ❤️ for Vietnamese Legal AI Community**