## Download library

In [None]:
!pip install elasticsearch

In [None]:
!pip install streamlit

In [None]:
!pip install pyngrok

## Connect to Elasticsearch

In [None]:
from elasticsearch import Elasticsearch

cloud_id = "YOUR_CLOUD_ID"
api_key = "YOUR_API_KEY"

es = Elasticsearch(cloud_id=cloud_id, api_key=api_key)

if es.ping():
    print("Connected successfully!")
else:
    print("Failed to connect.")


## Create settings and mappings for your index


In [None]:
index_name = "law_data_prj3"

In [None]:
# Custom your settings
settings = {
    "settings": {
        "analysis": {
            "analyzer": {
                "legal_vi_analyzer": {
                    "type": "custom",
                    "tokenizer": "standard",
                    "filter": [
                        "lowercase",
                        "custom_stopwords_filter",
                        "synonym_filter",
                        "remove_punctuation"
                    ]
                }
            },
            "filter": {
                "custom_stopwords_filter": {
                    "type": "stop",
                    "stopwords": [
                        "chứ",
                        "đó",
                        "này",
                        "là",
                        "vậy",
                        "cứ",
                        "gì"
                    ]
                },
                "synonym_filter": {
                    "type": "synonym",
                    "synonyms": [
                        "luật, pháp luật, quy định, điều lệ, quy tắc, luật pháp",
                        "hợp pháp, hợp lệ, đúng luật, chính đáng, chính thống, đúng quy định",
                        "trái phép, phạm pháp, phi pháp, trái luật",
                        "pháp lý, tư pháp, pháp chế, pháp quyền, pháp định",
                        "điều luật, khoản luật, mục luật, điều khoản",
                        "thẩm quyền, quyền hạn, quyền lực",
                        "vi phạm, xâm phạm, trái luật",
                        "hình phạt, xử phạt, án phạt, chế tài",
                        "tội phạm, tội đồ, kẻ vi phạm, kẻ phạm pháp",
                        "nghĩa vụ, bổn phận, phận sự",
                        "bằng chứng, chứng cứ, vật chứng",
                        "phán quyết, quyết định, bản án",
                        "tòa án, pháp đình, phiên tòa",
                        "luật sư, luật gia",
                        "tranh chấp, xung đột, mâu thuẫn",
                        "hòa giải, thương lượng, đàm phán, giải hòa",
                        "kháng cáo, khiếu nại, kháng nghị",
                        "quyền lợi, lợi ích, phúc lợi",
                        "hợp đồng, giao kèo, cam kết",
                        "chứng thực, công chứng, xác minh",
                        "truy tố, buộc tội, cáo buộc",
                        "công lý, lẽ phải, chính nghĩa",
                        "thủ tục, quy trình, cách thức",
                        "quyền sở hữu, quyền sử dụng",
                        "thời hiệu, thời hạn, kỳ hạn",
                        "bắt giữ, giam giữ, giam cầm",
                        "tự do, độc lập, tự trị",
                        "xét xử, phán xét, xử án",
                        "hình thức, biện pháp, phương án",
                        "án lệ, tiền lệ",
                        "khởi kiện, tố cáo, kiện tụng",
                        "thi hành, áp dụng, chấp hành",
                        "phạm nhân, tù nhân, bị cáo",
                        "lệnh bắt, lệnh giam",
                        "tạm giam, giam lỏng",
                        "giám định, kiểm định, thẩm định",
                        "chế tài, xử phạt",
                        "quy định, điều khoản, nội quy",
                        "hành vi, hành động, cử chỉ",
                        "truy cứu, điều tra",
                        "biên bản, báo cáo, hồ sơ",
                        "khiếu nại, tố cáo",
                        "chứng từ, tài liệu",
                        "bảo vệ, giữ gìn"
                    ]
                },
                "remove_punctuation": {
                    "type": "pattern_replace",
                    "pattern": "[\\p{Punct}]",
                    "replacement": ""
                }
            }
        }
    }
}

# Custom your mappings
mappings = {
    "mappings": {
        "dynamic_templates": [
            {
                "texts_with_legal_vi_analyzer": {
                    "match_mapping_type": "string",  # Áp dụng cho trường kiểu chuỗi (text)
                    "mapping": {
                        "type": "text",
                        "analyzer": "legal_vi_analyzer"
                    }
                }
            }
        ]
    }
}

# Create index with settings and mappings
es.indices.create(index=index_name, body={**settings, **mappings})
print(f"Index {index_name} has been created with settings and mappings.")

## Push data to index

In [None]:
import json

file_path = 'YOUR_DATA_FILE_PATH'

with open(file_path, 'r', encoding='utf-8') as file:
    data = json.load(file)

print(f"Number of records: {len(data)}")

for doc in data:
    response = es.index(index=index_name, document=doc)
    print(f"Add document with ID: {response['_id']}")

## Interface

In [None]:
!rm -rf ~/.ngrok2/ngrok.yml

In [None]:
!ngrok config add-authtoken YOUR_AUTH_TOKEN

In [None]:
%%writefile law.py
import streamlit as st
from elasticsearch import Elasticsearch
import google.generativeai as genai
import streamlit.components.v1 as components

# Cấu hình API gemini
genai.configure(api_key="AIzaSyDA9ySAsbBn4zhYUUvnzn8EHpwkc3OmEsc")
model = genai.GenerativeModel("gemini-1.5-flash")
# Hàm chuẩn hóa truy vấn
def chuan_hoa_truy_van(query):
    response = model.generate_content(
        f"Chuẩn hóa truy vấn tìm kiếm cho bài toán Information Retrieval cho lĩnh vực pháp luật bằng cách: Sửa lỗi chính tả (nếu có), Loại bỏ các từ không cần thiết như đại từ nhân xưng (tôi, người,...) hoặc các cụm từ thừa (là gì, như thế nào,...), Chỉ giữ lại các từ khoá quan trọng có ý nghĩa cho truy vấn. Dưới đây là truy vấn {query}, chỉ trả lời một kết quả chuẩn hóa duy nhất"
    )
    return response.text

# Hàm tìm kiếm trong Elasticsearch
def retrieve_top_20_results(index_name, query):
    cloud_id = "f0a8e7b1abef48468a54116c7533b5b3:dXMtY2VudHJhbDEuZ2NwLmNsb3VkLmVzLmlvJGUyZDY4YzhjZDExYTQxNmRhODQyZWRlYTcyMzBkNjY2JGFiMmRkZGQyZWNhOTRmNWZhMjhhMmVhNjdjNjViNGUw"
    api_key = "eG5nQUpaUUJQRks2SEUzUG9MZms6Y3VVSXFOU3RUdE9wMjMyVW13RlNlUQ=="

    es = Elasticsearch(cloud_id=cloud_id, api_key=api_key)

    if es.ping():
        print("Connected successfully!")
    else:
        print("Failed to connect.")
    search_body = {
        "query": {
            "multi_match": {
                "query": query,
                "fields": [
                    "tenchude^1",
                    "tendemuc^1.5",
                    "tenchuong^2",
                    "tendieu^10",
                    "noidung^9"
                ]
            }
        }
    }
    response = es.search(index=index_name, body=search_body, size=20)
    noidung_list = [hit["_source"]["noidung"] for hit in response['hits']['hits']]
    return noidung_list

# Hàm tạo phản hồi từ Gemini
def generate_response(noidung_texts, input_query):
    response = model.generate_content(
        f"Kết hợp các tài liệu trong mảng {noidung_texts} (lưu ý rằng có thể có các tài liệu không liên quan) và kiến thức của bạn, hãy trả lời truy vấn {input_query}"
    )
    return response.text

# Đặt lại trạng thái khi nút "Clear" được nhấn
if "query" not in st.session_state:
    st.session_state.query = ""

def clear_input():
    st.session_state.query = ""  # Đặt lại trạng thái query về rỗng

# Ứng dụng chính
st.markdown(
    """
    <h2>
        Hệ thống hỏi đáp pháp luật Việt Nam
    </h2>
    """,
    unsafe_allow_html=True
)

# Hiển thị nhãn với kích thước như h3
st.markdown("### Nhập truy vấn pháp luật:")

# Thêm trường nhập liệu
query = st.text_input("", value=st.session_state.query, key="query")

# Tạo hai nút: Submit và Clear
col_submit, col_clear = st.columns([1, 1])
with col_submit:
    submit = st.button("Submit", key="submit", use_container_width=True, type="primary")
with col_clear:
    clear = st.button("Clear", key="clear", on_click=clear_input, use_container_width=True, type="secondary")

st.markdown(
    """
    <style>
    .scrollable1 {
        height: 500px; /* Đặt chiều cao cố định */
        overflow-y: auto; /* Kích hoạt cuộn dọc */
        border: 1px solid #ddd; /* Đường viền để dễ phân biệt */
        padding: 10px;
        margin-bottom: 20px;
    }
    </style>
    """,
    unsafe_allow_html=True
)

css_styles = """
    <style>
    .scrollable {
        height: 500px; /* Đặt chiều cao cố định */
        overflow-y: auto; /* Kích hoạt cuộn dọc */
        border: 1px solid #ddd; /* Đường viền để dễ phân biệt */
        padding: 10px;
        margin-bottom: 20px;
    }
    .indent {
        padding-left: 20px; /* Canh lề trái */
        text-indent: -20px; /* Đặt lề âm để số không bị thụt vào */
        color: white;
    }
    </style>
    """

# Xử lý logic khi nhấn nút Submit
if query and submit:
    query_chuanhoa = chuan_hoa_truy_van(query)
    index_name = "law_data_prj3"  # Thay bằng tên chỉ mục thực tế
    top_20_noidung = retrieve_top_20_results(index_name, query_chuanhoa)
    noidung_texts = [" ".join(noidung) for noidung in top_20_noidung]

    # Chia màn hình thành hai cột
    col1, col2 = st.columns([1, 1])  # Chia tỉ lệ 1:1 cho hai cột

    with col1:
        st.markdown("### Top 20 tài liệu truy vấn:")
        # Tạo vùng cuộn độc lập cho danh sách top 20
        html_content = f"""
        {css_styles}
        <div class="scrollable">
        """

        for i, noidung in enumerate(noidung_texts, 1):
            html_content += f"""
            <div class="indent">
                <b>{i}.</b> {noidung}
            </div>
            """

        html_content += "</div>"

        # Hiển thị nội dung bằng st.html
        components.html(html_content, height=550)

    with col2:
        # Hàm tạo câu trả lời từ hệ thống (giả định bạn đã định nghĩa)
        st.markdown("### Câu trả lời từ hệ thống:")

        # Assuming the function generate_response is already defined
        final_response = generate_response(noidung_texts, query)
        st.markdown(f'<div class="scrollable1">{final_response}</div>', unsafe_allow_html=True)



In [None]:
from pyngrok import ngrok
import os

# Khởi chạy ứng dụng Streamlit
os.system("streamlit run prj3.py &")

# Kết nối ngrok với cổng 8501 (Streamlit mặc định)
public_url = ngrok.connect(addr="8501")
print(f"Ứng dụng của bạn đang chạy tại: {public_url}")
