In [1]:
from langchain.chat_models import ChatOpenAI
from langchain.prompts import ChatPromptTemplate
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, WebDriverException


from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.agents.agent_toolkits import create_retriever_tool
from langchain.agents.agent_toolkits import create_conversational_retrieval_agent
from langchain.chat_models import ChatOpenAI
from langchain.agents.openai_functions_agent.agent_token_buffer_memory import (
    AgentTokenBufferMemory,
)
from langchain.agents.openai_functions_agent.base import OpenAIFunctionsAgent
from langchain.prompts import MessagesPlaceholder
from langchain.schema.messages import SystemMessage
from langchain.agents import AgentExecutor
from langchain.docstore.document import Document
from langchain.document_loaders.base import BaseLoader

from time import sleep
from typing import List, Optional
import time
import requests
import nest_asyncio
import re
import logging

logger = logging.getLogger(__name__)

nest_asyncio.apply()

limited_cdata_texts = None
final_response = None
law_name = None
Answer = None

class wait_for_text_change:
    def __init__(self, locator, expected_text):
        self.locator = locator
        self.expected_text = expected_text

    def __call__(self, driver):
        element_text = driver.find_element(*self.locator).text
        return element_text != self.expected_text


class TextLoader(BaseLoader):
    """Load text data directly.

    Args:
        text_data: String containing the text data.
        source: Optional source information for the text data.
    """

    def __init__(
        self,
        text_data: str,
        source: Optional[str] = None
    ):
        """Initialize with text data."""
        self.text_data = text_data
        self.source = source

    def load(self) -> List[Document]:
        """Load from text data."""
        try:
            text = self.text_data
        except Exception as e:
            raise RuntimeError("Error processing text data") from e

        metadata = {"source": self.source}
        return [Document(page_content=text, metadata=metadata)]

# 특수 키워드 변환 규칙

conversion_rules = {
    '사생활': '형법',
    '녹음': '형법',
    '명의 도용' : '전자통신사업법',
    '명의' : '형법',
    '도용' : '형법',
    '임대차' : '주택임대차보호법',
    '사기' : '형법',
    '모욕' : '형법',
    '구두계약' : '구두 계약'
    # 다른 규칙들도 추가 가능
}

# 법령 Text 파일 저장 경로
# TextFilePath = '/home/user/exercise_j/AIchatbot-Neoul/law_example_2.txt'

# 질문 재유도 문구
Retry_answer = "관련된 법령 정보를 찾을 수 없습니다. 다른 질문으로 다시 입력해주시기 바랍니다."

# 질문 입력값
input_data = ""

In [23]:
def generate_law_keyword(input_data, conversion_rules):
    global final_response

    # 프롬프트 템플릿 설정
    prompt = ChatPromptTemplate.from_template(
    "Given the input, extract the most important keyword for the law database only in Korean, must not be just a single character. If the input is not related to law, output 'irrelevant'.\nInput: {input}\nKeywords:"
    )

    # 모델 설정
    model = ChatOpenAI(temperature=0, model="gpt-4-1106-preview", openai_api_key="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")

    # 체인 설정: 모델 출력을 키워드로 제한
    chain = prompt | model.bind(stop=["\n"])

    # 체인 실행
    result = chain.invoke({"input": input_data})
    final_response = result.content

    if final_response == 'irrelavant':
        return final_response

    for keyword, new_value in conversion_rules.items():
        if keyword in final_response:
            final_response = new_value
            break  # 일치하는 경우 더 이상 반복할 필요가 없으므로 반복문 종료

    if '죄' in final_response:
        final_response = '형법'

    if final_response in ['법률', '법령', '법조문']:
        final_response = '형법'

    return final_response


In [15]:

def process_law_info(final_response):
    global limited_cdata_texts
    global law_name
    global Retry_answer
    def extract_cdata(xml_data):
        cdata_sections = re.findall(r'<!\[CDATA\[(.*?)\]\]>', xml_data, re.DOTALL)
        return [cdata.strip() for cdata in cdata_sections]

    def limit_tokens(texts, max_tokens=12000):
        tokenized_texts = [word for text in texts for word in text.split()]
        return ' '.join(tokenized_texts[:max_tokens])
    
    def search_law(response, retries=10):
        for attempt in range(retries):
            try:
                options = webdriver.ChromeOptions()
                options.add_argument('--headless')
                options.add_argument('--no-sandbox')
                options.add_argument('--disable-dev-shm-usage')
                if 'driver' in globals():
                    driver.quit()

                driver = webdriver.Chrome(options=options)
                print(f"검색 시도: {attempt + 1}, 검색어: '{response}'")
                driver.get("https://glaw.scourt.go.kr/wsjo/lawod/sjo120.do")
                
                if 'original_text' in globals():
                    original_text = None

                original_text = driver.find_element(By.CSS_SELECTOR, 'h3.search_result_num').text

                search_box = WebDriverWait(driver, 10).until(
                    EC.presence_of_element_located((By.NAME, "srchw"))
                )
                search_box.clear()
                driver.execute_script("arguments[0].value = arguments[1];", search_box, response)
                search_box.send_keys(Keys.RETURN)

                WebDriverWait(driver, 10).until(
                    # wait_for_text_change 함수는 정의되어 있어야 합니다.
                    wait_for_text_change((By.CSS_SELECTOR, 'h3.search_result_num'), original_text)
                )
                
                popularity_button = WebDriverWait(driver, 10).until(
                    EC.element_to_be_clickable((By.CSS_SELECTOR, "a.btn_type_5[name='sort_popularity']"))
                )
                popularity_button.click()

                time.sleep(5)

                first_result = WebDriverWait(driver, 10).until(
                    EC.presence_of_element_located((By.CSS_SELECTOR, 'td a[name="listCont"] strong'))
                )
                print(f"검색 완료, 첫 번째 결과: {first_result.text}")
                law_name = first_result.text
                return law_name
            except (TimeoutException, WebDriverException) as e:
                print(f"재시도 {attempt + 1}/{retries}, 오류: {e}")
                continue
        print("검색 실패, 결과를 찾을 수 없음.")
        return None

    def fetch_data(url, params, max_retries=10, delay=1):
       
        """지정된 횟수만큼 요청을 재시도하는 함수"""
        for attempt in range(max_retries):
            try:
                response = requests.get(url, params=params)
                response.raise_for_status()  # 상태 코드가 200이 아닌 경우 예외를 발생시킵니다.
                return response.text
            except requests.RequestException as e:
                print(f"요청 실패 (시도 {attempt + 1}/{max_retries}): {e}")
                sleep(delay)  # 지정된 시간만큼 대기 후 다시 시도
        return None  # 모든 시도가 실패한 경우 None을 반환

    law_name = search_law(final_response)

    if law_name == None :
        return Retry_answer
    if law_name:
        print(f'국가법령정보센터에서 {law_name}에 관한 정보를 불러옵니다.')

        # API의 기본 URL 설정
        base_url = "http://www.law.go.kr/DRF/lawService.do"

        # 요청에 필요한 파라미터 설정
        params = {
            'OC': 'cwindy200',    # 사용자 ID
            'target': 'law',      # 서비스 대상
            'LM': law_name,       # 법령 마스터 번호
            'type': 'XML'         # 출력 형태 (HTML 또는 XML)
        }

        # 함수를 사용하여 데이터 가져오기
        response_text = fetch_data(base_url, params)
        if response_text:
            cdata_texts = extract_cdata(response_text)

        # 토큰 제한 적용
            limited_cdata_texts = limit_tokens(cdata_texts)
            
            print(f"법령 텍스트 변환: {limited_cdata_texts}")
            return limited_cdata_texts
        else:
            print("모든 요청이 실패했습니다.")
            return None
    else:
        print("정보를 찾을 수 없습니다.")
        return None

In [5]:
def execute_legal_advice_agent(input_data):
    global Answer
    if 'db' in globals():
        db.delete()
    loader = TextLoader(limited_cdata_texts)
    documents = loader.load()
    text_splitter = CharacterTextSplitter(chunk_size=50000, chunk_overlap=0)
    texts = text_splitter.split_documents(documents)
    embeddings = OpenAIEmbeddings(openai_api_key="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")
    db = FAISS.from_documents(texts, embeddings)
    retriever = db.as_retriever()
    tool = create_retriever_tool(
        retriever,
        "search_legal_advice",
        "searches and returns answers regarding legal advice and information from Document",
    )
    tools = [tool]

    llm = ChatOpenAI(temperature=0, model="gpt-4-1106-preview", openai_api_key="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")

    memory_key = "history"

    memory = AgentTokenBufferMemory(memory_key=memory_key, llm=llm)

    system_message = SystemMessage(
        content=(
            "Must not repeat the content found in the Document verbatim."
            "Must use tools to look up relevant information from the Document."
            "Must double-check to ensure the grammar of the Korean answer is correct."
        )
    )

    prompt = OpenAIFunctionsAgent.create_prompt(
        system_message=system_message,
        extra_prompt_messages=[MessagesPlaceholder(variable_name=memory_key)],
    )

    agent = OpenAIFunctionsAgent(llm=llm, tools=tools, prompt=prompt)

    agent_executor = AgentExecutor(
        agent=agent,
        tools=tools,
        memory=memory,
        verbose=True,
        return_intermediate_steps=True,
    )

    result = agent_executor({"input": input_data})

    for message in result['history']:
        if message.__class__.__name__ == 'AIMessage':
            Answer = message.content
            print(message.content)
            return Answer


In [6]:
def integrated_law_process(input_data):
    # 전역 변수 'conversion_rules' 사용
    global conversion_rules
    global Answer
    # Step 1: 법률 관련 키워드 생성
    final_response = generate_law_keyword(input_data, conversion_rules)
    
    if final_response == 'irrelevant' :
        Answer = "다시 질문을 입력해주세요."
        return "다시 질문을 입력해주세요."
    
    # Step 2: 법률 정보 처리 및 텍스트 파일 생성
    process_law_info(final_response)

    if law_name == None :
        return Retry_answer

    # Step 3: 법률 자문 에이전트 실행
    execute_legal_advice_agent(input_data)

In [12]:
input_data = "구두계약의 법적 효력이 뭐가 있을까??"

In [22]:
integrated_law_process(input_data)

검색 시도: 1, 검색어: '구두계약 법적 효력'
재시도 1/10, 오류: Message: 
Stacktrace:
#0 0x55d2f3a27b13 <unknown>
#1 0x55d2f382e688 <unknown>
#2 0x55d2f3865cc7 <unknown>
#3 0x55d2f3865e91 <unknown>
#4 0x55d2f3898e34 <unknown>
#5 0x55d2f38838dd <unknown>
#6 0x55d2f3896b94 <unknown>
#7 0x55d2f38837a3 <unknown>
#8 0x55d2f38590ea <unknown>
#9 0x55d2f385a225 <unknown>
#10 0x55d2f3a6f2dd <unknown>
#11 0x55d2f3a732c7 <unknown>
#12 0x55d2f3a5922e <unknown>
#13 0x55d2f3a740a8 <unknown>
#14 0x55d2f3a4dbc0 <unknown>
#15 0x55d2f3a906c8 <unknown>
#16 0x55d2f3a90848 <unknown>
#17 0x55d2f3aaac0d <unknown>
#18 0x7f1af80ab609 <unknown>

검색 시도: 2, 검색어: '구두계약 법적 효력'
재시도 2/10, 오류: Message: 
Stacktrace:
#0 0x558281cc6b13 <unknown>
#1 0x558281acd688 <unknown>
#2 0x558281b04cc7 <unknown>
#3 0x558281b04e91 <unknown>
#4 0x558281b37e34 <unknown>
#5 0x558281b228dd <unknown>
#6 0x558281b35b94 <unknown>
#7 0x558281b227a3 <unknown>
#8 0x558281af80ea <unknown>
#9 0x558281af9225 <unknown>
#10 0x558281d0e2dd <unknown>
#11 0x558281d122c7 <u

KeyboardInterrupt: 

In [11]:
print(final_response)
print(law_name)
print(Answer)
print(limited_cdata_texts)

계약
주택임대차계약증서의 확정일자 부여 및 정보제공에 관한 규칙

주택임대차계약증서의 확정일자 부여 및 정보제공에 관한 규칙 주택임대차계약증서의 확정일자 부여 및 정보제공에 관한 규칙 목적 제1조(목적) 이 규칙은 지방법원 및 그 지원과 등기소가「주택임대차 보호법」(이하 "법"이라 한다)이 정하고 있는 확정일자 부여 등의 업무를 처리함에 있어 법 제3조의6제6항에서 위임한 사항과 그 시행에 필요한 세부적인 사항을 규정함을 목적으로 한다. 용어의 정의 제2조(용어의 정의) 이 규칙에서 사용하는 용어의 뜻은 다음과 같다. 1. 1. "전자화문서"란 종이문서와 그 밖에 전자적 형태로 작성되지 아니한 문서를 정보시스템이 처리할 수 있는 형태로 변환한 주택임대차계약증서를 말한다. 2. 2. "전자확정일자"란 대법원 인터넷등기소(이하 "인터넷등기소"라 한다)를 이용하여 전자화문서에 주택임대차보호법 제3조의6에 따라 부여한 확정일자를 말한다. 확정일자부여기관 등 제3조(확정일자부여기관 등) ① ① 지방법원 및 그 지원과 등기소(이하 "확정일자부여기관"이라 한다)는 법 제3조의6에 따른 주택임대차계약증서상의 확정일자 부여 및 그 정보제공의 업무를 처리한다. ② ② 확정일자부여기관은 제1항의 업무를 수행하기 위하여「개인정보 보호법」제2조제1호의 개인정보를 처리할 수 있다. 전산정보처리조직에 의한 지원 제4조(전산정보처리조직에 의한 지원) 법원행정처 등기정보중앙관리소는 전산정보처리조직에 의하여 주택임대차계약증서 및 전자화문서의 확정일자 보관ㆍ관리, 확정일자 정보의 효율적인 활용, 그 밖에 확정일자 사무와 관련된 업무처리를 지원한다. 담당공무원 제5조(담당공무원) ① ① 확정일자의 부여 및 그 정보제공에 관한 업무는「부동산등기법」제11조제1항에 따라 지정된 등기관이 담당하되, 등기관이 없는 지방법원이나 지원의 경우에는 지방법원장 또는 지원장이 지정하는 법원주사보 이상의 법원공무원이 담당한다. 다만, 전자확정일자의 부여 업무는 대법원예규로 정하는 등기소의 등기관이 담당한다. ② ②