In [1]:
import os

from langchain_community.document_loaders import JSONLoader
from langchain_openai import ChatOpenAI
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import FAISS

In [45]:
def load_json(file_path):
  loader = JSONLoader(
    file_path = file_path,
    jq_schema='{"사건번호": .["사건번호"], "선고일": .["선고일"], "주문": .["주문"], "이유": .["이유"]}',
    text_content = False
  )
  return loader.load()

docs = []
datas = os.listdir('data/')
for data in datas:
    doc = load_json(os.path.join('data', data))
    docs.extend(doc)

In [46]:
docs[0].metadata

{'source': 'C:\\dev\\github\\SKN10-FINAL-3Team\\test\\data\\2018다224491.json',
 'seq_num': 1}

In [4]:
from langchain_openai import OpenAIEmbeddings
from dotenv import load_dotenv
load_dotenv("../.env")

openai_api_key = os.getenv("OPENAI_API_KEY")

embedding = OpenAIEmbeddings(
    model = "text-embedding-3-small",
    api_key = openai_api_key
)

In [5]:
import faiss
from langchain_community.vectorstores import FAISS

In [6]:
faiss_db = FAISS.from_documents(
    documents = docs,
    embedding = embedding
)

In [7]:
faiss_db.docstore._dict

{'0d52b7bd-4a37-4de5-8995-8754b48aa4c6': Document(id='0d52b7bd-4a37-4de5-8995-8754b48aa4c6', metadata={'source': 'C:\\dev\\github\\SKN10-FINAL-3Team\\test\\data\\2018다224491.json', 'seq_num': 1}, page_content='{"\\uc0ac\\uac74\\ubc88\\ud638": "2018\\ub2e4224491", "\\uc120\\uace0\\uc77c": "20210408", "\\uc8fc\\ubb38": "\\uc6d0\\uc2ec\\ud310\\uacb0 \\uc911 \\uc7ac\\uc0b0\\uc0c1 \\uc190\\ud574\\uc5d0 \\uad00\\ud55c \\ud53c\\uace0 \\ud328\\uc18c \\ubd80\\ubd84\\uc744 \\ud30c\\uae30\\ud558\\uace0, \\uc774 \\ubd80\\ubd84 \\uc0ac\\uac74\\uc744 \\ub300\\uc804\\uc9c0\\ubc29\\ubc95\\uc6d0\\uc5d0 \\ud658\\uc1a1\\ud55c\\ub2e4.", "\\uc774\\uc720": "\\uc0c1\\uace0\\uc774\\uc720\\ub97c \\ud310\\ub2e8\\ud55c\\ub2e4.\\n  1. \\ub178\\ub3d9\\ub2a5\\ub825\\uc0c1\\uc2e4\\ub960 \\uc0b0\\uc815\\uc758 \\uc801\\ubc95 \\uc5ec\\ubd80(\\uc0c1\\uace0\\uc774\\uc720 \\uc81c2\\uc810)\\n  \\ud53c\\uace0\\ub294 \\uc774 \\uc0ac\\uac74 \\uc0ac\\uace0\\ub85c \\uc6d0\\uace0\\uc758 \\uc6b0\\uce21 \\ud6c4\\ubc29 \\uc2ed\\uc7

In [8]:
faiss_db.similarity_search("뺑소니 사고", k=3)

[Document(id='2d0b9e66-a27c-48cc-bde6-720220cd319d', metadata={'source': 'C:\\dev\\github\\SKN10-FINAL-3Team\\test\\data\\2023다211840.json', 'seq_num': 1}, page_content='{"\\uc0ac\\uac74\\ubc88\\ud638": "2023\\ub2e4211840", "\\uc120\\uace0\\uc77c": "20230615", "\\uc8fc\\ubb38": "\\uc6d0\\uc2ec\\ud310\\uacb0 \\uc911 \\ud53c\\uace0 \\ud328\\uc18c \\ubd80\\ubd84\\uc744 \\ud30c\\uae30\\ud558\\uace0, \\uc774 \\ubd80\\ubd84 \\uc0ac\\uac74\\uc744 \\uc11c\\uc6b8\\uc11c\\ubd80\\uc9c0\\ubc29\\ubc95\\uc6d0\\uc5d0 \\ud658\\uc1a1\\ud55c\\ub2e4.", "\\uc774\\uc720": "\\uc0c1\\uace0\\uc774\\uc720\\ub97c \\ud310\\ub2e8\\ud55c\\ub2e4.\\n  \\ubd88\\ubc95\\ud589\\uc704\\ub85c  \\uc778\\ud55c \\uc77c\\uc2e4\\uc218\\uc785\\uc744 \\uc0b0\\uc815\\ud558\\uae30 \\uc704\\ud558\\uc5ec \\ub178\\ub3d9\\ub2a5\\ub825\\uc0c1\\uc2e4\\ub960\\uc744 \\ud3c9\\uac00\\ud568\\uc5d0  \\uc788\\uc5b4\\uc11c \'\\uae30\\uc655\\uc758 \\uc7a5\\ud574\\uc728\', \\uc989 \\uc0ac\\uace0 \\uc774\\uc804 \\uae30\\uc655\\uc99d\\uc73c\\ub85c 

In [18]:
test = faiss_db.similarity_search("뺑소니 사고", k=3)
test

[Document(id='2d0b9e66-a27c-48cc-bde6-720220cd319d', metadata={'source': 'C:\\dev\\github\\SKN10-FINAL-3Team\\test\\data\\2023다211840.json', 'seq_num': 1}, page_content='{"\\uc0ac\\uac74\\ubc88\\ud638": "2023\\ub2e4211840", "\\uc120\\uace0\\uc77c": "20230615", "\\uc8fc\\ubb38": "\\uc6d0\\uc2ec\\ud310\\uacb0 \\uc911 \\ud53c\\uace0 \\ud328\\uc18c \\ubd80\\ubd84\\uc744 \\ud30c\\uae30\\ud558\\uace0, \\uc774 \\ubd80\\ubd84 \\uc0ac\\uac74\\uc744 \\uc11c\\uc6b8\\uc11c\\ubd80\\uc9c0\\ubc29\\ubc95\\uc6d0\\uc5d0 \\ud658\\uc1a1\\ud55c\\ub2e4.", "\\uc774\\uc720": "\\uc0c1\\uace0\\uc774\\uc720\\ub97c \\ud310\\ub2e8\\ud55c\\ub2e4.\\n  \\ubd88\\ubc95\\ud589\\uc704\\ub85c  \\uc778\\ud55c \\uc77c\\uc2e4\\uc218\\uc785\\uc744 \\uc0b0\\uc815\\ud558\\uae30 \\uc704\\ud558\\uc5ec \\ub178\\ub3d9\\ub2a5\\ub825\\uc0c1\\uc2e4\\ub960\\uc744 \\ud3c9\\uac00\\ud568\\uc5d0  \\uc788\\uc5b4\\uc11c \'\\uae30\\uc655\\uc758 \\uc7a5\\ud574\\uc728\', \\uc989 \\uc0ac\\uace0 \\uc774\\uc804 \\uae30\\uc655\\uc99d\\uc73c\\ub85c 

In [44]:
test[0].page_content.encode().decode("unicode_escape")

'{"사건번호": "2023다211840", "선고일": "20230615", "주문": "원심판결 중 피고 패소 부분을 파기하고, 이 부분 사건을 서울서부지방법원에 환송한다.", "이유": "상고이유를 판단한다.\n  불법행위로  인한 일실수입을 산정하기 위하여 노동능력상실률을 평가함에  있어서 \'기왕의 장해율\', 즉 사고 이전 기왕증으로 인한 노동능력상실의 정도는, \'기왕증의 기여도\', 즉 기왕증이 후유증 발생에 기여한 정도와 구분되는 개념이므로 사고를 당하기 전에 기왕의 장해가 있었다면 그로 인해 노동능력을 상실한 정도를 현재의 노동능력상실률에서 감해야 하고 기왕증이 후유증 발생에 기여하였다면 기왕의 장해율 외에 기왕증의 기여도도 참작하여 노동능력상실률을 평가하여야 한다(대법원 1995. 7. 14. 선고 95다16738 판결, 대법원 2008. 7. 24. 선고 2007다52294 판결 참조).\n  기록에 의하면 피고는 망인의 노동능력상실률을 평가함에 있어서 기왕증의 기여도를 참작하여야 한다는 취지로 주장하여 왔고 망인에 대한 진료기록감정을 촉탁받은 F협회는 망인의 과거 뇌출혈이 망인의 현재 상태에 일부 기여한 것으로 판단되는데 그 기여도는 약 40%에 해당한다는 취지로 회신한 사실을 인정할 수 있다.\n  이러한 사실관계를 앞서 본 법리에 비추어 살펴보면 원심으로서는 기왕의 장해율 외에 기왕증의 기여도에 관하여 심리한 후 기왕증의 기여도가 인정되는 경우에는 그 기왕증의 기여도를 참작하여 노동능력상실률을 평가하여야 한다.\n  그런데도 원심은 망인의 노동능력상실률 100%에서 기왕의 장해로 인한 노동능력상실률 56%를 감하기만 하여 망인이 이 사건 사고로 44%의 노동력을 잃었다고 평가하였을 뿐 기왕증의 기여도를 정하거나 이를 노동능력상실률 평가에 참작하지 아니하였다. 이러한 원심판단에는 노동능력상실률 평가방법에 관한 법리를 오해함으로써 필요한 심리를 다하지 아니하여 판결에 영향을 미친 잘못이  있다. 이를 지적하는 취지의 상고이유 주장은 이유

In [17]:
(test[0].page_content).encode().decode('unicode_escape')

str

In [22]:
"\\uc0ac\\uac74\\ubc88\\ud638".encode().decode('unicode_escape')

'사건번호'

In [34]:
byte_string = '사건번호'.encode("unicode_escape")
byte_string

b'\\uc0ac\\uac74\\ubc88\\ud638'

In [31]:
decoded_string = byte_string.decode('unicode_escape')
print("방법 1 결과:", decoded_string)

방법 1 결과: 사건번호


In [32]:
string_result = str(byte_string, 'unicode_escape')
print("방법 2 결과:", string_result) 

방법 2 결과: 사건번호


In [33]:
string_result = byte_string.decode('utf-8')
print("변환된 문자열:", string_result)

변환된 문자열: \uc0ac\uac74\ubc88\ud638
