In [2]:
## embedding 생성

import ollama
import chromadb
from chromadb.db.base import UniqueConstraintError


client = chromadb.PersistentClient(path="db/")  # data stored in 'db' folder
try:
    collection = client.create_collection(name='docs')
except UniqueConstraintError:  # already exist collection
    collection = client.get_collection(name='docs')

documents = [
  "Llamas are members of the camelid family meaning they're pretty closely related to vicuñas and camels",
  "Llamas were first domesticated and used as pack animals 4,000 to 5,000 years ago in the Peruvian highlands",
  "Llamas can grow as much as 6 feet tall though the average llama between 5 feet 6 inches and 5 feet 9 inches tall",
  "Llamas weigh between 280 and 450 pounds and can carry 25 to 30 percent of their body weight",
  "Llamas are vegetarians and have very efficient digestive systems",
  "Llamas live to be about 20 years old, though some only live for 15 years and others live to be 30 years old",
]

for i, d in enumerate(documents):
    response = ollama.embeddings(model="mxbai-embed-large", prompt=d)
    embedding = response['embedding']
    collection.add(
        ids=[str(i)],
        embeddings=[embedding],
        documents=[d]
    )


Add of existing embedding ID: 0
Add of existing embedding ID: 1
Add of existing embedding ID: 2
Add of existing embedding ID: 3
Add of existing embedding ID: 4
Add of existing embedding ID: 5
Insert of existing embedding ID: 0
Add of existing embedding ID: 0
Insert of existing embedding ID: 1
Add of existing embedding ID: 1
Insert of existing embedding ID: 2
Add of existing embedding ID: 2
Insert of existing embedding ID: 3
Add of existing embedding ID: 3
Insert of existing embedding ID: 4
Add of existing embedding ID: 4
Insert of existing embedding ID: 5
Add of existing embedding ID: 5


In [3]:
prompt = "What aniamls are llamas related to?"

response = ollama.embeddings(
    prompt=prompt,
    model="mxbai-embed-large"
)

results = collection.query(
    query_embeddings=[response['embedding']],
    n_results=1
)

data = results['documents'][0][0]

print(data)

Llamas are vegetarians and have very efficient digestive systems


In [4]:
output = ollama.generate(
  model="llama2",
  prompt=f"Using this data: {data}. Respond to this prompt: {prompt}"
)

print(output['response'])


Llamas are members of the camel family (Camelidae) and are most closely related to camels (Camelus dromedarius and Camelus bactrianus) and alpacas (Vicugna pacos). All of these animals are even-toed ungulates, meaning they have hooves on their feet and are mammals. Llamas share many physical and behavioral characteristics with camels and alpacas, including their large size, long eyelashes, and ability to go without water for extended periods of time.


In [7]:
import json, csv
import numpy as np
import pandas as pd

path = '../bank_law_RAG_data/TL_data.json'

with open(path, 'r', encoding='utf-8') as input_file, open('law_bank_data.csv', 'w', newline ='') as output_file:

    data = json.load(input_file)

    f = csv.writer(output_file)

    f.writerow(['title', 'class', 'docs'])

    for d in data:

        f.writerow([d['doc_title'], d['doc_class'], d['doc_text']])


In [8]:
df = pd.read_csv('law_bank_data.csv')

df.head()

Unnamed: 0,title,class,docs
0,신 미·일방위협력지침의 주요내용 및 쟁점과 한국의 대응과제,법률/사회과학/법학일반,1. 들어가며\n지난 2015년 4월 27일 아베신조(安倍晋三) 총리의 방미를 계기...
1,신 미·일방위협력지침의 주요내용 및 쟁점과 한국의 대응과제,법률/사회과학/법학일반,한국의 경우에도 한국 정부의 동의 없이도 한반도 유사시 일본의 군사적 개입이 가능할...
2,신 미·일방위협력지침의 주요내용 및 쟁점과 한국의 대응과제,법률/사회과학/법학일반,2. 미·일 동맹과 미·일방위협력지침\n현재의 미·일 동맹은 1960년 1월에 체결...
3,신 미·일방위협력지침의 주요내용 및 쟁점과 한국의 대응과제,법률/사회과학/법학일반,3. 신 미·일방위협력지침의 주요내용\n신 미·일방위협력지침은 다음과 같은 측면에서...
4,신 미·일방위협력지침의 주요내용 및 쟁점과 한국의 대응과제,법률/사회과학/법학일반,4. 신 미·일방위협력지침의 주요쟁점\n(1) 한국의 외교적 고립화\n신 미·일방위...


In [13]:
client = chromadb.PersistentClient(path="/law_bank")  # data stored in 'db' folder
try:
    collection = client.create_collection(name='docs')
except UniqueConstraintError:  # already exist collection
    collection = client.get_collection(name='docs')

documents = list(df.loc[:50, 'docs'])

for i, d in enumerate(documents):
    response = ollama.embeddings(model="mxbai-embed-large", prompt=d)
    embedding = response['embedding']
    collection.add(
        ids=[str(i)],
        embeddings=[embedding],
        documents=[d]
    )


Insert of existing embedding ID: 0
Add of existing embedding ID: 0
Insert of existing embedding ID: 1
Add of existing embedding ID: 1
Insert of existing embedding ID: 2
Add of existing embedding ID: 2
Insert of existing embedding ID: 3
Add of existing embedding ID: 3
Insert of existing embedding ID: 4
Add of existing embedding ID: 4
Insert of existing embedding ID: 5
Add of existing embedding ID: 5
Insert of existing embedding ID: 6
Add of existing embedding ID: 6
Insert of existing embedding ID: 7
Add of existing embedding ID: 7
Insert of existing embedding ID: 8
Add of existing embedding ID: 8
Insert of existing embedding ID: 9
Add of existing embedding ID: 9
Insert of existing embedding ID: 10
Add of existing embedding ID: 10
Insert of existing embedding ID: 11
Add of existing embedding ID: 11
Insert of existing embedding ID: 12
Add of existing embedding ID: 12
Insert of existing embedding ID: 13
Add of existing embedding ID: 13
Insert of existing embedding ID: 14
Add of existing em

In [22]:
prompt = "일본의 과거사 왜곡 문제와 관련된 법률 지식 알려줘"

response = ollama.embeddings(
    prompt=prompt,
    model="mxbai-embed-large"
)

results = collection.query(
    query_embeddings=[response['embedding']],
    n_results=1
)

data = results['documents'][0][0]

print(data)

이를 개선하기 위한 이상적 방안으로 영국의 ‘국제개발협력청’과 같은 단일부처 설립을 고려해 볼 수 있으나, 한국 국제개발 협력의 역사나 행정부처 간의 관계를 고려할 때 이를 단기적으로 실현하기는 어렵다.
이에 따라 단기적으로 고려해 볼 수 있는 방안은 국무총리실의 국제개발협력위원회의 권한과 국무총리실 내 관련 조직의 정책결정 및 집행력을 좀 더 강화하는 방식이다. 이와 함께 재외공관 차원에서 협력국과의 협력통로를 일원화하고 협의체의 권한을 좀 더 강화하는 방안이 마련되어야 할 것이다.


In [23]:
output = ollama.generate(
  model="llama3",
  prompt=f"아래의 데이터를 반영: {data}. 이 질문에 대해 한국어로 답변해: {prompt}"
)

print(output['response'])

I'll answer the question in Korean.

질문에 답하여, 저는 다음과 같은 방안을 제안합니다. 현행 행정구조를 고려할 때, 단기적으로 실현하기 쉬운 방안은 국무총리실의 국제개발협력위원회의 권한과 국무총리실 내 관련 조직의 정책결정 및 집행력을 좀 더 강화하는 방식입니다. 이와 함께 재외공관 차원에서 협력국과의 협력통로를 일원화하고 협의체의 권한을 좀 더 강화하는 방안이 마련되어야 할 것입니다.

이 방안은 국무총리실이 국제개발협력을 총괄하게 하여, 행정부처 간의 관계를 개선하고, 정책결정 및 집행절차를 원활하게 하게 될 것입니다. 또한, 재외공관 차원에서 협력국과의 협력통로를 일원화하면, 외교통상부와 재외공관 간의 효율적인 협력이 가능해질 것입니다.

이 방안은 단기적으로 실현하기 쉬운 방안으로, 향후 국제개발협력의 성과를 개선하고, 행정효율성을 높일 수 있습니다.
