In [1]:
import pandas as pd
import numpy as np
from sentence_transformers import SentenceTransformer
import json
from torch.utils.data import DataLoader
from sentence_transformers import InputExample
from sentence_transformers.evaluation import InformationRetrievalEvaluator
from sentence_transformers import losses
import os
import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline,
    logging,
)
from langchain import HuggingFacePipeline
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS
from langchain.chains import ConversationalRetrievalChain
from peft import LoraConfig, PeftModel
import uuid
import itertools

# Load Data

In [2]:
summary = pd.read_csv("./datasets/etc/answer_summary_modify.csv", index_col = 0)  # 각자 맞는 경로 설정

In [3]:
summary.head(5)

Unnamed: 0,idx,contents
0,ABC 소화기,"질문 : ABC 소화기란 무엇인가요? 답변 : ABC 소화기는 A, B, C 등급..."
1,"AD, PD에 면한 벽체 결로 대책","질문 : AD, PD에 면한 벽체 결로에 대한 대책은 어떤 것이 있나요? 답변 ..."
2,"AD, PD에 면한 벽체 결로 원인","질문 : AD, PD에 면한 벽체 결로의 원인이 뭐야? 답변 : 결로가 발생하는..."
3,KMEW 세라믹 지붕재,질문 : KMEW 세라믹 지붕재가 뭐야? \nKMEW 세라믹 지붕재의 장점은 무엇...
4,MSDS,질문 : MSDS(Material Safety Data Sheet)는 어떤 정보를 ...


In [4]:
# contents안의 질문 및 답변 나누기
## [[질문1, 답변1], [질문2, 답변2], ... [질문n, 답변n]]의 형식 만들기

train_new = []
valid_new = []
for i in range(len(summary["contents"][:354])):
    q = summary.iloc[i,1].split("답변 :")[0].split("질문 : ")[1].strip()
    a = summary.iloc[i,1].split("답변 :")[1].strip()
    train_new.append([q.split("\n"), a])
    
for i in range(len(summary["contents"][354:])):
    q = summary.iloc[i,1].split("답변 :")[0].split("질문 : ")[1].strip()
    a = summary.iloc[i,1].split("답변 :")[1].strip()
    valid_new.append([q.split("\n"), a])
    
    
train_pre_new = []
valid_pre_new = []
for i in train_new:
    for j in i[0]:
        train_pre_new.append([j.strip(),i[1].strip()])
        
for i in valid_new:
    for j in i[0]:
        valid_pre_new.append([j.strip(),i[1].strip()])

In [5]:
# train, vadli 형식 : [[질문1, 질문2, ..., 질문n], 답변]
print("train 형식 : \n",train_pre_new[:2])
print()
print("valid 형식 : \n",valid_pre_new[:2])

train 형식 : 
 [['ABC 소화기란 무엇인가요?', 'ABC 소화기는 A, B, C 등급의 화재를 진압할 수 있는 소화기로, A는 일반화재, B는 유류 화재, C는 전기 화재를 의미합니다. ABC 소화기는 다양한 종류의 화재에 대처할 수 있어서 일반적으로 많이 사용됩니다. 이러한 분류는 소화기가 다양한 화재 유형에 대응할 수 있도록 하는 역할을 합니다.'], ['AD, PD에 면한 벽체 결로에 대한 대책은 어떤 것이 있나요?', 'AD, PD에 면한 벽체 결로에 대한 대책은 단열재를 미실하게 시공하여 결로가 생기는 벽체의 표면 온도를 노점온도 이상으로 유지하는 것이 중요합니다. 또한, 외피재와의 기밀성을 유지하고 습기 유입을 차단하며, 건조한 환경을 유지하고 벽체의 통풍을 개선하여 습기가 벽체 내부로 퍼지는 것을 방지해야 합니다.']]

valid 형식 : 
 [['ABC 소화기란 무엇인가요?', 'ABC 소화기는 A, B, C 등급의 화재를 진압할 수 있는 소화기로, A는 일반화재, B는 유류 화재, C는 전기 화재를 의미합니다. ABC 소화기는 다양한 종류의 화재에 대처할 수 있어서 일반적으로 많이 사용됩니다. 이러한 분류는 소화기가 다양한 화재 유형에 대응할 수 있도록 하는 역할을 합니다.'], ['AD, PD에 면한 벽체 결로에 대한 대책은 어떤 것이 있나요?', 'AD, PD에 면한 벽체 결로에 대한 대책은 단열재를 미실하게 시공하여 결로가 생기는 벽체의 표면 온도를 노점온도 이상으로 유지하는 것이 중요합니다. 또한, 외피재와의 기밀성을 유지하고 습기 유입을 차단하며, 건조한 환경을 유지하고 벽체의 통풍을 개선하여 습기가 벽체 내부로 퍼지는 것을 방지해야 합니다.']]


# Make dataset for Embeddig Fine-tuning

In [6]:
# 고유번호 만들기
str(uuid.uuid1())

'155a238a-f7dc-11ee-992e-0242ac110007'

In [7]:
train = train_pre_new
valid = valid_pre_new

### train&valid

In [8]:
# query_dict_train : {"uuid1" : 질문1}의 형식
# query_dict_temp_train : {질문1: "uuid1"}의 형식

def query_dict(train):
    query_dict_train = {}
    query_dict_temp_train = {}
    for query in train:
        id_ = uuid.uuid1()
        query_dict_train[str(id_)] = query[0]
        query_dict_temp_train[query[0]] = str(id_)
    return query_dict_train, query_dict_temp_train

In [9]:
query_dict_train, query_dict_temp_train = query_dict(train)
query_dict_valid, query_dict_temp_valid = query_dict(valid)

In [10]:
# valid도 같은 형식
print(f"query_dict_train 형식 : \n{dict(itertools.islice(query_dict_train.items(),2))}")
print()
print(f"query_dict_temp_train 형식 : \n{dict(itertools.islice(query_dict_temp_train.items(),2))}")

query_dict_train 형식 : 
{'16e2b618-f7dc-11ee-992e-0242ac110007': 'ABC 소화기란 무엇인가요?', '16e2b6a4-f7dc-11ee-992e-0242ac110007': 'AD, PD에 면한 벽체 결로에 대한 대책은 어떤 것이 있나요?'}

query_dict_temp_train 형식 : 
{'ABC 소화기란 무엇인가요?': '16e2b618-f7dc-11ee-992e-0242ac110007', 'AD, PD에 면한 벽체 결로에 대한 대책은 어떤 것이 있나요?': '16e2b6a4-f7dc-11ee-992e-0242ac110007'}


In [11]:
# cont_dict : {"uuid1" : 답변1}의 형식
# cont_dict_temp : {답변1: "uuid1"}의 형식

def cont_dict(pre_new):
    unique_contents = set()
    for i in pre_new:
        unique_contents.add(i[1])
        
    unique_contents = list(unique_contents)
    
    cont_dict = {}
    cont_dict_temp = {}
    
    for contents in unique_contents:
        id_ = uuid.uuid1()
        cont_dict[str(id_)] = contents
        cont_dict_temp[contents] = str(id_)
    return cont_dict, cont_dict_temp

In [12]:
cont_dict_train, cont_dict_temp_train = cont_dict(train)
cont_dict_valid, cont_dict_temp_valid = cont_dict(valid)

In [13]:
# valid도 같은 형식
print(f"cont_dict_train 형식 : \n{dict(itertools.islice(cont_dict_train.items(),2))}")
print()
print(f"cont_dict_temp_train 형식 : \n{dict(itertools.islice(cont_dict_temp_train.items(),2))}")

cont_dict_train 형식 : 
{'1834ac74-f7dc-11ee-992e-0242ac110007': '시트 방수재는 수지를 기본으로 안정제, 향균제, 방염제, 초내후성 안료를 혼합하여 제조한 방수제로, 바탕면과 무관하게 시공이 가능합니다. 외단열 공법을 통해 에너지를 절감할 수 있으며, 옥상, 지붕, 판넬 지붕 등에 사용됩니다. 내약품성을 갖고 있는 제품은 옥상 녹화, 옥상 정원 구조에 적합하며, 구조물의 진동, 균열, 수축, 팽창 등이 예상되는 장소에 적합합니다. 시트 이음매를 접합하여 누수를 방지할 수 있는 특징을 가지고 있습니다.', '1834af3a-f7dc-11ee-992e-0242ac110007': '부엌과 욕실의 결로를 방지하기 위한 가장 중요한 대책은 환기구를 설치하는 것입니다. 부엌과 욕실은 물을 많이 사용하고 많은 수증기가 발생하기 때문에 결로가 발생할 수 있습니다. 따라서 두꺼운 단열재만으로는 결로를 방지하기 어렵기 때문에 충분한 환기 시스템을 구축하여 수증기를 외부로 배출하는 것이 중요합니다. 또한, 부엌과 욕실을 주기적으로 완전히 건조시키고 수분이 고여있는 곳을 청소하고 건조하는 것도 결로 방지에 도움이 됩니다. 결로는 외벽이나 비 난방공간에 접한 부엌이나 욕실에서 외부의 차가운 표면온도와 내부의 높은 습도가 결합되어 발생할 수 있는데, 이러한 상황을 예방하기 위해 적절한 환기와 수분 제거가 필요합니다.'}

cont_dict_temp_train 형식 : 
{'시트 방수재는 수지를 기본으로 안정제, 향균제, 방염제, 초내후성 안료를 혼합하여 제조한 방수제로, 바탕면과 무관하게 시공이 가능합니다. 외단열 공법을 통해 에너지를 절감할 수 있으며, 옥상, 지붕, 판넬 지붕 등에 사용됩니다. 내약품성을 갖고 있는 제품은 옥상 녹화, 옥상 정원 구조에 적합하며, 구조물의 진동, 균열, 수축, 팽창 등이 예상되는 장소에 적합합니다. 시트 이음매를 접합하여 누수를 방지할 수 있는 특징을 가지고 있습니다.': '1834ac74-f7dc-1

In [14]:
# id_match_train : {"질문 uuid" : ["답변 uuid"]}

def make_id_match(pre_new, query_dict_temp, cont_dict_temp):
    id_match_train = {}
    for i in pre_new:
        id_match_train[query_dict_temp[i[0]]] = [cont_dict_temp[i[1]]]
    return id_match_train

In [15]:
id_match_train = make_id_match(train, query_dict_temp_train, cont_dict_temp_train)
id_match_valid = make_id_match(valid, query_dict_temp_valid, cont_dict_temp_valid)

In [16]:
# valid도 같은 형식
print(f"id_match_train 형식 : \n{dict(itertools.islice(id_match_train.items(),2))}")

id_match_train 형식 : 
{'16e2b618-f7dc-11ee-992e-0242ac110007': ['18352794-f7dc-11ee-992e-0242ac110007'], '16e2b6a4-f7dc-11ee-992e-0242ac110007': ['18351fb0-f7dc-11ee-992e-0242ac110007']}


In [17]:
print(f"train의 개수 : {len(id_match_train)}")
print(f"valid의 개수 : {len(id_match_valid)}")

train의 개수 : 674
valid의 개수 : 131


In [18]:
# {"queries" : {"uuid":질문, ...} , "corpus" : {uuid" : 답변, ...}, "relevant_docs" : {질문 uuid : [답변 uuid]}
train = {"queries" : query_dict_train,
        "corpus" :cont_dict_train,
        "relevant_docs" : id_match_train}

valid = {"queries" : query_dict_valid,
        "corpus" :cont_dict_valid,
        "relevant_docs" : id_match_valid}

In [27]:
# 저장하기
with open("./embedding_train_all.json","w", encoding= "utf-8-sig") as f:
    json.dump(train, f,  ensure_ascii=False)
    
    
with open("./embedding_valid.json","w", encoding= "utf-8-sig") as f:
    json.dump(valid, f,  ensure_ascii=False)

# Embedding Fine-tuning

In [19]:
model_id = "BAAI/bge-m3"  ## 기본 모델
model = SentenceTransformer(model_id)

In [20]:
# 데이터 불러오기
with open("./embedding_train.json", 'r', encoding = "utf-8-sig") as f:  # 각자 맞는 경로 설정
    train_dataset = json.load(f)
with open("./embedding_valid.json", 'r', encoding = "utf-8-sig") as f:  # 각자 맞는 경로 설정
    valid_dataset = json.load(f)

In [21]:
dataset = train_dataset

corpus = dataset['corpus']
queries = dataset['queries']
relevant_docs = dataset['relevant_docs']

examples = []
for query_id, query in queries.items():
    node_id = relevant_docs[query_id][0]
    text = corpus[node_id]
    example = InputExample(texts=[query, text])
    examples.append(example)

In [22]:
BATCH_SIZE = 2
loader = DataLoader(
    examples, batch_size=BATCH_SIZE
)
loss = losses.MultipleNegativesRankingLoss(model)

In [23]:
dataset = valid_dataset

corpus = dataset['corpus']
queries = dataset['queries']
relevant_docs = dataset['relevant_docs']

evaluator = InformationRetrievalEvaluator(queries, corpus, relevant_docs, batch_size = 8)

In [None]:
# gpu 할당방법
model.to("cuda:1")
EPOCHS = 2

warmup_steps = int(len(loader) * EPOCHS * 0.1)

In [None]:
# 모델 학습
model.fit(
    train_objectives=[(loader, loss)],
    epochs=EPOCHS,
    warmup_steps=warmup_steps,
    output_path='exp_finetune',
    show_progress_bar=True,
    evaluator=evaluator, 
    evaluation_steps=50,
)

Epoch:   0%|          | 0/2 [00:00<?, ?it/s]

Iteration:   0%|          | 0/324 [00:00<?, ?it/s]

# 학습한 Embedding 활용

In [25]:
# 학습한 모델 불러오기
embedding_model = "./exp_finetune"  # 각자 embedding 모델 저장한 위치 지정
model_kwargs={'device':'cpu'}
encode_kwargs = {'normalize_embeddings':False}

embeddings = HuggingFaceEmbeddings(
    model_name=embedding_model,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

In [27]:
# 사용 문서명 입력 (아래 두 개 중 하나)
docs_nm1 = "./datasets/etc/blog_final.csv"  # 각자 맞는 경로 설정
docs_nm2 = './datasets/etc/answer_summary_modify.csv'  # 각자 맞는 경로 설정

In [28]:
from langchain.document_loaders import CSVLoader
loader = CSVLoader(docs_nm1, encoding = "euc-kr")
documents = loader.load()
print(len(documents))

127


In [29]:
loader2 = CSVLoader(docs_nm2, encoding = "utf-8-sig")
documents2 = loader2.load()
print(len(documents2))

443


In [30]:
# 두 문서 합치기
cont1 = []
for idx in range(len(documents)):
    cont1.append(documents[idx].page_content.split("contents: ")[1])

cont2 = []
for idx in range(len(documents2)):
    cont2.append(documents2[idx].page_content.split("contents: ")[1])

contents = cont1+cont2

In [34]:
# FAISS를 통한 문서 Indexing
vectordb = FAISS.from_texts(
    contents,  # 문서 지정
    embedding = embeddings,  # embedding 지정
)

In [35]:
# 선택할 관련 문서 개수 정하기
retriever = vectordb.as_retriever(search_type = "mmr",search_kwargs={"k":3}) # 상위 3개의 결과를 반환

In [36]:
%%time
# Retrievr 테스트
query = "어떤 상황에 개별 공간이 더 적합한지, 어떤 상황에 오픈 플랜 공간이 더 적합한지 알려주세요."
print(query)
print()
docs = retriever.get_relevant_documents(query, consider_metadata=True)

print("=========================================참조한 문서 확인하기=========================================")
for i in docs:
    print(i.page_content)
    print()

어떤 상황에 개별 공간이 더 적합한지, 어떤 상황에 오픈 플랜 공간이 더 적합한지 알려주세요.

질문 : 개별 공간과 오픈 플랜 공간 중에서 어떤 것이 더 나에게 알맞은 것인가요?  답변 : 개별 공간과 오픈 플랜은 각각의 특징을 가지고 있습니다. 개별 공간은 개인의 공간과 프라이버시를 제공하여 조용한 환경을 유지할 수 있고, 오픈 플랜은 공간을 확장시켜 연결감을 높이고 커다란 공간을 만들어 낼 수 있습니다. 선택은 개인의 선호와 생활 방식에 따라 다르며, 활발한 활동이 많은 경우에는 오픈 플랜이 더 적합할 수 있고, 개인적인 시간과 프라이버시를 중요시하는 경우에는 개별 공간이 더 적합할 수 있습니다.

질문 : 복도나 입구를 환영스럽게 꾸미는 데 가장 좋은 방법이 있을까요?
 어떻게 복도를 표현적인 공간으로 만들 수 있을까요?
 복도를 더 밝게 만들기 위해서는 어떤 조명을 선택하는 것이 좋을까요?  답변 : 복도나 입구를 환영하는 분위기로 꾸미기 위해 밝고 따뜻한 조명, 거울, 화사한 컬러, 개인적인 요소를 활용하는 걸 추천드립니다. 밝은 조명으로 복도 분위기를 환하게 하고, 거울을 사용해 빛을 반사시켜 복도를 더 넓고 밝아 보이게 할 수 있습니다. 더불어 화사한 컬러의 벽지나 인테리어 소품을 활용해 포인트 컬러를 더해주면 환영스러운 분위기를 연출할 수 있습니다. 마지막으로 사진, 식물 등 개인적인 요소를 추가하여 포인트를 주는 것도 좋은 방법입니다.

질문 : 어떻게 오피스 공간을 집에 통합하여 효율적으로 활용할 수 있을까요?
 작은 공간을 활용하여 효과적인 홈오피스를 만드는 방법이 무엇인가요?
 작은 공간을 활용하여 효과적인 홈오피스를 만들기 위해 필요한 가구나 수납 공간에 대한 조언이 있을까요?
 집 안에 있는 오피스 공간을 어떻게 효율적으로 활용할 수 있을까요?  답변 : 오피스를 집에 통합하여 효율적으로 활용하는 팁은 다양합니다. 먼저, 개별 작업대를 만들어 업무나 공부 전용 공간을 마련하세요. 조용한 구역을 선택하고 창문이나 자연 채광을 활용하여 