In [2]:
# input data
import json
import pandas as pd

subject, description = "한국인의 3차원 무릎관절 구축 및 형상 측정", "It is necessary to have a model that describes the feature of the knee Joint with a sufficient accuracy. Koreans, however, do not have their own knee joint model to be used in the total knee replacement arthroplasty. They have to use European or American models which do not match Koreans. Three-dimensional visualization techniques are found to be useful in a wide range of medical applications. Three-dimensional imaging studies such as CT(computed tomography) and MRI(magnetic resonance image) provide the primary source of patient-specific data. Three-dimensional knee joint models were constructed by image processing of the CT data of 10 subjects. Using the constructed model, the dimensions of Korean knee joint were measured. And this study proposed a three-dimensional model and data, which can be helpful to develop Korean knee implants and to analyze knee joint movements."

df_article = pd.read_csv('../data/search_results_article.csv', encoding='UTF-8', low_memory=False)
df_data = pd.read_csv('../data/search_results_dataset.csv', encoding='UTF-8', low_memory=False)

cleaned_df_data = (
    df_data[
        ['svc_id', 'dataset_title_etc_main', 'dataset_expl_etc_main','dataset_pub_dt_pc', 'dataset_creator_etc_main', 'dataset_lndgpg', 'query']
    ]
    .rename(
        columns={
            'svc_id': 'ID',
            'dataset_title_etc_main': 'title',
            'dataset_expl_etc_main': 'description',
            'dataset_pub_dt_pc': 'pubyear',
            'dataset_creator_etc_main': 'author',
            'dataset_lndgpg': 'URL',
        }
    )
)
cleaned_df_arti = (
    df_article[
        ['CN', 'Title', 'Abstract', 'Pubyear', 'Author', 'ContentURL', 'query']
    ]
    .rename(
        columns={
            'CN': 'ID',
            'Title': 'title',
            'Abstract': 'description',
            'Pubyear': 'pubyear',
            'Author': 'author',
            'ContentURL': 'URL'
        }
    )
)

df = pd.concat([cleaned_df_arti, cleaned_df_data], ignore_index=True)

# 임베딩을 통한 점수 생성 방법

In [None]:
# text-embedding-3-small 사용

from langchain_openai import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.schema import Document
import pandas as pd
from tqdm import tqdm

df['title'] = df['title'].fillna('')
df['description'] = df['description'].fillna('')

MAX_LENGTH = 1000
df['description'] = df['description'].str.slice(0, MAX_LENGTH)

texts = (df['title'] + " " +
        df['description']).tolist()

# 2. 임베딩 객체 생성
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 3. Document 객체로 변환
docs = [Document(page_content=text, metadata={"ID": row.ID}) 
        for text, row in zip(texts, df.itertuples())]

batch_size = 500
stores = []
for i in tqdm(range(0, len(docs), batch_size)):
    batch = docs[i:i+batch_size]
    store = FAISS.from_documents(batch, embeddings)
    stores.append(store)

# 부분 벡터스토어 통합
vectorstore = stores[0]
for s in stores[1:]:
    vectorstore.merge_from(s)

# 5. 쿼리 임베딩 생성
query = subject + " " + description
query_embedding = embeddings.embed_query(query)

# 6. 유사 문서 검색
results_with_score = vectorstore.similarity_search_with_score_by_vector(query_embedding, k=20)

# 7. 결과 출력
relevance_df = pd.DataFrame([
    {
        "ID": r.metadata.get("ID"),
        "relevance": score,
    }
    for r, score in results_with_score
]).sort_values(by="relevance", ascending=True)

relevance_df = relevance_df.merge(
    df[['ID', 'title', 'description']],
    on='ID',
    how='left'
)

display(relevance_df)

100%|██████████| 1/1 [00:01<00:00,  1.01s/it]


Unnamed: 0,ID,relevance,title,description
0,DIKO0010027329,0.048426,한국인의 3차원 무릎 관절 모델 구축 및 형상 측정,It is necessary to have a model that describes...
1,NART73608690,0.484609,Determination of representative dimension para...,<P> Knee joint implants developed by western c...
2,NART23307076,0.654637,"Imaging knee position using MRI, RSA/CT and 3D...",<P><B>Abstract</B></P><P>The purpose of this s...
3,NPAP13526087,0.666785,A 3D Printed Mechanical Model of the Knee to D...,"<P>In this article, a novel 3D printed knee mo..."
4,NART37692760,0.670475,A 3D Model Analysis of Knee Prosthetic Motion ...,<P>The object of this study is to introduce co...
5,f1bd34e52434a57a01b9ab55a6670891,0.712663,무릎 인공관절 형상 설계에 활용할 수 있는 한국인 남녀 무릎 관절의 형상 및 치수 ...,1. 관절면 영상 생성 한국인의 무릎 인공관절 형상 설계에 활용할 수 있는 남녀 ...
6,NART37654746,0.72632,A 3D model analysis for developing multifuncti...,
7,NART74557425,0.728552,Principal component analysis in construction o...,<P>The statistical shape model (SSM) method th...
8,NART40653680,0.745407,Ambulatory measurement of 3D knee joint angle,Three-dimensional measurement of joint motion ...
9,9f0a020d80be42232daacad7a76e6aff,0.764016,Three dimensional point cloud data of Total Kn...,Total Knee Replacement (TKR) is permanent and ...


In [None]:
# 로컬 모델 사용
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.schema import Document
import pandas as pd

# 검색할 주제와 설명
subject = '기후 데이터 기반의 도시 열섬 현상 분석'
description = '위성 원격탐사 데이터와 국내 기상 관측소 데이터를 결합하여 도시 열섬 현상의 시공간적 패턴을 분석하고, 인공지능 기반 예측 모델을 통해 기후 변화 대응 전략을 모색하는 연구'

# 데이터 로드
processed_df = pd.read_csv('./generated_input_data.csv', encoding='UTF-8', low_memory=False)
vector_df = processed_df[['ID', '제목', '설명', '키워드']]

# 텍스트 결합
texts = (vector_df['제목'] + " " + vector_df['설명'] + " " + vector_df['키워드']).tolist()

# 임베딩 객체 생성
embeddings = HuggingFaceEmbeddings(
    model_name="../model/all-mpnet-base-v2",
    model_kwargs={"device": "cpu"}
)

# Document 객체 생성
docs = [Document(page_content=text, metadata={"id": row.ID}) 
        for text, row in zip(texts, vector_df.itertuples())]

# Chroma 벡터스토어 생성
vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings,
    # persist_directory="./chroma_db"
)

# 쿼리 생성
query = subject + " " + description

# 유사 문서 20개 검색
k = 20
similar_docs = vectorstore.similarity_search(query, k=k)

# 결과 DataFrame 생성
df_results = pd.DataFrame([
    {
        "ID": doc.metadata.get("id"),
        "제목": vector_df.loc[vector_df['ID'] == doc.metadata.get("id"), "제목"].values[0],
        "설명": vector_df.loc[vector_df['ID'] == doc.metadata.get("id"), "설명"].values[0]
    }
    for doc in similar_docs
])

display(df_results)


Unnamed: 0,ID,제목,설명
0,46,자율주행을 위한 효율적 알고리즘 연구,자율주행 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
1,57,로보틱스을 위한 효율적 알고리즘 연구,로보틱스 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
2,36,그래프분석을 위한 효율적 알고리즘 연구,그래프분석 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험...
3,37,음성처리을 위한 효율적 알고리즘 연구,음성처리 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
4,52,음성처리을 위한 효율적 알고리즘 연구,음성처리 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
5,54,음성처리을 위한 효율적 알고리즘 연구,음성처리 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
6,55,추천시스템을 위한 효율적 알고리즘 연구,추천시스템 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험...
7,48,컴퓨터비전을 위한 효율적 알고리즘 연구,컴퓨터비전 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험...
8,3,재료과학을 위한 효율적 알고리즘 연구,재료과학 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
9,50,자연어처리을 위한 효율적 알고리즘 연구,자연어처리 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험...
