# 임베딩을 통한 점수 생성 방법

In [None]:
# text-embedding-3-small 사용

from langchain.embeddings import OpenAIEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.schema import Document
import pandas as pd


subject = '기후 데이터 기반의 도시 열섬 현상 분석'
description = '위성 원격탐사 데이터와 국내 기상 관측소 데이터를 결합하여 도시 열섬 현상의 시공간적 패턴을 분석하고, 인공지능 기반 예측 모델을 통해 기후 변화 대응 전략을 모색하는 연구'
processed_df = pd.read_csv('./generated_input_data.csv', encoding='UTF-8', low_memory=False)

# 1. 텍스트 결합
vector_df = processed_df[['ID', '제목', '설명', '키워드']]

texts = (vector_df['제목'] + " " +
         vector_df['설명'] + " " +
         vector_df['키워드']).tolist()

# 2. 임베딩 객체 생성
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 3. Document 객체로 변환
docs = [Document(page_content=text, metadata={"id": row.ID}) 
        for text, row in zip(texts, vector_df.itertuples())]

# 4. FAISS 벡터스토어 생성
vectorstore = FAISS.from_documents(docs, embeddings)


# 5. 쿼리 임베딩 생성
query = subject + " " + description
query_embedding = embeddings.embed_query(query)

# 6. 유사 문서 검색
results_with_score = vectorstore.similarity_search_with_score_by_vector(query_embedding, k=20)

# 7. 결과 출력
df_results = pd.DataFrame([
    {
        "ID": r.metadata.get("id"),
        "제목": vector_df.loc[vector_df['ID'] == r.metadata.get("id"), "제목"].values[0],
        "설명": vector_df.loc[vector_df['ID'] == r.metadata.get("id"), "설명"].values[0],
        "유사도": score,
    }
    for r, score in results_with_score
]).sort_values(by="유사도", ascending=True)

display(df_results)

Unnamed: 0,ID,제목,설명,유사도
0,51,기후과학 공개 데이터셋 (국내 수집),국내 환경에서 수집된 기후과학 관련 대규모 라벨링 데이터셋입니다. 메타데이터와 전처...,1.031949
1,14,기후과학을 위한 효율적 알고리즘 연구,기후과학 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...,1.115696
2,18,기후과학을 위한 효율적 알고리즘 연구,기후과학 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...,1.115696
3,30,기후과학을 위한 효율적 알고리즘 연구,기후과학 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...,1.115696
4,28,A scalable method for Climate Science,This paper presents a scalable method that imp...,1.174717
5,59,A scalable method for Climate Science,This paper presents a scalable method that imp...,1.174717
6,23,시계열분석 공개 데이터셋 (국내 수집),국내 환경에서 수집된 시계열분석 관련 대규모 라벨링 데이터셋입니다. 메타데이터와 전...,1.243738
7,10,사회과학 공개 데이터셋 (국내 수집),국내 환경에서 수집된 사회과학 관련 대규모 라벨링 데이터셋입니다. 메타데이터와 전처...,1.261777
8,31,사회과학 공개 데이터셋 (국내 수집),국내 환경에서 수집된 사회과학 관련 대규모 라벨링 데이터셋입니다. 메타데이터와 전처...,1.261777
9,39,사회과학 공개 데이터셋 (국내 수집),국내 환경에서 수집된 사회과학 관련 대규모 라벨링 데이터셋입니다. 메타데이터와 전처...,1.261777


In [None]:
# 로컬 모델 사용
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.schema import Document
import pandas as pd

# 검색할 주제와 설명
subject = '기후 데이터 기반의 도시 열섬 현상 분석'
description = '위성 원격탐사 데이터와 국내 기상 관측소 데이터를 결합하여 도시 열섬 현상의 시공간적 패턴을 분석하고, 인공지능 기반 예측 모델을 통해 기후 변화 대응 전략을 모색하는 연구'

# 데이터 로드
processed_df = pd.read_csv('./generated_input_data.csv', encoding='UTF-8', low_memory=False)
vector_df = processed_df[['ID', '제목', '설명', '키워드']]

# 텍스트 결합
texts = (vector_df['제목'] + " " + vector_df['설명'] + " " + vector_df['키워드']).tolist()

# 임베딩 객체 생성
embeddings = HuggingFaceEmbeddings(
    model_name="../model/all-mpnet-base-v2",
    model_kwargs={"device": "cpu"}
)

# Document 객체 생성
docs = [Document(page_content=text, metadata={"id": row.ID}) 
        for text, row in zip(texts, vector_df.itertuples())]

# Chroma 벡터스토어 생성
vectorstore = Chroma.from_documents(
    documents=docs,
    embedding=embeddings,
    # persist_directory="./chroma_db"
)

# 쿼리 생성
query = subject + " " + description

# 유사 문서 20개 검색
k = 20
similar_docs = vectorstore.similarity_search(query, k=k)

# 결과 DataFrame 생성
df_results = pd.DataFrame([
    {
        "ID": doc.metadata.get("id"),
        "제목": vector_df.loc[vector_df['ID'] == doc.metadata.get("id"), "제목"].values[0],
        "설명": vector_df.loc[vector_df['ID'] == doc.metadata.get("id"), "설명"].values[0]
    }
    for doc in similar_docs
])

display(df_results)


Unnamed: 0,ID,제목,설명
0,46,자율주행을 위한 효율적 알고리즘 연구,자율주행 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
1,57,로보틱스을 위한 효율적 알고리즘 연구,로보틱스 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
2,36,그래프분석을 위한 효율적 알고리즘 연구,그래프분석 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험...
3,37,음성처리을 위한 효율적 알고리즘 연구,음성처리 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
4,52,음성처리을 위한 효율적 알고리즘 연구,음성처리 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
5,54,음성처리을 위한 효율적 알고리즘 연구,음성처리 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
6,55,추천시스템을 위한 효율적 알고리즘 연구,추천시스템 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험...
7,48,컴퓨터비전을 위한 효율적 알고리즘 연구,컴퓨터비전 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험...
8,3,재료과학을 위한 효율적 알고리즘 연구,재료과학 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험으...
9,50,자연어처리을 위한 효율적 알고리즘 연구,자연어처리 분야에서 성능과 계산비용을 동시에 개선한 새로운 알고리즘을 제안하고 실험...
