In [27]:
import os
from langchain.document_loaders import PyPDFLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
from langchain_chroma import Chroma
from langchain.vectorstores import Chroma
from langchain.chat_models import ChatOpenAI
from langchain.chains import LLMChain
from langchain.prompts import PromptTemplate
from langchain.schema import Document
os.environ["OPENAI_API_KEY"] = "..."
openai_embedding=OpenAIEmbeddings(model = 'text-embedding-3-small')

In [2]:
def load_and_split_pdf(file_path):
    loader = PyPDFLoader(file_path)
    return loader.load_and_split()

In [3]:
def create_vector_store(_docs):
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
    split_docs = text_splitter.split_documents(_docs)
    persist_directory = "./chroma_db"
    vectorstore = Chroma.from_documents(
        split_docs, 
        OpenAIEmbeddings(model='text-embedding-3-small'),
        persist_directory=persist_directory
    )
    return vectorstore

In [4]:
def add_to_vector_store(new_docs, persist_directory="./chroma_db"):
    # 1. 기존 벡터 저장소 불러오기
    vectorstore = Chroma(
        persist_directory=persist_directory,
        embedding_function=OpenAIEmbeddings(model="text-embedding-3-small")
    )

    # 2. 문서 분할
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
    split_docs = text_splitter.split_documents(new_docs)

    # 3. 문서 추가
    vectorstore.add_documents(split_docs)

    return vectorstore

In [7]:
path3='C:/python workspace/3-3/챗봇/논문/지준화_학위.pdf'

In [8]:
sp3=load_and_split_pdf(path3)

In [9]:
add_to_vector_store(sp3)

<langchain_chroma.vectorstores.Chroma at 0x1c1ea264550>

In [10]:
# load from disk
db3 = Chroma(
    persist_directory="./chroma_db",
    embedding_function=OpenAIEmbeddings(model="text-embedding-3-small")
)

query = "topic of jihwan Ha"
result = db3.similarity_search(query)
print(result[0].page_content)

This certifies that the master thesis of 
Jihwan Ha is approved. 
 
 
 
  
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
The Graduate School 
Yonsei University 
July 2015


In [11]:
query = "문형빈 교수님 석사 논문 요약해줘"
result = db3.similarity_search(query)
print(result[0].page_content)

ii 
 
제품유형별 소비자 정보탐색 행동 분석 
: 탐색재와 경험재를 중심으로 
Analysis on Consumer Information Search Behavior  
for Search and Experience Goods 
 
지도교수 이 종 수  
 
이 논문을 공학석사학위 논문으로 제출함  
 
2014 년 2 월  
 
서울대학교 대학원  
협동과정 기술경영경제정책전공  
문     형     빈  
 
문형빈의 공학석사학위 논문을 인준함  
2014 년 2 월  
 
위 원 장       박  하  영      (인) 
부위원장       이  종  수      (인) 
위    원       이  정  동      (인)


In [18]:
query = "지준화 교수님 석사 논문 요약해줘"
result = db3.similarity_search(query)
print(result[0].page_content)

- 66 -
감사의 글
약간의 시행착오 끝에 조금 늦게 들어온 2년간의 대학원 생활을 돌이켜 한
편의 논문으로 대신하기엔 아쉬움이 많이 남지만, 모교인 인하대학교에서 대학
원 생활을 잘 마무리할 수 있게 되어서 뜻 깊게 생각합니다. 이 논문이 완성되
기까지 저를 도와주시고 지도해 주신 분들에게 감사의 마음을 전하고자 합니다.
우선 학부 때부터 대학원 생활까지 부족했던 저를 지도해주시고, 학문뿐만 아
니라 인격적으로도 항상 아낌없는 가르침을 주신 이규성 교수님께 진심으로 감
사의 마음을 전합니다. 언제 어디에서나 교수님의 가르침을 잊지 않는 제자가
되도록 노력하겠습니다. 또한 미흡한 저의 논문을 심사해주신 김병국 교수님과
김태정 교수님께도 감사를 드립니다. 그밖에 학부 때부터 대학원에 이르기까지
지리정보공학이라는 학문에 대해 많은 가르침을 주신 조동행, 김계현, 박수홍,
박관동 교수님께 머리 숙여 감사드립니다.
원격탐사연구실의 든든한 버팀목 정숙이 누나, 꼼꼼한 여상이 형 미국 가서도
건강하게 공부 마치시길 바랍니다. 웃는 얼굴이 예쁜 선화 누나, 늘 고생하는
성진이 형 남은 대학원 생활 건투를 빕니다. 항상 옆에서 많이 가르쳐 주고 여
러 가지 도움을 많이 준 정일이 형께도 고마움을 전합니다. 타국에서 공부하느
라 고생이 많은 야써도 좋은 결과 있기를 바란다.
2년간 삭막할 것만 같던 대학원 생활을 즐겁게 보낼 수 있게 해준 영상공학
연구실의 태윤이 형, 수암이 형, 동욱이, 재훈이, 대전서 고생하는 베프(?) 현숙
이, GIS연구실의 철용이, 은지, 태훈이, GPS연구실의 지현이, 경희, 지혜, 혜인
이, 그리고 동기 진아 형과 이 밖의 모든 지리정보공학과 대학원생 선후배분들
에게 감사의 마음을 전합니다.
바쁘다는 핑계로 자주 못 만난 11대 지리정보공학과 학생회 enJoin의 필모,
현민, 재묵, 진근, 삼화, 경수, 승호, 동현, 태윤아 앞으로 번개 꼭 나갈 테니 꼭
불러줘. 지금은 뿔뿔이 흩어졌지만 현석이, 종민이, 철희 힘내서 잘 살아보자.


In [19]:
db3 = Chroma(
    persist_directory="./chroma_db",
    embedding_function=OpenAIEmbeddings(model="text-embedding-3-small")
)

query = "지준화 교수님의 석사 논문 요약해줘"
docs = db3.similarity_search(query, k=15)

formatted_docs = [Document(page_content=doc.page_content) for doc in docs]

prompt_template = """
다음은 논문 일부입니다. 이 내용을 바탕으로 석사 논문 내용을 연구대상 및 방법, 연구방법, 연구결과, 제언을 핵심적으로 요약해 주세요.
논문 내용:
{context}
요약:
"""

PROMPT = PromptTemplate(template=prompt_template, input_variables=["context"])
llm = ChatOpenAI(model="gpt-4o")
chain = LLMChain(llm=llm, prompt=PROMPT)
context_text = "\n\n".join([doc.page_content for doc in formatted_docs])
summary = chain.run(context=context_text)
print(summary, "\n")

**연구대상 및 방법:**
이 연구는 KOMPSAT-2 고해상도 위성영상의 절대복사보정과 검증을 목적으로 한다. 연구는 위성영상의 복사보정 계수를 추정하고, 이 계수의 적합성을 다양한 방법으로 분석하여 검증하는 것을 목표로 한다. 

**연구방법:**
연구에서는 복사에너지 기반의 비교와 반사율 기반의 비교를 통해 절대복사보정 계수의 적합성을 분석하였다. 이는 타 위성 자료와의 복사에너지 및 반사율을 비교하고, 영상과 현지에서 측정한 반사율을 비교하는 방식으로 진행되었다.

**연구결과:**
연구 결과, 추정된 절대복사보정 계수는 타 위성 자료와의 복사에너지 및 반사율 비교에서 높은 적합성을 보였다. 영상과 현지 측정 반사율 비교에서도 일관된 결과가 나타나, 계수의 신뢰성을 확인할 수 있었다.

**제언:**
추후 연구에서는 다양한 위성 데이터를 활용한 추가적인 검증을 통해 복사보정 계수의 정확성을 더욱 높일 필요가 있다. 또한, 다양한 환경 조건에서의 데이터 수집 및 분석을 통해 계수의 적용 범위를 확장하는 것이 바람직하다. 



In [26]:
db3 = Chroma(
    persist_directory="./chroma_db",
    embedding_function=OpenAIEmbeddings(model="text-embedding-3-small")
)

query = "ha jihwan's thesis summary"
docs = db3.similarity_search(query, k=15)

formatted_docs = [Document(page_content=doc.page_content) for doc in docs]

prompt_template = """
다음은 논문 일부입니다. 이 내용을 바탕으로 석사 논문 내용을 연구대상 및 방법, 연구방법, 연구결과, 제언을 핵심적으로 요약해 주세요.
논문 내용:
{context}
요약:
"""

PROMPT = PromptTemplate(template=prompt_template, input_variables=["context"])
llm = ChatOpenAI(model="gpt-4o")
chain = LLMChain(llm=llm, prompt=PROMPT)
context_text = "\n\n".join([doc.page_content for doc in formatted_docs])
summary = chain.run(context=context_text)
print(summary, "\n")

**연구대상 및 방법:**
이 연구는 질병과 관련된 microRNAs(miRNAs)를 환경 요인 기반의 글로벌 miRNA 네트워크를 통해 추출하는 방법을 제안합니다. 연구대상은 다양한 질병의 발생에 관여하는 것으로 알려진 miRNAs로, 이들의 네트워크를 분석하여 질병과의 관계를 파악하려는 것입니다.

**연구방법:**
본 연구는 miRNAs와 질병 간의 관계를 규명하기 위해 환경 요인(Environmental Factor, EF) 데이터를 miRNA 글로벌 네트워크에 결합하였습니다. 환경 요인에는 방사선, 약물, 바이러스, 알코올, 담배, 스트레스 등이 포함됩니다. 모든 miRNA 쌍 간의 상호작용을 고려한 글로벌 네트워크를 구축하여 정밀한 분석을 수행하였습니다.

**연구결과:**
miRNAs와 환경 요인 간의 관계가 질병 유형을 분류하는 데 중요한 역할을 한다는 연구 결과가 증가하고 있습니다. 이 연구는 이러한 관계를 활용하여 질병과 관련된 miRNAs를 보다 정확하게 추출할 수 있음을 보여줍니다.

**제언:**
본 연구는 제한된 miRNA와 질병 간의 지식을 확장하는 데 기여하며, 미래 연구자들에게는 miRNA와 환경 요인의 상호작용을 더 깊이 탐구할 것을 권장합니다. 추가적으로, 이 연구에서 제안된 모델은 시장 예측을 보다 정밀하게 수행할 수 있는 틀을 제공합니다. 



In [22]:
db3 = Chroma(
    persist_directory="./chroma_db",
    embedding_function=OpenAIEmbeddings(model="text-embedding-3-small")
)

query = "문형빈 교수님의 석사 논문 요약해줘"
docs = db3.similarity_search(query, k=15)

formatted_docs = [Document(page_content=doc.page_content) for doc in docs]

prompt_template = """
다음은 논문 일부입니다. 이 내용을 바탕으로 석사 논문 내용을 연구대상 및 방법, 연구방법, 연구결과, 제언을 핵심적으로 요약해 주세요.
논문 내용:
{context}
요약:
"""

PROMPT = PromptTemplate(template=prompt_template, input_variables=["context"])
llm = ChatOpenAI(model="gpt-4o")
chain = LLMChain(llm=llm, prompt=PROMPT)
context_text = "\n\n".join([doc.page_content for doc in formatted_docs])
summary = chain.run(context=context_text)
print(summary, "\n")

**연구대상 및 방법:**
이 연구는 소비자들이 제품을 구매할 때 탐색재(search goods)와 경험재(experience goods)로 구분하여 정보탐색 행동을 분석하는 것을 목적으로 한다. 탐색재는 구매 전 충분한 정보를 수집하여 품질을 평가할 수 있는 제품이며, 경험재는 직접 사용해보지 않고는 품질을 평가하기 어려운 제품이다.

**연구방법:**
연구는 설문조사를 통해 소비자들이 정보탐색을 위해 사용하는 다양한 정보채널(예: 인터넷 검색, 전문가 리뷰, 친구 추천 등)을 분석하고, 이러한 정보채널이 탐색재와 경험재 구매에 어떻게 영향을 미치는지를 실증 모형을 통해 분석하였다. 연구는 소비자 특성과 정보채널 선택 사이의 관계를 분석하기 위해 실증 모형을 활용하였다.

**연구결과:**
연구 결과, 소비자 특성에 따라 탐색재와 경험재에서 정보채널의 선택과 활용이 다르게 나타났다. 예를 들어, 탐색재의 경우 소비자들은 주로 온라인 검색을 통해 정보를 얻는 반면, 경험재에서는 친구나 전문가의 추천이 더 큰 영향을 미치는 것으로 나타났다. 또한, 특정 정보채널의 활용 빈도는 소비자의 연령, 교육 수준, 디지털 리터러시 등과 유의한 상관관계를 보였다.

**제언:**
기업들은 제품 유형에 따라 소비자들이 선호하는 정보채널을 파악하여, 그에 맞는 마케팅 전략을 수립할 필요가 있다. 특히, 경험재의 경우 소비자들이 중요하게 여기는 추천 및 리뷰 시스템을 강화하고, 탐색재에서는 온라인 정보의 질과 접근성을 높이는 것이 중요하다. 또한, 소비자 교육을 통해 보다 효율적인 정보탐색 방법을 제시할 수 있을 것이다. 

