In [2]:
import pandas as pd
import itertools
from langchain.chat_models import ChatOpenAI
from langchain.chains.summarize import load_summarize_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.prompts import PromptTemplate

from langchain.chains import MapReduceDocumentsChain, ReduceDocumentsChain
from langchain.text_splitter import CharacterTextSplitter
from langchain.chains.llm import LLMChain
from langchain.chains.combine_documents.stuff import StuffDocumentsChain

In [2]:
# all_df = pd.read_excel('all_df.xlsx')
before_covid_umap_df = pd.read_excel('before_covid_umap_df(20) (2).xlsx')
covid_umap_df = pd.read_excel('covid_umap_df(20) (2).xlsx')
after_covid_umap_df = pd.read_excel('after_covid_umap_df(20) (2).xlsx')

In [3]:
llm = ChatOpenAI(
    temperature=0,
    openai_api_key="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"
)

In [4]:
map_template = """The following is a set of documents
{docs}
Based on this list of docs, you should identify the main themes in Korean.
Instead of simply listing the content, please provide the overarching themes based on the technologies and fields that run through each docs in three sentences or less.

This is a sample answer : 주어진 문서는 초지 이용 기술 개발과 체험관광형 목장 이용 모델 설정을 통해 초지의 부가가치 창출과 방문객 만족도 향상을 도모하고자 하는 연구 내용을 담고 있습니다.

Helpful Answer:"""

prompt_template = PromptTemplate.from_template(
    template=map_template
)

map_chain = LLMChain(llm=llm, prompt=prompt_template)

In [5]:
reduce_template = """The following is set of summaries in Korean:
{docs}
Take these and distill it into a final, consolidated summary of the main themes in Korean.
Instead of simply listing the content, please provide the overarching themes based on the technologies and fields that run through each docs in three sentences or less.

This is a sample answer : 주어진 문서는 초지 이용 기술 개발과 체험관광형 목장 이용 모델 설정을 통해 초지의 부가가치 창출과 방문객 만족도 향상을 도모하고자 하는 연구 내용을 담고 있습니다.

Helpful Answer:"""

reduce_prompt = PromptTemplate.from_template(reduce_template)

In [6]:
reduce_chain = LLMChain(llm=llm, prompt=reduce_prompt)

combine_documents_chain = StuffDocumentsChain(
    llm_chain=reduce_chain, document_variable_name="docs"
)

reduce_documents_chain = ReduceDocumentsChain(
    # 아래가 마지막 체인
    combine_documents_chain=combine_documents_chain,
    collapse_documents_chain=combine_documents_chain # If documents exceed context for`StuffDocumentsChain` 
    
#    token_max=4000 # 문서 그룹화 할 최대 토큰 개수
)

In [7]:
# Combining documents by mapping a chain over them, then combining results
map_reduce_chain = MapReduceDocumentsChain(
    # Map chain
    llm_chain=map_chain,
    # Reduce chain
    reduce_documents_chain=reduce_documents_chain,
    
    document_variable_name="docs",
    return_intermediate_steps=False # output에 map_steps 결과 리턴 여부
)


In [8]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 1000,
    chunk_overlap  = 20,
    length_function = len,
    add_start_index = True)

In [9]:
sum_up_lst2 = [[], [], []] # 프롬프트

df_lst = [before_covid_umap_df, covid_umap_df, after_covid_umap_df]

In [10]:
for idx, i in enumerate(df_lst):
    cluster_num = 0
    
    while cluster_num in i['cluster'].values:
        cluster = list(i.loc[i['cluster'] == cluster_num, '초록(국문)'])
        split_docs = text_splitter.create_documents(cluster)

        result = map_reduce_chain.run(split_docs)    
        sum_up_lst2[idx].append(result)
        
        cluster_num += 1

In [13]:
sum_up_lst2[0][1]

'문서들의 주요 테마는 핵융합 분야에서 대학과 대학원 수준의 온라인 비디오 강의 개발과 홍보입니다. 이를 통해 학생들에게 핵융합 분야에서 플라즈마 기초에 대해 깊이 있는 학습 기회를 제공하고 이 분야로의 진입을 용이하게 할 것입니다. 또한, 문서들은 ECSS-E-40과 DO-178C의 요구 사항을 충족하기 위해 아키텍처 기반의 순환 공학 시각화 모델 및 플랫폼 구현, 형식적 방법을 사용한 순환 공학 환경 개발 등을 포함한 우주 소프트웨어의 구성 관리, 품질 보증, 테스트 및 평가, 실패 및 이력 관리, 안전 및 신뢰성 보증에 대한 방법론과 도구의 개발에 대해 논의합니다. 또한, 문서들은 노인들의 추락 위험 평가를 위한 스크리닝 방법론의 개발과 검증, 장기요양보험과 관련된 의료비 절감을 위한 목적으로 논의되며, 추락 예방 전략과 의료비에 미치는 잠재적 영향에 대한 주제를 다룹니다.'

In [15]:
sum_up_lst2

[['문서들의 주요 테마는 다음과 같습니다:\n1. 새로운 제품 개발을 통한 브랜드 인지도 향상\n2. 스타트업 및 기존 기업의 성장으로 인한 총 생산량 증가\n3. 금융, 숙박, 관광, 식당 및 교통 분야에서 고부가가치 제품 및 서비스를 통한 제3차 산업 활성화\n4. 지역 제품의 고부가가치를 통한 하이엔드 시장 확장\n5. 스타트업 기업의 성장으로 인한 고용 및 세금 수입 증가\n6. 지역 산업의 글로벌 인지도로 인한 인구 유입 증가\n\n2. 호텔, 리조트, 수영장 및 식품 및 식물 산업 등에서 동시에 찬물과 뜨거운 물을 제공할 수 있는 냉각 시스템의 개발에 대한 논의가 이루어졌습니다. 이 문서들의 주요 테마는 이 기술을 다양한 산업에 적용하는 도전과 가능성, 그리고 동남아시아의 호텔 및 식품 부문에 가져다 줄 잠재적 이점에 대한 것입니다.\n\n3. 캔디 3D 프린팅 기술의 개발과 활용을 중심으로 한 문서들입니다. 주요 테마로는 수요 주도 기업으로의 기술 이전, 관광 및 문화 제품 개발을 위한 캔디 생산 교육의 활용, 비즈니스 확장을 위한 캔디 3D 프린터의 대량 생산 및 상업화의 확립이 포함됩니다. 또한, 이 문서들은 캔디 3D 프린팅 기술의 식품 기술 분야에서의 응용에 대해서도 언급하고 있습니다.\n\n4. 주어진 문서들의 주요 테마는 쿠팡과 티몬스터와 같은 소셜 커머스 플랫폼을 통한 오프라인 서비스의 확장입니다. 이 서비스는 음식점, 숙박업소 및 여행업 등에서 일정 시간 내에 특정 인원이 모이면 할인된 가격으로 제품을 구매할 수 있는 기회를 제공합니다. 또 다른 주제는 에어비앤비와 암스테르담의 파트너십으로, 플랫폼이 호스트로부터 관광세를 징수하고 도시에 지급하여 호스트가 1년에 최대 60일 동안 자신의 집을 임대할 수 있도록 하는 것입니다. 이 문서들은 서비스 산업에서의 기술과 혁신적인 비즈니스 모델의 활용을 강조합니다.\n\n5. 주어진 문서들은 네트워크 플레이를 가능하게 하는 양자 가상 세계의 개발에 초점을 맞추고 있습니다. 주요 테마로는 양자

In [18]:
sum_up_lst2[2]

['주어진 문서들은 다양한 기술과 분야를 통해 자연 환경의 이용과 보존에 초점을 맞추고 있습니다. 이를 통해 지리적 분포, 구조, 기후 및 생태계 등 경상 분지의 호수에 대한 유용한 데이터를 제공하고 지질 관광 자원으로 활용할 수 있도록 목표로 하고 있습니다. 또한, 호수와 해안 지역에서의 수순 순환 및 오염 물질 행동에 대한 이해를 통해 호수의 보전과 관광 및 상업 가치를 활용하기 위한 연구를 진행하고 있습니다. 마지막으로, 해양 및 극한 미생물을 이용한 가스 전환 기술 개발, 농축 염수를 이용한 기능성 해양 생물 자원 생산, 그리고 다양한 수층의 서식 범위를 기반으로 한 복합 생물 자원 생산 기술 개발을 주요 주제로 다루고 있습니다.',
 '주어진 문서들은 다양한 기술과 분야를 통해 지역 교통 서비스 개선, 기후 변화에 대응한 산림 자원 기술 개발, 도시 공간 위험 분석 및 회복력 강화, 도시 생태계 유지 및 관리 기술 개발, 농촌 관광 및 농업 기술 개발, 재생지 활용을 위한 기술 개발, 농촌 관광 시설 기술 개발, 농촌 교통 서비스 개선 등의 주제를 다루고 있습니다. 이를 통해 지역 발전과 지속 가능한 생태계 조성, 사회 인프라 확대와 유지 등의 목표를 달성하고자 합니다.',
 '주어진 문서들의 주요 테마는 다음과 같습니다: \n1. 새로운 분야에서의 3D 이미지/모델 처리 기술 개발, 관광, 전시 및 공연 산업에 기여할 수 있는 새로운 초경험 예술 장르 창출의 잠재력, 인공지능 기반 초현실 시스템을 이용한 예술, 영화 및 게임 분야에서의 컨셉 시각화와 고품질 CG 배경 생성 등의 다양한 산업에서 초현실 시스템의 활용에 대한 내용입니다.\n2. 몰입형 기술을 공연 예술에 적용하는 것, 초경험 예술의 새로운 장르 창출, 움직이는 이미지를 통합한 새로운 형태의 극장 제시 등의 주요 테마는 관광, 전시 및 공연 예술 분야에서 기술의 활용을 중심으로 새로운 경험을 제공하고 전통적인 예술 형식의 한계를 넘어서는 것입니다.\n3. 얼음 쇼와 공연 분야에서의 고급 

In [9]:
all_df = pd.read_excel('all_df (2).xlsx')

In [11]:


all_lst = [all_df]
all_result = []

for idx, i in enumerate(all_lst):
    cluster_num = 0
    
    while cluster_num in i['cluster'].values:
        cluster = list(i.loc[i['cluster'] == cluster_num, '초록(국문)'])
        split_docs = text_splitter.create_documents(cluster)

        result = map_reduce_chain.run(split_docs)    
        all_result.append(result)
        
        cluster_num += 1
        

In [12]:
all_result

['주어진 문서들은 다양한 기술과 분야를 통해 도시 및 주거 환경의 개선, 도시 재생, 랜드마크의 역할과 가치 향상, 인구 변화와 땅의 이용에 대한 예측과 대응, 그리고 재난 관리와 도시 운영에 대한 효과적인 전략 등을 다루고 있습니다. 이를 통해 미래 도시의 지속 가능성과 삶의 질 향상을 위한 다양한 연구와 모델링이 진행되고 있음을 알 수 있습니다. 주요 주제는 도시 개발과 관리, 환경 보전, 인구 변화와 도시 운영에 대한 전략입니다.',
 '주어진 문서들은 문화 관광 경험을 향상시키기 위해 다양한 기술과 분야의 개발과 통합에 중점을 둔다. 이에는 LED 조명과 프로젝터의 활용, IT 기업과 모바일 기술의 발전, 혁신적인 제품과 디자인의 개발, 문화 유산의 보존과 홍보 등이 포함된다. 전반적으로, 문서들은 기술 혁신, 학문적 연구, 문화와 기술의 통합이 관광 산업에서 중요하다는 점을 강조한다.',
 '주어진 문서들은 circRNA의 기능과 특성화를 이해하기 위해 다양한 기술과 분야를 사용하고 있습니다. 또한, 암 관련 유전자와 종양 억제자 유전자의 발견, 자가포식의 역할과 유전자 발현에 미치는 영향, TRIP-Br 유전자 그룹의 중요성 등에 대해 다루고 있습니다. 또한, 세포사멸 기전, 세포사멸과 관련된 유전자 그룹의 다양한 세포 기능, 그리고 암 진단과 치료에 대한 새로운 생물 표지자와 항체 합성에 관한 연구 등이 주요 주제로 다루어지고 있습니다. 이를 통해 circRNA와 관련된 다양한 분야에서의 연구와 응용이 이루어지고 있음을 알 수 있습니다.',
 '주어진 문서들은 다양한 기술과 분야를 통해 주요 테마를 다루고 있습니다. 이 중에서는 관광, 가상현실, 음식산업, 무인항공기, 문화관광, 교육, 디지털 콘텐츠, 농업, 드론 기술, 지역경제, 의료관광, 그리고 언어 교육 등이 주요 테마로 나타납니다. 이 문서들은 각 분야에서의 기술 개발과 혁신, 경제적 성과, 그리고 관광 산업의 발전을 중점으로 다루고 있습니다. 주어진 문서들은 다양한 기술과 분야에 대한 

In [13]:
len(all_result)

25