In [1]:
import os
from dotenv import find_dotenv, load_dotenv
from langsmith import Client

In [3]:
# load_dotenv()

load_dotenv(find_dotenv())
os.environ["LANGCHAIN_API_KEY"] = str(os.getenv("LANGCHAIN_API_KEY"))
os.environ["LANGCHAIN_TRACING_V2"] = "true"
os.environ["LANGCHAIN_ENDPOINT"] = "https://api.smith.langchain.com"
os.environ["LANGCHAIN_PROJECT"] = "ai pbl final"

In [4]:
client = Client()

## Load data & Make dataframes

In [5]:
import pandas as pd

cluster_keyword_xlsx = "./dataset/cluster_keyword.xlsx"

cluster_keyword_df = pd.read_excel(cluster_keyword_xlsx)

cluster_keyword_df

Unnamed: 0,cluster,keyword
0,0,나노기술 및 소재
1,1,광학 기기 및 시스템
2,2,광학 이론 및 방법론
3,3,레이저 및 영상 기술


In [6]:
import pandas as pd

ntis_all_xlsx = "./dataset/ntis_.xlsx"
gist_all_xlsx = "./dataset/gist_.xlsx"

ntis_all_df = pd.read_excel(ntis_all_xlsx)
gist_all_df = pd.read_excel(gist_all_xlsx)

In [7]:
ntis_all_df

Unnamed: 0,Year,Total Funding(광학),Cluster_0_Funding,Cluster_0_Share,Cluster_1_Funding,Cluster_1_Share,Cluster_2_Funding,Cluster_2_Share,Cluster_3_Funding,Cluster_3_Share
0,2006,21152000000.0,13860000000.0,0.657558,3203000000.0,0.151959,3725000000.0,0.176725,290000000.0,0.013758
1,2007,25728000000.0,14819000000.0,0.577064,3503000000.0,0.13641,4161000000.0,0.162033,3197000000.0,0.124494
2,2008,29743000000.0,16688000000.0,0.561073,4074000000.0,0.136973,4863000000.0,0.163501,4118000000.0,0.138453
3,2009,37342000000.0,20969000000.0,0.562669,5803000000.0,0.155714,5414000000.0,0.145276,5081000000.0,0.13634
4,2010,45577100000.0,26081030000.0,0.574358,6568544000.0,0.144653,7708708000.0,0.169762,5050690000.0,0.111227
5,2011,37926460000.0,21670790000.0,0.576848,5325604000.0,0.141761,6273836000.0,0.167001,4297382000.0,0.114391
6,2012,57156800000.0,36521120000.0,0.642421,8740133000.0,0.153742,4406040000.0,0.077504,7181909000.0,0.126333
7,2013,60930820000.0,40216180000.0,0.663113,3173072000.0,0.05232,8261255000.0,0.136218,8997005000.0,0.148349
8,2014,61880960000.0,42735920000.0,0.691177,1840429000.0,0.029766,8319820000.0,0.134558,8934475000.0,0.144499
9,2015,78683180000.0,57756870000.0,0.735391,3721506000.0,0.047384,6656125000.0,0.084749,10404510000.0,0.132476


In [8]:
gist_all_df

Unnamed: 0,Year,Total Funding(광학),Cluster_0_Funding,Cluster_0_Share,Cluster_1_Funding,Cluster_1_Share,Cluster_2_Funding,Cluster_2_Share,Cluster_3_Funding,Cluster_3_Share
0,2015,934721000.0,160099000.0,0.17128,315618500.0,0.337661,176227000.0,0.188534,282776500.0,0.302525
1,2016,2895727000.0,196396700.0,0.067823,306107800.0,0.10571,1211232000.0,0.418282,1181991000.0,0.408184
2,2017,1427948000.0,377726900.0,0.264524,561389300.0,0.393144,0.0,0.0,488831800.0,0.342332
3,2018,2367748000.0,669467400.0,0.282744,213259800.0,0.090069,64000000.0,0.02703,1421021000.0,0.600157
4,2019,2265831000.0,926615000.0,0.408951,95572140.0,0.04218,50000000.0,0.022067,1193644000.0,0.526802
5,2020,1444876000.0,1247681000.0,0.863522,58180000.0,0.040266,70000000.0,0.048447,69014440.0,0.047765
6,2021,2712777000.0,1613180000.0,0.59466,276430500.0,0.101899,758998000.0,0.279786,64168000.0,0.023654
7,2022,2899862000.0,549747300.0,0.189577,360455600.0,0.124301,1378414000.0,0.475338,611244900.0,0.210784
8,2023,2735804000.0,2029971000.0,0.742002,286965900.0,0.104893,134380000.0,0.049119,284487300.0,0.103987
9,2024,2508613000.0,1209993000.0,0.482336,518894000.0,0.206845,197108500.0,0.078573,582617000.0,0.232247


## Define llm model

In [9]:
from langchain_openai import ChatOpenAI
from langchain.callbacks.base import BaseCallbackHandler

class StreamCallback(BaseCallbackHandler):
    def on_llm_new_token(self, token: str, **kwargs):
        print(token, end="", flush=True)
        
model_base = ChatOpenAI(
    temperature=0,
    # model_name='gpt-4',
    # model_name='gpt-4o',
    model_name='gpt-4-turbo',
    streaming=True,
    callbacks=[StreamCallback()],
    )

## Define df agent

In [10]:
from langchain_experimental.agents.agent_toolkits.pandas.prompt import MULTI_DF_PREFIX

MULTI_DF_PREFIX="""
You are working with {num_dfs} pandas dataframes in Python named df1, df2, df3 etc. 
The agent is capable of performing data analysis on three given dataframes contained within ‘df_list’ and answering user questions.

The dataframes included in ‘df_list’ are as follows:
- df1 (cluster_keyword_df): Presents the keywords represented by each of the four clusters, from cluster 0 to 3.
- df2 (ntis_all_df): This is domestic data. It contains the Total Funding invested in the 'Optics' field, the Funding invested in specific clusters, and the Share of each cluster's Funding relative to the Total Funding by year. The unit of Funding is Korean Won (KRW).
- df3 (gist_all_df): This is institutional (GIST) data. It contains the Total Funding invested in the 'Optics' field, the Funding invested in specific clusters, and the Share of each cluster's Funding relative to the Total Funding by year. The unit of Funding is Korean Won (KRW).

* All questions should be answered in Korean.

You should use the tools below to answer the question posed of you:
"""
# print(MULTI_DF_PREFIX)

In [11]:
from langchain.agents.agent_types import AgentType
from langchain_experimental.agents.agent_toolkits import create_pandas_dataframe_agent

df_list = [cluster_keyword_df, ntis_all_df, gist_all_df]

df_agent = create_pandas_dataframe_agent(
    model_base,
    df_list,
    verbose=True,
    prefix=MULTI_DF_PREFIX,
    include_df_in_prompt=True,
    number_of_head_rows=23,
    agent_type=AgentType.OPENAI_FUNCTIONS,
)

## Make invokes

In [13]:
messages = [
    ("system", """ 
* 현시점은 2024년 입니다.

* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.
* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.
* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.
* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.

* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.

* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.
     """),

    ("human", """
2015년부터 2026년까지의 ‘국내’ 광학 연구비에 대한 전체적인 경향성을 간략하게 서술하여 주십시오.
     """),
]

df_agent.invoke(messages)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "df_list[1].loc[(df_list[1]['Year'] >= 2015) & (df_list[1]['Year'] <= 2026)]"}`


[0m[36;1m[1;3mNameError: name 'df_list' is not defined[0m[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "df2.loc[(df2['Year'] >= 2015) & (df2['Year'] <= 2026)]"}`


[0m[36;1m[1;3m    Year  Total Funding(광학)  Cluster_0_Funding  Cluster_0_Share  \
9   2015       7.868318e+10       5.775687e+10         0.735391   
10  2016       5.350680e+10       3.358006e+10         0.627585   
11  2017       3.885635e+10       2.415502e+10         0.621649   
12  2018       4.233616e+10       2.313942e+10         0.546564   
13  2019       5.776803e+10       3.171453e+10         0.548998   
14  2020       9.441912e+10       6.538011e+10         0.692446   
15  2021       1.063717e+11       6.670580e+10         0.627341   
16  2022       1.202250e+11       7.529682e+10         0.626523   
17  2023    

{'input': [('system',
   ' \n* 현시점은 2024년 입니다.\n\n* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.\n* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.\n* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.\n* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.\n\n* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.\n\n* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.\n     '),
  ('human',
   '\n2015년부터 2026년까지의 ‘국내’ 광학 연구비에 대한 전체적인 경향성을 간략하게 서술하여 주십시오.\n     ')],
 'output': '2015년부터 2026년까지의 국내 광학 연구비는 지속적으로 증가하는 경향을 보였습니다. 2015년에는 약 78조 6천억 원이었던 총 연구비가 2026년에는 약 166조 2천억 원으로 두 배 이상 증가하였습니다.\n\n각 연구 분야별로 살펴보면, "나노기술 및 소재" 분야의 연구비가 가장 큰 비중을 차지하고 있으며, 2015년 약 73.5%에서 2026년 약 60.9%로 점차 감소하는 추세를 보였습니다. 반면, "광학 기기 및 시스템" 분야의 연구비는 2015년 약 4.7%에서 2026년 약 14.0%로 증가하였고, "광학 이론 및 방법론" 분야도 2015년 약 8.5%에서 2026년 약 14.7%로 증가하였습니다. "레이저 및 영상 기술" 분야의 연구비 비율은 2015년 약 13.2%에서 2026년 약 10.3%로 소폭 감소하였습니다.\n\n이러한 데이터는 광학 연구 분야에서 "나노기술 및 소재"의 중요성이 여전히 높지만, 다른 분야들에 대한 연구비 지원도 점차 증가하고 있음을 보여줍니다.'}

In [14]:
messages = [
    ("system", """ 
* 현시점은 2024년 입니다.

* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.
* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.
* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.
* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.

* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.

* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.
     """),

    ("human", """
2020년부터 2025년까지의 연구비 증감 추이를 바탕으로, ‘국내’ 광학 분야의 클러스터들 중 가장 성장이 예상되는 키워드를 구한 후, 그 근거를 제시하시오.
     """),
]

df_agent.invoke(messages)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "df2.loc[df2['Year'].between(2020, 2025), ['Year', 'Cluster_0_Funding', 'Cluster_1_Funding', 'Cluster_2_Funding', 'Cluster_3_Funding']]"}`


[0m[36;1m[1;3m    Year  Cluster_0_Funding  Cluster_1_Funding  Cluster_2_Funding  \
14  2020       6.538011e+10       8.966962e+09       1.132281e+10   
15  2021       6.670580e+10       1.652726e+10       1.266400e+10   
16  2022       7.529682e+10       1.642157e+10       1.819688e+10   
17  2023       6.565663e+10       1.955185e+10       1.748041e+10   
18  2024       8.570297e+10       1.828599e+10       1.970821e+10   
19  2025       9.340497e+10       2.077850e+10       2.205444e+10   

    Cluster_3_Funding  
14       8.749239e+09  
15       1.043390e+10  
16       1.026685e+10  
17       9.752951e+09  
18       1.506443e+10  
19       1.603474e+10  [0m2020년부터 2025년까지의 국내 광학 분야 연구비 데이터를 분석한 결과, 다음과 같은 증감 추이를 확인할 수 있습니다.

- **나노기술 및 

{'input': [('system',
   ' \n* 현시점은 2024년 입니다.\n\n* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.\n* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.\n* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.\n* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.\n\n* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.\n\n* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.\n     '),
  ('human',
   '\n2020년부터 2025년까지의 연구비 증감 추이를 바탕으로, ‘국내’ 광학 분야의 클러스터들 중 가장 성장이 예상되는 키워드를 구한 후, 그 근거를 제시하시오.\n     ')],
 'output': '2020년부터 2025년까지의 국내 광학 분야 연구비 데이터를 분석한 결과, 다음과 같은 증감 추이를 확인할 수 있습니다.\n\n- **나노기술 및 소재**:\n  - 2020년: 65조 3801억 원\n  - 2025년: 93조 4049억 원\n  - 증가액: 28조 248억 원\n\n- **광학 기기 및 시스템**:\n  - 2020년: 8조 9669억 원\n  - 2025년: 20조 7785억 원\n  - 증가액: 11조 8116억 원\n\n- **광학 이론 및 방법론**:\n  - 2020년: 11조 3228억 원\n  - 2025년: 22조 5444억 원\n  - 증가액: 11조 2216억 원\n\n- **레이저 및 영상 기술**:\n  - 2020년: 8조 7492억 원\n  - 2025년: 16조 347억 원\n  - 증가액: 7조 8555억 원\n\n이 데이터를 바탕으로 가장 성장이 예상되는 키워드는 **광학 기기 및 시스템**입니다. 이 키워드에 해당하는 분야의 연구비는 20

In [15]:
messages = [
    ("system", """ 
* 현시점은 2024년 입니다.

* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.
* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.
* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.
* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.

* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.

* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.
     """),

    ("human", """
2020년부터 2025년까지의 연구비 증감 추이를 바탕으로, '국내' 광학 분야의 클러스터들 중 가장 위축이 예상되는 키워드를 구한 후, 그 근거를 제시하시오.
     """),
]

df_agent.invoke(messages)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "df2.loc[df2['Year'].between(2020, 2025), ['Year', 'Cluster_0_Share', 'Cluster_1_Share', 'Cluster_2_Share', 'Cluster_3_Share']]"}`


[0m[36;1m[1;3m    Year  Cluster_0_Share  Cluster_1_Share  Cluster_2_Share  Cluster_3_Share
14  2020         0.692446         0.094970         0.119921         0.092664
15  2021         0.627341         0.155432         0.119100         0.098127
16  2022         0.626523         0.136639         0.151411         0.085427
17  2023         0.583916         0.173884         0.155462         0.086738
18  2024         0.617627         0.131780         0.142029         0.108563
19  2025         0.613406         0.136456         0.144835         0.105303[0m2020년부터 2025년까지 국내 광학 분야의 각 키워드에 대한 연구비 차지 비율을 분석한 결과, 다음과 같은 추이를 확인할 수 있습니다.

- **나노기술 및 소재**: 2020년 69.24%에서 2025년 61.34%로 감소
- **광학 기기 및 시스템**: 2020년 9.50%에서 2025년 13.65%로 증가
- **광학 이론 및 방법론**: 2020년

{'input': [('system',
   ' \n* 현시점은 2024년 입니다.\n\n* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.\n* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.\n* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.\n* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.\n\n* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.\n\n* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.\n     '),
  ('human',
   "\n2020년부터 2025년까지의 연구비 증감 추이를 바탕으로, '국내' 광학 분야의 클러스터들 중 가장 위축이 예상되는 키워드를 구한 후, 그 근거를 제시하시오.\n     ")],
 'output': '2020년부터 2025년까지 국내 광학 분야의 각 키워드에 대한 연구비 차지 비율을 분석한 결과, 다음과 같은 추이를 확인할 수 있습니다.\n\n- **나노기술 및 소재**: 2020년 69.24%에서 2025년 61.34%로 감소\n- **광학 기기 및 시스템**: 2020년 9.50%에서 2025년 13.65%로 증가\n- **광학 이론 및 방법론**: 2020년 11.99%에서 2025년 14.48%로 증가\n- **레이저 및 영상 기술**: 2020년 9.27%에서 2025년 10.53%로 증가\n\n위 데이터를 바탕으로, 2020년부터 2025년까지의 연구비 차지 비율이 가장 크게 감소한 키워드는 **나노기술 및 소재**입니다. 이 키워드의 연구비 비율은 2020년 69.24%에서 2025년 61.34%로 약 7.9%포인트 감소하였습니다. 이는 다른 키워드들이 상대적으로 증가하는 동안, 나노기술 및 소재 분야의 연구비 비율이 지속적으로 감소하고 있음을 나타냅니다. 따라서 이 키워드가

In [16]:
messages = [
    ("system", """ 
* 현시점은 2024년 입니다.

* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.
* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.
* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.
* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.

* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.

* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.
     """),

    ("human", """
'광학' 연구비에 대한 기관(GIST)의 전체적인 경향성을 국내 데이터와 비교하여 간략하게 서술하여 주십시오.
     """),
]

df_agent.invoke(messages)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "df2.loc[df2['Year'] >= 2015, ['Year', 'Total Funding(광학)']].set_index('Year')"}`


[0m[36;1m[1;3m      Total Funding(광학)
Year                   
2015       7.868318e+10
2016       5.350680e+10
2017       3.885635e+10
2018       4.233616e+10
2019       5.776803e+10
2020       9.441912e+10
2021       1.063717e+11
2022       1.202250e+11
2023       1.127271e+11
2024       1.390194e+11
2025       1.525918e+11
2026       1.661642e+11
2027       1.797367e+11
2028       1.933091e+11[0m[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "df3.loc[df3['Year'] >= 2015, ['Year', 'Total Funding(광학)']].set_index('Year')"}`


[0m[36;1m[1;3m      Total Funding(광학)
Year                   
2015       9.347210e+08
2016       2.895727e+09
2017       1.427948e+09
2018       2.367748e+09
2019       2.265831e+09
2020       1.444876e+09
2021       2.712777e+09
2022       2.899862e+09
2023   

{'input': [('system',
   ' \n* 현시점은 2024년 입니다.\n\n* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.\n* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.\n* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.\n* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.\n\n* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.\n\n* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.\n     '),
  ('human',
   "\n'광학' 연구비에 대한 기관(GIST)의 전체적인 경향성을 국내 데이터와 비교하여 간략하게 서술하여 주십시오.\n     ")],
 'output': "국내 데이터와 기관(GIST) 데이터를 비교해보면, 국내 데이터에서 '광학' 연구비는 2015년 약 78조 6832억 원에서 2028년에는 약 193조 3091억 원으로 지속적으로 증가하는 경향을 보입니다. 반면, 기관(GIST) 데이터에서는 2015년 약 9억 3472만 원에서 2028년에는 약 37억 5069만 원으로 증가하였으나, 국내 데이터에 비해 상대적으로 증가 폭이 작습니다.\n\n국내 데이터의 연구비 증가율은 매년 큰 폭으로 증가하고 있으며, 특히 2020년 이후로는 100조 원을 넘어서는 등 매우 높은 증가율을 보이고 있습니다. 반면, 기관(GIST)의 연구비는 비교적 완만한 증가세를 보이며, 연간 증가율도 국내 데이터에 비해 낮습니다.\n\n이러한 차이는 국내 전체 연구비 투자 규모가 기관(GIST)에 비해 월등히 크기 때문에 나타나는 현상으로 보입니다. 기관(GIST)의 연구비는 전체 국내 연구비에 비해 소규모이며, 이는 기관의 연구비가 전체 국내 연구비 증가 추세에 비해 상대적으로 더디게 증가하고 있음을 시사합니다."}

In [21]:
messages = [
    ("system", """ 
* 현시점은 2024년 입니다.

* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.
* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.
* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.
* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.

* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.

* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.
     """),

    ("human", """
GIST 광학 분야의 키워드 중 ‘광학 기기 및 시스템’에 대해, 2020년부터 2025년까지의 연구비 변화 경향을, 국내의 ‘광학 기기 및 시스템’ 연구비 변화 경향과 비교하여 간략하게 서술하여 주십시오.
     
* [국내 데이터 분석, 기관(GIST) 데이터 분석, 분석 결과, 결론] 순으로 답변을 제시해주십시오.
* ‘국내’ 데이터는 국가를 대상으로 한 수치이고, ‘기관’ 데이터는 국가 내 특정 기관을 대상으로한 수치입니다. 따라서 국내 데이터의 연구비 규모가 기관 데이터의 연구비 규모보다 월등히 큰 값을 갖는 것은 당연한 결과이니, 이는 분석 결과에 포함시키지 않도록 합니다.
* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.
     """),
]

df_agent.invoke(messages)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "df2[['Year', 'Cluster_1_Funding']].query('2020 <= Year <= 2025')"}`


[0m[36;1m[1;3m    Year  Cluster_1_Funding
14  2020       8.966962e+09
15  2021       1.652726e+10
16  2022       1.642157e+10
17  2023       1.955185e+10
18  2024       1.828599e+10
19  2025       2.077850e+10[0m[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "df3[['Year', 'Cluster_1_Funding']].query('2020 <= Year <= 2025')"}`


[0m[36;1m[1;3m    Year  Cluster_1_Funding
5   2020       5.818000e+07
6   2021       2.764305e+08
7   2022       3.604556e+08
8   2023       2.869659e+08
9   2024       5.188940e+08
10  2025       3.599169e+08[0m### 국내 데이터 분석
2020년부터 2025년까지 '광학 기기 및 시스템' 분야의 연구비는 다음과 같습니다:
- 2020년: 8,966,962,000원
- 2021년: 16,527,260,000원
- 2022년: 16,421,570,000원
- 2023년: 19,551,850,000원
- 2024년: 18,285,990,000원
- 2025년: 20,778,500,000원

이 기간 동안 연구비는 전반적으로 증가하는 추세를 보였습니다. 특히 2021년에는 202

{'input': [('system',
   ' \n* 현시점은 2024년 입니다.\n\n* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.\n* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.\n* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.\n* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.\n\n* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.\n\n* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.\n     '),
  ('human',
   '\nGIST 광학 분야의 키워드 중 ‘광학 기기 및 시스템’에 대해, 2020년부터 2025년까지의 연구비 변화 경향을, 국내의 ‘광학 기기 및 시스템’ 연구비 변화 경향과 비교하여 간략하게 서술하여 주십시오.\n     \n* [국내 데이터 분석, 기관(GIST) 데이터 분석, 분석 결과, 결론] 순으로 답변을 제시해주십시오.\n* ‘국내’ 데이터는 국가를 대상으로 한 수치이고, ‘기관’ 데이터는 국가 내 특정 기관을 대상으로한 수치입니다. 따라서 국내 데이터의 연구비 규모가 기관 데이터의 연구비 규모보다 월등히 큰 값을 갖는 것은 당연한 결과이니, 이는 분석 결과에 포함시키지 않도록 합니다.\n* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.\n     ')],
 'output': "### 국내 데이터 분석\n2020년부터 2025년까지 '광학 기기 및 시스템' 분야의 연구비는 다음과 같습니다:\n- 2020년: 8,966,962,000원\n- 2021년: 16,527,260,000원\n- 2022년: 16,421,570,000원\n- 2023년: 19,551,850,000원\n- 2024년: 18,285,990,000원\n- 2025년: 20,778,500,

In [20]:
messages = [
    ("system", """ 
* 현시점은 2024년 입니다.

* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.
* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.
* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.
* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.

* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.

* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.
     """),

    ("human", """
GIST 광학 분야의 키워드 중 ‘나노기술 및 소재’에 대해, 2020년부터 2025년까지의 연구비 변화 경향을, 국내의 ‘나노기술 및 소재’ 연구비 변화 경향과 비교하여 간략하게 서술하여 주십시오.
     
* [국내 데이터 분석, 기관(GIST) 데이터 분석, 분석 결과, 결론] 순으로 답변을 제시해주십시오.
* ‘국내’ 데이터는 국가를 대상으로 한 수치이고, ‘기관’ 데이터는 국가 내 특정 기관을 대상으로한 수치입니다. 따라서 국내 데이터의 연구비 규모가 기관 데이터의 연구비 규모보다 월등히 큰 값을 갖는 것은 당연한 결과이니, 이는 분석 결과에 포함시키지 않도록 합니다.
* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.
     """),
]

df_agent.invoke(messages)



[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "df2[['Year', 'Cluster_0_Funding']].query('Year >= 2020 and Year <= 2025')"}`


[0m[36;1m[1;3m    Year  Cluster_0_Funding
14  2020       6.538011e+10
15  2021       6.670580e+10
16  2022       7.529682e+10
17  2023       6.565663e+10
18  2024       8.570297e+10
19  2025       9.340497e+10[0m[32;1m[1;3m
Invoking: `python_repl_ast` with `{'query': "df3[['Year', 'Cluster_0_Funding']].query('Year >= 2020 and Year <= 2025')"}`


[0m[36;1m[1;3m    Year  Cluster_0_Funding
5   2020       1.247681e+09
6   2021       1.613180e+09
7   2022       5.497473e+08
8   2023       2.029971e+09
9   2024       1.209993e+09
10  2025       1.595157e+09[0m### 국내 데이터 분석
2020년부터 2025년까지 '나노기술 및 소재'에 대한 국내 연구비는 다음과 같습니다:
- 2020년: 65조 3801억 원
- 2021년: 66조 7058억 원
- 2022년: 75조 2968억 원
- 2023년: 65조 6566억 원
- 2024년: 85조 7029억 원
- 2025년: 93조 4049억 원

이 기간 동안 연구비는 전반적으로 증가하는 추세를 보였으며, 특히 2022년과 2024년에 큰 

{'input': [('system',
   ' \n* 현시점은 2024년 입니다.\n\n* 모든 답변은 연구비 데이터와 관련된 근거와 함께 제시해주십시오.\n* 모든 답변에 사용되는 연구비의 단위는 “원”으로 표현해주십시오.\n* 모든 답변에 사용되는 비율은 소수점이 아닌, 퍼센트(%)로 표현해주십시오.\n* 모든 답변에 대해 “cluster” 라는 단어는 사용하지 말아주십시오. 대신 각 cluster에 대응되는 "keyword 명"으로 표현해주십시오.\n\n* 연구비에 대한 분석은, 년도별 연구비의 증감 및 차지 비율로 진행해주십시오.\n\n* ‘기관(GIST) 데이터’ 분석은 ’국내 데이터’에 기반 하여 수행해주십시오.\n     '),
  ('human',
   '\nGIST 광학 분야의 키워드 중 ‘나노기술 및 소재’에 대해, 2020년부터 2025년까지의 연구비 변화 경향을, 국내의 ‘나노기술 및 소재’ 연구비 변화 경향과 비교하여 간략하게 서술하여 주십시오.\n     \n* [국내 데이터 분석, 기관(GIST) 데이터 분석, 분석 결과, 결론] 순으로 답변을 제시해주십시오.\n* ‘국내’ 데이터는 국가를 대상으로 한 수치이고, ‘기관’ 데이터는 국가 내 특정 기관을 대상으로한 수치입니다. 따라서 국내 데이터의 연구비 규모가 기관 데이터의 연구비 규모보다 월등히 큰 값을 갖는 것은 당연한 결과이니, 이는 분석 결과에 포함시키지 않도록 합니다.\n     ')],
 'output': "### 국내 데이터 분석\n2020년부터 2025년까지 '나노기술 및 소재'에 대한 국내 연구비는 다음과 같습니다:\n- 2020년: 65조 3801억 원\n- 2021년: 66조 7058억 원\n- 2022년: 75조 2968억 원\n- 2023년: 65조 6566억 원\n- 2024년: 85조 7029억 원\n- 2025년: 93조 4049억 원\n\n이 기간 동안 연구비는 전반적으로 증가하는 추세를 보였으며, 특히 2022년과 2024년에 큰 폭의 증가를 보였습니