In [6]:
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage
from langchain.document_loaders import PyPDFLoader
import pdfplumber
import pandas as pd
import os
from datetime import datetime
from langchain.text_splitter import RecursiveCharacterTextSplitter
import faiss
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings
from langchain_core.runnables import RunnablePassthrough


model = ChatOpenAI(model="gpt-4o-mini")

loader = PyPDFLoader("ai_industry.pdf")
docs = loader.load()

recursive_text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
    is_separator_regex=False,
)

splits = recursive_text_splitter.split_documents(docs)

with pdfplumber.open("ai_industry.pdf") as pdf:
    all_tables = []  
    
    for page_num, page in enumerate(pdf.pages):
        tables = page.extract_tables()  
        
        for table in tables:
            df = pd.DataFrame(table[1:], columns=table[0])
            all_tables.append((page_num, df)) 

embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")
vectorstore = FAISS.from_documents(documents=splits, embedding=embeddings)
retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})

# 프롬프트 파일 로드
prompts = {}
prompt_folder = "C:/Users/hispa/promptengineering/Prompts"
for filename in os.listdir(prompt_folder):
    if filename.endswith(".txt"):
        with open(os.path.join(prompt_folder, filename), "r", encoding="utf-8") as file:
            prompts[filename] = file.read()

class DebugPassThrough(RunnablePassthrough):
    def invoke(self, *args, **kwargs):
        output = super().invoke(*args, **kwargs)
        print("Debug Output:", output)
        return output

class ContextToText(RunnablePassthrough):
    def invoke(self, inputs, config=None, **kwargs):  
        # context의 각 문서를 문자열로 결합
        context_text = "\n".join([doc.page_content for doc in inputs["context"]])
        # 전체 프롬프트를 단일 문자열로 생성
        full_prompt = f"Context: {context_text}\n\nQuestion: {inputs['question']}"
        return full_prompt

# 결과 저장 디렉토리 
result_folder = "C:/Users/hispa/promptengineering/Results"
os.makedirs(result_folder, exist_ok=True)

rag_chain_debug = DebugPassThrough() | ContextToText() | model

In [8]:
while True: 
    print("========================")
    query = input("질문을 입력하세요 (종료하려면 'exit' 입력): ")
    if query == "exit":
        break
    

    for i, (prompt_name, prompt_text) in enumerate(prompts.items(), start=1):
        print(f"\nPrompt {i}: {prompt_name}")
        
        context_documents = retriever.get_relevant_documents(query)
        
        inputs = {"context": context_documents, "question": prompt_text + "\n" + query}

        response = rag_chain_debug.invoke(inputs)

        print(f"Response for {prompt_name}:")
        print(response.content)
        
        timestamp = int(datetime.now().timestamp())
        result_filename = f"{prompt_name.replace('.txt', '')}_result_{timestamp}.txt"
        with open(os.path.join(result_folder, result_filename), "w", encoding="utf-8") as result_file:
            result_file.write(response.content)




질문을 입력하세요 (종료하려면 'exit' 입력):  가트너가 뭐야?



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 18}, page_content='£AI 에이전트 활성화를 위해 향상된 메모리 성능을 갖춘 대체 아키텍처 채택 필요n이스라엘의 AI 스타트업 AI21의 오리 고센(Ori Goshen) CEO가 AI 에이전트를 활성화하려면 트랜스포머(Transformer)* 이외의 새로운 아키텍처**가 필요하다고 주장* 문장 속 단어와 같은 순차 데이터 내의 관계를 추적해 맥락과 의미를 학습하는 신경망 ** AI 시스템이 데이터를 처리하고 학습하기 위한 신경망의 전체적인 구조와 설계 방식을 의미 ∙트랜스포머는 현재 AI 모델 개발에서 가장 많이 사용되는 아키텍처이지만, 다중 에이전트 생태계 조성 측면에서는 한계를 내포∙트랜스포머 아키텍처는 처리하는 컨텍스트가 길수록 속도가 느리고 연산 비용이 많이 드는데, AI 에이전트는 LLM을 여러 차례 호출해야 하고 각 단계에서 광범위한 컨텍스트를 사용하는 경우가 많아 처리 과정에서 지연이 발생n고센 CEO는 ‘맘바(Mamba)’와 ‘잠바(Jamba)’와 같은 대체 아키텍처를 활용하면 AI 에이전트를 더 효율적이고 저렴하게 만들 수 있다고 강조∙카네기멜론⼤와 프린스턴⼤ 연구진이 개발한 맘바는 트랜스포머 모델의 핵심인 어텐션(Attention)* 메커니즘 대신 데이터를 우선순위에 따라 정리하고 입력에 가중치를 부여해 메모리 사용을 최적화* 입력된 데이터 간 연관성을 파악해 상호작용을 계산하는 메커니즘 ∙미스트랄이 2024년 7월 ‘코드스트랄(Codestral) 맘바 7B’를, UAE의 AI 기업 팔콘(Falcon)이 8월 ‘팔콘 맘바 7B’를 출시하는 등, 최근 오픈소스 AI 개발자 사이에서 맘바의 인기가 높아지는 추세∙AI21 역시 맘바 아키텍처를 토대로 더 빠른 추론 시간과 더 긴 컨텍스트를 지원하는 잠바 아키텍처를 활용해 기반모델을 개발n고센 CEO

질문을 입력하세요 (종료하려면 'exit' 입력):  AI21의 CEO에 대해 설명해줘



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 18}, page_content='SPRi AI Brief |  2024-11월호\n16\nAI21 CEO, AI 에이전트에 트랜스포머 아키텍처의 대안 필요성 강조n이스라엘 AI 스타트업 AI21의 오리 고센 CEO는 AI 모델 개발에 주로 활용되는 트랜스포머 아키텍처가 느린 속도와 과도한 연산 비용으로 인해 AI 에이전트에 부적합하다고 지적n고센 CEO는 AI 에이전트를 활성화하려면 메모리 사용을 최적화하여 효율적 연산과 비용 절감을 지원하는 맘바나 잠바와 같은 대체 아키텍처에 주목해야 한다고 주장   \nKEY Contents'), Document(metadata={'source': 'ai_industry.pdf', 'page': 4}, page_content='SPRi AI Brief |  2024-11월호\n2\n미국 백악관 예산관리국, 정부의 책임 있는 AI 조달을 위한 지침 발표n미국 백악관 예산관리국이 바이든 대통령의 AI 행정명령에 따라 연방정부의 책임 있는 AI 조달을 지원하기 위한 지침을 발표 n지침은 정부 기관의 AI 조달 시 AI의 위험과 성과를 관리할 수 있는 모범 관행의 수립 및 최상의 AI 솔루션을 사용하기 위한 공급업체 시장의 경쟁 보장, 정부 기관 간 협업을 요구  \nKEY Contents'), Document(metadata={'source': 'ai_industry.pdf', 'page': 18}, page_content='£AI 에이전트 활성화를 위해 향상된 메모리 성능을 갖춘 대체 아키텍처 채택 필요n이스라엘의 AI 스타트업 AI21의 오리 고센(Ori Goshen) CEO가 AI 에이전트를 활성화하려면 트랜스포머(Transformer)* 이외의 새로운 아키텍처**가 필요하다고 주장* 문장 속 단어와 같은 순차 데이터 내의 관계를 추적

질문을 입력하세요 (종료하려면 'exit' 입력):  gira는 누가 언제 발표했지?



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 15}, page_content='£국무부, AI 연구 우선순위로 포괄적 연구 인프라 조성과 글로벌 도전과제 해결 등 제시n미국 국무부(United States Department of State)가 2024년 9월 23일 국제협력을 통해 안전하고 신뢰할 수 있는 AI 시스템을 개발하기 위한 R&D 원칙과 우선순위, 권장 사항을 제시한 ‘글로벌 AI 연구 의제(Global AI Research Agenda, 이하 GAIRA)’를 발표∙국무부는 2023년 10월 30일 바이든 대통령이 서명한 AI 행정명령에 따라 모든 사람에게 이로운 방식으로 개발·사용되는 AI R&D에 대한 포괄적이고 조정된 접근방식을 마련하고자 GAIRA를 작성하고, AI 연구에서 3가지 권장 원칙으로 △포용성·형평성 △책임 있는 연구 수행 △파트너십과 협업을 제시n국무부는 GAIRA를 통해 안전하고 신뢰할 수 있는 AI를 발전시키기 위한 연구 우선순위를 제시∙(사회 기술 연구) 기술과 사회 간 상호작용에 대한 이해를 심화하고 인간 복지를 향상하는 AI 시스템의 설계와 배포에 관한 연구를 수행 우선∙(포용적 연구 인프라 조성) AI 기술과 시스템의 혁신을 지원하는 데이터와 컴퓨팅 성능, 연구 플랫폼에 대한 접근성을 향상해 AI 연구와 개발 생태계의 다양성을 촉진하고 편향을 완화∙(글로벌 도전과제 해결) 환경 문제, 경제 회복력, 사회복지 등 글로벌 도전 과제 해결에 도움이 되는 AI 애플리케이션을 우선 개발∙(AI 안전과 보안, 신뢰성을 포함한 AI 기초연구) AI는 아직 개발 초기 단계로 안전하고 신뢰할 수 있는 AI 시스템 개발을 위해 더 많은 기술 발전 필요∙(글로벌 노동 시장에서 AI의 영향 연구) AI가 노동 시장에 미치는 여러 측면을 다루는 연구를 수행하고 노동 시장에 미치는 AI의 부정적 영향

질문을 입력하세요 (종료하려면 'exit' 입력):  카나나의 의미?



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 13}, page_content='£카카오의 신규 AI 서비스 ‘카나나’, 개인메이트 ‘나나’와 그룹메이트 ‘카나’로 구현 n카카오가 2024년 10월 22~24일 열린 개발자 컨퍼런스 ‘if(kakaoAI)2024’에서 그룹 전체의 AI 비전과 방향성을 공개하고 통합 AI 브랜드 ‘카나나(Kanana)’를 발표∙사명인 카카오와 함께, ‘나에게 배워 나처럼 생각하고 행동한다’는 의미의 네이티브(Native), ‘배우지 않아도 자연스럽게 사용 가능한 기술’이라는 의미의 내츄럴(Natural) 등의 단어를 조합한 카나나는 ‘가장 나다운 AI’를 의미∙카카오는 동 브랜드를 자사가 개발하는 주요 AI 모델과 신규 서비스의 이름에 두루 사용할 계획으로, AI 메이트 서비스 ‘카나나’ 출시 계획도 공개n카나나는 대화의 맥락 속에서 주요 정보를 기억해 이용자에게 최적화된 답변을 제시하는 ‘AI 메이트’를 지향하며, 개인메이트 ‘나나(nana)’와 그룹메이트 ‘카나(kana)’로 구현∙개인메이트 나나는 이용자와 일대일 대화 및 이용자가 참여한 그룹 대화도 기억해 최적화된 개인화 경험을 제공하며, 일례로 그룹대화에서 나눈 컨퍼런스 참석 일정과 준비물을 기억해 이를 잊지 않도록 메시지로 전송∙카나는 상주하는 그룹대화 안에서의 대화 내용만 기억해 이용자를 지원하며, 가령 스터디 그룹대화에서 함께 읽은 논문 관련 퀴즈를 내주고 채점과 부연 설명을 제공 ∙카카오는 카나나를 카카오톡과 별개의 앱으로 출시할 예정으로, 연내 사내 테스트 버전 출시를 통해 완성도를 높여갈 계획n카카오는 자체 생성AI 모델도 연구개발 중으로, 언어모델은 용량에 따라 △카나나 플래그 △카나나 에센스 △카나나 나노로 분류되며, 글로벌 수준의 성능을 갖춘 에센스와 나노를 중심으로 카카오의 주요 서비스에 적용할 계획n카카오는 이

질문을 입력하세요 (종료하려면 'exit' 입력):  ai 안전성 평가 관점을 설명해줘



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 16}, page_content='SPRi AI Brief |  2024-11월호\n14\n일본 AI안전연구소, AI 안전성에 대한 평가 관점 가이드 발간n일본 AI안전연구소는 AI 개발자나 제공자가 안전성 평가에 참조할 수 있는 ‘AI 안전성에 대한 평가 관점 가이드’를 발표n가이드는 AI 안전성의 핵심 요소를 달성하기 위한 10가지 평가 관점과 함께, 평가를 통해 효과적 조치를 취했을 때의 기대 목표를 제시\nKEY Contents'), Document(metadata={'source': 'ai_industry.pdf', 'page': 16}, page_content='£일본 AI안전연구소, AI 개발자나 제공자의 안전성 평가를 위한 가이드라인 제시n일본 AI안전연구소(Japan AI Safety Institute)가 2024년 9월 25일 AI 개발자나 제공자가 안전성 평가 시에 참조할 수 있는 기본 개념을 제시하는 ‘AI 안전성에 대한 평가 관점 가이드’를 발간∙가이드는 AI 안전성의 핵심 요소로 △인간중심 △안전성 △공평성 △프라이버시 보호 △보안 △투명성을 제시하고, 이를 달성하기 위한 10가지 평가 관점 및 평가를 통한 효과적 조치 이후의 기대 목표를 수립평가 관점관련 AI 안전성 요소 기대 목표유해 정보의 출력 통제인간중심, 안전성, 공정성ŸLLM 시스템이 테러, 범죄, 불쾌한 표현 등 유해 정보의 출력을 통제 가능허위 정보와 조작 방지인간중심, 안전성, 투명성ŸLLM 시스템의 출력에 대한 사실 검증 메커니즘 구축ŸLLM 시스템의 출력에 의한 사용자 결정의 조작 방지공정성과 포용성인간중심, 공정성, 투명성ŸLLM 시스템 출력에 유해한 편향이 없으며 개인이나 집단에 대한 불공정한 차별 부재ŸLLM 시스템의 출력을 모든 최종 사용자가 이해 가능고위험 사용 및 비의

질문을 입력하세요 (종료하려면 'exit' 입력):  가트너 예측을 설명해줘



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 9}, page_content='평가자가 점수를 매겨 비교 후 순승률(Net Win Rate)*을 계산한 결과, 메타 무비 젠은 젠 3와 소라, 클링(Kling) 1.5를 모두 능가* 두 모델(A와 B)에 대하여 3명의 인간 평가자가 A 선호 시 +1점, 동점이면 0점, B 선호 시 –1점을 매기는 식으로 계산해 승률(-100%~100% 값)을 구하며, 승률이 양수면 A 모델 선호, 음수면 B 모델 선호를 의미'), Document(metadata={'source': 'ai_industry.pdf', 'page': 21}, page_content='1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육\n19\n가트너 예측, AI로 인해 엔지니어링 인력의 80%가 역량 향상 필요n가트너에 따르면 생성AI의 도입으로 중장기적으로 소프트웨어 엔지니어링에서 데이터 과학 및 AI/ML 역량의 중요성이 커지면서 AI 엔지니어의 수요가 늘어날 전망n기업들은 AI 엔지니어를 지원하고 기업 내 AI 통합을 촉진하기 위해 AI 개발자 플랫폼에 대한 투자를 강화할 필요\nKEY Contents'), Document(metadata={'source': 'ai_industry.pdf', 'page': 18}, page_content='역시 맘바 아키텍처를 토대로 더 빠른 추론 시간과 더 긴 컨텍스트를 지원하는 잠바 아키텍처를 활용해 기반모델을 개발n고센 CEO는 AI 에이전트가 최근 들어서야 부상하고 있으며 대다수 AI 에이전트가 아직 상용화되지 않은 이유가 트랜스포머로 구축된 LLM의 한계 때문이라고 지적∙AI 에이전트가 상용화되려면 데이터 간 연관성을 파악해 확률적으로 가장 그럴듯한 답변을 생성하는 LLM의 신뢰성을 높여야 하며, 필요한 수준의 신뢰성 보장을 위해서는 추가적인 요

질문을 입력하세요 (종료하려면 'exit' 입력):  cb인사이츠는 스타트업에 대해 어떻게 생각하는지 알려줘



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 8}, page_content='SPRi AI Brief |  2024-11월호\n6\nCB인사이츠 분석 결과, 2024년 3분기 벤처 투자 31%가 AI 스타트업에 집중nCB인사이츠에 따르면 2024년 3분기 AI 스타트업은 전체 벤처 투자의 31%를 유치했으며, AI 스타트업의 투자금 회수 시점은 일반 기업보다 6년 빠른 것으로 확인n그러나 CB인사이츠는 투자자들의 낙관적 기대에도 불구하고 오픈AI와 같은 거대 기업도 비용 통제에 어려움을 겪고 있다며 상당수 AI 스타트업이 실패할 것으로 예상\nKEY Contents'), Document(metadata={'source': 'ai_industry.pdf', 'page': 8}, page_content='£AI 스타트업, 벤처 투자의 최우선 고려 대상으로 부상n글로벌 리서치 기업 CB인사이츠(CB Insights)가 2024년 10월 3일 발표한 2024년 3분기 벤처 현황 보고서에 따르면 2024년 3분기 벤처 자금의 31%가 AI 스타트업에 투자된 것으로 분석  ∙AI 스타트업은 2024년 2분기에 전체 벤처 투자의 35%를 유치하며 역대 최고 비중을 차지했으며, 3분기에도 역대 두 번째로 높은 비중을 기록∙오픈AI의 공동설립자 일리야 수츠케버(Ilya Sutskever)가 2024년 6월 설립한 스타트업 SSI(Safe Superintelligence Inc.)는 10억 달러를 유치하며 3분기 대표적인 AI 투자로 기록∙CB인사이츠가 전 세계 1만 5천 개 이상의 AI 스타트업을 추적한 결과, 전 세계 AI 스타트업의 43%가 미국 기업이며, 다음 순위는 중국이 9%, 영국이 7%, 인도와 캐나다가 각각 4%로 미국과 상당한 격차를 기록n기업가치 10억 달러 이상의 유니콘 기업은 2024년 3분기에 24개가 탄생했으

질문을 입력하세요 (종료하려면 'exit' 입력):  노벨상 수상자 누가 있지



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 14}, page_content='SPRi AI Brief |  2024-11월호\n12\n2024년 노벨 물리학상과 화학상, AI 관련 연구자들이 수상n2024년 노벨 물리학상은 물리학 원리를 바탕으로 인공 신경망을 이용한 머신러닝의 토대가 되는 방법을 개발한 존 홉필드와 제프리 힌턴이 수상 n2024년 노벨 화학상은 단백질 설계에 기여한 데이비드 베이커 및 단백질 구조를 예측하는 AI 모델을 개발한 딥마인드의 데미스 허사비스와 존 점퍼가 수상 \nKEY Contents'), Document(metadata={'source': 'ai_industry.pdf', 'page': 9}, page_content='평가자가 점수를 매겨 비교 후 순승률(Net Win Rate)*을 계산한 결과, 메타 무비 젠은 젠 3와 소라, 클링(Kling) 1.5를 모두 능가* 두 모델(A와 B)에 대하여 3명의 인간 평가자가 A 선호 시 +1점, 동점이면 0점, B 선호 시 –1점을 매기는 식으로 계산해 승률(-100%~100% 값)을 구하며, 승률이 양수면 A 모델 선호, 음수면 B 모델 선호를 의미'), Document(metadata={'source': 'ai_industry.pdf', 'page': 14}, page_content='£노벨 물리학상, 인공 신경망 연구한 존 홉필드 교수와 제프리 힌턴 교수가 수상n스웨덴 왕립과학원 노벨위원회는 2024년 10월 8일 존 홉필드(John Hopfield) 미국 프린스턴⼤ 교수와 제프리 힌턴(Geoffrey Hinton) 캐나다 토론토⼤ 교수에게 인공 신경망을 이용한 머신러닝의 토대가 되는 방법을 개발한 공로로 노벨 물리학상을 수여∙홉필드는 물리학의 원리를 이용해 왜곡되거나 불완전한 입력 패턴과 가장 유사하게 저장된 패턴을 찾아내고 재구성할 

질문을 입력하세요 (종료하려면 'exit' 입력):  주요 행사 일정 안내



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 0}, page_content='2024년 11월호'), Document(metadata={'source': 'ai_industry.pdf', 'page': 1}, page_content='2024년 11월호'), Document(metadata={'source': 'ai_industry.pdf', 'page': 4}, page_content='SPRi AI Brief |  2024-11월호\n2\n미국 백악관 예산관리국, 정부의 책임 있는 AI 조달을 위한 지침 발표n미국 백악관 예산관리국이 바이든 대통령의 AI 행정명령에 따라 연방정부의 책임 있는 AI 조달을 지원하기 위한 지침을 발표 n지침은 정부 기관의 AI 조달 시 AI의 위험과 성과를 관리할 수 있는 모범 관행의 수립 및 최상의 AI 솔루션을 사용하기 위한 공급업체 시장의 경쟁 보장, 정부 기관 간 협업을 요구  \nKEY Contents')], 'question': "prompt1\n\nsystem\n아래의 지침에 따라 행동해\n\n#역할\n-주어진 문서를 기반으로 정확한 정보를 제공하는 AI\n\n#톤\n-전문적\n\n#주의사항 \n-문서에 명시되지 않은 사실은 답변에 포함하지 않음\n-답변에는 문서의 표현을 최소 80% 이상 포함하되, 문맥의 일관성을 유지해야 함\n-사용자가 문서에 없는 내용을 질문할 경우, '해당 내용은 문서에 포함되지 않았습니다'로 답변\n\nhuman\n\nQuestion: {question} \n\nContext: {context} \n\nAnswer:\n\n\n\n\n\n\n\n주요 행사 일정 안내"}
Response for prompt1.txt:
해당 내용은 문서에 포함되지 않았습니다.

Prompt 2: prompt2.txt
Debug Output: {'context': [Do

질문을 입력하세요 (종료하려면 'exit' 입력):  메타 무비 젠의 인간 선호도 평가 승률



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 9}, page_content='평가자가 점수를 매겨 비교 후 순승률(Net Win Rate)*을 계산한 결과, 메타 무비 젠은 젠 3와 소라, 클링(Kling) 1.5를 모두 능가* 두 모델(A와 B)에 대하여 3명의 인간 평가자가 A 선호 시 +1점, 동점이면 0점, B 선호 시 –1점을 매기는 식으로 계산해 승률(-100%~100% 값)을 구하며, 승률이 양수면 A 모델 선호, 음수면 B 모델 선호를 의미'), Document(metadata={'source': 'ai_industry.pdf', 'page': 9}, page_content='<메타 무비 젠과 경쟁 AI 모델의 인간 선호도 평가 승률>\n☞ 출처: Meta, How Meta Movie Gen could usher in a new AI-enabled era for content creators, 2024.10.04.'), Document(metadata={'source': 'ai_industry.pdf', 'page': 11}, page_content='<몰모 제품군과 GPT-4o/GPT-4V의 벤치마크 평균(左)과 인간 선호도 평가(右) 점수 비교>\n☞ 출처: Allen Institute for AI, Introducing Molmo, 2024.09.25.')], 'question': "prompt1\n\nsystem\n아래의 지침에 따라 행동해\n\n#역할\n-주어진 문서를 기반으로 정확한 정보를 제공하는 AI\n\n#톤\n-전문적\n\n#주의사항 \n-문서에 명시되지 않은 사실은 답변에 포함하지 않음\n-답변에는 문서의 표현을 최소 80% 이상 포함하되, 문맥의 일관성을 유지해야 함\n-사용자가 문서에 없는 내용을 질문할 경우, '해당 내용은 문서에 포함되지 않았습니다'로 답변\n\nhuman\n\

질문을 입력하세요 (종료하려면 'exit' 입력):  라마3.2와 몰모 중 더 우수한 것은?



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 10}, page_content='£라마 3.2 90B 모델, 이미지 인식과 시각적 이해에서 GPT-4o-미니와 대등한 성능n메타가 2024년 9월 25일 ‘라마(Llama)’ 시리즈 최초로 이미지와 텍스트를 모두 처리하는 ‘라 마 3.2’를 공개∙라마 3.2 시리즈는 이미지를 처리하는 비전(Vision) 기능을 갖춘 매개변수 110억 개(11B)와 900억 개(90B)의 모델 및 모바일 기기에 적합한 매개변수 10억 개(1B)와 30억 개(3B)의 경량 모델로 구성∙2024년 7월 공개된 라마 3.1과 비교해 라마 3.2는 전반적 성능 향상 외 비전 기능이 추가되어 이미지 추론을 지원하며 모바일 기기에서 실행 가능한 경량 모델이 추가되어 접근성을 향상n라마 3.2 시리즈 중 11B와 90B 모델은 차트와 그래프를 포함한 문서 이해, 이미지 캡션, 이미지 안의 물체 식별과 같은 이미지 추론을 지원∙라마 3.2는 이미지에서 세부 정보를 추출하고 장면을 이해하여 이미지 캡션으로 사용할 수 있도록 내용을 전달하는 문장을 생성 가능∙이미지 인식과 시각적 이해 관련 90B 모델의 벤치마크 평가 결과는 앤스로픽(Anthropic)의 ‘클로드 3-하이쿠’나 오픈AI의 ‘GPT-4o-미니’와 대등한 수준으로, 일례로 시각적 수학 추론(MathVista)에서 57.3점으로 클로드 3-하이쿠(46.4점)와 GPT-4o-미니(56.7점)를 능가 n라마 3.2 시리즈 중 1B와 3B 경량 모델은 12만 8천 개 토큰의 컨텍스트 창을 지원하고 다국어 텍스트 생성과 도구 호출 기능을 제공하며, 데이터를 기기 내에 보관하는 온디바이스 앱 개발에 특화∙모델 평가 결과, 3B 모델은 지시 이행, 요약, 신속한 재작성 및 도구 사용과 같은 작업에서 구글(Google)의 ‘젬마 2 2.6B’ 및 마이크로소프

질문을 입력하세요 (종료하려면 'exit' 입력):  몰모에 대해 알려줘



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 11}, page_content='KEY Contents £몰모-72B 모델, 벤치마크 평가에서 GPT-4o와 제미나이 1.5 Pro 능가n미국 비영리 연구기관 앨런AI연구소(Allen Institute for AI, 이하 AI2)가 2024년 9월 25일 오픈소스 멀티모달 LLM 제품군 ‘몰모(Molmo)’를 공개∙몰모는 가장 규모가 크고 성능이 뛰어난 72B와 데모 모델 7B-D, 개방성이 가장 높은 7B-O, 70억 개의 전체 매개변수 중 10억 개만 활성화하는 전문가혼합(MoE) 모델 E-1B의 4개 모델로 구성되며, 이 중 E-1B 모델은 온디바이스 실행 가능∙몰모는 데이터 규모보다 품질을 중시하는 학습 방식으로 데이터 효율성이 뛰어나 컴퓨팅 자원이 한정된 환경에서도 사용 가능한 것이 장점∙몰모는 일상 사물과 표지판, 복잡한 차트, 시계, 메뉴판 등 다양한 시각 자료를 이해하고 이미지를 구성하는 요소를 정확히 지목할 수 있어, 화면과 현실 세계 간 복잡한 상호작용(예: 비행기 표 예약)이 필요한 웹 에이전트나 로봇 개발에도 유리∙AI2는 몰모의 언어와 시각 훈련 데이터, 미세조정 데이터, 모델 가중치, 소스코드를 모두 공개하고 연구와 상업적 목적의 활용을 허용nAI2에 따르면 몰모-72B 모델은 주요 벤치마크와 인간 선호도 평가*에서 첨단 폐쇄형 모델을 능가* 870명의 인간 평가자에게 다양한 이미지와 텍스트 프롬프트 쌍에 대한 모델 간 응답을 비교해 선호도 평가를 요청해 순위를 산정  ∙몰모-72B는 11개 벤치마크 평균 점수 81.2점으로 ‘GPT-4o’(78.5점), ‘제미나이 1.5 Pro’(78.3점), ‘클로드-3.5 소네트’(76.7점)를 넘는 최고 점수를 기록했으며 인간 선호도 평가에서는 1077점으로 GPT-4o(1079점)에 이어 2위∙전문가혼합 

질문을 입력하세요 (종료하려면 'exit' 입력):  라마3.2와 알파카3.2를 비교해줘



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 10}, page_content='£라마 3.2 90B 모델, 이미지 인식과 시각적 이해에서 GPT-4o-미니와 대등한 성능n메타가 2024년 9월 25일 ‘라마(Llama)’ 시리즈 최초로 이미지와 텍스트를 모두 처리하는 ‘라 마 3.2’를 공개∙라마 3.2 시리즈는 이미지를 처리하는 비전(Vision) 기능을 갖춘 매개변수 110억 개(11B)와 900억 개(90B)의 모델 및 모바일 기기에 적합한 매개변수 10억 개(1B)와 30억 개(3B)의 경량 모델로 구성∙2024년 7월 공개된 라마 3.1과 비교해 라마 3.2는 전반적 성능 향상 외 비전 기능이 추가되어 이미지 추론을 지원하며 모바일 기기에서 실행 가능한 경량 모델이 추가되어 접근성을 향상n라마 3.2 시리즈 중 11B와 90B 모델은 차트와 그래프를 포함한 문서 이해, 이미지 캡션, 이미지 안의 물체 식별과 같은 이미지 추론을 지원∙라마 3.2는 이미지에서 세부 정보를 추출하고 장면을 이해하여 이미지 캡션으로 사용할 수 있도록 내용을 전달하는 문장을 생성 가능∙이미지 인식과 시각적 이해 관련 90B 모델의 벤치마크 평가 결과는 앤스로픽(Anthropic)의 ‘클로드 3-하이쿠’나 오픈AI의 ‘GPT-4o-미니’와 대등한 수준으로, 일례로 시각적 수학 추론(MathVista)에서 57.3점으로 클로드 3-하이쿠(46.4점)와 GPT-4o-미니(56.7점)를 능가 n라마 3.2 시리즈 중 1B와 3B 경량 모델은 12만 8천 개 토큰의 컨텍스트 창을 지원하고 다국어 텍스트 생성과 도구 호출 기능을 제공하며, 데이터를 기기 내에 보관하는 온디바이스 앱 개발에 특화∙모델 평가 결과, 3B 모델은 지시 이행, 요약, 신속한 재작성 및 도구 사용과 같은 작업에서 구글(Google)의 ‘젬마 2 2.6B’ 및 마이크로소프

질문을 입력하세요 (종료하려면 'exit' 입력):  gaira가 발표된 날짜



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 15}, page_content='£국무부, AI 연구 우선순위로 포괄적 연구 인프라 조성과 글로벌 도전과제 해결 등 제시n미국 국무부(United States Department of State)가 2024년 9월 23일 국제협력을 통해 안전하고 신뢰할 수 있는 AI 시스템을 개발하기 위한 R&D 원칙과 우선순위, 권장 사항을 제시한 ‘글로벌 AI 연구 의제(Global AI Research Agenda, 이하 GAIRA)’를 발표∙국무부는 2023년 10월 30일 바이든 대통령이 서명한 AI 행정명령에 따라 모든 사람에게 이로운 방식으로 개발·사용되는 AI R&D에 대한 포괄적이고 조정된 접근방식을 마련하고자 GAIRA를 작성하고, AI 연구에서 3가지 권장 원칙으로 △포용성·형평성 △책임 있는 연구 수행 △파트너십과 협업을 제시n국무부는 GAIRA를 통해 안전하고 신뢰할 수 있는 AI를 발전시키기 위한 연구 우선순위를 제시∙(사회 기술 연구) 기술과 사회 간 상호작용에 대한 이해를 심화하고 인간 복지를 향상하는 AI 시스템의 설계와 배포에 관한 연구를 수행 우선∙(포용적 연구 인프라 조성) AI 기술과 시스템의 혁신을 지원하는 데이터와 컴퓨팅 성능, 연구 플랫폼에 대한 접근성을 향상해 AI 연구와 개발 생태계의 다양성을 촉진하고 편향을 완화∙(글로벌 도전과제 해결) 환경 문제, 경제 회복력, 사회복지 등 글로벌 도전 과제 해결에 도움이 되는 AI 애플리케이션을 우선 개발∙(AI 안전과 보안, 신뢰성을 포함한 AI 기초연구) AI는 아직 개발 초기 단계로 안전하고 신뢰할 수 있는 AI 시스템 개발을 위해 더 많은 기술 발전 필요∙(글로벌 노동 시장에서 AI의 영향 연구) AI가 노동 시장에 미치는 여러 측면을 다루는 연구를 수행하고 노동 시장에 미치는 AI의 부정적 영향

질문을 입력하세요 (종료하려면 'exit' 입력):  중국 ai안전연구소가 ai 안정성에 대한 평가 관점 가이드를 제시한 날짜



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 16}, page_content='£일본 AI안전연구소, AI 개발자나 제공자의 안전성 평가를 위한 가이드라인 제시n일본 AI안전연구소(Japan AI Safety Institute)가 2024년 9월 25일 AI 개발자나 제공자가 안전성 평가 시에 참조할 수 있는 기본 개념을 제시하는 ‘AI 안전성에 대한 평가 관점 가이드’를 발간∙가이드는 AI 안전성의 핵심 요소로 △인간중심 △안전성 △공평성 △프라이버시 보호 △보안 △투명성을 제시하고, 이를 달성하기 위한 10가지 평가 관점 및 평가를 통한 효과적 조치 이후의 기대 목표를 수립평가 관점관련 AI 안전성 요소 기대 목표유해 정보의 출력 통제인간중심, 안전성, 공정성ŸLLM 시스템이 테러, 범죄, 불쾌한 표현 등 유해 정보의 출력을 통제 가능허위 정보와 조작 방지인간중심, 안전성, 투명성ŸLLM 시스템의 출력에 대한 사실 검증 메커니즘 구축ŸLLM 시스템의 출력에 의한 사용자 결정의 조작 방지공정성과 포용성인간중심, 공정성, 투명성ŸLLM 시스템 출력에 유해한 편향이 없으며 개인이나 집단에 대한 불공정한 차별 부재ŸLLM 시스템의 출력을 모든 최종 사용자가 이해 가능고위험 사용 및 비의도적 사용 대처인간중심, 안전성ŸLLM 시스템이 본래 목적과 다르게 부적절하게 사용되어도 피해나 불이익 미발생 개인정보 보호프라이버시 보호ŸLLM 시스템이 정보의 중요성에 따라 프라이버시를 적절히 보호보안 보안 ŸLLM 시스템의 허가되지 않은 운영 및 비의도적 수정 또는 중단으로 인한 기밀정보의 유출 방지설명 가능성투명성ŸLLM 시스템 작동에 대한 증거 제시 등을 목적으로 출력의 근거를 기술적으로 합리적인 범위에서 확인 가능견고성안전성, 투명성ŸLLM 시스템이 적대적 프롬프트, 왜곡된 데이터 및 잘못된 입력 등 예상치 않은 입력에 대해 안정

질문을 입력하세요 (종료하려면 'exit' 입력):  맘바! 잠바!



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 0}, page_content='2024년 11월호'), Document(metadata={'source': 'ai_industry.pdf', 'page': 1}, page_content='2024년 11월호'), Document(metadata={'source': 'ai_industry.pdf', 'page': 10}, page_content='£라마 3.2 90B 모델, 이미지 인식과 시각적 이해에서 GPT-4o-미니와 대등한 성능n메타가 2024년 9월 25일 ‘라마(Llama)’ 시리즈 최초로 이미지와 텍스트를 모두 처리하는 ‘라 마 3.2’를 공개∙라마 3.2 시리즈는 이미지를 처리하는 비전(Vision) 기능을 갖춘 매개변수 110억 개(11B)와 900억 개(90B)의 모델 및 모바일 기기에 적합한 매개변수 10억 개(1B)와 30억 개(3B)의 경량 모델로 구성∙2024년 7월 공개된 라마 3.1과 비교해 라마 3.2는 전반적 성능 향상 외 비전 기능이 추가되어 이미지 추론을 지원하며 모바일 기기에서 실행 가능한 경량 모델이 추가되어 접근성을 향상n라마 3.2 시리즈 중 11B와 90B 모델은 차트와 그래프를 포함한 문서 이해, 이미지 캡션, 이미지 안의 물체 식별과 같은 이미지 추론을 지원∙라마 3.2는 이미지에서 세부 정보를 추출하고 장면을 이해하여 이미지 캡션으로 사용할 수 있도록 내용을 전달하는 문장을 생성 가능∙이미지 인식과 시각적 이해 관련 90B 모델의 벤치마크 평가 결과는 앤스로픽(Anthropic)의 ‘클로드 3-하이쿠’나 오픈AI의 ‘GPT-4o-미니’와 대등한 수준으로, 일례로 시각적 수학 추론(MathVista)에서 57.3점으로 클로드 3-하이쿠(46.4점)와 GPT-4o-미니(56.7점)를 능가 n라마 3.2 시리즈 중 1B와 3B 경

질문을 입력하세요 (종료하려면 'exit' 입력):  맘바 잠바



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 10}, page_content='£라마 3.2 90B 모델, 이미지 인식과 시각적 이해에서 GPT-4o-미니와 대등한 성능n메타가 2024년 9월 25일 ‘라마(Llama)’ 시리즈 최초로 이미지와 텍스트를 모두 처리하는 ‘라 마 3.2’를 공개∙라마 3.2 시리즈는 이미지를 처리하는 비전(Vision) 기능을 갖춘 매개변수 110억 개(11B)와 900억 개(90B)의 모델 및 모바일 기기에 적합한 매개변수 10억 개(1B)와 30억 개(3B)의 경량 모델로 구성∙2024년 7월 공개된 라마 3.1과 비교해 라마 3.2는 전반적 성능 향상 외 비전 기능이 추가되어 이미지 추론을 지원하며 모바일 기기에서 실행 가능한 경량 모델이 추가되어 접근성을 향상n라마 3.2 시리즈 중 11B와 90B 모델은 차트와 그래프를 포함한 문서 이해, 이미지 캡션, 이미지 안의 물체 식별과 같은 이미지 추론을 지원∙라마 3.2는 이미지에서 세부 정보를 추출하고 장면을 이해하여 이미지 캡션으로 사용할 수 있도록 내용을 전달하는 문장을 생성 가능∙이미지 인식과 시각적 이해 관련 90B 모델의 벤치마크 평가 결과는 앤스로픽(Anthropic)의 ‘클로드 3-하이쿠’나 오픈AI의 ‘GPT-4o-미니’와 대등한 수준으로, 일례로 시각적 수학 추론(MathVista)에서 57.3점으로 클로드 3-하이쿠(46.4점)와 GPT-4o-미니(56.7점)를 능가 n라마 3.2 시리즈 중 1B와 3B 경량 모델은 12만 8천 개 토큰의 컨텍스트 창을 지원하고 다국어 텍스트 생성과 도구 호출 기능을 제공하며, 데이터를 기기 내에 보관하는 온디바이스 앱 개발에 특화∙모델 평가 결과, 3B 모델은 지시 이행, 요약, 신속한 재작성 및 도구 사용과 같은 작업에서 구글(Google)의 ‘젬마 2 2.6B’ 및 마이크로소프

질문을 입력하세요 (종료하려면 'exit' 입력):  맘바



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 10}, page_content='£라마 3.2 90B 모델, 이미지 인식과 시각적 이해에서 GPT-4o-미니와 대등한 성능n메타가 2024년 9월 25일 ‘라마(Llama)’ 시리즈 최초로 이미지와 텍스트를 모두 처리하는 ‘라 마 3.2’를 공개∙라마 3.2 시리즈는 이미지를 처리하는 비전(Vision) 기능을 갖춘 매개변수 110억 개(11B)와 900억 개(90B)의 모델 및 모바일 기기에 적합한 매개변수 10억 개(1B)와 30억 개(3B)의 경량 모델로 구성∙2024년 7월 공개된 라마 3.1과 비교해 라마 3.2는 전반적 성능 향상 외 비전 기능이 추가되어 이미지 추론을 지원하며 모바일 기기에서 실행 가능한 경량 모델이 추가되어 접근성을 향상n라마 3.2 시리즈 중 11B와 90B 모델은 차트와 그래프를 포함한 문서 이해, 이미지 캡션, 이미지 안의 물체 식별과 같은 이미지 추론을 지원∙라마 3.2는 이미지에서 세부 정보를 추출하고 장면을 이해하여 이미지 캡션으로 사용할 수 있도록 내용을 전달하는 문장을 생성 가능∙이미지 인식과 시각적 이해 관련 90B 모델의 벤치마크 평가 결과는 앤스로픽(Anthropic)의 ‘클로드 3-하이쿠’나 오픈AI의 ‘GPT-4o-미니’와 대등한 수준으로, 일례로 시각적 수학 추론(MathVista)에서 57.3점으로 클로드 3-하이쿠(46.4점)와 GPT-4o-미니(56.7점)를 능가 n라마 3.2 시리즈 중 1B와 3B 경량 모델은 12만 8천 개 토큰의 컨텍스트 창을 지원하고 다국어 텍스트 생성과 도구 호출 기능을 제공하며, 데이터를 기기 내에 보관하는 온디바이스 앱 개발에 특화∙모델 평가 결과, 3B 모델은 지시 이행, 요약, 신속한 재작성 및 도구 사용과 같은 작업에서 구글(Google)의 ‘젬마 2 2.6B’ 및 마이크로소프

질문을 입력하세요 (종료하려면 'exit' 입력):  SPRi에 대해 알려줘



Prompt 1: prompt1.txt
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 24}, page_content='경기도 성남시 분당구 대왕판교로 712번길 22 글로벌 R&D 연구동(B) 4층22, Daewangpangyo-ro 712beon-gil, Bundang-gu, Seongnam-si, Gyeonggi-do, Republic of Korea, 13488\n홈페이지 : https://spri.kr/보고서와 관련된 문의는 AI정책연구실(hs.lee@spri.kr, 031-739-7333)로 연락주시기 바랍니다.'), Document(metadata={'source': 'ai_industry.pdf', 'page': 18}, page_content='SPRi AI Brief |  2024-11월호\n16\nAI21 CEO, AI 에이전트에 트랜스포머 아키텍처의 대안 필요성 강조n이스라엘 AI 스타트업 AI21의 오리 고센 CEO는 AI 모델 개발에 주로 활용되는 트랜스포머 아키텍처가 느린 속도와 과도한 연산 비용으로 인해 AI 에이전트에 부적합하다고 지적n고센 CEO는 AI 에이전트를 활성화하려면 메모리 사용을 최적화하여 효율적 연산과 비용 절감을 지원하는 맘바나 잠바와 같은 대체 아키텍처에 주목해야 한다고 주장   \nKEY Contents'), Document(metadata={'source': 'ai_industry.pdf', 'page': 4}, page_content='SPRi AI Brief |  2024-11월호\n2\n미국 백악관 예산관리국, 정부의 책임 있는 AI 조달을 위한 지침 발표n미국 백악관 예산관리국이 바이든 대통령의 AI 행정명령에 따라 연방정부의 책임 있는 AI 조달을 지원하기 위한 지침을 발표 n지침은 정부 기관의 AI 조달 시 AI의 위험과 성과를 관리할 수 있는 모범 관행의 수립 및 최상의 AI 솔루션을 사용하기 

질문을 입력하세요 (종료하려면 'exit' 입력):  exit


# 평가기준
- 평가항목은 각각 1점부터 5점까지로 평가되며 1점은 전혀 만족하지 못 함, 5점은 매우 만족함
- **정확성:** 응답이 문서 내용에 근거하여 올바른지
- **간결성:** 응답이 지나치게 장황하고 불필요하지 않은지
  - prompt1에서 문서에 포함되지 않았다는 답변은 간결성을 평가하지 않음
  - prompt2는 100자 제한을 만족했는지 확인
- **가독성:** 응답이 읽기 쉬운지
- **목표달성도:** 프롬프트가 의도한 목표를 잘 달성했는지
  - prompt1: 문서 기반 정확한 응답
  - prompt2: 문서 기반 간결한 응답
  - prompt3: 문서 기반 쉽고 친절한 응답 및 기관 홍보

# 점수
| Prompt   | 정확성 (40%) | 간결성 (10%) | 가독성 (10%) | 목표달성도 (40%) | 총점    |
|----------|--------------|--------------|--------------|------------------|---------|
| prompt1  | 3.3          | 4.3          | 5            | 3.3              | 3.57 /5 |
| prompt2  | 4.1          | 4.7          | 4.8          | 4.2              | 4.27 /5 |
| prompt3  | 4.2          | 3.7          | 4.9          | 4.6              | 4.38 /5 |

# 평가결과

## prompt1
1. 프롬프트 엔지니어링 전 코드로 문맥에 맞게 대답하라고 지시한 모델보다도 여러 방면에서 더 나쁜 성능을 보이는 듯함
2. 문서의 내용에 따라 답변하도록 강조하여 오히려 유연성이 떨어지는 것으로 보임

## prompt2
1. 답변을 최대한 하라고 노력하라는 지침을 주자 오히려 적절한 답변들이 나올 때가 있음
2. 다만 질문이 부정확하거나 난해하면 잘못된 답변을 내놓게 됨

## prompt3
1. 주의사항 지침 3, 4번이 정확하게 작성되지 않은 문제로 간결성 점수가 낮아짐
2. 홍보담당이라는 역할을 준 덕분에 사용자의 편의가 증가함
3. 친절한 톤이지만 그 때문에 답변이 길어짐

# 결론 및 점검사항

- **prompt2**와 **prompt3**을 적절히 수정하고 결합하면 더 좋은 프롬프트가 될 것 같다.
- **평가기준의 객관성과 적절성**을 확보할 필요가 있다.