In [1]:
from langchain_openai import ChatOpenAI
from langchain_core.messages import HumanMessage
from langchain.document_loaders import PyPDFLoader

# 모델 초기화
model = ChatOpenAI(model="gpt-4o-mini")

# PDF 파일 로드. 파일의 경로 입력
loader = PyPDFLoader("ai_industry.pdf")

# 페이지 별 문서 로드
docs = loader.load()

In [2]:
# from langchain.text_splitter import CharacterTextSplitter

# text_splitter = CharacterTextSplitter(
#     separator="\n\n",
#     chunk_size=100,
#     chunk_overlap=10,
#     length_function=len,
#     is_separator_regex=False,
# )

# splits = text_splitter.split_documents(docs)

# CharacterTextSplitter: 문서를 정해진 기준에 따라 작은 덩어리로 나눠준다.
## separator 
* 문서를 나누는 구분자
* 여기서는 줄바꿈2회(\n\n) 기준으로 문서를 나눈다.
## chunk_size 
* 분할된 텍스트의 최대길이
* spearator로 나눈 문서가 chunk size보다 크면 overlap을 고려해서 100자 이내로 나눈다. 
* 최종적으로 모든 청크는 100자를 넘지 않는다.
## chunk_overlap
* 분할한 덩어리 중 겹치는 문자 수로, 덩어리끼리 중복되는 부분을 포함하여 문맥을 더 잘 이해하게 함
## length_function
* 덩어리 길이 계산함수로 len을 사용한다는 뜻
## is_separator_regex
* 구분자를 정규 표현식으로 사용할지 여부
* 여기서 True 옵션을 주면? 예를 들어 chapter+숫자 라는 단어가 나오면 분할을 한다거나 마침표나 물음표등이 나오면 문할하는 등 복잡한 패턴을 기반으로 분할할 수 있다.

In [4]:
# len(splits)

In [5]:
#청킹내용이 50개가 안되는데 상위 50개까지 어떻게 출력하지?

In [6]:
# for i, chunk in enumerate(splits[:50]):
#     print(f"청크 {i + 1}")
#     print(chunk)

In [7]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

recursive_text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=30,
    length_function=len,
    is_separator_regex=False,
)

splits = recursive_text_splitter.split_documents(docs)

# RecursiveCharacterTextSplitter
* recursive란 재귀하는, 사건이 자기 자신을 포함하고 다시 자기 자신을 사용하여 정의됨을 이르는 말
* 길이에 따라 텍스트를 분할하는 것은 charactertextsplitter와 비슷하지만, 주어진 구분자를 여러 번 적용하여 점진적으로 분할한다는 점이 다르다.
* 파라미터들은 charactertextsplitter와 크게 다르지 않은데, 차이는 separator를 지정하지 않았다는 점이다.
* 구분자를 명시하지 않으면 기본구분자 목록에서 큰 구분자부터 작은 구분자로 점진적으로 텍스트를 나눈다.

In [9]:
for i, chunk in enumerate(splits[:50]):
    print(f"청크 {i + 1}")
    print(chunk.page_content)

청크 1
2024년 11월호
청크 2
2024년 11월호
청크 3
Ⅰ. 인공지능 산업 동향 브리프 1. 정책/법제    ▹ 미국 민권위원회, 연방정부의 얼굴인식 기술 사용에 따른 민권 영향 분석························1
청크 4
분석························1   ▹ 미국 백악관 예산관리국, 정부의 책임 있는 AI 조달을 위한 지침
청크 5
예산관리국, 정부의 책임 있는 AI 조달을 위한 지침 발표·····························2   ▹ 유로폴, 법 집행에서 AI의 이점과 과제를 다룬 보고서
청크 6
법 집행에서 AI의 이점과 과제를 다룬 보고서 발간··············································3   ▹ OECD, 공공 부문의 AI 도입을
청크 7
▹ OECD, 공공 부문의 AI 도입을 위한 G7 툴킷 발표··························································4   ▹
청크 8
▹ 세계경제포럼, 생성AI 시대의 거버넌스 프레임워크 제시····················································5  2. 기업/산업
청크 9
2. 기업/산업    ▹ CB인사이츠 분석 결과, 2024년 3분기 벤처 투자 31%가 AI 스타트업에 집중··············6   ▹ 메타, 동영상 생성AI 도구
청크 10
▹ 메타, 동영상 생성AI 도구 ‘메타 무비 젠’
청크 11
▹ 메타, 동영상 생성AI 도구 ‘메타 무비 젠’ 공개···································································7
청크 12
▹ 메타, 이미지와 텍스트 처리하는 첫 멀티모달 AI 모델 ‘라마 3.2’ 공개···························8   ▹ 앨런AI연구소, 벤치마크 평가에서
청크 13
▹ 앨런AI연구소, 벤치마크 평가에서 GPT-4o 능가하는 

In [10]:
for i, chunk in enumerate(splits[-50:]):
    print(f"청크 {i + 1}")
    print(chunk.page_content)

청크 1
기술이 엔지니어링의 필수 역량이 될 전망* 외부 데이터를 활용하여 LLM의 출력 정확성을 향상하는 기술∙장기적으로는 기업 내 AI 기반 소프트웨어 수요가 증가하면서 이를 충족하기
청크 2
AI 기반 소프트웨어 수요가 증가하면서 이를 충족하기 위해 소프트웨어 엔지니어링, 데이터 과학, AI/ML(머신러닝) 분야의 고유한 기술을 갖춘 훨씬 숙련된 AI 엔지니어가
청크 3
고유한 기술을 갖춘 훨씬 숙련된 AI 엔지니어가 부상할 전망£AI 엔지니어를 지원하기 위해 기업의 AI 개발자 플랫폼 투자 필요n가트너가 2023년 4분기에 미국과 영국 기업
청크 4
필요n가트너가 2023년 4분기에 미국과 영국 기업 300개를 대상으로 실시한 설문조사에 따르면 소프트웨어 엔지니어링 책임자의 56%가 AI/ML 엔지니어를 2024년 가장
청크 5
56%가 AI/ML 엔지니어를 2024년 가장 수요가 많은 직업으로 평가∙기업들은 AI 엔지니어를 지원하기 위해 AI 개발자 플랫폼에 투자해야 하며, AI 개발자 플랫폼은 기업이
청크 6
플랫폼에 투자해야 하며, AI 개발자 플랫폼은 기업이 AI 역량을 더욱 효율적으로 구축하고 AI를 기업 솔루션에 대규모로 통합하는 데 도움이 될 전망∙기업들은 AI 개발자 플랫폼
청크 7
데 도움이 될 전망∙기업들은 AI 개발자 플랫폼 투자를 통해 소프트웨어 엔지니어링팀의 역량을 강화하고 지속적인 AI 통합과 개발을 추진하는 도구와 프로세스를 채택 필요 ☞
청크 8
개발을 추진하는 도구와 프로세스를 채택 필요 ☞  출처: Gartner, Gartner Says Generative AI will Require 80% of Engineering
청크 9
Require 80% of Engineering Workforce to Upskill Through 2027, 2024.10.03.
청크 10
SPRi AI Brief |  2024-11월호
20
청크 11
인디드 조사 결과, 생성AI가 인간 근로자 대체할 가능성은 희박n인디드가 2,800개 이상의

In [11]:
import faiss
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

# OpenAI 임베딩 모델 초기화
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

vectorstore = FAISS.from_documents(documents=splits, embedding=embeddings)

retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 3})

In [12]:
from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

# 프롬프트 템플릿 정의
contextual_prompt = ChatPromptTemplate.from_messages([
    ("system", "Answer the question using only the following context."),
    ("user", "Context: {context}\\n\\nQuestion: {question}")
])

class DebugPassThrough(RunnablePassthrough):
    def invoke(self, *args, **kwargs):
        output = super().invoke(*args, **kwargs)
        print("Debug Output:", output)
        return output
# 문서 리스트를 텍스트로 변환하는 단계 추가
class ContextToText(RunnablePassthrough):
    def invoke(self, inputs, config=None, **kwargs):  # config 인수 추가
        # context의 각 문서를 문자열로 결합
        context_text = "\n".join([doc.page_content for doc in inputs["context"]])
        return {"context": context_text, "question": inputs["question"]}

# RAG 체인에서 각 단계마다 DebugPassThrough 추가
rag_chain_debug = {
    "context": retriever,                    # 컨텍스트를 가져오는 retriever
    "question": DebugPassThrough()        # 사용자 질문이 그대로 전달되는지 확인하는 passthrough
}  | DebugPassThrough() | ContextToText()|   contextual_prompt | model

In [13]:
while True: 
    print("========================")
    query = input("질문을 입력하세요: ")
    if query == "exit":
        break
    response = rag_chain_debug.invoke(query)

    print("Final Response:")
    print(response.content)



질문을 입력하세요:  바이든이 정부의 책임있는 ai 조달지침을 발표한 날짜는?


Debug Output: 바이든이 정부의 책임있는 ai 조달지침을 발표한 날짜는?
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 4}, page_content='바이든 대통령의 AI 행정명령에 따른 후속 조치로 2024년 10월 3일 ‘정부의 책임 있는 AI 조달 지침(M-24-18)’을 발표∙미국 연방정부는 2023년 1,000억 달러'), Document(metadata={'source': 'ai_industry.pdf', 'page': 1}, page_content='예산관리국, 정부의 책임 있는 AI 조달을 위한 지침 발표·····························2   ▹ 유로폴, 법 집행에서 AI의 이점과 과제를 다룬 보고서'), Document(metadata={'source': 'ai_industry.pdf', 'page': 4}, page_content='미국 백악관 예산관리국, 정부의 책임 있는 AI 조달을 위한 지침 발표n미국 백악관 예산관리국이 바이든 대통령의 AI 행정명령에 따라 연방정부의 책임 있는 AI 조달을 지원하기')], 'question': '바이든이 정부의 책임있는 ai 조달지침을 발표한 날짜는?'}
Final Response:
2024년 10월 3일입니다.


질문을 입력하세요:  ai 안전성 평가 관점 중 견고성과 관련된 ai 안정성 요소는?


Debug Output: ai 안전성 평가 관점 중 견고성과 관련된 ai 안정성 요소는?
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 16}, page_content='<AI 안전성의 핵심 요소를 고려한 AI 안전성 평가 관점>'), Document(metadata={'source': 'ai_industry.pdf', 'page': 16}, page_content='△프라이버시 보호 △보안 △투명성을 제시하고, 이를 달성하기 위한 10가지 평가 관점 및 평가를 통한 효과적 조치 이후의 기대 목표를 수립평가 관점관련 AI 안전성 요소 기대'), Document(metadata={'source': 'ai_industry.pdf', 'page': 16}, page_content='일본 AI안전연구소, AI 안전성에 대한 평가 관점 가이드 발간n일본 AI안전연구소는 AI 개발자나 제공자가 안전성 평가에 참조할 수 있는 ‘AI 안전성에 대한 평가 관점')], 'question': 'ai 안전성 평가 관점 중 견고성과 관련된 ai 안정성 요소는?'}
Final Response:
주어진 문맥에는 '견고성'에 관련된 AI 안전성 요소에 대한 구체적인 언급이 없습니다. 따라서 AI 안전성 평가 관점 중 견고성과 관련된 요소는 명시되어 있지 않습니다.


질문을 입력하세요:  2024년 10월 8일에 일어난 일은?


Debug Output: 2024년 10월 8일에 일어난 일은?
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 0}, page_content='2024년 11월호'), Document(metadata={'source': 'ai_industry.pdf', 'page': 1}, page_content='2024년 11월호'), Document(metadata={'source': 'ai_industry.pdf', 'page': 7}, page_content='£생성AI 거버넌스, 과거-현재-미래를 아우르는 프레임워크 수립 필요n세계경제포럼(WEF)이 2024년 10월 8일 세계 각국의 정책입안자를 대상으로 생성AI 거버넌스')], 'question': '2024년 10월 8일에 일어난 일은?'}
Final Response:
2024년 10월 8일에 세계경제포럼(WEF)이 세계 각국의 정책입안자를 대상으로 생성AI 거버넌스에 대한 프레임워크 수립 필요성을 논의했습니다.


질문을 입력하세요:  세계경제포럼이 생성ai 거버넌스 프레임워크를 제시한 백서를 발간한 날짜는?


Debug Output: 세계경제포럼이 생성ai 거버넌스 프레임워크를 제시한 백서를 발간한 날짜는?
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 7}, page_content='세계경제포럼, 생성AI 시대의 거버넌스 프레임워크 제시n세계경제포럼이 글로벌 정책입안자를 대상으로 생성AI의 공익적 활용과 경제·사회적 균형 달성, 위험 완화를 위한 거버넌스'), Document(metadata={'source': 'ai_industry.pdf', 'page': 1}, page_content='▹ 세계경제포럼, 생성AI 시대의 거버넌스 프레임워크 제시····················································5  2. 기업/산업'), Document(metadata={'source': 'ai_industry.pdf', 'page': 7}, page_content='£생성AI 거버넌스, 과거-현재-미래를 아우르는 프레임워크 수립 필요n세계경제포럼(WEF)이 2024년 10월 8일 세계 각국의 정책입안자를 대상으로 생성AI 거버넌스')], 'question': '세계경제포럼이 생성ai 거버넌스 프레임워크를 제시한 백서를 발간한 날짜는?'}
Final Response:
세계경제포럼이 생성AI 거버넌스 프레임워크를 제시한 백서는 2024년 10월 8일에 발간되었습니다.


질문을 입력하세요:  메타 무비 젠은 어떤 모델보다 인간 선호도 평가에서 더 높은 점수를 받았을까


Debug Output: 메타 무비 젠은 어떤 모델보다 인간 선호도 평가에서 더 높은 점수를 받았을까
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 9}, page_content='<메타 무비 젠과 경쟁 AI 모델의 인간 선호도 평가 승률>'), Document(metadata={'source': 'ai_industry.pdf', 'page': 9}, page_content='비롯한 경쟁 동영상 생성AI 모델보다 더 높은 점수를 기록∙메타 무비 젠과 경쟁 모델에 대하여 세 명의 인간 평가자가 점수를 매겨 비교 후 순승률(Net Win Rate)*을'), Document(metadata={'source': 'ai_industry.pdf', 'page': 9}, page_content='매겨 비교 후 순승률(Net Win Rate)*을 계산한 결과, 메타 무비 젠은 젠 3와 소라, 클링(Kling) 1.5를 모두 능가* 두 모델(A와 B)에 대하여 3명의 인간')], 'question': '메타 무비 젠은 어떤 모델보다 인간 선호도 평가에서 더 높은 점수를 받았을까'}
Final Response:
메타 무비 젠은 젠 3와 소라, 클링(Kling) 1.5보다 더 높은 점수를 받았다.


질문을 입력하세요:  메타 무비 젠은 어떤 모델보다 어떤 항목에서 더 높은 점수를 받았을까


Debug Output: 메타 무비 젠은 어떤 모델보다 어떤 항목에서 더 높은 점수를 받았을까
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 9}, page_content='비롯한 경쟁 동영상 생성AI 모델보다 더 높은 점수를 기록∙메타 무비 젠과 경쟁 모델에 대하여 세 명의 인간 평가자가 점수를 매겨 비교 후 순승률(Net Win Rate)*을'), Document(metadata={'source': 'ai_industry.pdf', 'page': 12}, page_content='가진 오픈소스 모델 젬마 및 라마와 비교해 대부분 벤치마크에서 더 높은 평가를 획득'), Document(metadata={'source': 'ai_industry.pdf', 'page': 9}, page_content='매겨 비교 후 순승률(Net Win Rate)*을 계산한 결과, 메타 무비 젠은 젠 3와 소라, 클링(Kling) 1.5를 모두 능가* 두 모델(A와 B)에 대하여 3명의 인간')], 'question': '메타 무비 젠은 어떤 모델보다 어떤 항목에서 더 높은 점수를 받았을까'}
Final Response:
메타 무비 젠은 젠 3와 소라, 클링(Kling) 1.5보다 더 높은 점수를 받았다.


질문을 입력하세요:  어떤 항목에서 높은 점수를 받았는지


Debug Output: 어떤 항목에서 높은 점수를 받았는지
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 11}, page_content='평균 점수에서 68.6점, 인간 선호도 평가는 1,032점으로 각각 71.1점과 1,041점을 받은 GPT-4V과 경쟁할 수 있는 수준'), Document(metadata={'source': 'ai_industry.pdf', 'page': 11}, page_content='기록했으며 인간 선호도 평가에서는 1077점으로 GPT-4o(1079점)에 이어 2위∙전문가혼합 모델인 몰모E-1B는 벤치마크 평균 점수에서 68.6점, 인간 선호도 평가는'), Document(metadata={'source': 'ai_industry.pdf', 'page': 22}, page_content='평가하도록 진행 ∙다섯 가지 선택지(매우 낮음, 낮음, 보통, 높음, 매우 높음)로 평가 결과, 인디드가 평가 대상으로 삼은 2,800개 이상의 직무 기술 중 68.7%는')], 'question': '어떤 항목에서 높은 점수를 받았는지'}
Final Response:
평균 점수에서 68.6점과 인간 선호도 평가에서 1,032점을 기록하여 GPT-4V과 경쟁할 수 있는 수준을 보였습니다. 또한 인간 선호도 평가에서는 1077점으로 GPT-4o(1079점)에 이어 2위를 기록했습니다.


질문을 입력하세요:  ai summit seoul 행사는 올해 몇 번째 행사인가


Debug Output: ai summit seoul 행사는 올해 몇 번째 행사인가
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='-AI Summit Seoul 행사는 2018년 개최를 시작으로 금년도는 7회 행사로 개최-이번 행사는 AI와 산업의 융합에 초점을 두고 다양한 글로벌 기업과 기관, 학계 전문가'), Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='AI Summit Seoul 2024'), Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='트렌드 등에 대한 주제 발표 및 워크샵 진행 기간장소 홈페이지2024.12.10~11서울(코엑스 그랜드볼룸) https://aisummit.co.kr/')], 'question': 'ai summit seoul 행사는 올해 몇 번째 행사인가'}
Final Response:
AI Summit Seoul 행사는 올해 7번째 행사입니다.


질문을 입력하세요:  ai summit seoul의 개최장소는?


Debug Output: ai summit seoul의 개최장소는?
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='AI Summit Seoul 2024'), Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='-AI Summit Seoul 행사는 2018년 개최를 시작으로 금년도는 7회 행사로 개최-이번 행사는 AI와 산업의 융합에 초점을 두고 다양한 글로벌 기업과 기관, 학계 전문가'), Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='트렌드 등에 대한 주제 발표 및 워크샵 진행 기간장소 홈페이지2024.12.10~11서울(코엑스 그랜드볼룸) https://aisummit.co.kr/')], 'question': 'ai summit seoul의 개최장소는?'}
Final Response:
AI Summit Seoul의 개최장소는 서울 코엑스 그랜드볼룸입니다.


질문을 입력하세요:  neurlPS의 개최장소는?


Debug Output: neurlPS의 개최장소는?
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='21\n행사명행사 주요 개요\nNeurIPS 2024'), Document(metadata={'source': 'ai_industry.pdf', 'page': 1}, page_content='Ⅱ. 주요 행사  ▹NeurIPS 2024'), Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='-신경정보처리시스템재단은 인공지능과 머신러닝 분야의 연구 성과 교환을 촉진하는 것을 목적으로 하는 비영리 법인으로 매년 학제간 학술대회(NeurIPS)를 주최-이번 제38회')], 'question': 'neurlPS의 개최장소는?'}
Final Response:
NeurIPS 2024의 개최장소에 대한 정보는 제공된 context에 포함되어 있지 않습니다.


질문을 입력하세요:  캐나다 밴쿠버에서 열리는 행사는?


Debug Output: 캐나다 밴쿠버에서 열리는 행사는?
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='Ⅱ. 주요 행사 일정'), Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='트렌드 등에 대한 주제 발표 및 워크샵 진행 기간장소 홈페이지2024.12.10~11서울(코엑스 그랜드볼룸) https://aisummit.co.kr/'), Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='알고리즘, 정렬에 대한 학제 간 통찰력 등을 다룰 예정기간장소 홈페이지2024.12.10~15캐나다 밴쿠버 https://neurips.cc/ GenAI Summit Maroc')], 'question': '캐나다 밴쿠버에서 열리는 행사는?'}
Final Response:
캐나다 밴쿠버에서 열리는 행사는 알고리즘, 정렬에 대한 학제 간 통찰력 등을 다루는 행사입니다. 기간은 2024년 12월 10일부터 15일까지입니다.


질문을 입력하세요:  GenAI Summit Maroc 2024의 개최장소는?


Debug Output: GenAI Summit Maroc 2024의 개최장소는?
Debug Output: {'context': [Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='GenAI Summit Maroc 2024'), Document(metadata={'source': 'ai_industry.pdf', 'page': 1}, page_content='▹GenAI Summit Maroc 2024'), Document(metadata={'source': 'ai_industry.pdf', 'page': 23}, page_content='알고리즘, 정렬에 대한 학제 간 통찰력 등을 다룰 예정기간장소 홈페이지2024.12.10~15캐나다 밴쿠버 https://neurips.cc/ GenAI Summit Maroc')], 'question': 'GenAI Summit Maroc 2024의 개최장소는?'}
Final Response:
GenAI Summit Maroc 2024의 개최장소는 캐나다 밴쿠버입니다.


질문을 입력하세요:  exit


# RAG의 필요성
- RAG를 사용하면 최신정보를 실시간 검색 또는 내부 데이터베이스를 참고하여 알아낼 수 있다.
- RAG가 없으면 훈련된 데이터셋만을 기반으로 답변을 하게 되어 훈련시점 이후 일어난 일을 답변하는데는 한계가 있다.
- 위의 챗봇에 특정 문서나 비공개 자료등을 제공하면 조직 내에서 필요한 자료를 검색하는 전용 챗봇을 만들 수 있다.

# chat GPT의 답변과 비교
- chpat GPT가 검색해서 답변을 더 잘한다. 검색 못하는 모델한테 물어봐야되나? chat gpt 3.5도 검색을 잘 한다.

# 하이퍼파라미터 튜닝
- 위의 챗봇이 특정 질문에 제대로 답변하지 못하기 때문에, 몇가지 하이퍼파라미터를 조정했다.
- 현재 조정한것은 overlap과 k값인데, chunk size를 조정하거나 프롬프트에서 여러 조건을 줄 수 있다.

# 이 모델의 개선점
- 표를 제대로 읽지 못한다. pdfplumber 필요