## 1. 사용환경 준비
### 1.1 필요 라이브러리 설치
`pip install python-dotenv langchain langchain-openai faiss-cpu pypdf`

.env 파일에 OPENAI_API_KEY 를 지정해 준 뒤 사용함

In [1]:
from dotenv import (
    load_dotenv,
)  # dotenv 모듈 : .env 파일을 읽고 여기서 정의된 환경 변수를 시스템의 환경변수로 설정함
import os

from langchain_openai import ChatOpenAI
from langchain_core.messages import (
    HumanMessage,
)  # Messages 작성(사용자의 요구사항이나 질문)을 위한 모듈 import

from langchain.document_loaders import PyPDFLoader

from langchain.text_splitter import CharacterTextSplitter

from langchain.text_splitter import RecursiveCharacterTextSplitter

from langchain_openai import OpenAIEmbeddings

import faiss 
from langchain_community.vectorstores import FAISS

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough


In [2]:
'''from dotenv import (
    load_dotenv,
)  # dotenv 모듈 : .env 파일을 읽고 여기서 정의된 환경 변수를 시스템의 환경변수로 설정함
import os
'''
load_dotenv()  # .env 파일에서 환경 변수 로드

api_key = os.getenv(
    "OPENAI_API_KEY"
)  # 환경변수에서 OPENAI_API_KEY 의 값 가져와 api_key 변수에 저장
print(api_key)  # API KEY 가 제대로 입력됐는지 확인

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


## 2. 모델 로드하기

In [3]:
'''from langchain_openai import ChatOpenAI
from langchain_core.messages import (
    HumanMessage,
)  # Messages 작성(사용자의 요구사항이나 질문)을 위한 모듈 import'''

# 모델 초기화
model = ChatOpenAI(model="gpt-4o-mini")

## 3. 문서 로드하기
`pip install pypdf`

PyPDFLoader : PDF 파일을 로드하고, 이를 문서로 변환. 이 문서들은 후속 작업에서 사용할 수 있도록 텍스트로 변환됨

In [4]:
'''from langchain.document_loaders import PyPDFLoader
'''
# PDF 파일 로드. 파일의 경로 입력
loader = PyPDFLoader(
    "/Users/t2023-m0072/Desktop/assignment_LLM_RAG/RAG/PDF/인공지능산업최신동향_2024년11월호.pdf"
)

# 페이지 별 문서 로드
docs = loader.load()

# 로드된 문서 출력
'''for doc in docs:
    print(doc.page_content)'''
print(docs[0].page_content)

2024년 11월호


## 4. 문서 청크로 나누기

### 4.0 Chunk VS Token
#### Chunk
: 문자나 단어 등의 더 큰 의미 단위로 텍스트를 나누는 방식. 문맥적 의미를 기준으로 나눈다
* 특징
  * 크기 : 문자수 (characters) 나 단어수 (words) 로 정의됨
  * 의미 단위 : 청크는 텍스트를 의미가 있는 단위로 나누는데 중점을 둠. 
    * 문장 단위
    * 문단 단위
    * 구문 단위 등

#### Token
: 텍스트의 기본적인 처리단위. NLP 모델에서 텍스트를 벡터화 하거나 분석하기 전에 텍스트를 나누는 가장 작은 단위. 모델이 이해할 수 있는 기본적인 단위
* 토큰화 (Tokenization) : 텍스트를 단어, 구두점, 특수 문자 등으로 분할하는 과정
* 특징
  * 크기 : 고정되어 있지 않음. 단어, 하위 단어, 구두점 등 다양한 요소로 구성됨
  * 언어 모델의 기본 단위 : GPT 같은 언어 모델은 토큰을 입력 받아 처리함

## 4.1 CharacterTextSplitter
Langchain 에서 제공하는 문서 분할 도구. 문자 단위로 텍스트를 나눔.
### 4.1.1 CharacterTextSplitter 특징 
* **고정된 청크 크기** : 텍스트를 동일한 크기로 나눔. 일관성 있는 처리에 유용
* **속도** : 단순한 방식 덕분에 처리 속도가 빠르고, 대규모 데이터셋을 처리할 때 효율적
* **단순성** : 구현이 간단. 복잡한 설정 없이 다양한 응용 프로그램에 쉽게 통합
* 중복 오버랩 (Overlap) : 각 청크 간 겹치는 부분을 두어 텍스트를 자연스럽게 나눌 수 있음. 중복을 추가해 나눠진 청크가 더 의미 있는 단위로 나뉘어 모델이 문맥을 더 잘 이해할 수 있음


### 4.1.2 parameter
* `separator` : 텍스트를 나누는 기준을 설정
  * 기본값 : 공백 `' '`
* `chunk_size` : 각 분할된 청크의 최대 길이를 설정
  * `chunk_size=100` : 각 청크가 최대 100자 까지 포함됨을 의미
* `chunk_overlap` : 청크 간 곂치는 문자 수를 설정  -> 각 텍스트간 의미가 끊어지지 않도록 하기 위함
  * `chunk_overlap=10` : 각 청크가 이전 청크와 최대 10자 겹침
* `length_function` : 각 청크의 길이 계산 함수
  * `length_function=len` : 각 청크의 길이가 문자 수로 계산됨. 
  * `length_function=lambda text: len(text.split())` : 단어 수로 텍스트 나눔
* `is_separator_regex` : separator 가 정규표현식 인지
  * `is_separator_regex=False`(기본값) : separator로 지정된 텍스트가 정확히 일치하는 부분에서 텍스트를 나눔
  *  `is_separator_regex=True` : separator 에 정규 표현식을 사용할 수 있음
     *  `separator=r'\n+'`를 사용하면 여러 줄 바꿈이 있더라도 이를 하나의 분할 기준으로 사용

In [5]:
'''from langchain.text_splitter import CharacterTextSplitter
'''
text_splitter = CharacterTextSplitter(
    separator="\n\n",  # 분할기준 : 두 줄 바꿈을 기준으로 텍스트 나누기
    chunk_size=100,  # 청크 크기 : 최대 100자
    chunk_overlap=10,  # 중복 오버랩 : 각 청크가 최대 10자 겹침
    length_function=len,  # 길이 계산 함수 : 문자 수 기준 (len())
    is_separator_regex=False,  # 구분자가 정규 표현식인지 여부 (False : 정확히 일치하는 구분자 기준)
)

splits = text_splitter.split_documents(docs)

# 청킹된 내용 상위 10개 출력
top_10 = splits[:10]
# print(f"Chunk 3:{splits[3]}")
for i, chunk in enumerate(top_10, 1):
    page_content = chunk.page_content
    print(f"Chunk {i}:{page_content[:300]}\n\n")
# print(f"splits 길이 : {len(splits)}")

Chunk 1:2024년 11월호


Chunk 2:2024년 11월호
Ⅰ. 인공지능 산업 동향 브리프 1. 정책/법제    ▹ 미국 민권위원회, 연방정부의 얼굴인식 기술 사용에 따른 민권 영향 분석························1   ▹ 미국 백악관 예산관리국, 정부의 책임 있는 AI 조달을 위한 지침 발표·····························2   ▹ 유로폴, 법 집행에서 AI의 이점과 과제를 다룬 보고서 발간··············································3   ▹ OECD, 공공 부문의 AI 도입을 위한 G7 툴킷 


Chunk 3:Ⅰ. 인공지능 산업 동향 브리프


Chunk 4:1. 정책/법제  2. 기업/산업 3. 기술/연구  4. 인력/교육
1
미국 민권위원회, 연방정부의 얼굴인식 기술 사용에 따른 민권 영향 분석n미국 민권위원회에 따르면 연방정부와 법 집행기관에서 얼굴인식 기술이 빠르게 도입되고 있으나 이를 관리할 지침과 감독의 부재로 민권 문제를 초래할 위험 존재n미국 민권위원회는 연방정부의 책임 있는 얼굴인식 기술 사용을 위해 운영 프로토콜 개발과 실제 사용 상황의 얼굴인식 기술 평가 및 불평등 완화, 지역사회의 의견 수렴 등을 권고
KEY Contents
£연방정부의 얼굴인식 기술 도입에 대한 


Chunk 5:SPRi AI Brief |  2024-11월호
2
미국 백악관 예산관리국, 정부의 책임 있는 AI 조달을 위한 지침 발표n미국 백악관 예산관리국이 바이든 대통령의 AI 행정명령에 따라 연방정부의 책임 있는 AI 조달을 지원하기 위한 지침을 발표 n지침은 정부 기관의 AI 조달 시 AI의 위험과 성과를 관리할 수 있는 모범 관행의 수립 및 최상의 AI 솔루션을 사용하기 위한 공급업체 시장의 경쟁 보장, 정부 기관 간 협업을 요구  
KEY Contents
£백악관 예산관리국, 연방정부의 AI 조달 시 책임성을 증진하기 위한 모범 관


Chunk 6:1. 정책/법제  

## 4.2 RecursiveCharacterTextSplitter
내용의 **문맥을 유지**하면서 텍스트를 관리 가능한 청크로 분할 하도록 하는 청킹 방식. 대량의 텍스트를 처리할 때 유용. 관련 정보들이 서로 인접하게 유지되므로 **가독성**과 **이해도**를 높이는데 효과적.
### 4.2.1 RecursiveCharacterTextSplitter 특징
* **계층적 세분화** : 텍스트를 문맥에 나누어 의미가 각 청크 간에 보존됨
* **적응형 청크 크기** : 텍스트 내용에 따라 청크 크기가 달라질 수 있음. 길이가 다른 문단이 포함된 문서에 유용
* **문맥 보존** : 주변 텍스트를 고려해 청킹 과정 중 중요한 정보가 손실되는 것을 최소화 함

In [6]:
'''from langchain.text_splitter import RecursiveCharacterTextSplitter
'''
recursive_text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100, # 각 청크 최대 100자 까지
    chunk_overlap=10, # 청크간 최대 10자 중복
    length_function=len, # 길이 계산 함수 : 문자 수 기준 (len())
    is_separator_regex=False, # 구분자가 정규 표현식인지 여부 (False : 정확히 일치하는 구분자 기준)
)

splits = recursive_text_splitter.split_documents(docs)

# 청킹된 내용의 상위 10개 출력
top_10 = splits[:10]
# print(f"Chunk 3:{splits[3]}")
for i, chunk in enumerate(top_10, 1):
    page_content = chunk.page_content
    print(f"Chunk {i}:{page_content[:300]}\n\n")

Chunk 1:2024년 11월호


Chunk 2:2024년 11월호


Chunk 3:Ⅰ. 인공지능 산업 동향 브리프 1. 정책/법제    ▹ 미국 민권위원회, 연방정부의 얼굴인식 기술 사용에 따른 민권 영향 분석························1


Chunk 4:▹ 미국 백악관 예산관리국, 정부의 책임 있는 AI 조달을 위한 지침 발표·····························2   ▹ 유로폴, 법 집행에서 AI의 이점과


Chunk 5:AI의 이점과 과제를 다룬 보고서 발간··············································3   ▹ OECD, 공공 부문의 AI 도입을 위한 G7


Chunk 6:도입을 위한 G7 툴킷 발표··························································4   ▹ 세계경제포럼, 생성AI 시대의


Chunk 7:생성AI 시대의 거버넌스 프레임워크 제시····················································5  2. 기업/산업    ▹ CB인사이츠


Chunk 8:▹ CB인사이츠 분석 결과, 2024년 3분기 벤처 투자 31%가 AI 스타트업에 집중··············6   ▹ 메타, 동영상 생성AI 도구 ‘메타 무비 젠’


Chunk 9:‘메타 무비 젠’ 공개···································································7   ▹ 메타, 이미지와 텍스트


Chunk 10:이미지와 텍스트 처리하는 첫 멀티모달 AI 모델 ‘라마 3.2’ 공개···························8   ▹ 앨런AI연구소, 벤치마크 평가에서 GPT-4o




## 5. 벡터 임베딩 생성

In [7]:
'''from langchain_openai import OpenAIEmbeddings
'''
# OpenAI 임베딩 모델 초기화
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

## 6. 벡터 스토어 생성

In [8]:
'''import faiss
from langchain_community.vectorstores import FAISS'''


vector_store = FAISS.from_documents(documents=splits, embedding=embeddings)

## 7. FAISS 를 Retriever 로 변환

In [9]:
retriever = vector_store.as_retriever(search_type="similarity", search_kwargs={"k": 1})

## 8. 프롬프트 템플릿 정의

In [10]:
'''from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough'''

# 프롬프트 템플릿 정의
contextual_prompt = ChatPromptTemplate.from_messages([
    ("system", "Answer the question using only the following context."),
    ("user", "Context: {context}\\n\\nQuestion: {question}")
])

## 9. RAG 체인 구성

In [11]:
'''from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnablePassthrough'''

# 프롬프트 템플릿 정의
contextual_prompt = ChatPromptTemplate.from_messages([
    ("system", "Answer the question using only the following context."),
    ("user", "Context: {context}\\n\\nQuestion: {question}")
])

class DebugPassThrough(RunnablePassthrough):
    def invoke(self, *args, **kwargs):
        output = super().invoke(*args, **kwargs)
        print("Debug Output:", output)
        return output
# 문서 리스트를 텍스트로 변환하는 단계 추가
class ContextToText(RunnablePassthrough):
    def invoke(self, inputs, config=None, **kwargs):  # config 인수 추가
        # context의 각 문서를 문자열로 결합
        context_text = "\n".join([doc.page_content for doc in inputs["context"]])
        return {"context": context_text, "question": inputs["question"]}

# RAG 체인에서 각 단계마다 DebugPassThrough 추가
rag_chain_debug = {
    "context": retriever,                    # 컨텍스트를 가져오는 retriever
    "question": DebugPassThrough()        # 사용자 질문이 그대로 전달되는지 확인하는 passthrough
}  | DebugPassThrough() | ContextToText()|   contextual_prompt | model


## 10. 챗봇 구동 확인

In [12]:
while : 
	print("========================")
	query = input("질문을 입력하세요: ")
	response = rag_chain_debug.invoke(query)
	print("Final Response:")
	print(response.content)

SyntaxError: invalid syntax (1024469277.py, line 1)