In [1]:
import os

from openai import OpenAI
from dotenv import find_dotenv, load_dotenv

load_dotenv(find_dotenv())

client = OpenAI(
    api_key=os.getenv("OPENAI_API_KEY"),
)

from langchain_openai import ChatOpenAI
llm_model = 'gpt-4o-mini'
chat_model = ChatOpenAI(temperature=0.7, model=llm_model)

## PDF Loader

In [4]:
from langchain.document_loaders import PyPDFLoader

### pip install pypdf

loader = PyPDFLoader("./data/react-paper.pdf")
pages = loader.load()

In [5]:

print("총 페이지 수: ", len(pages))

page = pages[0] # 첫번째 페이지

print("1페이지의 첫 300 글자: ", page.page_content[0:300]) # first 700 characters on the page
print("1페이지의 메타데이터: ", page.metadata)

총 페이지 수:  33
1페이지의 첫 300 글자:  Published as a conference paper at ICLR 2023
REAC T: S YNERGIZING REASONING AND ACTING IN
LANGUAGE MODELS
Shunyu Yao∗*,1, Jeffrey Zhao2, Dian Yu2, Nan Du2, Izhak Shafran2, Karthik Narasimhan1, Yuan Cao2
1Department of Computer Science, Princeton University
2Google Research, Brain team
1{shunyuy,kart
1페이지의 메타데이터:  {'source': './data/react-paper.pdf', 'page': 0}


## Document Splitting

In [25]:
from langchain.text_splitter import CharacterTextSplitter

# 1. CharacterTextSplitter
with open("./data/example.txt") as paper:
    speech = paper.read()
    
text_splitter = CharacterTextSplitter(
    chunk_size = 200,
    chunk_overlap = 50,
    length_function = len
)

texts = text_splitter.create_documents([speech])
print("쪼개진 Chunk의 개수: ", len(texts))
print("두번째 Chunk의 내용: ", texts[1].page_content)
print()
print("세번째 Chunk의 내용: ", texts[2].page_content)

쪼개진 Chunk의 개수:  3
두번째 Chunk의 내용:  Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

세번째 Chunk의 내용:  Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


In [34]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

# 2. RecursiveCharacterTextSplitter
with open("./data/i-have-a-dream.txt") as paper:
    speech = paper.read()
    
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 120,
    chunk_overlap = 30,
    length_function = len
)

docs = text_splitter.create_documents([speech])

print(len(docs))
print(f"Doc 1: {docs[0].page_content}")
print(f"Doc 2: {docs[1].page_content}")

126
Doc 1: ﻿As far as black Americans were concerned, the nation’s response to Brown was agonizingly slow, and neither state
Doc 2: slow, and neither state legislatures nor the Congress seemed willing to help their cause along. Finally, President John


In [33]:
s1 = "abcdefghijklmnopqrstuvwxyz"
s = "Python can be easy to pick up whether you're a professional or a beginner."

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 12,
    chunk_overlap = 5,
    length_function = len,
)

text = text_splitter.split_text(s1)
print(text)

['abcdefghijkl', 'hijklmnopqrs', 'opqrstuvwxyz']
