### CharacterTextSplitter
* 가장 기본적인 방법
* 기본적으로 "\n\n"을 기준으로 문자단위로 텍스트를 분할하고 청크의 크기를 문자 수로 측정

**인자**
* separator : 분할할 기준을 설정. 기본값을 "\n\n"
* chunk_size : 각 청크의 최대 크기를 설정
* chunk_overlap : 인접한 청크 간 중복을 허용할 크기
* length_function : 텍스트의 길이를 계산하는 함수 지정(len)

In [5]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=200,
    chunk_overlap=0,
    length_function=len # 단어수, 특정문자, 패턴, 언어별 특성을 반영할 수 있음
)

In [3]:
with open("./data/appendix-keywords.txt") as f:
    file = f.read()

In [4]:
print(file[:500])

Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding

정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝

Token

정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어


In [13]:
texts = text_splitter.create_documents([file])

print(len(texts[0].page_content))

print(texts[0])

Created a chunk of size 201, which is longer than the specified 200
Created a chunk of size 202, which is longer than the specified 200
Created a chunk of size 203, which is longer than the specified 200
Created a chunk of size 201, which is longer than the specified 200
Created a chunk of size 205, which is longer than the specified 200


197
page_content='Semantic Search

정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

Embedding'


In [11]:
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader("./data/snow-white.pdf")

document = loader.load()

In [12]:
print(document)

[Document(metadata={'source': './data/snow-white.pdf', 'page': 0}, page_content='백설공주\n옛날 어느 왕국에 공주님이 태어났어요.\n“어쩜 이렇게 어여쁠까? 살결이 눈처럼 하얗구나. 백\n설공주라고 불러야겠다.”\n왕과 왕비는 갓 태어난 딸을 보며 기뻐했어요.\n하지만 기쁨도 잠시, 왕비는 곧 세상을 떠나고 말았어\n요.\n'), Document(metadata={'source': './data/snow-white.pdf', 'page': 1}, page_content='왕은 아름다운 새 왕비를 맞았어요.\n그런데 새 왕비는 자기보다 아름다운 사람을 두고 보\n지 못했어요.\n왕비는 진실만을 말하는 요술 거울에게 늘 이렇게 물\n었어요.\n“거울아, 거울아. 이 세상에서 누가 가장 아름답니?”\n“이 세상에서 가장 아름다운 사람은 왕비님입니다.”\n그 대답을 들어야만 차가운 왕비 얼굴에 미소가 번졌\n지요.\n시간이 흘러 백설공주는 어여쁜 소녀가 되었어요.\n어느 날, 왕비는 요술 거울에게 물었지요.\n“거울아, 거울아. 이 세상에서 누가 가장 아름답니?”\n“왕비님도 아름답지만 백설공주가 더 아름답습니다.”\n화가 난 왕비는 사냥꾼을 불렀어요.\n왕비는 사냥꾼에게 백설공주를 죽이라고 명령했어요.\n하지만 사냥꾼은 차마 그럴 수 없었어요.\n“가여운 공주님, 왕비님이 찾지 못하도록 멀리멀리 떠\n나세요.”\n백설공주는 울면서 숲으로 도망쳤어요.\n'), Document(metadata={'source': './data/snow-white.pdf', 'page': 2}, page_content='숲속을 헤매던 백설공주는 외딴 오두막에 이르렀어요.\n들여다보니 오두막은 비어 있었어요.\n“아무도 없네. 좀 쉬어 가도 될까? 어? 신기하다! 모든 게 작아. \n어어? 이상하다! 모든 게 일곱. 의자도 일곱, 접시도 일곱. 어머, \n침대도 일곱 개네.”\n도망치느라 치진 백설공주는 식탁 위에 있던 빵을

In [16]:
# 텍스트를 청크로 분할
texts = text_splitter.create_documents([doc.page_content for doc in document])

print(len(texts[0].page_content)) # 분할된 문서 개수

print(texts[0])

129
page_content='백설공주
옛날 어느 왕국에 공주님이 태어났어요.
“어쩜 이렇게 어여쁠까? 살결이 눈처럼 하얗구나. 백
설공주라고 불러야겠다.”
왕과 왕비는 갓 태어난 딸을 보며 기뻐했어요.
하지만 기쁨도 잠시, 왕비는 곧 세상을 떠나고 말았어
요.'
