### Effective Chunking for optimizing the retrieval and embedding steps of RAG systems. 

- 문장 입베딩 활용 => 문서 내의 토픽 변화 파악 => 각 청크가 하나의 토픽을 캡슐화하는 기술

- 기대효과: 일관되고 맥락에 맞는 응답을 생성하는 시스템의 기능을 향상시킴

cf. Standard methods for document splitting

1. Recursive Character Text Splitter
    - 문자를 기준으로 텍스트를 반복적으로 나누어 문서를 분할하는 방법
    - 자연스러운 단락이나 문장 구분이 있는 문서에 특히 유용
2. Token Splitter
    - 단어나 하위 단어들이 될 수 있는 토큰들을 사용하여 분할하는 방법
    - 텍스트의 무결성을 유지하기 위해 NLP 작업에서 일반적으로 사용됨
3. Sentence Splitter
    - 문장 경계에서 문서를 분할함
    - 텍스트의 맥락적 무결성을 유지
4. Regex Splitter
    - 정규 표현식을 사용하여 사용자 정의 분할 지점을 정의
    - 가장 높은 유연성을 제공
    - 특정 키워드나 구두점이 나올 때마다 문서를 분할 가능
5. Markdown Splitter
    - 마크다운 특정 요소를 기준으로 텍스트를 분할

## Recursive Character Text Splitter

In [1]:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

In [2]:
from dotenv import load_dotenv

load_dotenv()

TEMPLATE_PATH = os.getenv("TEMPLATE_PATH")

In [3]:
# Recursive Character Text Splitter
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Example long document text
f = open(TEMPLATE_PATH, "r")
data = f.read()
f.close()
# Initializing the RecursiveCharacterTextSplitter with a chunk size of 1000 characters and an overlap of 50 characters
splitter = RecursiveCharacterTextSplitter(chunk_size = 500, chunk_overlap = 200)

# Splitting the text into chunks
chunks = splitter.split_text(data)

splitted_docs_num = 0
# Printing each chunk
for idx, chunk in enumerate(chunks):
    print(chunk)
    print("-" * 30)
    splitted_docs_num += 1

print("-" * 30)
print(f"splitted_docs_num: {splitted_docs_num}")


#### 1. 개요
STAYC는 2020년 11월 12일에 데뷔한 하이업엔터테인먼트 소속의 6인조 걸그룹입니다. 
그룹명은 'Star To A Young Culture'의 약자로, 젊은 문화를 이끄는 스타가 되겠다는 의미를 담고 있습니다. 
STAYC는 독특한 음색과 뛰어난 실력으로 주목받고 있으며, '틴프레시'라는 장르를 개척했습니다.

#### 2. 멤버
- 수민: 서브보컬, 2001년 3월 13일생
- 시은: 리더, 메인보컬, 2001년 8월 1일생
- 아이사: 리드보컬, 2002년 1월 23일생
- 세은: 리더, 서브보컬, 2003년 6월 14일생
- 윤: 리드보컬, 2004년 4월 14일생
- 재이: 서브보컬, 2004년 12월 9일생
------------------------------
#### 2. 멤버
- 수민: 서브보컬, 2001년 3월 13일생
- 시은: 리더, 메인보컬, 2001년 8월 1일생
- 아이사: 리드보컬, 2002년 1월 23일생
- 세은: 리더, 서브보컬, 2003년 6월 14일생
- 윤: 리드보컬, 2004년 4월 14일생
- 재이: 서브보컬, 2004년 12월 9일생

#### 3. 특징
- 로고: 2022년 4월 28일 YOUNG-LUV.COM 앨범부터 공식 로고 사용.
- 그룹명: 'Star To A Young Culture'의 약자.
- 실력: 안정적인 가창력과 개성 있는 음색, 상향 평준화된 댄스 실력, 멤버들의 반전 랩 실력.
- 비주얼: 멤버별로 개성 있는 외모와 다양한 동물상.
- 역대 리더: 수민(2020-2023), 시은과 세은(2023-현재).
------------------------------
#### 4. 음반
- 싱글 1집: Star To A Young Culture (2020) - 타이틀곡: SO BAD
- 싱글 2집: STAYDOM (2021) - 타이틀곡: ASAP
- 미니 1집: STEREOTYPE (2021) - 타이틀곡: 색안경
- 미니 2집: YOUNG-LUV.COM (2022) - 

## Token Splitter

In [4]:
# Importing the TokenSplitter class from langchain
from langchain.text_splitter import TokenTextSplitter

# Example long documnet text
f = open(TEMPLATE_PATH, 'r')
data = f.read()
f.close()

splitter = TokenTextSplitter(chunk_size = 200, chunk_overlap = 0)

# Splitting the text into chunks
chunks = splitter.split_text(data)

splitted_docs_num = 0
# Printing each chunk
for idx, chunk in enumerate(chunks):
    print(chunk)
    print("-" * 30)
    splitted_docs_num += 1

print("-" * 30)
print(f"splitted_docs_num: {splitted_docs_num}")

#### 1. 개요
STAYC는 2020년 11월 12일에 데뷔한 하이업엔터테인먼트 소속의 6인조 걸그룹입니다. 
그룹명은 'Star To A Young Culture'의 약자로, 젊은 문화를 이끄는 스타가 되겠다는 의미를 담고 있습니다. 
ST
------------------------------
AYC는 독특한 음색과 뛰어난 실력으로 주목받고 있으며, '틴프레시'라는 장르를 개척했습니다.

#### 2. 멤버
- 수민: 서브보컬, 2001년 3월 13일생
- 시은: 리더, 메인보컬, 2001년 8월 1일생
------------------------------

- 아이사: 리드보컬, 2002년 1월 23일생
- 세은: 리더, 서브보컬, 2003년 6월 14일생
- 윤: 리드보컬, 2004년 4월 14일생
- 재이: 서브보컬, 2004년 12월 9일생

#### 3. 특징
- 로고: 2022년 4월 28일 YOUNG-LUV.COM 앨범부터 �
------------------------------
��식 로고 사용.
- 그룹명: 'Star To A Young Culture'의 약자.
- 실력: 안정적인 가창력과 개성 있는 음색, 상향 평준화된 댄스 실력, 멤버들의 반전 랩 실력.
- 비주얼: 멤버별로 개성 있는 외�
------------------------------
�와 다양한 동물상.
- 역대 리더: 수민(2020-2023), 시은과 세은(2023-현재).

#### 4. 음반
- 싱글 1집: Star To A Young Culture (2020) - 타이틀곡: SO BAD
- 싱글 2집: STAYDOM (2021) - 타이틀곡: ASAP
- 미니 1집: STEREOTYPE (2021) - 타이틀곡: 색안경

------------------------------
- 미니 2집: YOUNG-LUV.COM (2022) - 타이틀곡: RUN2U
- 싱글 3집: WE NEED LOVE (2022) - 타이틀곡: BEAUTIFUL MONSTER
- 싱글 

## Semantic Chunking

In [5]:
from langchain_experimental.text_splitter import SemanticChunker
from langchain_openai.embeddings import OpenAIEmbeddings

# 파일 읽기
f = open(TEMPLATE_PATH, 'r')
data = f.read()
f.close()

# SemanticChunker 인스턴스 생성 (다른 기준 사용)
text_splitter = SemanticChunker(OpenAIEmbeddings(), breakpoint_threshold_type="percentile")
text_splitter_1 = SemanticChunker(OpenAIEmbeddings(), breakpoint_threshold_type="standard_deviation")
text_splitter_2 = SemanticChunker(OpenAIEmbeddings(), breakpoint_threshold_type="interquartile")

# 텍스트 분할
docs = text_splitter.create_documents([data])
docs_1 = text_splitter_1.create_documents([data])
docs_2 = text_splitter_2.create_documents([data])

# 분할된 텍스트를 카테고리별로 저장
categories = [{'percentile': docs}, {'standard_deviation': docs_1}, {'interquartile': docs_2}]

# 각 카테고리의 분할된 텍스트 출력
splitted_docs_num = 0

for category in categories:
    for method, chunks in category.items():
        print(f"Method: {method}")
        for idx, chunk in enumerate(chunks):
            print(f"Chunk {idx+1}:")
            print(chunk)
            print("-" * 30)
            splitted_docs_num += 1

print(f"Total number of splitted documents: {splitted_docs_num}")

Method: percentile
Chunk 1:
page_content="#### 1. 개요\nSTAYC는 2020년 11월 12일에 데뷔한 하이업엔터테인먼트 소속의 6인조 걸그룹입니다. 그룹명은 'Star To A Young Culture'의 약자로, 젊은 문화를 이끄는 스타가 되겠다는 의미를 담고 있습니다. STAYC는 독특한 음색과 뛰어난 실력으로 주목받고 있으며, '틴프레시'라는 장르를 개척했습니다. #### 2. 멤버\n- 수민: 서브보컬, 2001년 3월 13일생\n- 시은: 리더, 메인보컬, 2001년 8월 1일생\n- 아이사: 리드보컬, 2002년 1월 23일생\n- 세은: 리더, 서브보컬, 2003년 6월 14일생\n- 윤: 리드보컬, 2004년 4월 14일생\n- 재이: 서브보컬, 2004년 12월 9일생\n\n#### 3. 특징\n- 로고: 2022년 4월 28일 YOUNG-LUV.COM 앨범부터 공식 로고 사용. - 그룹명: 'Star To A Young Culture'의 약자. - 실력: 안정적인 가창력과 개성 있는 음색, 상향 평준화된 댄스 실력, 멤버들의 반전 랩 실력. - 비주얼: 멤버별로 개성 있는 외모와 다양한 동물상. - 역대 리더: 수민(2020-2023), 시은과 세은(2023-현재). #### 4. 음반\n- 싱글 1집: Star To A Young Culture (2020) - 타이틀곡: SO BAD\n- 싱글 2집: STAYDOM (2021) - 타이틀곡: ASAP\n- 미니 1집: STEREOTYPE (2021) - 타이틀곡: 색안경\n- 미니 2집: YOUNG-LUV.COM (2022) - 타이틀곡: RUN2U\n- 싱글 3집: WE NEED LOVE (2022) - 타이틀곡: BEAUTIFUL MONSTER\n- 싱글 4집: Teddy Bear (2023) - 타이틀곡: Teddy Bear\n- 미니 3집: TEENFRESH (2023) - 타이틀곡: Bubble\n- 일본 싱글: POPPY (2022), Te

## Markdown Splitter

In [6]:
# Importing the MarkdownHeaderTextSplitter
from langchain.text_splitter import MarkdownHeaderTextSplitter

# Example long markdown document text
f = open(TEMPLATE_PATH, "r")
data = f.read()
f.close()


headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
    ("####", "Header 4")
]

splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

# Splitting the the data into chunks
chunks = splitter.split_text(data)

# Printing each chunk
for chunk in chunks:
    print(chunk)

page_content="STAYC는 2020년 11월 12일에 데뷔한 하이업엔터테인먼트 소속의 6인조 걸그룹입니다.\n그룹명은 'Star To A Young Culture'의 약자로, 젊은 문화를 이끄는 스타가 되겠다는 의미를 담고 있습니다.\nSTAYC는 독특한 음색과 뛰어난 실력으로 주목받고 있으며, '틴프레시'라는 장르를 개척했습니다." metadata={'Header 4': '1. 개요'}
page_content='- 수민: 서브보컬, 2001년 3월 13일생\n- 시은: 리더, 메인보컬, 2001년 8월 1일생\n- 아이사: 리드보컬, 2002년 1월 23일생\n- 세은: 리더, 서브보컬, 2003년 6월 14일생\n- 윤: 리드보컬, 2004년 4월 14일생\n- 재이: 서브보컬, 2004년 12월 9일생' metadata={'Header 4': '2. 멤버'}
page_content="- 로고: 2022년 4월 28일 YOUNG-LUV.COM 앨범부터 공식 로고 사용.\n- 그룹명: 'Star To A Young Culture'의 약자.\n- 실력: 안정적인 가창력과 개성 있는 음색, 상향 평준화된 댄스 실력, 멤버들의 반전 랩 실력.\n- 비주얼: 멤버별로 개성 있는 외모와 다양한 동물상.\n- 역대 리더: 수민(2020-2023), 시은과 세은(2023-현재)." metadata={'Header 4': '3. 특징'}
page_content='- 싱글 1집: Star To A Young Culture (2020) - 타이틀곡: SO BAD\n- 싱글 2집: STAYDOM (2021) - 타이틀곡: ASAP\n- 미니 1집: STEREOTYPE (2021) - 타이틀곡: 색안경\n- 미니 2집: YOUNG-LUV.COM (2022) - 타이틀곡: RUN2U\n- 싱글 3집: WE NEED LOVE (2022) - 타이틀곡: BEAUTIFUL MONSTER\n- 싱글 4집: Teddy Bear (2023) - 타이틀곡: Teddy Bear\n- 

## Introducing a Novel Topic-Aware Chunking Approach
- sentence_BERT(SBERT)를 이용하여 개별 문장들에 대한 임베딩을 생성

In [7]:
# Example long markdown document text
f = open(TEMPLATE_PATH, "r")
data = f.read()
f.close()

In [8]:
from langchain_text_splitters import CharacterTextSplitter

text_splitter_enc = CharacterTextSplitter.from_tiktoken_encoder(encoding_name="cl100k_base", chunk_size=260, chunk_overlap=0)
texts = text_splitter_enc.split_text(data)

print("texts:", texts)

texts: ["#### 1. 개요\nSTAYC는 2020년 11월 12일에 데뷔한 하이업엔터테인먼트 소속의 6인조 걸그룹입니다. \n그룹명은 'Star To A Young Culture'의 약자로, 젊은 문화를 이끄는 스타가 되겠다는 의미를 담고 있습니다. \nSTAYC는 독특한 음색과 뛰어난 실력으로 주목받고 있으며, '틴프레시'라는 장르를 개척했습니다.", '#### 2. 멤버\n- 수민: 서브보컬, 2001년 3월 13일생\n- 시은: 리더, 메인보컬, 2001년 8월 1일생\n- 아이사: 리드보컬, 2002년 1월 23일생\n- 세은: 리더, 서브보컬, 2003년 6월 14일생\n- 윤: 리드보컬, 2004년 4월 14일생\n- 재이: 서브보컬, 2004년 12월 9일생', "#### 3. 특징\n- 로고: 2022년 4월 28일 YOUNG-LUV.COM 앨범부터 공식 로고 사용.\n- 그룹명: 'Star To A Young Culture'의 약자.\n- 실력: 안정적인 가창력과 개성 있는 음색, 상향 평준화된 댄스 실력, 멤버들의 반전 랩 실력.\n- 비주얼: 멤버별로 개성 있는 외모와 다양한 동물상.\n- 역대 리더: 수민(2020-2023), 시은과 세은(2023-현재).", '#### 4. 음반\n- 싱글 1집: Star To A Young Culture (2020) - 타이틀곡: SO BAD\n- 싱글 2집: STAYDOM (2021) - 타이틀곡: ASAP\n- 미니 1집: STEREOTYPE (2021) - 타이틀곡: 색안경\n- 미니 2집: YOUNG-LUV.COM (2022) - 타이틀곡: RUN2U\n- 싱글 3집: WE NEED LOVE (2022) - 타이틀곡: BEAUTIFUL MONSTER\n- 싱글 4집: Teddy Bear (2023) - 타이틀곡: Teddy Bear\n- 미니 3집: TEENFRESH (2023) - 타이틀곡: Bubble\n- 일본 싱글: POPPY (2022), Teddy Bear (2023), LI

In [9]:
from sentence_transformers import SentenceTransformer

# Example sentences 
sentences = texts

# Initializing the SBERT Model
model = SentenceTransformer('paraphrase-MiniLM-L6-v2')

# Generating embeddings for each sentence
embeddings = model.encode(sentences)

  from tqdm.autonotebook import tqdm, trange


## Calculating Similarity
- cosine similarity, manhattan similarity, Euclidian similarity 등을 이용하여 문장들간의 유사성 측정

In [10]:
from sklearn.metrics.pairwise import cosine_similarity

# Calculating cosine similarity between embeddings
similarity_matrix = cosine_similarity(embeddings)

print("similarity_matrix:", similarity_matrix)

similarity_matrix: [[0.99999976 0.66585875 0.91259027 0.8393899  0.6012131  0.67474663
  0.65659684]
 [0.66585875 1.0000001  0.68222314 0.68897784 0.8079772  0.9293277
  0.9299406 ]
 [0.91259027 0.68222314 1.0000002  0.88767004 0.61313957 0.67936283
  0.6507598 ]
 [0.8393899  0.68897784 0.88767004 0.9999999  0.6298312  0.65169597
  0.6568866 ]
 [0.6012131  0.8079772  0.61313957 0.6298312  0.99999994 0.84322417
  0.8331971 ]
 [0.67474663 0.9293277  0.67936283 0.65169597 0.84322417 1.
  0.95456064]
 [0.65659684 0.9299406  0.6507598  0.6568866  0.8331971  0.95456064
  1.0000001 ]]


## Gap Scores and Smoothing

E.g
n = 3 일 때, 

	•	i = 0일 때: embeddings[0:3] (vec1, vec2, vec3)와 embeddings[3:6] (vec4, vec5, vec6)의 유사도를 계산합니다.
	•	i = 1일 때: embeddings[1:4] (vec2, vec3, vec4)와 embeddings[4:7] (vec5, vec6, vec7)의 유사도를 계산합니다.
	•	i = 2일 때: embeddings[2:5] (vec3, vec4, vec5)와 embeddings[5:8] (vec6, vec7, vec8)의 유사도를 계산합니다.
	•	i = 3일 때: embeddings[3:6] (vec4, vec5, vec6)와 embeddings[6:9] (vec7, vec8, vec9)의 유사도를 계산합니다.


In [11]:
import numpy as np

# Define the parameter n
n = 3

# Calculate gap scores
gap_scores = []
for i in range(len(embeddings) - n):
    similarity = cosine_similarity(embeddings[i:i+n], embeddings[i+n:i+2*n]) # 0, 1 / 2: 4
    gap_scores.append(np.mean(similarity))

print("gap_scores:", gap_scores)

gap_scores: [0.74686724, 0.727658, 0.71918774, 0.8148815]


In [12]:
# Define the window size k
k = 2

# Smoothing the gap scores
smoothed_gap_scores = np.convolve(gap_scores, np.ones(k)/k, mode = 'valid')
smoothed_gap_scores

array([0.73726261, 0.72342286, 0.76703462])

## Boundary Detection


In [13]:
# Detecting local minima
local_minima = (np.diff(np.sign(np.diff(smoothed_gap_scores))) > 0).nonzero()[0] + 1

# Setting the threshold c
c = 0.5

# Identifying significant boundaries
significant_boundaries = [i for i in local_minima if smoothed_gap_scores[i] < np.mean(smoothed_gap_scores) - c * np.std(smoothed_gap_scores)]
significant_boundaries

print("local_minima:", local_minima)
print("-" * 30)
print("significant_boundaries:", significant_boundaries)

local_minima: [1]
------------------------------
significant_boundaries: [1]


## Clustering Segments
- 중복을 줄이고 고유한 토픽만을 남김

In [14]:
from sklearn.cluster import KMeans

# Calculate segment embeddings for segmentation
if len(significant_boundaries) > 1:
    # more than one boundary
    print("more than one boundary...")
    segment_embeddings = [np.mean(embeddings[start:end], axis=0) for start, end in zip([0]+significant_boundaries, significant_boundaries+[len(embeddings)])]
elif len(significant_boundaries) == 1:
    # one boundary
    print("one boundary...")
    segment_embeddings = [np.mean(embeddings[:significant_boundaries[0]], axis=0), np.mean(embeddings[significant_boundaries[0]:], axis=0)]
else:
    # without boundaries
    print("without boundaries...")
    segment_embeddings = [np.mean(embeddings, axis=0)]

print("Segment Embeddings:", segment_embeddings)

one boundary...
Segment Embeddings: [array([ 6.73997700e-01,  5.57095349e-01, -2.44353227e-02, -2.55724460e-01,
       -5.96591458e-02,  2.15857476e-02,  5.99828005e-01,  6.45341128e-02,
       -3.92222196e-01, -1.92001432e-01,  4.35042083e-01, -1.26461685e+00,
        3.79342884e-02,  1.74870625e-01, -1.84721760e-02, -4.93722767e-01,
        2.18904644e-01,  3.42146814e-01, -8.01932439e-02, -7.90148787e-03,
       -2.82735556e-01, -1.84479684e-01,  2.99999774e-01, -1.06526688e-01,
        4.81037199e-02,  6.51264116e-02,  4.71124083e-01,  1.95169687e-01,
       -3.00260186e-01,  2.27225214e-01,  3.63715321e-01, -2.59587526e-01,
        3.80624980e-02,  3.77500057e-02,  4.06627417e-01,  1.87223703e-01,
        8.72504897e-03,  2.83069551e-01, -1.60812512e-02, -4.98418435e-02,
        4.68503200e-02, -2.90195107e-01, -1.31336793e-01,  3.83221924e-01,
       -8.93168151e-03, -1.11870065e-01, -2.86401004e-01, -6.38214588e-01,
        2.65927222e-02, -6.15395308e-01, -6.17653489e-01, -4.25

In [15]:
# Apply clustering
segment_embeddings = np.array(segment_embeddings).reshape(-1, len(segment_embeddings[0]))  # Ensure the array is 2D
kmeans = KMeans(n_clusters=1)
clusters = kmeans.fit_predict(segment_embeddings)

print("result of clustering:", clusters)

result of clustering: [0 0]
