# AI 챗봇 개발 심화

## 문서 전처리와 청킹

### 고정 크기 청킹 예제

In [2]:
def fixed_size_chunking(text, chunk_size = 500, overlap = 0):
    chunks =[]
    start = 0
    
    while start < len(text):
        end = start + chunk_size
        chunk = text[start:end]
        chunks.append(chunk)
        start = end - overlap
        
    return chunks

sample_text = """
“삶은 폭풍을 피하는 것이 아니라, 빗속에서 춤추는 법을 배우는 것이다.”
시련과 어려움은 누구에게나 찾아오지만, 그것을 피하려 하기보다 그 속에서 의미를 찾고 더 강해져야 한다는 메시지가 담겨 있습니다.

“가장 어두운 밤이 지나야 아름다운 새벽이 찾아온다.”
힘든 시기는 반드시 지나가고, 그 끝에는 새로운 시작이 기다리고 있다는 믿음을 주는 말입니다.

“행복은 우리가 도착해야 할 장소가 아니라, 우리가 걸어가는 길 위에서 발견하는 것이다.”
끝없는 목표만 바라보다 보면 현재를 놓치기 쉽습니다. 행복은 바로 지금 이 순간의 작은 발견 속에도 깃들어 있음을 알려줍니다.

“세상에서 가장 위대한 용기는 두려움이 없는 것이 아니라, 두려움 속에서도 한 발 내딛는 것이다.”
누구나 두렵습니다. 하지만 그 두려움을 품은 채로 행동할 때 진정한 용기가 됩니다.

“지금 당신이 가진 것에 감사하고, 아직 오지 않은 미래를 향해 나아가라.”
과거에 얽매이지 않고, 현재를 소중히 여기며 미래를 준비하는 태도가 삶을 풍요롭게 합니다.

이런 문장들은 마치 길을 잃은 순간 비추는 등불과도 같아, 다시 걷고 싶은 힘을 줍니다.
"""

chunks = fixed_size_chunking(sample_text, chunk_size = 100, overlap = 0)
for i , chunk in enumerate(chunks):
    print(f"Chunk : {i+1}: {chunk}")    
    print("=" * 50)

Chunk : 1: 
“삶은 폭풍을 피하는 것이 아니라, 빗속에서 춤추는 법을 배우는 것이다.”
시련과 어려움은 누구에게나 찾아오지만, 그것을 피하려 하기보다 그 속에서 의미를 찾고 더 강해져야 한다
Chunk : 2: 는 메시지가 담겨 있습니다.

“가장 어두운 밤이 지나야 아름다운 새벽이 찾아온다.”
힘든 시기는 반드시 지나가고, 그 끝에는 새로운 시작이 기다리고 있다는 믿음을 주는 말입니다.
Chunk : 3: 

“행복은 우리가 도착해야 할 장소가 아니라, 우리가 걸어가는 길 위에서 발견하는 것이다.”
끝없는 목표만 바라보다 보면 현재를 놓치기 쉽습니다. 행복은 바로 지금 이 순간의 작
Chunk : 4: 은 발견 속에도 깃들어 있음을 알려줍니다.

“세상에서 가장 위대한 용기는 두려움이 없는 것이 아니라, 두려움 속에서도 한 발 내딛는 것이다.”
누구나 두렵습니다. 하지만 그 두려
Chunk : 5: 움을 품은 채로 행동할 때 진정한 용기가 됩니다.

“지금 당신이 가진 것에 감사하고, 아직 오지 않은 미래를 향해 나아가라.”
과거에 얽매이지 않고, 현재를 소중히 여기며 미래를
Chunk : 6:  준비하는 태도가 삶을 풍요롭게 합니다.

이런 문장들은 마치 길을 잃은 순간 비추는 등불과도 같아, 다시 걷고 싶은 힘을 줍니다.



### 의미 기반 청킹 예제

In [9]:
import re

def simple_sentence_split(text):
    # 마침표, 느낌표, 물음표로 분할
    sentences = re.split(r'[.!?]+', text)
    sentences = [s.strip() for s in sentences if s.strip()]
    return sentences

def semantic_chunking(text, max_sentences = 3):
    # 문장 단위로 의미를 고려한 청킹
    sentences = simple_sentence_split(text)
    chuncks = [] 
    current_chunk = []
    
    for sentence in sentences:
        current_chunk.append(sentence)
        
        if len(current_chunk) >= max_sentences:
            chunnks.append('. '.join(current_chunk) + '.')
        
        return chunks
    
sample_text = """
“삶은 폭풍을 피하는 것이 아니라, 빗속에서 춤추는 법을 배우는 것이다.”
시련과 어려움은 누구에게나 찾아오지만, 그것을 피하려 하기보다 그 속에서 의미를 찾고 더 강해져야 한다는 메시지가 담겨 있습니다.

“가장 어두운 밤이 지나야 아름다운 새벽이 찾아온다.”
힘든 시기는 반드시 지나가고, 그 끝에는 새로운 시작이 기다리고 있다는 믿음을 주는 말입니다.

“행복은 우리가 도착해야 할 장소가 아니라, 우리가 걸어가는 길 위에서 발견하는 것이다.”
끝없는 목표만 바라보다 보면 현재를 놓치기 쉽습니다. 행복은 바로 지금 이 순간의 작은 발견 속에도 깃들어 있음을 알려줍니다.

“세상에서 가장 위대한 용기는 두려움이 없는 것이 아니라, 두려움 속에서도 한 발 내딛는 것이다.”
누구나 두렵습니다. 하지만 그 두려움을 품은 채로 행동할 때 진정한 용기가 됩니다.

“지금 당신이 가진 것에 감사하고, 아직 오지 않은 미래를 향해 나아가라.”
과거에 얽매이지 않고, 현재를 소중히 여기며 미래를 준비하는 태도가 삶을 풍요롭게 합니다.

이런 문장들은 마치 길을 잃은 순간 비추는 등불과도 같아, 다시 걷고 싶은 힘을 줍니다.
"""

semantic_chunks = semantic_chunking(sample_text,max_sentences = 2)
for i, chunk in enumerate(semantic_chunks):
    print(f"의미 청크 {i+1}: {chunk}\n")

의미 청크 1: 
“삶은 폭풍을 피하는 것이 아니라, 빗속에서 춤추는 법을 배우는 것이다.”
시련과 어려움은 누구에게나 찾아오지만, 그것을 피하려 하기보다 그 속에서 의미를 찾고 더 강해져야 한다

의미 청크 2: 는 메시지가 담겨 있습니다.

“가장 어두운 밤이 지나야 아름다운 새벽이 찾아온다.”
힘든 시기는 반드시 지나가고, 그 끝에는 새로운 시작이 기다리고 있다는 믿음을 주는 말입니다.

의미 청크 3: 

“행복은 우리가 도착해야 할 장소가 아니라, 우리가 걸어가는 길 위에서 발견하는 것이다.”
끝없는 목표만 바라보다 보면 현재를 놓치기 쉽습니다. 행복은 바로 지금 이 순간의 작

의미 청크 4: 은 발견 속에도 깃들어 있음을 알려줍니다.

“세상에서 가장 위대한 용기는 두려움이 없는 것이 아니라, 두려움 속에서도 한 발 내딛는 것이다.”
누구나 두렵습니다. 하지만 그 두려

의미 청크 5: 움을 품은 채로 행동할 때 진정한 용기가 됩니다.

“지금 당신이 가진 것에 감사하고, 아직 오지 않은 미래를 향해 나아가라.”
과거에 얽매이지 않고, 현재를 소중히 여기며 미래를

의미 청크 6:  준비하는 태도가 삶을 풍요롭게 합니다.

이런 문장들은 마치 길을 잃은 순간 비추는 등불과도 같아, 다시 걷고 싶은 힘을 줍니다.




### 계층적 청킹 예제

In [13]:
def fixed_size_chunking(text, chunk_size = 500, overlap = 0):
    #고정크기로 텍스트를 청킹하는 함수
    chunks = []
    start = 0
    
    while start < len(text):
        end = start + chunk_size
        chunk = text[start:end]
        chunks.append(chunk)
        start = end - overlap
        
    return chunks

def hierarchical_chunking(text, levels = [1000,500,200]):
    #  여러 레벨의 청킹을 생성
    hierarchical_chunks = {}
    
    for level in levels:
        chunks = fixed_size_chunking(text, chunk_size = level, overlap = 50)
        hierarchical_chunks[f'level_{level}'] = chunks
    
    return hierarchical_chunks

sample_text = """
“삶은 폭풍을 피하는 것이 아니라, 빗속에서 춤추는 법을 배우는 것이다.”
시련과 어려움은 누구에게나 찾아오지만, 그것을 피하려 하기보다 그 속에서 의미를 찾고 더 강해져야 한다는 메시지가 담겨 있습니다.

“가장 어두운 밤이 지나야 아름다운 새벽이 찾아온다.”
힘든 시기는 반드시 지나가고, 그 끝에는 새로운 시작이 기다리고 있다는 믿음을 주는 말입니다.

“행복은 우리가 도착해야 할 장소가 아니라, 우리가 걸어가는 길 위에서 발견하는 것이다.”
끝없는 목표만 바라보다 보면 현재를 놓치기 쉽습니다. 행복은 바로 지금 이 순간의 작은 발견 속에도 깃들어 있음을 알려줍니다.

“세상에서 가장 위대한 용기는 두려움이 없는 것이 아니라, 두려움 속에서도 한 발 내딛는 것이다.”
누구나 두렵습니다. 하지만 그 두려움을 품은 채로 행동할 때 진정한 용기가 됩니다.

“지금 당신이 가진 것에 감사하고, 아직 오지 않은 미래를 향해 나아가라.”
과거에 얽매이지 않고, 현재를 소중히 여기며 미래를 준비하는 태도가 삶을 풍요롭게 합니다.

이런 문장들은 마치 길을 잃은 순간 비추는 등불과도 같아, 다시 걷고 싶은 힘을 줍니다.
"""

hierarchical_chunks = hierarchical_chunking(sample_text)
for level, chunk in hierarchical_chunks.items():
    print(f"{level}: {len(chunks)} 청크 ")
    for i , chunk in enumerate(chunks):
        print(f"Chunk : {i+1}: {chunk}")    
        print("=" * 50)
    

level_1000: 6 청크 
Chunk : 1: 
“삶은 폭풍을 피하는 것이 아니라, 빗속에서 춤추는 법을 배우는 것이다.”
시련과 어려움은 누구에게나 찾아오지만, 그것을 피하려 하기보다 그 속에서 의미를 찾고 더 강해져야 한다
Chunk : 2: 는 메시지가 담겨 있습니다.

“가장 어두운 밤이 지나야 아름다운 새벽이 찾아온다.”
힘든 시기는 반드시 지나가고, 그 끝에는 새로운 시작이 기다리고 있다는 믿음을 주는 말입니다.
Chunk : 3: 

“행복은 우리가 도착해야 할 장소가 아니라, 우리가 걸어가는 길 위에서 발견하는 것이다.”
끝없는 목표만 바라보다 보면 현재를 놓치기 쉽습니다. 행복은 바로 지금 이 순간의 작
Chunk : 4: 은 발견 속에도 깃들어 있음을 알려줍니다.

“세상에서 가장 위대한 용기는 두려움이 없는 것이 아니라, 두려움 속에서도 한 발 내딛는 것이다.”
누구나 두렵습니다. 하지만 그 두려
Chunk : 5: 움을 품은 채로 행동할 때 진정한 용기가 됩니다.

“지금 당신이 가진 것에 감사하고, 아직 오지 않은 미래를 향해 나아가라.”
과거에 얽매이지 않고, 현재를 소중히 여기며 미래를
Chunk : 6:  준비하는 태도가 삶을 풍요롭게 합니다.

이런 문장들은 마치 길을 잃은 순간 비추는 등불과도 같아, 다시 걷고 싶은 힘을 줍니다.

level_500: 6 청크 
Chunk : 1: 
“삶은 폭풍을 피하는 것이 아니라, 빗속에서 춤추는 법을 배우는 것이다.”
시련과 어려움은 누구에게나 찾아오지만, 그것을 피하려 하기보다 그 속에서 의미를 찾고 더 강해져야 한다
Chunk : 2: 는 메시지가 담겨 있습니다.

“가장 어두운 밤이 지나야 아름다운 새벽이 찾아온다.”
힘든 시기는 반드시 지나가고, 그 끝에는 새로운 시작이 기다리고 있다는 믿음을 주는 말입니다.
Chunk : 3: 

“행복은 우리가 도착해야 할 장소가 아니라, 우리가 걸어가는 길 위에서 발견하는 것이다.”
끝없는 목표만 바라보다 보면 현재를 놓치기 쉽습니다. 행

## 벡터 임베딩과 검색

### OpenAI Embeddings

In [22]:
# pip install scikit-learn

In [31]:
from openai import OpenAI
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity
import os
from dotenv import load_dotenv
load_dotenv()

class OpenAIEmbedder:
    def __init__(self, api_key):
        self.client = OpenAI(api_key = api_key)
        self.model = 'text-embedding-3-small'
    
    def get_embeddings(self, text):
        try:
            response = self.client.embeddings.create(
                model = self.model,
                input = text
            )
            return response.data[0].embedding
        
        except Exception as e:
            print(f"Embedding error: {e}") 
            return None
            
    def get_batch_embeddings(self, texts):
        try:
            response = self.client.embeddings.create(
                model = self.model,
                input = text
            )
            return [data.embeddings for data in response.data]
        
        except Exception as e:
            print(f"Batch Embedding error: {e}") 
            return []

embedder = OpenAIEmbedder(os.getenv("OPENAI_API_KEY"))
embedding = embedder.get_embeddings("안녕하세요!")
print(f"임베딩 차원: {len(embedding) if embedding else 0}")

if embedding:
    print(f"임베딩 벡터(처음 10개 값) : {embedding[:10]}")
    
    similarity = cosine_similarity([embedding],[embedding])
    print(f"Similarity: {similarity[0][0]}")

else:
    print("Creating Embedding Failed")

임베딩 차원: 1536
임베딩 벡터(처음 10개 값) : [-0.008489278145134449, -0.053748879581689835, -0.03221402317285538, 0.03852444142103195, 0.022229883819818497, -0.04260635748505592, -0.026013927534222603, 0.054057780653238297, -0.028529269620776176, -0.051674824208021164]
Similarity: 1.0000000000000004


## 컨텍스트