## RAG(Retrieval-Augmented Generation): 검색 증강 생성
* RAG는 미리 지정한 텍스트를 데이터베이스로 준비해 두었다가 사용자가 입력하면 그 입력 내용과 연관성이 높은 텍스트를 데이터베이스에서 검색해 프롬프트에 추가해 보다 정확한 답변을 할 수 있게 하는 기법
* 질문에 더 정확하고 풍부한 답변을 주기 위해 정보 검색과 답변 생성을 결합한 기술
* 정보 검색 단계: 사용자가 질문을 하면, 외부 데이터베이스나 문서에서 관련 정보 검색
* 답변 생성 단계: 찾은 정보를 바탕으로 AI 모델이 답변 생성

# 임베딩과 벡터 DB
* 지정한 텍스트를 데이터베이스에 저장하기 위해서는 먼저 문자를 숫자로 변환하는 임베딩(embedding)이 필요하며
* 데이터를 저장하는 데이터베이스는 RDBMS가 아닌 벡터 검색에 특화된 vectorDB를 이용해야 한다.

최근 인공지능과 NLP 애플리케이션에서 **Vector Database (vectordb)**는 빠르게 인기를 얻고 있다. 이는 텍스트, 이미지, 오디오 등의 데이터를 벡터 형식으로 저장하고 검색할 수 있는 데이터베이스로, 특히 **임베딩 벡터**를 사용해 의미 기반 검색을 수행한다.

### 대표적인 Vector Database
1. **FAISS (Facebook AI Similarity Search)**:
   - **Facebook AI**에서 개발한 오픈 소스 라이브러리.
   - 매우 빠른 유사도 검색과 군집화 기능을 제공.
   - GPU 가속을 지원해 대량의 데이터를 효율적으로 처리할 수 있음.

2. **Milvus**:
   - **Zilliz**에서 개발한 오픈 소스 vectordb로, 높은 성능과 확장성을 자랑함.
   - 벡터 검색과 혼합 검색(hybrid search)을 지원해 다양한 유형의 데이터를 처리할 수 있음.
   - 분산 시스템을 통해 대규모 데이터셋에서도 효율적인 검색이 가능.

3. **Weaviate**:
   - 의미론적 검색을 위해 설계된 오픈 소스 vectordb.
   - 데이터베이스 내에서 벡터를 자동으로 생성하거나 기존의 임베딩을 사용할 수 있음.
   - 다양한 NLP 모델과의 통합을 지원.

4. **Pinecone**:
   - 클라우드 기반 벡터 데이터베이스 서비스로, 사용자가 인프라를 직접 관리할 필요 없이 벡터 검색 기능을 제공.
   - 쉽게 확장 가능하고 API 기반으로 간편하게 벡터 데이터를 관리할 수 있음.
   - 지리적으로 분산된 클러스터를 제공해 글로벌 검색 성능을 최적화함.

### Vector Database의 특징
- **의미 기반 검색**: 단순한 키워드 매칭이 아닌, 벡터 간의 거리(예: 코사인 유사도)를 이용해 데이터의 의미적 유사성을 파악.
- **빠른 검색 속도**: 수백만에서 수십억 개의 벡터에 대한 검색을 실시간으로 처리할 수 있음.
- **확장성**: 많은 vectordb는 분산 처리와 클러스터링을 통해 대규모 데이터를 효율적으로 관리할 수 있음.

### 주요 사용 사례
- **추천 시스템**: 사용자 선호도를 분석하고 유사한 제품이나 콘텐츠를 추천.
- **챗봇 및 QA 시스템**: 의미적으로 유사한 질문과 답변을 매칭하여 더 자연스러운 대화와 검색을 가능하게 함.
- **이미지 검색**: 이미지의 특징 벡터를 사용해 시각적 유사도를 기반으로 검색.
- **문서 검색**: 임베딩 벡터를 사용하여 의미적으로 관련된 문서나 내용을 빠르게 찾음.

Vector Database는 AI와 NLP 애플리케이션의 핵심 기술로 자리잡고 있으며, 데이터의 의미를 기반으로 한 고속 검색과 처리가 필요할 때 필수적이다.

In [1]:
import os 
import pandas as pd

In [2]:
with open("./data/hotel_data.txt", "r", encoding="utf-8") as f:
    data = f.read()
data

"1. 손님 맞이\n손님이 호텔에 도착하면 친절한 미소와 함께 예의 바르고 활기찬 인사말을 건네는 것이 좋다. '어서 오세요' 또는 '어서 오세요' 등 상황에 맞는 표현을 사용해야 한다. 고객의 이름을 알고 있는 경우, 개인화된 인사말을 통해 고객의 만족도를 높일 수 있다.\n\n2. 체크인과 체크아웃\n체크인 시간은 오후 3시, 체크아웃 시간은 오전 11시이다. 일찍 체크인하거나 늦게 체크아웃을 원하는 고객에 대해서는 객실의 공실 상황을 확인하여 가능한 한 대응해 주어야 한다. 만약 그것이 어렵다면, 짐을 일시적으로 보관할 수 있는 서비스를 제안한다.\n\n3. Wi-Fi 및 주차장 안내\n모든 객실에 무료 와이파이가 제공된다. 연결 방법과 비밀번호를 확실히 설명해 줄 수 있도록 하자. 또한, 180대의 무료 주차장이 마련되어 있다. 주차장의 위치, 이용 방법, 개방 시간 등을 정확하게 안내할 수 있도록 한다.\n\n4. 배리어 프리 대응\n유니버설 룸의 배치와 시설, 특징을 이해하고 필요한 경우 고객에게 설명할 수 있도록 한다. 휠체어를 이용하는 고객이 있을 경우, 관내의 장애인 편의시설에 대해 안내하고 필요한 경우 도움을 줄 수 있도록 한다.\n\n5. 반려동물 대응\n반려동물을 동반한 고객에게는 정중하게, 그러나 분명하게 반려동물을 동반할 수 없음을 알려주어야 한다. 이때 인근의 반려동물 동반 가능 호텔을 소개하여 고객의 불편을 덜어주어야 한다. 인근의 반려동물 호텔 정보를 항상 최신 상태로 유지해야 한다.\n\n6. 룸 서비스\n오후 11시까지 룸서비스가 제공된다. 룸서비스 메뉴의 내용을 숙지하여 고객의 문의에 적절히 대응할 수 있도록 한다. 또한, 음식에 대한 알레르기 정보나 특별한 식단 제한에 대응할 수 있도록 주방과의 협력도 중요하다.\n\n7. 금연 정책 및 흡연실 안내\n모든 객실은 금연입니다. 그러나 흡연자 고객의 요구를 충족시키기 위해 1층에 흡연실을 마련한다. 이 정보를 명확하게 전달하고, 흡연실 위치와 이용 시간을 고객에게 안내해 주어

In [3]:
data = data.split('\n\n')

In [4]:
data[0].split('\n')

['1. 손님 맞이',
 "손님이 호텔에 도착하면 친절한 미소와 함께 예의 바르고 활기찬 인사말을 건네는 것이 좋다. '어서 오세요' 또는 '어서 오세요' 등 상황에 맞는 표현을 사용해야 한다. 고객의 이름을 알고 있는 경우, 개인화된 인사말을 통해 고객의 만족도를 높일 수 있다."]

In [5]:
text2df = {}
for content in data:
    temp = content.split("\n")
    text2df.setdefault("title", []).append(temp[0])
    text2df.setdefault("content", []).append(temp[1])
df = pd.DataFrame(text2df)
df

Unnamed: 0,title,content
0,1. 손님 맞이,손님이 호텔에 도착하면 친절한 미소와 함께 예의 바르고 활기찬 인사말을 건네는 것이...
1,2. 체크인과 체크아웃,"체크인 시간은 오후 3시, 체크아웃 시간은 오전 11시이다. 일찍 체크인하거나 늦게..."
2,3. Wi-Fi 및 주차장 안내,모든 객실에 무료 와이파이가 제공된다. 연결 방법과 비밀번호를 확실히 설명해 줄 수...
3,4. 배리어 프리 대응,"유니버설 룸의 배치와 시설, 특징을 이해하고 필요한 경우 고객에게 설명할 수 있도록..."
4,5. 반려동물 대응,"반려동물을 동반한 고객에게는 정중하게, 그러나 분명하게 반려동물을 동반할 수 없음을..."
5,6. 룸 서비스,오후 11시까지 룸서비스가 제공된다. 룸서비스 메뉴의 내용을 숙지하여 고객의 문의에...
6,7. 금연 정책 및 흡연실 안내,모든 객실은 금연입니다. 그러나 흡연자 고객의 요구를 충족시키기 위해 1층에 흡연실...
7,8. 취소 정책,"취소 수수료는 전날까지 연락 시 숙박 요금의 30%, 당일 취소 시 50%, 연락 ..."
8,9. 결제 방법,"체크아웃 시 프런트에서 현금, 신용카드, 직불카드로 결제한다. 또한 인터넷 예약을 ..."
9,10. 항상 존중을 실천한다.,"고객 한 사람 한 사람을 존중하는 태도로 대하자. 고객에 대한 예의, 배려, 전문성..."


# 텍스트 임베딩

In [6]:
#!pip install tiktoken google-generativeai

In [7]:
import tiktoken 
from sentence_transformers import SentenceTransformer
import os
from dotenv import load_dotenv
load_dotenv("./.env_gemini")
api_key = os.getenv("GEMINI_API_KEY")
api_key

  from .autonotebook import tqdm as notebook_tqdm


'AIzaSyCG2ilvBD_PiOOwmbDymNTRf811S1diJrs'

# SentenceTransformer 임베딩 및 토크나이저 설정

In [8]:
embedding_model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
embedding_encoding = "cl100k_base"
max_tokens = 1500

# 로컬 임베딩 모델 로드
st_model = SentenceTransformer(embedding_model_name)
tokenizer = tiktoken.get_encoding(embedding_encoding)
df['n_tokens'] = df['content'].apply(lambda x: len(tokenizer.encode(x)))
df

Unnamed: 0,title,content,n_tokens
0,1. 손님 맞이,손님이 호텔에 도착하면 친절한 미소와 함께 예의 바르고 활기찬 인사말을 건네는 것이...,134
1,2. 체크인과 체크아웃,"체크인 시간은 오후 3시, 체크아웃 시간은 오전 11시이다. 일찍 체크인하거나 늦게...",126
2,3. Wi-Fi 및 주차장 안내,모든 객실에 무료 와이파이가 제공된다. 연결 방법과 비밀번호를 확실히 설명해 줄 수...,111
3,4. 배리어 프리 대응,"유니버설 룸의 배치와 시설, 특징을 이해하고 필요한 경우 고객에게 설명할 수 있도록...",105
4,5. 반려동물 대응,"반려동물을 동반한 고객에게는 정중하게, 그러나 분명하게 반려동물을 동반할 수 없음을...",144
5,6. 룸 서비스,오후 11시까지 룸서비스가 제공된다. 룸서비스 메뉴의 내용을 숙지하여 고객의 문의에...,120
6,7. 금연 정책 및 흡연실 안내,모든 객실은 금연입니다. 그러나 흡연자 고객의 요구를 충족시키기 위해 1층에 흡연실...,105
7,8. 취소 정책,"취소 수수료는 전날까지 연락 시 숙박 요금의 30%, 당일 취소 시 50%, 연락 ...",107
8,9. 결제 방법,"체크아웃 시 프런트에서 현금, 신용카드, 직불카드로 결제한다. 또한 인터넷 예약을 ...",108
9,10. 항상 존중을 실천한다.,"고객 한 사람 한 사람을 존중하는 태도로 대하자. 고객에 대한 예의, 배려, 전문성...",104


In [9]:
# content를 embedding
def get_embedding(text, model=None):
    """문서(content)를 SentenseTransformer로 임베딩 변환"""
    text = text.replace("\n", " ")
    emb = st_model.encode(text)
    return emb.tolist()

In [10]:
df['embeddings'] = df['content'].apply(get_embedding)
df

Unnamed: 0,title,content,n_tokens,embeddings
0,1. 손님 맞이,손님이 호텔에 도착하면 친절한 미소와 함께 예의 바르고 활기찬 인사말을 건네는 것이...,134,"[0.1593482345342636, 0.05838841572403908, 0.06..."
1,2. 체크인과 체크아웃,"체크인 시간은 오후 3시, 체크아웃 시간은 오전 11시이다. 일찍 체크인하거나 늦게...",126,"[0.0862119197845459, 0.02244560606777668, -0.0..."
2,3. Wi-Fi 및 주차장 안내,모든 객실에 무료 와이파이가 제공된다. 연결 방법과 비밀번호를 확실히 설명해 줄 수...,111,"[0.3031899034976959, 0.23206672072410583, -0.1..."
3,4. 배리어 프리 대응,"유니버설 룸의 배치와 시설, 특징을 이해하고 필요한 경우 고객에게 설명할 수 있도록...",105,"[0.08541876077651978, -0.041620977222919464, -..."
4,5. 반려동물 대응,"반려동물을 동반한 고객에게는 정중하게, 그러나 분명하게 반려동물을 동반할 수 없음을...",144,"[0.1346476525068283, -0.009549637325108051, -0..."
5,6. 룸 서비스,오후 11시까지 룸서비스가 제공된다. 룸서비스 메뉴의 내용을 숙지하여 고객의 문의에...,120,"[0.1153387650847435, -0.007916058413684368, -0..."
6,7. 금연 정책 및 흡연실 안내,모든 객실은 금연입니다. 그러나 흡연자 고객의 요구를 충족시키기 위해 1층에 흡연실...,105,"[0.1966131627559662, 0.25499066710472107, -0.2..."
7,8. 취소 정책,"취소 수수료는 전날까지 연락 시 숙박 요금의 30%, 당일 취소 시 50%, 연락 ...",107,"[0.18457044661045074, 0.16158638894557953, -0...."
8,9. 결제 방법,"체크아웃 시 프런트에서 현금, 신용카드, 직불카드로 결제한다. 또한 인터넷 예약을 ...",108,"[0.14648672938346863, -0.01136426068842411, -0..."
9,10. 항상 존중을 실천한다.,"고객 한 사람 한 사람을 존중하는 태도로 대하자. 고객에 대한 예의, 배려, 전문성...",104,"[0.11097714304924011, 0.1544579118490219, -0.1..."


In [11]:
df[['content', 'embeddings']]

Unnamed: 0,content,embeddings
0,손님이 호텔에 도착하면 친절한 미소와 함께 예의 바르고 활기찬 인사말을 건네는 것이...,"[0.1593482345342636, 0.05838841572403908, 0.06..."
1,"체크인 시간은 오후 3시, 체크아웃 시간은 오전 11시이다. 일찍 체크인하거나 늦게...","[0.0862119197845459, 0.02244560606777668, -0.0..."
2,모든 객실에 무료 와이파이가 제공된다. 연결 방법과 비밀번호를 확실히 설명해 줄 수...,"[0.3031899034976959, 0.23206672072410583, -0.1..."
3,"유니버설 룸의 배치와 시설, 특징을 이해하고 필요한 경우 고객에게 설명할 수 있도록...","[0.08541876077651978, -0.041620977222919464, -..."
4,"반려동물을 동반한 고객에게는 정중하게, 그러나 분명하게 반려동물을 동반할 수 없음을...","[0.1346476525068283, -0.009549637325108051, -0..."
5,오후 11시까지 룸서비스가 제공된다. 룸서비스 메뉴의 내용을 숙지하여 고객의 문의에...,"[0.1153387650847435, -0.007916058413684368, -0..."
6,모든 객실은 금연입니다. 그러나 흡연자 고객의 요구를 충족시키기 위해 1층에 흡연실...,"[0.1966131627559662, 0.25499066710472107, -0.2..."
7,"취소 수수료는 전날까지 연락 시 숙박 요금의 30%, 당일 취소 시 50%, 연락 ...","[0.18457044661045074, 0.16158638894557953, -0...."
8,"체크아웃 시 프런트에서 현금, 신용카드, 직불카드로 결제한다. 또한 인터넷 예약을 ...","[0.14648672938346863, -0.01136426068842411, -0..."
9,"고객 한 사람 한 사람을 존중하는 태도로 대하자. 고객에 대한 예의, 배려, 전문성...","[0.11097714304924011, 0.1544579118490219, -0.1..."


# RAG를 이용해서 GPT 챗봇 만들기

In [12]:
from scipy import spatial
import numpy as np
import google.generativeai as genai



In [13]:
genai.configure(api_key=api_key)
gemini_model = genai.GenerativeModel('gemini-2.5-flash')

In [14]:
# 거리(유사도)를 계산하는 함수
def distance_from_embeddings(query_embedding, embeddings, distance_metric='cosine'):
    distance_metrics = {
        'cosine' : spatial.distance.cosine,
        'L1' : spatial.distance.cityblock,
        'L2' : spatial.distance.euclidean,
        'Linf' : spatial.distance.chebyshev,
    }
    distances = [distance_metrics[distance_metric](query_embedding, embedding) for embedding in embeddings]
    return distances

In [15]:
# 질문과 학습 데이터를 비교해서 유사도를 구하는 함수
def create_context(question, df, max_len=1800):
    #질문 임베딩
    q_embedding = np.array(st_model.encode(question), dtype='float32')
    
    # 텍스트 유사도 비교
    doc_embeddings = df['embeddings'].apply(np.array).values
    df['distances'] = distance_from_embeddings(q_embedding, doc_embeddings, distance_metric='cosine')
    
    returns = []
    cur_len = 0
    
    for _, row in df.sort_values('distances', ascending=True).iterrows():
        row_len = len(tokenizer.encode(row['content']))
        if cur_len + row_len + 4 > max_len:
            break
        returns.append(row['content'])
        cur_len += row_len + 4
    return "\n\n---\n\n".join(returns)

In [16]:
# 질문에 따라 답변을 생성하는 함수
def answer_question(question, df, conversation_history):
    context = create_context(question, df, max_len=max_tokens)
    
    if not context.strip():
        return "죄송합니다. 해당 질문에 대한 답변을 찾을 수 없습니다."
    
    prompt = f"""다음 컨텍스트에 기반하여 질문에 답하세요.
                컨텍스트 이외의 정보는 사용하지 마세요.
                
                컨텍스트: {context}
                
                질문: {question}
                
                답변: """
    conversation_history.append({'role' : 'user', 'context' : question})
    
    print("답변을 생성 중입니다.")
    
    try:
        answer_response = gemini_model.generate_content(prompt)
        answer = answer_response.text.strip()
        conversation_history.append({'role': 'assistant', 'content' : answer})
        return answer
    except Exception as e:
        print(e)
        return "오류"

In [17]:
# 간단한 CLI 인터페이스로 테스트
conversation_history = []
while True:
    user_input = input("질문을 입력하세요, 만약 끝내고 싶으면 q를 입력하세요: ")
    
    if user_input.lower() == 'q':
        break
    try:
        answer = answer_question(user_input, df, conversation_history)
        print("LLM: ", answer, end="\n\n")
    except Exception as e:
        print(e)

질문을 입력하세요, 만약 끝내고 싶으면 q를 입력하세요: 주차장
답변을 생성 중입니다.
LLM:  180대의 무료 주차장이 마련되어 있다. 주차장의 위치, 이용 방법, 개방 시간 등을 정확하게 안내할 수 있도록 한다.

질문을 입력하세요, 만약 끝내고 싶으면 q를 입력하세요: ㅂ
답변을 생성 중입니다.
LLM:  제공된 컨텍스트와 질문 'ㅂ'만으로는 질문의 의도를 파악하기 어렵습니다. 따라서 답변할 수 없습니다.

질문을 입력하세요, 만약 끝내고 싶으면 q를 입력하세요: q


In [18]:
df

Unnamed: 0,title,content,n_tokens,embeddings,distances
0,1. 손님 맞이,손님이 호텔에 도착하면 친절한 미소와 함께 예의 바르고 활기찬 인사말을 건네는 것이...,134,"[0.1593482345342636, 0.05838841572403908, 0.06...",0.759938
1,2. 체크인과 체크아웃,"체크인 시간은 오후 3시, 체크아웃 시간은 오전 11시이다. 일찍 체크인하거나 늦게...",126,"[0.0862119197845459, 0.02244560606777668, -0.0...",0.918158
2,3. Wi-Fi 및 주차장 안내,모든 객실에 무료 와이파이가 제공된다. 연결 방법과 비밀번호를 확실히 설명해 줄 수...,111,"[0.3031899034976959, 0.23206672072410583, -0.1...",1.010979
3,4. 배리어 프리 대응,"유니버설 룸의 배치와 시설, 특징을 이해하고 필요한 경우 고객에게 설명할 수 있도록...",105,"[0.08541876077651978, -0.041620977222919464, -...",0.926987
4,5. 반려동물 대응,"반려동물을 동반한 고객에게는 정중하게, 그러나 분명하게 반려동물을 동반할 수 없음을...",144,"[0.1346476525068283, -0.009549637325108051, -0...",0.875224
5,6. 룸 서비스,오후 11시까지 룸서비스가 제공된다. 룸서비스 메뉴의 내용을 숙지하여 고객의 문의에...,120,"[0.1153387650847435, -0.007916058413684368, -0...",0.931336
6,7. 금연 정책 및 흡연실 안내,모든 객실은 금연입니다. 그러나 흡연자 고객의 요구를 충족시키기 위해 1층에 흡연실...,105,"[0.1966131627559662, 0.25499066710472107, -0.2...",0.935212
7,8. 취소 정책,"취소 수수료는 전날까지 연락 시 숙박 요금의 30%, 당일 취소 시 50%, 연락 ...",107,"[0.18457044661045074, 0.16158638894557953, -0....",0.950148
8,9. 결제 방법,"체크아웃 시 프런트에서 현금, 신용카드, 직불카드로 결제한다. 또한 인터넷 예약을 ...",108,"[0.14648672938346863, -0.01136426068842411, -0...",0.996809
9,10. 항상 존중을 실천한다.,"고객 한 사람 한 사람을 존중하는 태도로 대하자. 고객에 대한 예의, 배려, 전문성...",104,"[0.11097714304924011, 0.1544579118490219, -0.1...",0.966156


# FAISS vector DB를 이용한 RAG 챗봇 만들기

In [19]:
#!pip install faiss-cpu

In [20]:
import os
import csv
import json
import pandas as pd
import numpy as np
import faiss
import gradio as gr
from sentence_transformers import SentenceTransformer
import tiktoken
import os
import ast  # 나중에 embeddings 문자열 파싱용으로도 쓸 수 있음
import google.generativeai as genai
from dotenv import load_dotenv
load_dotenv("./.env_gemini")
api_key = os.getenv('google_api_key')


# SentenceTransformer + LLM 조합 설정


# 여기서는 임베딩은 SentenceTransformer (로컬),
# 텍스트 생성은 기존에 사용하던 LLM(Gemini 등)을 그대로 쓰는 구조입니다.
# 만약 텍스트 생성도 완전히 무료/로컬로 바꾸고 싶다면,
# 이후에 HuggingFace LLM 등을 추가로 붙일 수 있습니다.

embedding_model_name = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
embedding_encoding = "cl100k_base"
max_tokens = 128000  # 최대 컨텍스트 길이

# SentenceTransformer 로컬 모델 (전역)
st_model = SentenceTransformer(embedding_model_name)

# 토크나이저 설정 (토큰 수 계산용)
tokenizer = tiktoken.get_encoding(embedding_encoding)

#gemini_model
genai.configure(api_key=api_key)
gemini_model = genai.GenerativeModel("gemini-2.5-flash")

# 파일을 불러와서 dataframe으로 변환하는 함수 (인코딩/라인수 안전 버전)
def process_file(file_path):
    # 1) 먼저 바이너리로 읽기
    with open(file_path, "rb") as f:
        raw = f.read()

    # 2) 여러 인코딩 시도 (utf-8 -> cp949 -> euc-kr)
    text = None
    for enc in ["utf-8", "cp949", "euc-kr"]:
        try:
            text = raw.decode(enc)
            print(f"[process_file] decoded with {enc}")
            break
        except UnicodeDecodeError:
            continue

    # 3) 그래도 안 되면 utf-8 + errors='ignore'
    if text is None:
        text = raw.decode("utf-8", errors="ignore")
        print("[process_file] decoded with utf-8 (errors='ignore')")

    # 4) 기존 로직 유지: \n\n 기준으로 문서 블록 분리
    blocks = [b.strip() for b in text.split("\n\n") if b.strip()]

    titles = []
    contents = []

    for block in blocks:
        lines = [ln for ln in block.splitlines() if ln.strip()]

        if not lines:
            continue

        # 첫 줄은 title
        title = lines[0]
        # 나머지 줄은 content (없으면 빈 문자열)
        content = "\n".join(lines[1:]) if len(lines) > 1 else ""

        titles.append(title)
        contents.append(content)

    df = pd.DataFrame({"title": titles, "content": contents})

    # 5) 토큰 수 계산 (content가 비어있어도 안전하게)
    df["n_tokens"] = df["content"].astype(str).apply(
        lambda x: len(tokenizer.encode(x))
    )

    return df

# 질문 임베딩 (질의 임베딩용)
def get_embedding(text, model=None):
    """질문/쿼리를 SentenceTransformer 로컬 임베딩으로 변환"""
    text = text.replace("\n", " ")
    emb = st_model.encode(text)
    return emb.tolist()


# 텍스트를 임베딩한 데이터를 FAISS vector DB에 저장
def save_embeddings_to_faiss(df):
    embeddings = np.array(df['embeddings'].tolist(), dtype='float32')
    index = faiss.IndexFlatL2(embeddings.shape[1]) # Euclidean distance 사용
    index.add(embeddings)
    faiss.write_index(index, "vector_index.faiss")

# Faiss 벡터 DB를 활용해 컨텍스트 생성 (SentenceTransformer 임베딩 버전)
def create_context(question, df, max_len=max_tokens):
    # 질문 임베딩 (로컬 SentenceTransformer)
    q_emb = np.array(st_model.encode(question), dtype='float32').reshape(1, -1)
    
    # 저장된 FAISS 인덱스 로드 및 유사도 검색
    index = faiss.read_index("vector_index.faiss")
    D, I = index.search(q_emb, len(df))
    
    returns = []
    cur_len = 0
    
    for i in I[0]:
        if i == -1:
            continue
        row = df.iloc[i]
        row_len = row['n_tokens'] + 4
        
        if cur_len + row_len > max_len:
            break
        
        returns.append(row['content'])
        cur_len += row_len
    
    return "\n\n---\n\n".join(returns)


# 문맥에 따라 질문에 답하는 기능 (LLM은 기존 것 활용)
def answer_question(question, conversation_history):
    # RAG 데이터 불러오기
    df = pd.read_csv('embeddings.csv')
    
    # 질문과 RAG 데이터를 비교해 컨텍스트 생성
    context = create_context(question, df, max_len=max_tokens)
    if not context.strip():  # 컨텍스트가 없을 경우
        return "죄송합니다. 해당 질문에 대한 답변을 찾을 수 없습니다."
    
    # 프롬프트 생성하고 대화 기록에 추가하기
    prompt = f"다음 컨텍스트에 기반하여 질문에 답하세요. 컨텍스트 외의 정보는 사용하지 마세요. \n컨텍스트: {context}\n\n---\n\n질문: {question}\n답변:"
    conversation_history.append({"role": "user", "content": question})
    
    # 진행 상황 표시
    print("답변을 생성 중입니다.")
    
    try:
        # 여기도 마찬가지로, 텍스트 생성용 LLM(Gemini/OpenAI 등)을 그대로 사용할 수 있습니다.
        answer_response = gemini_model.generate_content(prompt)
        answer = answer_response.text.strip()
        conversation_history.append({"role": "assistant", "content": answer})
        return answer
    except Exception as e:
        print(e)
        return "오류"


# 문맥에 따라 질문에 답하는 기능 (Gemini 기준 최종 버전)
def answer_question(question, conversation_history):
    # RAG 데이터 불러오기
    df = pd.read_csv('embeddings.csv')
    
    # 질문과 RAG 데이터를 비교해 컨텍스트 생성
    context = create_context(question, df, max_len=max_tokens)
    if not context.strip():  # 컨텍스트가 없을 경우
        return "죄송합니다. 해당 질문에 대한 답변을 찾을 수 없습니다."
    
    # 프롬프트 생성하고 대화 기록에 추가하기
    prompt = f"다음 컨텍스트에 기반하여 질문에 답하세요. 컨텍스트 외의 정보는 사용하지 마세요. \n컨텍스트: {context}\n\n---\n\n질문: {question}\n답변:"
    conversation_history.append({"role": "user", "content": question})
    
    # 진행 상황 표시
    print("답변을 생성 중입니다.")
    
    try:
        # Gemini 모델에서 답변 생성
        answer_response = gemini_model.generate_content(prompt)
        answer = answer_response.text.strip()
        conversation_history.append({"role": "assistant", "content": answer})
        return answer
    except Exception as e:
        print(e)
        return "오류"


# 텍스트에서 데이터 프레임으로 변경한 데이터를 임베딩 하는 함수
def process_and_embed(file):
    # 1) 파일 → DataFrame 변환
    df = process_file(file.name)

    # 2) SentenceTransformer로 임베딩 생성
    df['embeddings'] = df['content'].apply(get_embedding)  # get_embedding은 st_model.encode 사용

    # 3) CSV로 저장할 때 embeddings를 JSON 문자열로 변환
    df_to_save = df.copy()
    df_to_save['embeddings'] = df_to_save['embeddings'].apply(json.dumps)

    # 4) CSV 저장 (quoting, escapechar 명시)
    df_to_save.to_csv(
        'embeddings.csv',
        index=False,
        encoding="utf-8",
        quoting=csv.QUOTE_MINIMAL,
        escapechar='\\'
    )

    # 5) FAISS에 넣을 때는 원래 df (리스트 그대로)를 사용
    save_embeddings_to_faiss(df)

    return "임베딩 완료 및 저장 완료"
    

def chat_interface(question, history):
    answer = answer_question(question, history)
    display_history = "<br>".join([
        f"<div style='text-align: right;'>{entry['content']}</div>" if entry['role'] == 'user'
        else f"<div style='text-align: left'>{entry['content']}</div>"
        for entry in history])
                                   
    return display_history, answer

# Gradio로 화면 만들기
demo = gr.Blocks()

with demo:
    gr.Markdown("# 문서 임베딩 및 질문-응답 시스템")
    with gr.Tab("파일 업로드 및 임베딩"):
        file_input = gr.File()
        embed_button = gr.Button("임베딩 및 저장")
        embed_output = gr.Textbox()
        embed_button.click(process_and_embed, inputs=file_input, outputs=embed_output)
        
    with gr.Tab("질문 및 응답"):
        question_input = gr.Textbox(placeholder = "질문을 입력하세요")
        conversation_display = gr.HTML()
        answer_output = gr.Textbox(label="답변")
        ask_button = gr.Button("질문하기")
        
        # 버튼 클릭시 chat_interface 함수와 연결하기
        ask_button.click(chat_interface, inputs=[question_input, gr.State([])],
                        outputs=[conversation_display, answer_output])
demo.launch(inline=False, share=False, server_port=7000)

* Running on local URL:  http://127.0.0.1:7000
* To create a public link, set `share=True` in `launch()`.


