### 라이브러리

In [1]:
!pip install langchain-community
!pip install -U langchain-community
!pip install --upgrade langchain
!pip install tiktoken
!pip install langchain-google-genai
!pip install chromadb
!pip install langchain_huggingface
!pip install ragas
!pip install faiss-cpu
!pip install faiss-gpu

Collecting langchain-community
  Downloading langchain_community-0.3.18-py3-none-any.whl.metadata (2.4 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting pydantic-settings<3.0.0,>=2.4.0 (from langchain-community)
  Downloading pydantic_settings-2.8.1-py3-none-any.whl.metadata (3.5 kB)
Collecting httpx-sse<1.0.0,>=0.4.0 (from langchain-community)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting marshmallow<4.0.0,>=3.18.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading marshmallow-3.26.1-py3-none-any.whl.metadata (7.3 kB)
Collecting typing-inspect<1,>=0.4.0 (from dataclasses-json<0.7,>=0.5.7->langchain-community)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting python-dotenv>=0.21.0 (from pydantic-settings<3.0.0,>=2.4.0->langchain-community)
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB

Collecting chromadb
  Downloading chromadb-0.6.3-py3-none-any.whl.metadata (6.8 kB)
Collecting build>=1.0.3 (from chromadb)
  Downloading build-1.2.2.post1-py3-none-any.whl.metadata (6.5 kB)
Collecting chroma-hnswlib==0.7.6 (from chromadb)
  Downloading chroma_hnswlib-0.7.6-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (252 bytes)
Collecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.115.9-py3-none-any.whl.metadata (27 kB)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb)
  Downloading uvicorn-0.34.0-py3-none-any.whl.metadata (6.5 kB)
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.17.0-py2.py3-none-any.whl.metadata (2.9 kB)
Collecting onnxruntime>=1.14.1 (from chromadb)
  Downloading onnxruntime-1.20.1-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.5 kB)
Collecting opentelemetry-exporter-otlp-proto-grpc>=1.2.0 (from chromadb)
  Downloading opentelemetry_exporter_otlp_proto_grpc-1.30.0-py3

Collecting langchain_huggingface
  Downloading langchain_huggingface-0.1.2-py3-none-any.whl.metadata (1.3 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=2.6.0->langchain_huggingface)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=2.6.0->langchain_huggingface)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers>=2.6.0->langchain_huggingface)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.11.0->sentence-transformers>=2.6.0->langchain_huggingface)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==1

In [2]:
import os
import re
import pandas as pd
import bs4
import tiktoken
from tqdm import tqdm
from collections import defaultdict
from IPython.display import clear_output
import time

from langchain.docstore.document import Document
from langchain_community.document_loaders import WebBaseLoader
from langchain_huggingface.embeddings import HuggingFaceEmbeddings
# FAISS import (하나만 사용)
from langchain_community.vectorstores.faiss import FAISS
from ragas import evaluate
from ragas.metrics import context_precision, faithfulness

from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.chains import RetrievalQA, LLMChain
from langchain.prompts import PromptTemplate



### API Key

In [3]:
# gemini
YOUR_API_KEY = 'AIzaSyBaBEvJ7M_hkWtndcnfZnK7AjnT2C467RM'
os.environ['GOOGLE_API_KEY'] = YOUR_API_KEY

### 데이터

In [4]:
# CSV
file_path = "/content/drive/MyDrive/aiffel_final_project/data_renew/aiffel_book_preprocessing_1.csv"
df = pd.read_csv(file_path)

In [5]:
df.columns

Index(['ISBN', 'ITEM_ID', 'BID', 'GOODS_NO', '분류', '제목', '원제', '저자', '발행자',
       '발행일', '페이지', '가격', '표지', '책소개', '저자소개', '목차', '출판사리뷰', 'INSERT_DATE',
       'UPDATE_DATE'],
      dtype='object')

In [14]:
df = df.sample(n=10000, random_state=2025)

### Chunking

In [15]:
# 텍스트 분할 함수 (null 값은 빈 문자열로 처리)
def split_text(text, chunk_size=1000, overlap=100):
    if text is None or pd.isnull(text):
        return [""]
    chunks = []
    for i in range(0, len(text), chunk_size - overlap):
        chunks.append(text[i:i + chunk_size])
    return chunks

In [16]:
metadata_columns = ['ISBN', 'ITEM_ID', 'BID', 'GOODS_NO', '원제', '발행자', '발행일', '페이지', '가격', '표지', 'INSERT_DATE', 'UPDATE_DATE', '원제']
vector_doc_columns = ['제목', '분류', '저자', '책 소개', '저자소개', '목차', '출판사리뷰']

In [17]:
# RAG_DB 구성: 각 행의 vector_doc_columns를 하나의 텍스트로 합치고, 메타데이터는 별도 dict로 저장
# 메타데이터에 포함될 컬럼과 벡터 DB Documents에 들어갈 핵심 데이터 컬럼 정의
metadata_columns = ['발행자', '발행일', '페이지', '가격']
vector_doc_columns = ['제목', '분류', '저자','저자소개', '책 소개', '목차', '출판사리뷰']

# RAG_DB 구성: 각 행의 vector_doc_columns를 하나의 텍스트로 합치고, metadata_columns에 해당하는 데이터는 별도 dict에 저장
RAG_DB = []
for index, row in df.iterrows():
    # 핵심 데이터(문서 내용) 생성: 각 컬럼명과 값을 줄바꿈 형태로 연결
    doc_text = ""
    for col in vector_doc_columns:
        value = row.get(col, "")
        if pd.isnull(value):
            value = ""
        doc_text += f"{col}: {value}\n"

    # 텍스트 분할 (문장이 길 경우 대비)
    chunks = split_text(doc_text)

    # 메타데이터 구성: metadata_columns에 있는 모든 데이터를 개별적으로 저장
    metadata = {}
    for col in metadata_columns:
        metadata[col] = row.get(col, None)

    # 분할된 각 청크를 RAG_DB에 추가
    for chunk in chunks:
        RAG_DB.append({
            'text': chunk,
            'metadata': metadata
        })

In [18]:
# LangChain Document 생성: 각 RAG_DB 항목의 text와 metadata를 그대로 사용
from langchain.docstore.document import Document

documents = [
    Document(
        page_content=entry['text'],
        metadata=entry['metadata']
    ) for entry in RAG_DB
]

### 임베딩 및 벡터스토어 생성

In [19]:
# 임베딩 모델 로드 (HuggingFace의 BGE-m3-ko)
hf_embeddings = HuggingFaceEmbeddings(model_name="dragonkue/BGE-m3-ko")

# 벡터스토어 생성을 위해 텍스트와 임베딩 쌍 구성
text_embedding_pairs = []  # (텍스트, 임베딩) 튜플 리스트
metadata_list = []         # 메타데이터 리스트

In [20]:
for doc in tqdm(documents, desc="Processing Documents", unit="document"):
    embedding = hf_embeddings.embed_query(doc.page_content)  # 청크 임베딩
    text_embedding_pairs.append((doc.page_content, embedding))
    metadata_list.append(doc.metadata)

# FAISS 벡터스토어 생성
vectorstore = FAISS.from_embeddings(
    text_embeddings=text_embedding_pairs,
    metadatas=metadata_list,
    embedding=hf_embeddings
)

Processing Documents: 100%|██████████| 28927/28927 [49:37<00:00,  9.71document/s]


### Retrieval

In [21]:
# Gemini-1.5-flash 모델 로드
llm_gemini = ChatGoogleGenerativeAI(model="gemini-1.5-flash", temperature=0.0)

# FAISS 벡터스토어 retriever 생성 (상위 5개 문서 검색)
dense_retriever = vectorstore.as_retriever(
    search_kwargs={"k": 5}
)

# RetrievalQA 체인 구성 (검색된 문서도 함께 반환)
dpr_qa_chain = RetrievalQA.from_chain_type(
    llm=llm_gemini,
    retriever=dense_retriever,
    return_source_documents=True
)

### Generation

In [22]:
# 대화 히스토리와 사용자 선호도 저장용 변수
user_preferences = defaultdict(list)
log_history = []  # 전체 대화 로그 저장


# 검색 쿼리+추가 질문 생성 프롬프트
multi_turn_prompt = PromptTemplate.from_template("""
사용자와의 대화 히스토리는 다음과 같아.:

{history}

사용자의 마지막 질문은 다음과 같아.:
"{query}"

## role :

{impormation}
1. 사용자가 책을 찾는 이유를 아는가?

1) 사용자는 심심해서 그냥 책을 읽고 싶어함.
2) 사용자는 추천받은 책을 통해서 정보나 기술을 얻고 싶어함.
3) 사용자는 흥미, 취미 생활 등의 일환으로 서적을 찾고 싶어함.

2. 사용자가 찾고자 하는 책에 대한 정보를 얼만큼 알고 있는가?

1) 사용자는 찾고자하는 책에 대한 어떤 사전 지식도 없음.
2) 사용자는 특정하는 책은 없으나, 카테고리 or 작가 or 관련 책 이름을 말하며 비슷한 책을 추천받고 싶어함.
3) 사용자는 확고하게 찾고 싶은 책이 존재하며, 해당 책이 없다면 해당 책과 최대한 비슷한 책을 찾고 싶어함.

{if}
사용자의 이전 질문들과 답변들을 종합했을 때, 위 {impormation}을 기반하여 사용자의 선호도를 특정할 수 있다면, 벡터 DB 내에서 아래 {strategy}를 활용하여 검색을 진행해.

{strategy}
1. 대화를 종합하면서 검색을 수행할 확률을 0에서 1 사이로 평가해. 0.6 이상이면 검색을 진행해.
2. 검색이 필요하다면, 사용자의 이전 질문들과 답변들을 10~40 단어 이내로 요약해서 벡터 DB 검색에 적절한 쿼리를 생성해.
3. 검색에 활용될 쿼리에는 사용자의 이전 질문들과 답변들 중 카테고리 등과 같은 "핵심 키워드 2~5개"를 포함시키도록 해.
4. 검색에는 사용자의 이전 질문들과 답변들을 "책 추천 기준"을 포함하여 요약해.
    - 예시: "SF 장르 중에서도 AI 관련 테마를 가진 최신 베스트셀러 추천 or 한국의 근현대사를 최대한 사실적으로 기술하고 있는 역사책 추천"
5. 검색에는 사용자의 이전 질문들과 답변들을 요약할 때 "추천 기준"도 함께 포함하고 고려해서 검색을 진행해.
    - 예시: "최신 AI 관련 베스트셀러 중에서 평점 4.5 이상인 도서"

{else}
- 아직 사용자의 선호도를 파악하지 못하겠다면, 해당 점수를 올릴 수 있는 방향으로 적절한 보충 질문을 1개 생성해.
- 하지만, 사용자가 너의 목적이 뚜렷한 질문에도 불구하고 중복되는 내용을 3번 이상 답변한다거나, 최종적으로 5번 이상의 대화를 나눴음에도 검색할 수 없다면, 적절한 검색이 이뤄질 수 없음을 언급하도록 해.

출력 형식 예시:
1. 검색 확률: 0.8
2. 검색 쿼리: "AI 철학 관련 최신 도서"
3. 추가 질문: "AI 철학 관련해서 어떤 주제가 궁금하세요?"
""")

search_query_chain = LLMChain(llm=llm_gemini, prompt=multi_turn_prompt)

  search_query_chain = LLMChain(llm=llm_gemini, prompt=multi_turn_prompt)


In [23]:
import re
# 추천 이유는 "출판사리뷰"를 우선, 없으면 "책 소개"를 사용하도록
def extract_field(text, field_name):
    # 각 필드는 "필드명: 내용" 형태로 되어 있음
    pattern = rf"{field_name}:\s*(.*)"
    match = re.search(pattern, text)
    return match.group(1).strip() if match else ""

def generate_answer(query):
    result = dpr_qa_chain.invoke(query)
    formatted_answers = []

    for doc in result['source_documents']:
        metadata = doc.metadata

        # 제목과 저자: 메타데이터 우선, 없으면 page_content에서 파싱
        title = metadata.get("제목") or extract_field(doc.page_content, "제목")
        author = metadata.get("저자") or extract_field(doc.page_content, "저자")

        # 추천 이유: 출판사리뷰 우선, 없으면 책 소개 사용
        reason = extract_field(doc.page_content, "출판사리뷰")
        if not reason:
            reason = extract_field(doc.page_content, "책 소개")
        if not reason:
            reason = "추천 이유 정보 없음"

        formatted = f"{title}\n{author}\n{reason}"
        formatted_answers.append(formatted)

    answer = "\n\n".join(formatted_answers)
    return answer, None

In [24]:
# 사용자 선호도 카테고리화 함수
def categorize_preference(question, response):
    if "장르" in question or "어떤 책" in question:
        user_preferences["genre"].append(response)
    elif "작가" in question or "좋아하는 작가" in question:
        user_preferences["author"].append(response)
    elif "목적" in question or "이유" in question:
        user_preferences["purpose"].append(response)
    else:
        user_preferences["misc"].append(response)

In [25]:
# 최종 검색 쿼리 생성을 위한 프롬프트
final_query_prompt = PromptTemplate.from_template("""
지금까지의 대화 내용을 바탕으로, 사용자의 선호도와 요청을 반영하여 검색에 적절한 최종 쿼리를 생성해줘.
대화 내용:
{history}
기본 검색 쿼리: {fallback}
최종 검색 쿼리:
""")
final_query_chain = LLMChain(llm=llm_gemini, prompt=final_query_prompt)

def robust_parse_llm_response(response_text):
    """
    LLM 응답 텍스트에서 검색 확률, 검색 쿼리, 추가 질문을 추출.
    """
    cleaned_text = re.sub(r'\*\*', '', response_text)
    search_score = None
    search_query = None
    follow_up_question = ""

    score_match = re.search(r"검색\s*확률[:：]\s*([\d\.]+)", cleaned_text)
    if score_match:
        try:
            search_score = float(score_match.group(1))
        except Exception as e:
            print("검색 확률 파싱 에러:", e)

    query_match = re.search(r"검색\s*쿼리[:：]\s*(.*)", cleaned_text)
    if query_match:
        search_query = query_match.group(1).strip()
        if search_query.startswith('"') and search_query.endswith('"'):
            search_query = search_query[1:-1].strip()

    follow_match = re.search(r"추가\s*질문[:：]\s*(.*)", cleaned_text)
    if follow_match:
        follow_up_question = follow_match.group(1).strip()
        if follow_up_question in ["(필요 없음)", "(없음)", ""]:
            follow_up_question = ""
        if follow_up_question.startswith('"') and follow_up_question.endswith('"'):
            follow_up_question = follow_up_question[1:-1].strip()

    return search_score, search_query, follow_up_question

In [26]:
def search_and_generate_answer(query, query_history):
    while True:
        query_summary = "\n".join(query_history[-5:])  # 최근 5개 대화 요약
        search_decision_dict = search_query_chain.invoke({
            "history": query_summary,
            "query": query,
            "if": "✅ 검색이 가능한 경우:",
            "else": "❌ 아직 검색이 불가능한 경우:",
            "impormation": "📌 사용자 선호도 분석:",
            "strategy": "🔍 검색 전략:",
        })
        response_text = search_decision_dict["text"].strip()
        print("\n[🔍 LLM 응답 확인]\n", response_text)

        # LLM 응답 파싱
        search_score, base_search_query, follow_up_question = robust_parse_llm_response(response_text)
        print(f"\n[디버그] 파싱 결과: 검색 확률={search_score}, 기본 검색 쿼리='{base_search_query}', 추가 질문='{follow_up_question}'")

        # 파싱 실패 시 추가 정보 요청
        if search_score is None:
            print("\n[❌ LLM 응답 파싱 실패: 추가 정보 필요]")
            extra_info = input("추가 정보를 입력해주세요: ")
            query_history.append(f"사용자(추가): {extra_info}")
            query = f"{query} {extra_info}"
            continue

        # 검색 확률이 충분(≥0.6)이고 기본 검색 쿼리가 있다면 최종 검색 쿼리 생성 후 DB 검색 진행
        if search_score >= 0.6 and base_search_query:
            final_search_query = final_query_chain.invoke({
                "history": "\n".join(query_history),
                "fallback": base_search_query
            })["text"].strip()
            print(f"\n[🔎 최종 검색 쿼리 생성]: {final_search_query}")

            answer, sources = generate_answer(final_search_query)
            if sources:
                book_info = "\n".join([f"- {title}" for title in sources])
                answer_with_info = f"{answer}\n\n[📚 책 정보]\n{book_info}"
                print("\n[📚 책 정보]\n", book_info)
            else:
                answer_with_info = answer
            return answer_with_info

        # 검색 확률이 낮거나 기본 검색 쿼리가 없으면 보충 질문 진행
        if follow_up_question:
            print(f"\n[🤖 보충 질문: {follow_up_question}]")
            query_history.append(f"AI: {follow_up_question}")
            user_response = input("\n사용자 응답: ")
            query_history.append(f"사용자: {user_response}")
            categorize_preference(follow_up_question, user_response)
            print("\n[📚 사용자 선호도 업데이트 완료!]")
            query = f"{query} {follow_up_question} {user_response}"
            continue

        if search_score < 0.6 or not base_search_query:
            print("\n[❌ 검색 확률 낮거나 검색 쿼리 없음: 추가 정보 필요]")
            extra_info = input("추가 정보를 입력해주세요: ")
            query_history.append(f"사용자(추가): {extra_info}")
            query = f"{query} {extra_info}"
            continue

In [27]:
def interactive_multi_turn_qa():
    query_history = []  # 각 실행마다 초기화

    while True:
        clear_output(wait=True)
        print("📚 멀티턴 AI 기반 책 추천 시스템 (종료하려면 'quit' 입력)")
        print("-" * 50)

        query = input("질문을 입력하세요: ")

        if query.lower() == 'quit':
            print("\n[📝 대화 저장 중...]")
            log_history.append(query_history)
            print("대화가 저장되었습니다. 프로그램을 종료합니다.")
            break

        query_history.append(f"사용자: {query}")
        answer = search_and_generate_answer(query, query_history)

        print("\n[💬 AI의 답변]")
        print(answer)

        query_history.append(f"AI: {answer}")

        input("\n-> 계속하려면 Enter를 누르세요...")

In [28]:
# 로그 저장
def show_log_history():
    print("\n[ 전체 대화 로그]")
    for i, session in enumerate(log_history, 1):
        print(f"\n 대화 세션 {i}:\n")
        print("\n".join(session))
        print("-" * 50)

In [30]:
# 실행
interactive_multi_turn_qa()

📚 멀티턴 AI 기반 책 추천 시스템 (종료하려면 'quit' 입력)
--------------------------------------------------
질문을 입력하세요: 파이썬 초심자 책을 찾고 있어

[🔍 LLM 응답 확인]
 1. 검색 확률: 0.4
2. 검색 쿼리:  (아직 생성 불가능)
3. 추가 질문: "파이썬 초심자 책을 찾으시는 이유가 무엇인가요? (예: 파이썬 프로그래밍을 배우고 싶어서, 파이썬 관련 프로젝트를 진행하기 위해서 등)"


**설명:**

사용자의 질문만으로는 사용자 선호도 분석 1번과 2번에 대한 정보가 부족합니다.  "파이썬 초심자 책"이라는 정보만으로는 어떤 종류의 책을 원하는지, 어떤 목적으로 책을 읽고 싶은지 알 수 없습니다.  따라서 검색 확률은 낮게 설정하고, 사용자의 목적을 명확히 하기 위한 추가 질문을 생성했습니다.  추가 질문을 통해 사용자의 목적(1번)과 책에 대한 지식 수준(2번)을 파악하면 더욱 정확한 검색 쿼리를 생성할 수 있습니다.

[디버그] 파싱 결과: 검색 확률=0.4, 기본 검색 쿼리='(아직 생성 불가능)', 추가 질문='파이썬 초심자 책을 찾으시는 이유가 무엇인가요? (예: 파이썬 프로그래밍을 배우고 싶어서, 파이썬 관련 프로젝트를 진행하기 위해서 등)'

[🤖 보충 질문: 파이썬 초심자 책을 찾으시는 이유가 무엇인가요? (예: 파이썬 프로그래밍을 배우고 싶어서, 파이썬 관련 프로젝트를 진행하기 위해서 등)]

사용자 응답: ml 엔지니어가 되고 싶어서.

[📚 사용자 선호도 업데이트 완료!]

[🔍 LLM 응답 확인]
 1. 검색 확률: 0.8
2. 검색 쿼리: "파이썬 초심자 ML 엔지니어 입문 책 추천"
3. 추가 질문:  "ML 엔지니어가 되기 위해 어떤 분야에 중점을 두고 싶으신가요? (예: 컴퓨터 비전, 자연어 처리, 강화학습 등)"


📌 사용자 선호도 분석:

1. 사용자가 책을 찾는 이유를 아는가?  2) 사용자는 추천받은 책을 통해서 정보나 기술을 얻고 싶어함. (M

KeyboardInterrupt: Interrupted by user