##Virtual Shopping AI Agent (침대 매트리스 버전) 실습 로드맵

1. 샘플 데이터 준비	침대 매트리스 데이터셋 생성
2. 데이터 전처리	CSV → Pandas DataFrame 준비
3. 임베딩	문장 임베딩 생성
4. VectorDB 구축	FAISS or ChromaDB
5. 검색 파이프라인 구성	사용자의 자연어 질문 → 검색 결과 출력
6. LLM 프롬프트 설계 추천문장, 비교문장 생성
7. 가격비교 Function Calling	Function Call 구조 구현 (샘플 데이터 기반)
8. 통합 및 시연	전체 파이프라인 완성
9. 발표준비	교수님 발표 시연 자료 준비

## AI Agent 만드는 단계

1단계: 샘플 데이터셋 구축(필요시 실시간 API 연동)

2단계: 임베딩 생성 (Embedding)

3단계: 벡터 DB 구축 (VectorDB - FAISS)

4단계: 검색결과 + LLM 결합 → RAG 구성

5단계: Function Calling 기반 상품 상세정보 제공

In [2]:
!pip install pandas



# 1단계: 샘플 데이터 준비

In [4]:
import pandas as pd

# 파일 업로드 (Colab UI에서 mattress_sample.csv 업로드)
from google.colab import files
uploaded = files.upload()

# CSV 불러오기
df = pd.read_csv('mattress_sample.csv', encoding='utf-8-sig')

# 데이터 확인
df.head()

Saving mattress_sample.csv to mattress_sample.csv


Unnamed: 0,제품명,브랜드,가격,사이즈,경도,특징,리뷰요약
0,시몬스 뷰티레스트 플래티넘,시몬스,2200000,퀸,하드,"독립스프링, 진동흡수","허리가 편하다, 소음이 적다"
1,시몬스 뷰티레스트 블랙,시몬스,2700000,킹,하드,"독립스프링, 고급소재",복원력이 좋고 꺼짐이 없다
2,템퍼 오리지널,템퍼,2500000,킹,미디엄,"메모리폼, 체압분산","허리 통증 완화, 꺼짐 없음"
3,템퍼 클라우드 엘리트,템퍼,3000000,퀸,소프트,"메모리폼, 부드러운 쿠션감",몸이 푹신하게 감싸진다
4,에이스 하이브리드 TECH,에이스,2000000,퀸,미디엄,스프링+폼 하이브리드,"숙면 가능, 복원력 좋음"


# 2단계 : 임베딩 생성

In [5]:
# OpenAI Embedding 또는 SentenceTransformers 활용
# 주요 임베딩 대상: 특징 + 리뷰요약 필드 통합 → 벡터화

# ① 라이브러리 설치

!pip install sentence-transformers

Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.2.1.3 (from torch>=1.11.0->sentence-transformers)
 

In [6]:
from sentence_transformers import SentenceTransformer
import numpy as np

# ③ 임베딩용 텍스트 구성
# 특징 + 리뷰요약 합치기
df['text_for_embedding'] = df['특징'] + ' ' + df['리뷰요약']

# 확인
df[['제품명', 'text_for_embedding']].head()

# ④ 임베딩 모델 로드
model = SentenceTransformer('all-MiniLM-L6-v2')

# ⑤ 벡터 임베딩 생성
# 모든 상품을 임베딩
embeddings = model.encode(df['text_for_embedding'].tolist())

# numpy array 형태로 변환됨
embeddings.shape

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

(31, 384)

# 3단계: VectorDB 구축

In [7]:
# ① FAISS 설치
!pip install faiss-cpu

# ② FAISS 라이브러리 불러오기

import faiss

# ③ FAISS 인덱스 생성 및 임베딩 저장
# FAISS 인덱스 생성 (384차원 → 임베딩 벡터 차원)
embedding_dimension = embeddings.shape[1]

# faiss.IndexFlatL2() → L2 Distance (유클리드 거리)를 사용
index = faiss.IndexFlatL2(embedding_dimension)

# 인덱스에 임베딩 추가
index.add(np.array(embeddings))

# 현재 총 몇 개 벡터 저장되었는지 확인
print("총 벡터 개수:", index.ntotal)

Collecting faiss-cpu
  Downloading faiss_cpu-1.11.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.8 kB)
Downloading faiss_cpu-1.11.0-cp311-cp311-manylinux_2_28_x86_64.whl (31.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.3/31.3 MB[0m [31m26.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: faiss-cpu
Successfully installed faiss-cpu-1.11.0
총 벡터 개수: 31


In [13]:
# ④ 검색 테스트
# 검색 문장 임베딩
query = "허리가 편안한 매트리스 추천"
query_embedding = model.encode([query])

# 유사도 검색 (top 5개 검색)
# FAISS의 기본 검색 방식인 L2 거리 (유클리드 거리) 사용 → IndexFlatL2()
# D(L2 Distance) 값이 작을수록 더 유사한 것으로 판단합니다.
k = 5
D, I = index.search(np.array(query_embedding), k)

# 검색결과 출력
for distance, idx in zip(D[0], I[0]):
    product_name = df.iloc[idx]['제품명']
    review = df.iloc[idx]['리뷰요약']
    print(f"제품명: {product_name} | 거리: {distance:.4f} | 리뷰요약: {review}")

제품명: 시몬스 뷰티레스트 플래티넘 | 거리: 0.3023 | 리뷰요약: 허리가 편하다, 소음이 적다
제품명: 현대 리바트 클라우드폼 | 거리: 0.3338 | 리뷰요약: 푹신하고 허리가 편하다
제품명: 씰리 포스쳐피딕 클래식 | 거리: 0.3341 | 리뷰요약: 허리 지지력 우수, 가격대비 만족
제품명: 시몬스 네이처스프링 | 거리: 0.3417 | 리뷰요약: 피부에 닿는 촉감이 좋다
제품명: 삼익 에코라텍스 | 거리: 0.3514 | 리뷰요약: 여름에도 시원하다


# 4단계: RAG 구성 시작

In [20]:
# 이제 우리가 만드는 것은 이렇게 될 것: [사용자 질문] → [VectorDB 검색] → [검색 결과를 LLM에게 전달] → [LLM이 최종 답변 생성]
# ① OpenAI API Key 필요 : https://platform.openai.com/account/api-keys 에서 개인 API Key 발급

!pip install --upgrade openai

import openai

# ③ OpenAI API 키 등록
# 본인 API 키 넣기
client = openai.OpenAI(
   api_key = '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'
   )




In [22]:
# ④ 검색 → 검색결과를 문장으로 변환

# 검색 쿼리 예시
query = "허리가 편안한 매트리스 추천"
query_embedding = model.encode([query])
k = 5
D, I = index.search(np.array(query_embedding), k)

# 검색된 상품 리스트 만들기
retrieved_products = []
for idx in I[0]:
    product_name = df.iloc[idx]['제품명']
    brand = df.iloc[idx]['브랜드']
    feature = df.iloc[idx]['특징']
    review = df.iloc[idx]['리뷰요약']
    retrieved_products.append(f"제품명: {product_name}, 브랜드: {brand}, 특징: {feature}, 리뷰: {review}")

# 검색된 결과를 하나의 텍스트로 묶기
retrieved_context = "\n".join(retrieved_products)


# ⑤ LLM에게 검색결과를 넘겨서 답변 생성
system_prompt = (
    "너는 침대 매트리스 추천 AI이다. 사용자의 질문과 아래 검색된 상품 정보를 참고해서 "
    "가장 적절한 제품을 추천해주고 이유도 간단히 설명해줘."
)

user_prompt = f"사용자 질문: {query}\n\n검색된 상품 정보:\n{retrieved_context}"

# 최신 openai 1.0 버전 호출 방식
response = client.chat.completions.create(
    model="gpt-3.5-turbo",  # 3.5가 Function Calling이 안정적으로 지원되는 첫 버전이고 API비용이 저렴함
    messages=[
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt}
    ],
    temperature=0.7,
    max_tokens=300
)

# 결과 출력
print(response.choices[0].message.content)

제가 추천하는 매트리스는 "현대 리바트 클라우드폼"입니다. 이 제품은 폼 소재로 만들어져 체압을 분산시켜주어 허리에 편안함을 제공합니다. 또한 리뷰에 따르면 푹신하고 허리에 부드럽게 감싸는 느낌을 준다고 합니다. 허리가 편안한 매트리스를 찾고 계시다면 현대 리바트 클라우드폼을 고려해보세요.


# 5단계: Function Calling 구조 구현

-목표

*사용자의 조건을 분석

*VectorDB 검색

*LLM이 Function을 호출

*가격 비교, 상세 정보 반환


In [30]:
def shopping_agent_pipeline(user_query):
    # 검색 수행 (Retrieval)
    query_embedding = model.encode([user_query])
    D, I = index.search(np.array(query_embedding), 5)

    # 검색된 상품 리스트 구성
    retrieved_products = []
    for idx in I[0]:
        row = df.iloc[idx]
        retrieved_products.append(
            f"제품명: {row['제품명']}, 브랜드: {row['브랜드']}, 특징: {row['특징']}, 리뷰: {row['리뷰요약']}"
        )
    retrieved_context = "\n".join(retrieved_products)

    # LLM에게 검색 결과 전달 → 추천 생성
    system_prompt = (
        "너는 침대 매트리스 추천 AI이다. 사용자의 질문과 아래 검색된 상품 정보를 참고해서 "
        "가장 적절한 제품을 추천해주고 필요시 함수 호출도 해줘."
    )

    user_prompt = f"사용자 질문: {user_query}\n\n검색된 상품 정보:\n{retrieved_context}"

    response = client.chat.completions.create(
        model="gpt-3.5-turbo",  # gpt-3.5-turbo, gpt-4o 사용 가능
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_prompt}
        ],
        functions=functions,
        function_call="auto",
        temperature=0.7
    )

    # LLM이 함수 호출 요청했는지 확인
    if response.choices[0].message.function_call:
        function_call = response.choices[0].message.function_call
        arguments = eval(function_call.arguments)
        product_name = arguments["product_name"]
        result = get_product_info(product_name)

        # 함수 실행 결과를 LLM에게 넘김 → 최종 응답 생성
        followup_response = client.chat.completions.create(
            model="gpt-3.5-turbo",
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": user_prompt},
                {"role": "function", "name": function_call.name, "content": str(result)}
            ],
            temperature=0.7
        )

        print(followup_response.choices[0].message.content)

    else:
        print(response.choices[0].message.content)

#  실행 예시
shopping_agent_pipeline("허리가 편안한 매트리스 추천해줘")

허리가 편안한 매트리스로는 시몬스 뷰티레스트 플래티넘을 추천해드립니다. 이 제품은 독립스프링과 진동흡수 기술을 적용하여 허리를 편안하게 지지해주며, 소음이 적어 조용한 휴식 환경을 제공합니다. 가격은 220만원이며, 퀸 사이즈로 하드한 경도를 가지고 있습니다.

추가적으로 해당 제품의 가격 대비 성능을 확인하시려면 `시몬스 뷰티레스트 플래티넘 가격 대비 성능`을 입력해주세요.


## 최종 통합코드

In [33]:
# 1️⃣ 필요한 라이브러리 설치
!pip install sentence-transformers faiss-cpu openai pandas

# 2️⃣ 라이브러리 불러오기
import pandas as pd
import numpy as np
import faiss
from sentence_transformers import SentenceTransformer
import openai

# 3️⃣ OpenAI API 키 입력
# 본인 API키 입력
openai_api_key = "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"
client = openai.OpenAI(api_key=openai_api_key)

# 4️⃣ 데이터 로딩 (Colab에 mattress_sample.csv 업로드 필요)
from google.colab import files
uploaded = files.upload()

df = pd.read_csv('mattress_sample.csv', encoding='utf-8-sig')

# 5️⃣ 임베딩 생성 준비
df['text_for_embedding'] = df['특징'] + ' ' + df['리뷰요약']
model = SentenceTransformer('all-MiniLM-L6-v2')
embeddings = model.encode(df['text_for_embedding'].tolist())

# 6️⃣ VectorDB 구축 (FAISS)
embedding_dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(embedding_dimension)
index.add(np.array(embeddings))
print("총 벡터 개수:", index.ntotal)

# 7️⃣ 함수 정의 (Function Calling용)
functions = [
    {
        "name": "get_product_info",
        "description": "상품의 가격 및 상세정보를 알려줍니다.",
        "parameters": {
            "type": "object",
            "properties": {
                "product_name": {
                    "type": "string",
                    "description": "상품명"
                }
            },
            "required": ["product_name"]
        }
    }
]

# 8️⃣ 실제 함수 구현
def get_product_info(product_name):
    product_row = df[df['제품명'] == product_name]
    if product_row.empty:
        return "해당 상품 정보를 찾을 수 없습니다."

    row = product_row.iloc[0]
    return {
        "제품명": row['제품명'],
        "브랜드": row['브랜드'],
        "가격": row['가격'],
        "사이즈": row['사이즈'],
        "경도": row['경도'],
        "특징": row['특징'],
        "리뷰요약": row['리뷰요약']
    }

# 9️⃣ 메인 통합 파이프라인 (검색 → LLM → Function Calling)

def shopping_agent_pipeline(user_query):
    # 검색 수행 (Retrieval)
    query_embedding = model.encode([user_query])
    D, I = index.search(np.array(query_embedding), 5)

    # 검색된 상품 리스트 구성
    retrieved_products = []
    for idx in I[0]:
        row = df.iloc[idx]
        retrieved_products.append(
            f"제품명: {row['제품명']}, 브랜드: {row['브랜드']}, 특징: {row['특징']}, 리뷰: {row['리뷰요약']}"
        )
    retrieved_context = "\n".join(retrieved_products)

    # LLM에게 검색 결과 전달 → 추천 생성
    system_prompt = (
        "너는 침대 매트리스 추천 AI이다. 사용자의 질문과 아래 검색된 상품 정보를 참고해서 "
        "가장 적절한 제품을 추천해주고 필요시 함수 호출도 해줘."
    )

    user_prompt = f"사용자 질문: {user_query}\n\n검색된 상품 정보:\n{retrieved_context}"

    response = client.chat.completions.create(
        model="gpt-3.5-turbo",  # 최신버전에서는 gpt-4o도 사용 가능
        messages=[
            {"role": "system", "content": system_prompt},
            {"role": "user", "content": user_prompt}
        ],
        functions=functions,
        function_call="auto",
        temperature=0.7
    )

    # LLM이 함수 호출 요청했는지 확인
    if response.choices[0].message.function_call:
        function_call = response.choices[0].message.function_call
        arguments = eval(function_call.arguments)
        product_name = arguments["product_name"]
        result = get_product_info(product_name)

        # 함수 실행 결과를 LLM에게 넘김 → 최종 응답 생성
        followup_response = client.chat.completions.create(
            model="gpt-3.5-turbo",
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": user_prompt},
                {"role": "function", "name": function_call.name, "content": str(result)}
            ],
            temperature=0.7
        )

        print(followup_response.choices[0].message.content)

    else:
        print(response.choices[0].message.content)

#  🔟 실행 예시
shopping_agent_pipeline("허리가 편안한 매트리스 추천해줘")



Saving mattress_sample.csv to mattress_sample (2).csv
총 벡터 개수: 31
허리가 편안한 매트리스로는 **시몬스 뷰티레스트 플래티넘 매트리스**를 추천드립니다. 이 매트리스는 독립스프링과 진동흡수 기술을 사용하여 허리를 편안하게 지지해주며, 소음이 적어 편안한 수면 환경을 제공합니다. 가격대는 2,200,000원으로 퀸 사이즈와 하드 타입으로 제공되고 있습니다.

추천 제품에 대한 더 자세한 정보나 구매를 원하신다면 관련 링크를 제공해드릴 수 있습니다. 혹은 다른 제품에 대한 정보나 비교 분석을 원하시면 말씀해주세요.
