# Installations

In [None]:
# Instal semua library yang diperlukan
!pip install langchain langchain-groq langchain_community langchain-core \
                     langchain-huggingface langchain_text_splitters \
                     google-search-results \
                     pandas kaggle sentence-transformers faiss-cpu ipywidgets -q

  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.5/2.5 MB[0m [31m23.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.4/31.4 MB[0m [31m37.1 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m136.0/136.0 kB[0m [31m10.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m64.7/64.7 kB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m65.7 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m50.9/50.9 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for google-search-results (setup.py) ... [?25l[?25hdone
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the followin

# Importing Library

In [None]:
import os
from google.colab import userdata
import pandas as pd
from langchain_core.documents import Document
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from tqdm.auto import tqdm
from langchain_community.utilities import GoogleSerperAPIWrapper
from langchain.agents import Tool
from langchain_groq import ChatGroq
from langchain import hub
from langchain.agents import create_react_agent, AgentExecutor
from langchain_core.prompts import PromptTemplate


# Define LangModel & Tools



In [None]:
# 1. Untuk Kaggle (Download Data)
os.environ["KAGGLE_USERNAME"] = userdata.get('KAGGLE_USERNAME')
os.environ["KAGGLE_KEY"] = userdata.get('KAGGLE_KEY')

# 2. Untuk Groq (LLM Cepat & Gratis)
os.environ["GROQ_API_KEY"] = userdata.get('GROQ_API_KEY')

# 3. Untuk Serper (Web Search)
os.environ["SERPER_API_KEY"] = userdata.get('SERPER_API_KEY')

print("Semua API Key telah dimuat.")

Semua API Key telah dimuat.


# Data Sourcing & Loading

In [None]:
DATASET_NAME = 'karkavelrajaj/amazon-sales-dataset'
ZIP_FILE = 'amazon-sales-dataset.zip'

print(f"Mengunduh dataset: {DATASET_NAME}...")

# 1. Coba unduh dataset
!kaggle datasets download -d {DATASET_NAME}

# 2. Periksa apakah file zip BERHASIL diunduh
if os.path.exists(ZIP_FILE):
    print(f"Berhasil mengunduh {ZIP_FILE}.")

    # 3. Ekstrak file
    !unzip -o -q {ZIP_FILE} # -q = quiet
    print("Dataset berhasil diekstrak (amazon.csv).")
else:
    print(f"ERROR: Gagal mengunduh {ZIP_FILE}.")
    print("Jika Anda melihat error '403 Forbidden', pastikan Anda telah 'Accept Rules' di halaman Kaggle dataset.")

Mengunduh dataset: karkavelrajaj/amazon-sales-dataset...
Dataset URL: https://www.kaggle.com/datasets/karkavelrajaj/amazon-sales-dataset
License(s): CC-BY-NC-SA-4.0
Downloading amazon-sales-dataset.zip to /content
  0% 0.00/1.95M [00:00<?, ?B/s]
100% 1.95M/1.95M [00:00<00:00, 1.04GB/s]
Berhasil mengunduh amazon-sales-dataset.zip.
Dataset berhasil diekstrak (amazon.csv).


# Data Preprocessing, Chunking, and Vektorization

In [None]:
print("Memulai proses pembuatan RAG Retriever...")

try:
    # 1. Muat Data
    FILE_NAME = 'amazon.csv'
    df = pd.read_csv(FILE_NAME)

    # 2. Bersihkan & Format Data
    df_cleaned = df[['product_name', 'category', 'about_product', 'discounted_price', 'rating', 'rating_count', 'product_link']].copy()
    df_cleaned = df_cleaned.dropna(subset=['product_name', 'about_product', 'category'])
    df_cleaned.fillna('N/A', inplace=True)

    docs = []
    for _, row in df_cleaned.iterrows():
        page_content = f"Product Name: {row['product_name']}\nCategory: {row['category']}\nAbout Product: {row['about_product']}"
        metadata = {
            'product_name': str(row['product_name']),
            'discounted_price': str(row['discounted_price']),
            'rating': str(row['rating']),
            'rating_count': str(row['rating_count']),
            'product_link': str(row['product_link'])
        }
        docs.append(Document(page_content=page_content, metadata=metadata))

    print(f"Data CSV berhasil diproses menjadi {len(docs)} Dokumen.")

    # 3. Inisialisasi Embeddings (Lokal & Gratis)
    model_name = "sentence-transformers/all-MiniLM-L6-v2"
    embeddings = HuggingFaceEmbeddings(model_name=model_name)

    # 4. Split Dokumen
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
    splits = text_splitter.split_documents(docs)

    # 5. Buat Vector Store (FAISS)
    print("Memulai vektorisasi... (Ini akan memakan waktu beberapa saat)")
    vector_store = FAISS.from_documents(documents=splits, embedding=embeddings)

    # 6. Buat Retriever
    retriever = vector_store.as_retriever(search_kwargs={'k': 3}) # Ambil 3 hasil teratas

    print("\n--- Retriever RAG (Database Produk) Siap! ---")

except Exception as e:
    print(f"Terjadi error saat membuat retriever: {e}")

Memulai proses pembuatan RAG Retriever...
Data CSV berhasil diproses menjadi 1465 Dokumen.


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Memulai vektorisasi... (Ini akan memakan waktu beberapa saat)

--- Retriever RAG (Database Produk) Siap! ---


# Tools Setup

In [None]:
# Tool 1: Internet Search (dari notebook Anda yang berhasil)
search_wrapper = GoogleSerperAPIWrapper()
search_tool = Tool(
    name="Internet Search",
    func=search_wrapper.run,
    description="Berguna untuk mencari informasi real-time, berita terbaru, ulasan, atau fakta umum yang tidak ada di database produk."
)

# Tool 2: Product Database (RAG kita)
# Kita bungkus 'retriever' yang sudah kita buat ke dalam format 'Tool'
product_db_tool = Tool(
    name="Product Database Search",
    func=retriever.invoke, # Agen akan memanggil retriever.invoke(query)
    description="Wajib digunakan untuk mencari informasi produk internal seperti spesifikasi teknis, deskripsi, kategori, dan harga. Gunakan ini SEBELUM mencari di internet."
)

# Gabungkan kedua tool ke dalam satu daftar
tools = [search_tool, product_db_tool]

print(f"Agent sekarang memiliki {len(tools)} tools:")
print(f"1. {tools[0].name}")
print(f"2. {tools[1].name}")

Agent sekarang memiliki 2 tools:
1. Internet Search
2. Product Database Search


# Agent Setup

In [None]:
# 1. Inisialisasi LLM Groq
llm = ChatGroq(
    temperature=0,
    model_name="llama-3.3-70b-versatile"
)
print("LLM Groq diinisialisasi.")

# 2. Ambil ReAct Prompt
# Ini adalah "otak" yang memberi tahu agent cara menggunakan tools
prompt = hub.pull("hwchase17/react")

# 3. Buat Agent
# Agent ini tahu cara menggunakan 'llm' dan 'tools'
agent = create_react_agent(llm, tools, prompt)
print("Agent ReAct dibuat.")

# 4. Buat Agent Executor
# Ini adalah 'wrapper' yang menjalankan agent secara berulang
agent_executor = AgentExecutor(
    agent=agent,
    tools=tools,
    verbose=True, # 'verbose=True' akan menunjukkan "pikiran" agent
    handle_parsing_errors=True # Menangani jika LLM memberi output aneh
)
print("Agent Executor dengan Groq dan 2 tools (RAG + Web) siap.")

LLM Groq diinisialisasi.
Agent ReAct dibuat.
Agent Executor dengan Groq dan 2 tools (RAG + Web) siap.


# Execution

In [None]:
print("---  Memulai Chatbot E-commerce Agent ---")
print("Ketik 'q' atau 'quit' untuk keluar.")
print("-" * 50)

while True:
    # 1. Menerima input dari pengguna
    query = input("Anda: ")

    # 2. Memeriksa kondisi keluar
    if query.lower() in ['q', 'quit']:
        print("Bot: Terima kasih telah menggunakan layanan kami. Sampai jumpa!")
        break

    # 3. Menjalankan agent jika bukan perintah keluar
    print("Bot:  Berpikir...")
    try:
        # Jalankan agent executor dengan input pengguna
        result = agent_executor.invoke({"input": query})

        # 4. Cetak hasil
        print("\n" + "="*50)
        print("---  JAWABAN AKHIR AGENT ---")
        print("="*50)
        print(result['output'])
        print("="*50 + "\n") # Tambahkan spasi untuk pertanyaan berikutnya

    except Exception as e:
        print(f"\nTerjadi error saat eksekusi: {e}")
        print("Maaf, terjadi kesalahan. Silakan coba pertanyaan lain.\n")

---  Memulai Chatbot E-commerce Agent ---
Ketik 'q' atau 'quit' untuk keluar.
--------------------------------------------------
Anda: Saya butuh kabel charging untuk iPhone. Cari satu di database-mu, lalu cari tahu ulasan terbarunya di internet.
Bot:  Berpikir...


[1m> Entering new AgentExecutor chain...[0m
[32;1m[1;3mSaya perlu mencari kabel charging untuk iPhone di database produk internal terlebih dahulu untuk mendapatkan informasi tentang spesifikasi teknis, deskripsi, kategori, dan harga. Setelah itu, saya akan mencari ulasan terbaru di internet untuk mengetahui pengalaman pengguna dan kualitas produk.

Action: Product Database Search
Action Input: kabel charging iPhone[0m[33;1m[1;3m[Document(id='9f5352ab-2ed3-4569-a6a6-70bf36fcd032', metadata={'product_name': 'Wayona Type C to Lightning MFI Certified 20W Fast charging Nylon Braided USB C Cable for iPhone 14, 14 Pro, 14 Pro Max, 14 Plus, 13, 13 Pro, 13 Pro Max, 13 Mini, 12, 12 Pro, 11, 11 Pro Max iPhone 12 Mini, X, 8 (2M,