---

## 🔍 Apa Itu Indexing dalam RAG

**Indexing** adalah proses **mengorganisasi dan menyimpan informasi dari dokumen dalam bentuk yang mudah dicari kembali** ketika dibutuhkan oleh sistem RAG.
Dalam konteks RAG, indexing bukan hanya menyimpan teks, tapi **menyimpan pemahaman makna dari teks** (dalam bentuk vektor numerik yang mewakili isi dokumen secara semantik).

---

## 🧠 Mengapa Indexing Diperlukan

Model bahasa besar (LLM) seperti GPT tidak menyimpan atau mengingat semua informasi eksternal — kapasitas memorinya terbatas pada data pelatihan.
Ketika kita ingin agar model bisa menjawab pertanyaan berdasarkan sumber eksternal (misalnya kumpulan artikel, jurnal, atau dokumen perusahaan), maka:

* Kita **tidak bisa** setiap kali membaca semua dokumen dari awal.
* Kita perlu **cara cepat untuk menemukan bagian yang relevan** saja.

Di sinilah indexing berperan:
Ia membuat sistem dapat **menemukan informasi yang relevan dalam hitungan milidetik** dari ribuan bahkan jutaan potongan data.

---

## ⚙️ Bagaimana Sistematikanya dalam Aliran Data (Data Flow)

Proses indexing dalam RAG mengikuti **alur sistematis dari data mentah menjadi data siap pakai untuk pencarian semantik**, seperti ini:

1. ### 🧾 **Pengumpulan Data (Data Collection)**

   Sistem mengumpulkan berbagai sumber teks, misalnya artikel blog, dokumen PDF, atau halaman web.
   Ini adalah bahan mentah yang nanti akan diindeks.

2. ### ✂️ **Pemecahan Dokumen (Chunking)**

   Dokumen panjang dipecah menjadi bagian kecil agar setiap bagian bisa berdiri sendiri secara makna.
   Ini penting karena sistem retrieval bekerja lebih akurat ketika setiap unit informasi cukup spesifik.

3. ### 🧬 **Representasi Semantik (Embedding)**

   Setiap potongan teks diubah menjadi representasi matematis (biasanya vektor berdimensi tinggi).
   Vektor ini menyimpan *makna semantik*, bukan sekadar kata per kata.

   Misalnya, kalimat “cara kerja otak buatan” dan “mekanisme AI berpikir” akan memiliki representasi yang mirip — karena maknanya serupa.

4. ### 🗂️ **Penyimpanan dalam Basis Data Vektor (Vector Store)**

   Semua vektor hasil embedding disimpan dalam struktur khusus bernama **vector database** (seperti FAISS, Pinecone, Chroma, dsb).
   Database ini memungkinkan sistem mencari kesamaan makna antara teks pertanyaan dan potongan teks yang telah diindeks.

5. ### ⚡ **Retrieval**

   Ketika pengguna mengajukan pertanyaan, pertanyaan tersebut juga diubah menjadi vektor.
   Sistem kemudian mencari potongan teks di dalam index yang paling mirip secara semantik dengan vektor pertanyaan tersebut.

---

## 🎯 Kegunaan Indexing

| Tujuan                                     | Penjelasan                                                                                                                                                |
| ------------------------------------------ | --------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Efisiensi pencarian**                    | Tanpa indexing, sistem harus membaca seluruh teks setiap kali ada pertanyaan — ini sangat lambat. Indexing membuat pencarian bisa dilakukan dengan cepat. |
| **Pencocokan makna, bukan kata**           | Karena indexing menggunakan embedding semantik, sistem dapat memahami kesamaan makna meskipun kata-katanya berbeda.                                       |
| **Fondasi bagi Retrieval**                 | Index adalah dasar dari proses retrieval. Tanpa index, tidak ada cara efisien untuk menemukan informasi relevan dari data besar.                          |
| **Menjembatani LLM dengan data eksternal** | Indexing memungkinkan RAG mengakses dan menggunakan data yang tidak termasuk dalam pelatihan model.                                                       |

---

## 🧩 Hubungan Indexing dengan Komponen RAG

Sistem RAG terbagi menjadi dua komponen besar:

1. **Retrieval (pengambilan informasi)**
   Bergantung sepenuhnya pada hasil indexing. Tanpa index yang baik, retrieval akan lambat dan tidak akurat.

2. **Generation (pembuatan jawaban)**
   Menggunakan hasil retrieval sebagai konteks untuk menghasilkan jawaban yang informatif dan faktual.

Dengan kata lain:

> **Indexing adalah fondasi yang membuat retrieval mungkin, dan retrieval adalah fondasi yang membuat generasi jawaban relevan.**

---

## 🧭 Analogi untuk Memudahkan

Bayangkan kamu punya **perpustakaan besar** dengan ribuan buku.

* Jika tidak ada katalog, kamu harus membuka satu per satu buku untuk mencari topik tertentu — lambat dan melelahkan.
* Jika kamu membuat **katalog tematik**, kamu bisa langsung tahu di rak mana dan halaman mana informasi itu berada.

Nah, **indexing adalah pembuatan katalog digital semantik** — bukan hanya berdasarkan kata, tapi berdasarkan *makna isi teks*.

---

## 🔑 Kesimpulan

| Aspek                | Penjelasan Singkat                                                                                 |
| -------------------- | -------------------------------------------------------------------------------------------------- |
| **Pengertian**       | Proses mengubah teks menjadi bentuk terstruktur dan bermakna agar mudah dicari kembali             |
| **Kegunaan**         | Mempercepat pencarian, meningkatkan relevansi hasil, dan memungkinkan RAG mengakses data eksternal |
| **Sistematika Data** | Data mentah → Chunk → Embedding → Vector Database → Query & Retrieval                              |
| **Fungsi dalam RAG** | Menjadi dasar bagi proses retrieval, yang menyediakan konteks untuk generasi jawaban               |

---
## 🧠 1. Mengapa Kualitas Indexing Penting

RAG (Retrieval-Augmented Generation) itu pada dasarnya bekerja dalam dua tahap:

1. **Retrieval** — menemukan informasi relevan.
2. **Generation** — membuat jawaban berdasarkan hasil retrieval.

Kalau tahap pertama (retrieval) salah atau kurang relevan,
maka tahap kedua (generation) juga akan salah arah.

> **Kualitas jawaban RAG sangat tergantung pada kualitas indexing.**
> Sistem hanya bisa menghasilkan jawaban sebaik konteks yang diambilnya.

---

## ⚙️ 2. Faktor-Faktor yang Mempengaruhi Kualitas Indexing

Mari kita uraikan satu per satu secara konseptual 👇

---

### 🧩 a. **Ukuran dan Tumpang Tindih (Chunk Size & Overlap)**

Saat dokumen dipecah menjadi potongan kecil (chunk), dua hal perlu diperhatikan:

| Aspek         | Terlalu Kecil            | Terlalu Besar                                 |
| ------------- | ------------------------ | --------------------------------------------- |
| **Kelebihan** | Relevansi lebih spesifik | Konteks utuh lebih terjaga                    |
| **Kelemahan** | Hilang konteks makna     | Sulit ditemukan karena embedding terlalu umum |

Idealnya:

* **Chunk size**: 300–800 kata (tergantung jenis dokumen)
* **Overlap**: 10–20% antar chunk agar makna tidak terpotong

> 📘 Contoh:
> Kalau kamu mengindeks artikel panjang di Substack, terlalu kecil chunk-nya bisa bikin makna paragraf terpisah dari konteks.
> Tapi terlalu besar bisa bikin model kesulitan menentukan bagian mana yang relevan dengan query.

---

### 🧬 b. **Kualitas Embedding**

Embedding adalah representasi semantik dari teks dalam bentuk vektor numerik.

Kualitas embedding menentukan seberapa “pintar” sistem memahami makna teks.

| Jenis Embedding                                           | Karakteristik                                            |
| --------------------------------------------------------- | -------------------------------------------------------- |
| **Statistik sederhana (TF-IDF, BM25)**                    | Berdasarkan kata — cepat tapi kurang memahami makna      |
| **Embedding neural (mis. OpenAI, Cohere, Sentence-BERT)** | Berdasarkan makna — lebih akurat dan relevan             |
| **Domain-specific embedding**                             | Dilatih untuk bidang tertentu, misalnya medis atau hukum |

> Semakin baik embedding, semakin akurat hasil pencarian semantik (semantic search).

---

### 🗃️ c. **Struktur dan Jenis Database**

Indexing juga dipengaruhi oleh bagaimana dan di mana data disimpan.

| Database                         | Ciri Khas                                    |
| -------------------------------- | -------------------------------------------- |
| **FAISS**                        | Cepat, cocok untuk eksperimen lokal          |
| **Pinecone / Weaviate / Qdrant** | Cloud-based, scalable, mendukung metadata    |
| **Chroma**                       | Ringan, cocok untuk project kecil atau lokal |

Database ini tidak hanya menyimpan embedding, tapi juga **metadata** (judul, tanggal, sumber, dll) yang bisa membantu sistem menyaring hasil retrieval lebih tepat.

---

### ⚖️ d. **Strategi Preprocessing dan Normalisasi Teks**

Sebelum di-*index*, teks biasanya perlu dibersihkan:

* Menghapus HTML tag, script, dan simbol aneh
* Menormalkan huruf besar/kecil
* Menghapus redundansi (misal footer atau navigasi situs)

Kalau tidak dibersihkan, hasil embedding bisa “berisik” dan menurunkan kualitas pencarian.

> Contoh: kalau kamu scrape blog Medium dan tidak buang bagian seperti “login to continue” atau “related articles”, embedding-nya akan terdistorsi.

---

### 🎯 e. **Kualitas dan Keberagaman Data yang Diindeks**

Kalau sumber datanya sempit atau tidak representatif, sistem hanya akan bisa menjawab sebagian kecil pertanyaan dengan baik.

Idealnya:

* Data yang diindeks **beragam** (berisi berbagai topik dalam domain)
* Tapi juga **konsisten secara kualitas** (tidak banyak teks spam, duplikat, atau noise)

---

### 🔍 f. **Metode Pencarian (Retrieval Method)**

Setelah indexing selesai, metode pencarian juga berpengaruh.

Ada dua pendekatan umum:

1. **Similarity-based retrieval** — cari chunk yang paling mirip dengan query.
2. **Hybrid retrieval** — gabungkan pencarian semantik (embedding) dan pencarian berbasis kata (keyword).

Hybrid biasanya memberikan hasil paling relevan karena menggabungkan “pemahaman makna” dan “kecocokan kata”.

---

## 🧭 3. Dampak Langsung Kualitas Indexing terhadap RAG

| Aspek                      | Indexing Buruk                       | Indexing Baik                                     |
| -------------------------- | ------------------------------------ | ------------------------------------------------- |
| **Kecepatan pencarian**    | Lambat karena data tidak terstruktur | Cepat, hanya mencari di bagian relevan            |
| **Akurasi konteks**        | Jawaban salah atau tidak nyambung    | Jawaban relevan dan informatif                    |
| **Relevansi semantik**     | Tidak memahami makna sebenarnya      | Mengerti sinonim dan makna tersirat               |
| **Kemampuan generalisasi** | Terbatas, banyak “miss”              | Mampu menjawab dari berbagai formulasi pertanyaan |
| **Pengalaman pengguna**    | Frustrasi, tidak dapat jawaban tepat | Lancar, terasa “cerdas” dan natural               |

---

## 🧩 4. Inti Hubungan: Indexing → Retrieval → Generation

Kamu bisa bayangkan seperti rantai logika:

```
Indexing yang baik 
     ↓
Retrieval yang akurat 
     ↓
Konteks berkualitas tinggi 
     ↓
Jawaban LLM yang relevan dan faktual
```

Jadi, RAG bukan hanya soal kemampuan LLM menjawab,
tapi juga **seberapa baik sistem memahami dan mengatur pengetahuannya melalui indexing.**

---

## 💡 Kesimpulan Akhir

| Aspek               | Penjelasan Ringkas                                                      |
| ------------------- | ----------------------------------------------------------------------- |
| **Tujuan utama**    | Membuat informasi dapat dicari dan dipahami secara semantik             |
| **Mengapa penting** | Tanpa indexing, RAG tidak bisa mengambil konteks relevan dengan efisien |
| **Faktor utama**    | Chunk size, embedding, database, preprocessing, metode retrieval        |
| **Dampaknya**       | Langsung menentukan kualitas, relevansi, dan kecepatan jawaban model    |

---


In [6]:
import bs4
from langchain_community.document_loaders import WebBaseLoader

urls = [
    "https://lilianweng.github.io/posts/2021-03-21-lm-toxicity/",
    "https://lilianweng.github.io/posts/2024-02-05-human-data-quality/",
    "https://lilianweng.github.io/posts/2020-06-07-exploration-drl/",
    "https://lilianweng.github.io/posts/2023-06-23-agent/",
]

loader = WebBaseLoader(
    web_paths=urls,
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("post-content", "post-title", "post-header")
        )
    ),
)

docs = loader.load()

for i, doc in enumerate(docs, 1):
    print(f"📘 Artikel {i}:")
    print(doc.metadata["source"])
    print(f"Content length: {len(doc.page_content)}")
    print("-" * 80)


📘 Artikel 1:
https://lilianweng.github.io/posts/2021-03-21-lm-toxicity/
Content length: 32931
--------------------------------------------------------------------------------
📘 Artikel 2:
https://lilianweng.github.io/posts/2024-02-05-human-data-quality/
Content length: 28922
--------------------------------------------------------------------------------
📘 Artikel 3:
https://lilianweng.github.io/posts/2020-06-07-exploration-drl/
Content length: 50155
--------------------------------------------------------------------------------
📘 Artikel 4:
https://lilianweng.github.io/posts/2023-06-23-agent/
Content length: 43047
--------------------------------------------------------------------------------


## Prepare requirements

In [7]:
import os
from dotenv import load_dotenv

load_dotenv()

hf_api_key = os.getenv("HF_API_KEY")
groq_api_key=os.getenv('GROQ_API_KEY')

In [8]:
from transformers import pipeline
from tqdm import tqdm
from langchain.schema import Document

llm_cleaner = pipeline("text2text-generation", model="google/flan-t5-base")

def text_cleaner(docs, model):
    cleaned_docs = []

    for doc in tqdm(docs, desc="🧹 Cleaning with FLAN-T5"):
        raw = doc.page_content.strip()

        prompt = (
            "Clean and normalize the following text. "
            "Remove noise, HTML artifacts, redundant whitespace, "
            "and improve readability:\n\n" + raw[:4000]
        )

        try:
            output = model(prompt, max_length=1024, truncation=True)[0]["generated_text"]
        except Exception as e:
            output = f"[ERROR cleaning text: {e}]"

        # kembalikan ke format Document
        cleaned_docs.append(
            Document(page_content=output, metadata=getattr(doc, "metadata", {}))
        )

    return cleaned_docs
docs=text_cleaner(docs, llm_cleaner)

Device set to use cpu
🧹 Cleaning with FLAN-T5:   0%|          | 0/4 [00:00<?, ?it/s]Both `max_new_tokens` (=256) and `max_length`(=1024) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
🧹 Cleaning with FLAN-T5:  25%|██▌       | 1/4 [00:02<00:08,  2.81s/it]Both `max_new_tokens` (=256) and `max_length`(=1024) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
🧹 Cleaning with FLAN-T5:  50%|█████     | 2/4 [00:05<00:05,  2.58s/it]Both `max_new_tokens` (=256) and `max_length`(=1024) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)
🧹 Cleaning with FLAN-T5

In [9]:
# prepare embeding
from langchain_community.embeddings import HuggingFaceBgeEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
from transformers import XLMRobertaTokenizerFast

chunking_model="BAAI/bge-m3"

embeddings = HuggingFaceBgeEmbeddings(
    model_name=chunking_model,
    model_kwargs={"device": "cpu"},
    encode_kwargs={"normalize_embeddings": True}
)

tokenizer = XLMRobertaTokenizerFast.from_pretrained("xlm-roberta-base")

splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(
    tokenizer,
    chunk_size=512,
    chunk_overlap=50,
)


  embeddings = HuggingFaceBgeEmbeddings(


In [10]:
# split and index document
from langchain_community.vectorstores import Chroma

splits=splitter.split_documents(docs)

vectorstore=Chroma.from_documents(splits, embeddings)

# retriever = vectorstore.as_retriever()

retriever = vectorstore.as_retriever(search_kwargs={"k": 4})


In [22]:
docs = retriever.get_relevant_documents("RAG?")

for i, doc in enumerate(docs, 1):
    print(f"📄 Document {i}")
    print(f"Source: {doc.metadata.get('source', 'N/A')}")
    print(f"Content:\n{doc.page_content[:500]}...")  # tampilkan sebagian isi
    print("-" * 80)

📄 Document 1
Source: https://lilianweng.github.io/posts/2020-06-07-exploration-drl/
Content:
Exploration Strategies in Deep Reinforcement Learning Date: June 7, 2020 | Estimated Reading Time: 36 min | Author: Lilian Weng [Updated on 2020-06-17: Add “exploration via disagreement” in the “Forward Dynamics” section. Exploration versus exploration is a critical topic in Reinforcement Learning. We’d like the RL agent to find the best solution as fast as possible. However, in the meantime, committing to solutions too quickly without enough exploration sounds pretty bad, as it could lead to lo...
--------------------------------------------------------------------------------
📄 Document 2
Source: https://lilianweng.github.io/posts/2024-02-05-human-data-quality/
Content:
ox was fat....
--------------------------------------------------------------------------------
📄 Document 3
Source: https://lilianweng.github.io/posts/2023-06-23-agent/
Content:
LLM Powered Autonomous Agents Date: June 23, 20

In [12]:
from langchain.prompts import ChatPromptTemplate

# Prompt
template = """Answer the question based only on the following context:
{context}

Question: {question}
"""
prompt=ChatPromptTemplate.from_template(template)

In [13]:
from langchain_groq import ChatGroq

llm=ChatGroq(api_key=groq_api_key, model='moonshotai/kimi-k2-instruct-0905', temperature=0.2)


In [19]:
chain=prompt|llm

chain.invoke({"context":docs,"question":"apa itu rag?"})


AIMessage(content='Berdasarkan konteks yang diberikan, tidak ada informasi yang menjelaskan "apa itu RAG".', additional_kwargs={}, response_metadata={'token_usage': {'completion_tokens': 26, 'prompt_tokens': 481, 'total_tokens': 507, 'completion_time': 0.072002125, 'prompt_time': 0.026949604, 'queue_time': 0.246820205, 'total_time': 0.098951729, 'prompt_tokens_details': {'cached_tokens': 256}}, 'model_name': 'moonshotai/kimi-k2-instruct-0905', 'system_fingerprint': 'fp_05df423bab', 'service_tier': 'on_demand', 'finish_reason': 'stop', 'logprobs': None}, id='run--f12bc245-ff56-41b3-9600-ef58b6dfbbec-0', usage_metadata={'input_tokens': 481, 'output_tokens': 26, 'total_tokens': 507})

In [20]:
from langchain import hub
prompt_hub_rag = hub.pull("rlm/rag-prompt")

In [24]:

from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

rag_chain = (
    {"context": retriever, "question": RunnablePassthrough()}
    | prompt
    | llm
    | StrOutputParser()
)

rag_chain.invoke("rag?")

'The provided context does not contain any information about “rag.”'