# MEMBUAT MODIFIKASI CODE BM25

**1. Modifikasi Dataset**
- Memperluas dataset BM25 dengan koleksi baru.
- Memastikan preprocessing (tokenisasi, stopword removal, stemming) kompatibel dengan kode AdalFlow.

**2. Modifikasi Code**
- Menelusuri kode BM25 (ranking, term frequency, inverse document frequency).
    - Tuning parameter (k1, b)
    - Penambahan fitur (n‑gram dan kata berimbuhan)

**3. Modifikasi UI**
- Menampilkan metrik perbandingan hasil sebelum dan sesudah modifikasi.
- Sesuaikan interface notebook atau aplikasi kecil yang menampilkan hasil ranking:
    - Judul, label, format tabel/histogram, atau output-to‑PDF.

Credit: [SylphAI-Inc AdalFlow](https://github.com/SylphAI-Inc/AdalFlow) &
Modifikasi source code: [ACHMAD RIDHO FA'IZ](https://github.com/rhindottire/AdalFlow)

## AdalFlow formula

$$
\mathrm{idf}(q_i)
\;=\;\log\!\Bigl(\tfrac{N - n(q_i) + 0.5}{n(q_i) + 0.5}\Bigr)
$$

$$
\mathrm{score}(Q, D)
\;=\;\sum_{i=1}^{n}
   \mathrm{idf}(q_i)
   \;\times\;
   \frac{f(q_i, D)\,(k_1 + 1)}
        {f(q_i, D)
         \;+\;k_1\Bigl(1 - b + b\,\tfrac{|D|}{\mathrm{avgdl}}\Bigr)}
$$

Source: [adalflow documentation](https://adalflow.sylph.ai/apis/components/components.retriever.bm25_retriever.html#module-components.retriever.bm25_retriever)

- $N$              : Jumlah total dokumen dalam korpus
- $n(q_i)$         : Jumlah dokumen yang memuat term $q_i$
- $f(q_i,D)$       : Frekuensi kemunculan term $q_i$ dalam dokumen $D$
- $|D|$            : Panjang dokumen $D$ dalam jumlah kata/token
- $\mathrm{avgdl}$ : Rata‑rata panjang dokumen di seluruh korpus
- $k_1$            : Parameter pengaturan *term frequency saturation* (biasanya $1.2 \le k_1 \le 2.0$)
- $b$              : Parameter normalisasi panjang dokumen (biasanya $0.5 \le b \le 0.8$)
- $\mathrm{top\_k}$: (argumen `top_k`) Jumlah dokumen teratas yang akan dikembalikan
- $\varepsilon$    : (argumen `epsilon`) Untuk *lower‑bounding* negatif IDF, default 0.25

## Smoke Test Import
```python
from adalflow.components.retriever import BM25Retriever
print(BM25Retriever)

# Output should be:
<class 'adalflow.components.retriever.bm25_retriever.BM25Retriever'>
```

## Data Collection

- Old datasets: [20 Newsgroups](https://www.kaggle.com/datasets/crawford/20-newsgroups?resource=download)
- New datasets: [Reuters Corpus Volume I (RCV1)](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.fetch_rcv1.html)

In [79]:
import os
from sklearn.datasets import fetch_rcv1

data_home = 'data/rcv1'
cache_dir = os.path.join(data_home, 'RCV1')
try:
  if 'rcv1' not in globals():
    rcv1 = fetch_rcv1(data_home=data_home, download_if_missing=not os.path.isdir(cache_dir))
except IOError:
  raise RuntimeError("Data RCV1 belum diunduh, run: `download_if_missing=True`.")

## Summary Code

- Memastikan dataset RCV1 hanya diunduh sekali dan selanjutnya dimuat dari cache lokal.
- Menentukan lokasi cache, lalu mencoba `fetch_rcv1` hanya jika variabel `rcv1` belum ada di session.
- Jika data belum pernah diunduh sama sekali, kode akan melakukan download.
- Sebaliknya memuat dari disk tanpa mengunduh ulang.
- Jika tetap tidak ditemukan, ia akan melempar error yang menjelaskan langkah perbaikan.

### Import libary
```python
import os
from sklearn.datasets import fetch_rcv1
```
- `import os`: Modul standar Python untuk operasi file dan direktori.
- `from sklearn.datasets import fetch_rcv1`:
  - Mengimpor fungsi fetch_rcv1 dari scikit‑learn untuk mengunduh atau memuat dataset RCV1

### Data file location
```python
data_home = 'data/rcv1'
cache_dir = os.path.join(data_home, 'RCV1')
```
- `data_home`: Variabel string yang menyimpan path folder utama untuk cache dataset.
- `cache_dir`: Menggabungkan data_home dan subfolder default RCV1.

### Try-Exception blok code

---
```python
try:
  if 'rcv1' not in globals():
    rcv1 = fetch_rcv1(data_home=data_home, download_if_missing=not os.path.isdir(cache_dir))
```
**1. `try`:** Memulai blok penanganan error untuk menangkap apabila dataset belum ada dan download dimatikan.

**2. if 'rcv1' not in `globals()`:**
  - Mengecek apakah variabel `rcv1` sudah ada dalam ruang lingkup global Python.
  - Jika sudah pernah di‐load pada sesi ini, maka tidak perlu memanggil lagi.

**3. `download_if_missing`=not os.path.isdir(cache_dir)**
  - *os.path.isdir(cache_dir)* mengembalikan True jika folder cache ada.
  - *not os.path.isdir(cache_dir)* akan True hanya jika cache belum ada.
    - sehingga fetch_rcv1 akan mengunduh dataset.
    - pada pemanggilan selanjutnya (setelah cache terbentuk), nilai ini akan False.
    - dan fetch_rcv1 hanya memuat dari disk.

**4. rcv1 = `fetch_rcv1(...)`** Memanggil fungsi untuk mengunduh atau memuat dataset.

---

```python
except IOError:
  raise RuntimeError("Data RCV1 belum diunduh, run: `download_if_missing=True`.")
```

- `except IOError`:
Menangkap kesalahan I/O
- `raise RuntimeError(...)`
Menghentikan eksekusi dengan pesan yang jelas: memberitahu pengguna untuk menjalankan ulang sel dengan opsi download_if_missing=True agar data dapat diunduh.


In [80]:
print("Keys:", rcv1.keys())

Keys: dict_keys(['data', 'target', 'sample_id', 'target_names', 'DESCR'])


In [81]:
print("Shape of data:", rcv1.data.shape)         # dokumen x fitur
print("Shape of target:", rcv1.target.shape)     # dokumen x label

# Sample ID
print("Sample IDs:", rcv1.sample_id[:5])

# Nama-nama target (label)
print("Target names:", rcv1.target_names[:10])

Shape of data: (804414, 47236)
Shape of target: (804414, 103)
Sample IDs: [2286 2287 2288 2289 2290]
Target names: ['C11' 'C12' 'C13' 'C14' 'C15' 'C151' 'C1511' 'C152' 'C16' 'C17']


In [82]:
# Convert sparse matrix ke array (jika perlu, misalnya hanya untuk beberapa baris)
example = rcv1.data[0].toarray()

print("Fitur dari dokumen pertama:\n", example)

Fitur dari dokumen pertama:
 [[0. 0. 0. ... 0. 0. 0.]]


In [83]:
import os
import nltk

nltk_data_dir = nltk.data.find('corpora/stopwords')
if not os.path.isdir(nltk_data_dir):
  print("Install stopwords...")
  nltk.download('stopwords')
else:
  print("Stopword is ready to use!")

Stopword is ready to use!


## Integrasi ke dalam AdalFlow BM25Retriever

In [84]:
import adalflow
print("Versi AdalFlow:", adalflow.__version__)

Versi AdalFlow: 1.0.4
