# Tugas 1 Perolehan Informasi Lanjut Genap 2022 - Pyterrier

Pada tugas ini, digunakan library Python bernama Pyterrier yang merupakan versi Python dari [IR tool Terrier](http://terrier.org/). Installasi Pyterrier bisa dilihat pada [link dokumentasi Pyterrier](https://pyterrier.readthedocs.io/en/latest/). Anda juga dapat menggunakan file tutorial pyterrier di scele untuk mengerjakan tugas ini. Kerjakan dengan melengkapi #TODO pada setiap cell yang diberikan. Berikan dokumentasi yang jelas pada code Anda (comment pada line code yang diperlukan penjelasan). Disarankan menggunakan Google Colab untuk memudahkan pekerjaan Anda.

## Prerequisites

Instalasi Pyterrier

In [3]:
!pip install python-terrier

Collecting python-terrier
  Downloading python-terrier-0.8.0.tar.gz (97 kB)
[?25l[K     |███▍                            | 10 kB 17.3 MB/s eta 0:00:01[K     |██████▊                         | 20 kB 19.3 MB/s eta 0:00:01[K     |██████████▏                     | 30 kB 21.7 MB/s eta 0:00:01[K     |█████████████▌                  | 40 kB 23.6 MB/s eta 0:00:01[K     |████████████████▉               | 51 kB 13.9 MB/s eta 0:00:01[K     |████████████████████▎           | 61 kB 15.6 MB/s eta 0:00:01[K     |███████████████████████▋        | 71 kB 15.7 MB/s eta 0:00:01[K     |███████████████████████████     | 81 kB 13.3 MB/s eta 0:00:01[K     |██████████████████████████████▍ | 92 kB 14.4 MB/s eta 0:00:01[K     |████████████████████████████████| 97 kB 4.3 MB/s 
Collecting wget
  Downloading wget-3.2.zip (10 kB)
Collecting pyjnius~=1.3.0
  Downloading pyjnius-1.3.0-cp37-cp37m-manylinux2010_x86_64.whl (1.1 MB)
[K     |████████████████████████████████| 1.1 MB 32.9 MB/s 
[?25hCo

### Init 

In [4]:
import pyterrier as pt
if not pt.started():
  pt.init()

terrier-assemblies 5.6 jar-with-dependencies not found, downloading to /root/.pyterrier...
Done
terrier-python-helper 0.0.6 jar not found, downloading to /root/.pyterrier...
Done


PyTerrier 0.8.0 has loaded Terrier 5.6 (built by craigmacdonald on 2021-09-17 13:27)



## Indexing

Akan dilakukan `indexing` pada file documents.csv. 

In [5]:
# using beautify table from Google so it's easier to read and understand the data
from google.colab import data_table
data_table.enable_dataframe_formatter()

In [6]:
# Mounting from Google drive, since the file is big and cannot be accessed directly using the link
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [7]:
# Import Pandas library to read (and later to export) the CSV data,
import pandas as pd

pd.set_option('display.max_colwidth', 150)
docs_df = pd.read_csv("/content/gdrive/MyDrive/docs/documents.csv",dtype=str) # Convert directly to string to prevent confusion on pyterrier while indexing

In [8]:
# Melakukan indexing pada file documents.csv 

# Doing the indexing using DFIndexer (Referenced to: https://github.com/terrier-org/ecir2021tutorial/blob/main/notebooks/notebook1.ipynb)
indexer = pt.DFIndexer("./index", overwrite=True)
index_ref = indexer.index(docs_df["text"], docs_df["docno"])
index_ref.toString()

index = pt.IndexFactory.of(index_ref)

In [9]:
# Tampilkan statistik dari index yang sudah dibuat

# Getting statistic from the process done earlier
print(index.getCollectionStatistics().toString())

Number of documents: 369721
Number of terms: 674552
Number of postings: 30552936
Number of fields: 0
Number of tokens: 41306796
Field names: []
Positions:   false



## Retrieval

Melakukan `querying` pada documents yang sudah di-index.


In [10]:
# import dan tampilkan query dari query.csv dalam pandas dataframe

# Using pandas, import Query file that assigned to (query25)

query = pd.read_csv("/content/gdrive/MyDrive/docs/query25.csv",dtype=str) # Convert directly to string to prevent confusion on pyterrier while using the query
query

Unnamed: 0,qid,query
0,477200,badulla
1,9748,posix
2,157369,altai krai
3,22800,hmong people
4,80219,motown
5,1403378,freestyle swimming
6,146323,kutaisi
7,97591,futurama
8,80765,thane
9,125608,order of st michael and st george


### BM25

In [11]:
# Melakukan querying menggunakan scoring function BM25 dengan hanya mengambil top 10 documents untuk setiap query
# Tampilkan hasil search

# Using model BM25 to retrieve the query result on the indexed dataset, maximized the result to only top 10
res_BM25 = pt.BatchRetrieve(index, num_results=10, wmodel="BM25").transform(query)
res_BM25 # View the result

Unnamed: 0,qid,docid,docno,rank,score,query
0,477200,208491,477200,0,25.338037,badulla
1,477200,255842,2284397,1,24.129560,badulla
2,477200,353893,1657187,2,22.921779,badulla
3,477200,309486,1871845,3,21.892850,badulla
4,477200,329587,2041999,4,20.136955,badulla
...,...,...,...,...,...,...
290,25130,48485,25130,5,23.105140,paul gauguin
291,25130,319111,656,6,22.966842,paul gauguin
292,25130,346165,797254,7,22.530406,paul gauguin
293,25130,52430,371783,8,21.957649,paul gauguin


In [12]:
# Simpan hasil search query BM25 dengan penamaan file Tugas1_[NPM]_BM25.res

pt.io.write_results(res_BM25, "Tugas1_2106678006_BM25.res") # Saving the result as the result report

### Dirichlet Language Model

In [13]:
# Melakukan querying menggunakan scoring function Dirichlet Language Model dengan hanya mengambil top 10 documents untuk setiap query
# Tampilkan hasil search seluruh query

# Using model Dirichlet Language Model to retrieve the query result on the indexed dataset, maximized the result to only top 10
res_DLM = pt.BatchRetrieve(index, num_results=10, wmodel="DirichletLM").transform(query)
res_DLM # View the result

Unnamed: 0,qid,docid,docno,rank,score,query
0,477200,208491,477200,0,11.101568,badulla
1,477200,255842,2284397,1,10.779245,badulla
2,477200,353893,1657187,2,10.371110,badulla
3,477200,309486,1871845,3,10.357859,badulla
4,477200,329587,2041999,4,9.786116,badulla
...,...,...,...,...,...,...
290,25130,335190,883035,5,10.201234,paul gauguin
291,25130,17170,1935967,6,10.181358,paul gauguin
292,25130,204574,1352062,7,10.081640,paul gauguin
293,25130,319111,656,8,10.076113,paul gauguin


In [14]:
# Simpan hasil search query Dirichlet Language Model dengan penamaan file Tugas1_[NPM]_DLM.res
pt.io.write_results(res_DLM, "Tugas1_2106678006_DLM.res") # Saving the result as the result report

## Evaluation

In [15]:
# import qrels dan tampilkan. (hint: parse qrels dari local test collection)

# Using pandas, import qrels file that assigned to (qrels25) for evaluation
qrels = pt.io.read_qrels("/content/gdrive/MyDrive/docs/qrels25")
qrels

Unnamed: 0,qid,docno,label
0,477200,477200,2
1,477200,1189929,1
2,477200,746069,1
3,477200,2031478,1
4,477200,2284397,1
...,...,...,...
908,25130,1348605,1
909,25130,2453559,1
910,25130,1976917,1
911,25130,576623,1


### BM25

In [16]:
# Melakukan evaluasi hasil retrieval BM25 seluruh query dengan metric evaluasi precision@10, recall@10, dan MRR

from pyterrier.measures import * # Download the library for the evaluation

qrels_BM25_ = pt.Experiment(
    [res_BM25], # The model that will be evaluated
    query, # Query that had been defined and used before 
    qrels, # Qrels that just imported 
    eval_metrics=[P@10, R@10, MRR], # Metrics for the evaluation
    names= ["BM25"], # Renaming the model
    perquery=True
)

qrels_BM25_.head(5)

Unnamed: 0,name,qid,measure,value
42,BM25,113621,RR,0.0
43,BM25,113621,P@10,0.0
44,BM25,113621,R@10,0.0
27,BM25,125608,RR,0.125
28,BM25,125608,P@10,0.1


In [17]:
qrels_BM25 = qrels_BM25_.pivot(index=["qid", "name"], columns=["measure"], values="value")
qrels_BM25

Unnamed: 0_level_0,measure,P@10,R@10,RR
qid,name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
113621,BM25,0.0,0.0,0.0
125608,BM25,0.1,0.012987,0.125
14032,BM25,0.1,0.083333,1.0
1403378,BM25,0.2,0.133333,0.5
146323,BM25,0.3,0.375,1.0
157369,BM25,0.5,0.625,1.0
189034,BM25,0.1,0.166667,1.0
189225,BM25,0.1,0.125,0.166667
1897191,BM25,0.0,0.0,0.0
196387,BM25,0.3,0.5,0.125


In [18]:
# simpan hasil evaluasi dalam bentuk csv dengan row setiap query id dan kolom setiap metrik evaluasi. Format penamaan file: Tugas1_[NPM]_eval_BM25.csv
qrels_BM25.to_csv('Tugas1_2106678006_eval_BM25.csv')  

### Dirichlet Language Model

In [19]:
# Melakukan evaluasi hasil retrieval Dirichlet Language Model  seluruh query dengan metric evaluasi precision@10, recall@10, dan MRR

from pyterrier.measures import * # Download the library for the evaluation

qrels_DLM_ = pt.Experiment(
    [res_DLM], # The model that will be evaluated
    query, # Query that had been defined and used before 
    qrels, # Qrels that just imported 
    eval_metrics=[P@10, R@10, MRR], # Metrics for the evaluation
    names= ["Dirichlet Language Model"], # Renaming the model
    perquery=True
)

qrels_DLM = qrels_DLM_.pivot(index=["qid", "name"], columns="measure", values="value")
qrels_DLM

Unnamed: 0_level_0,measure,P@10,R@10,RR
qid,name,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
113621,Dirichlet Language Model,0.0,0.0,0.0
125608,Dirichlet Language Model,0.1,0.012987,0.1
14032,Dirichlet Language Model,0.1,0.083333,1.0
1403378,Dirichlet Language Model,0.2,0.133333,0.2
146323,Dirichlet Language Model,0.3,0.375,1.0
157369,Dirichlet Language Model,0.5,0.625,1.0
189034,Dirichlet Language Model,0.1,0.166667,1.0
189225,Dirichlet Language Model,0.0,0.0,0.0
1897191,Dirichlet Language Model,0.0,0.0,0.0
196387,Dirichlet Language Model,0.3,0.5,0.142857


In [20]:
# simpan hasil evaluasi dalam bentuk csv dengan row setiap query id dan kolom setiap metrik evaluasi. Format penamaan file: Tugas1_[NPM]_eval_DLM.csv
qrels_DLM.to_csv('Tugas1_2106678006_eval_DLM.csv')  

### Analisis Hasil

1. Lakukan evaluasi hasil keseluruhan query. Manakah metode yang memiliki efektivitas lebih baik antara BM25 dan LM? Apakah perbedaan skor yang diperoleh sigifikan secara statistik?
2. Lakukan evaluasi hasil per query. Pada query mana saja BM25 lebih unggul, dan pada query mana saja LM lebih unggul? Berikan analisis Anda mengapa hal ini bisa terjadi. 
3. Query ID berapa yang memiliki nilai evaluasi terbaik dengan metode BM25? Query ID berapa yang memiliki nilai evaluasi terbaik dengan metode LM? Berikan analisis Anda mengapa hal ini bisa terjadi.
4. Query ID berapa yang memiliki nilai evaluasi terburuk dengan metode BM25? Query ID berapa yang memiliki nilai evaluasi terburuk dengan metode LM? Berikan analisis Anda mengapa hal ini bisa terjadi. 

---

#### Lakukan evaluasi hasil keseluruhan query. Manakah metode yang memiliki efektivitas lebih baik antara BM25 dan LM? Apakah perbedaan skor yang diperoleh sigifikan secara statistik?

In [21]:
qrels_compare = pt.Experiment(
    [res_BM25, res_DLM], # The model that will be evaluated
    query, # Query that had been defined and used before 
    qrels, # Qrels that just imported 
    eval_metrics=[P@10, R@10, MRR], # Metrics for the evaluation
    names= ["BM25", "Dirichlet Language Model"], # Renaming the modeL
)

In [22]:
#Using the summary from function Experiment to view the result
#Although with very slight different, the summary result shows that 
#BM25 returns better value than Dirichlet's with higher precision, recall, and MRR.
qrels_compare

Unnamed: 0,name,P@10,R@10,RR
0,BM25,0.22,0.225692,0.629815
1,Dirichlet Language Model,0.216667,0.217557,0.61791


**Hasil terbaik dari function Experiment bawaan dari pyTerrier menunjukkan bahwa model BM25 memiliki hasil Precission, Recall, dan MRR yang lebih baik daripada Dirichlet. Namun, hasil ini tetap *tidak signifikan* untuk menunjukkan efektivitas, sehingga bahkan dengan menggunakan p-value > 0.05, hasil tetap menunjukkan bahwa kedua model, performa-nya tidak signifikan.**

#### Lakukan evaluasi hasil per query. Pada query mana saja BM25 lebih unggul, dan pada query mana saja LM lebih unggul? Berikan analisis Anda mengapa hal ini bisa terjadi.

In [23]:
comp = pd.concat([qrels_DLM.reset_index(), qrels_BM25.reset_index()])
comp = comp.groupby(["qid", "name"]).apply(lambda x: x)
comp.head(62)

#189225, 196387, 	25130

measure,qid,name,P@10,R@10,RR
0,113621,BM25,0.0,0.0,0.0
0,113621,Dirichlet Language Model,0.0,0.0,0.0
1,125608,BM25,0.1,0.012987,0.125
1,125608,Dirichlet Language Model,0.1,0.012987,0.1
2,14032,BM25,0.1,0.083333,1.0
2,14032,Dirichlet Language Model,0.1,0.083333,1.0
3,1403378,BM25,0.2,0.133333,0.5
3,1403378,Dirichlet Language Model,0.2,0.133333,0.2
4,146323,BM25,0.3,0.375,1.0
4,146323,Dirichlet Language Model,0.3,0.375,1.0


In [46]:
qrels.qid.value_counts() #189225, 196387, 25130

4334       488
125608      77
80219       46
81103       27
97591       22
25461       21
488858      18
4198        17
2547        16
1403378     15
1897191     14
90496       14
14032       12
351608       9
113621       9
217759       9
146323       8
90382        8
75643        8
189225       8
157369       8
80765        7
9748         7
22800        7
814731       7
21439        7
196387       6
477200       6
189034       6
25130        6
Name: qid, dtype: int64

In [25]:
comp = pd.concat([qrels_DLM.reset_index(), qrels_BM25.reset_index()])
comp = comp.groupby(["qid", "name"]).apply(lambda x: x[["qid", "name", "P@10"]])
comp.head(62)

#25461

measure,qid,name,P@10
0,113621,BM25,0.0
0,113621,Dirichlet Language Model,0.0
1,125608,BM25,0.1
1,125608,Dirichlet Language Model,0.1
2,14032,BM25,0.1
2,14032,Dirichlet Language Model,0.1
3,1403378,BM25,0.2
3,1403378,Dirichlet Language Model,0.2
4,146323,BM25,0.3
4,146323,Dirichlet Language Model,0.3


**Jika dilihat secara manual, hasil terbaik dari model BM25 ada pada Query ID 189225, 196387, 25130. Query-query tersebut tidak banyak muncul pada dokumen dataset, hanya muncul kurang dari 10 dokumen. Sehingga hasil ini kemungkinan disebabkan oleh kecilnya angka denominatornya (terlebih karena model tidak mempunyai perbedaan signifikan pada performanya).**

**Sedangkan, pada model DLM, query ID terbaik ada pada QID 25461.**

### Query ID berapa yang memiliki nilai evaluasi terbaik dengan metode BM25? Query ID berapa yang memiliki nilai evaluasi terbaik dengan metode LM? Berikan analisis Anda mengapa hal ini bisa terjadi.

In [55]:
comp.reset_index().sort_values("P@10", ascending=False) #	4334

measure,index,qid,name,P@10
37,18,4334,Dirichlet Language Model,0.7
36,18,4334,BM25,0.7
10,5,157369,BM25,0.5
11,5,157369,Dirichlet Language Model,0.5
20,10,21439,BM25,0.4
24,12,22800,BM25,0.4
23,11,217759,Dirichlet Language Model,0.4
22,11,217759,BM25,0.4
21,10,21439,Dirichlet Language Model,0.4
25,12,22800,Dirichlet Language Model,0.4


**Query ID dengan performa paling baik ada pada QID 4334. Query ini muncul paling banyak di dokumen-dokumen dataset dibanding dengan QID yang lain. Banyaknya kemunculan QID ini memberikan peluang presisi lebih besar dari QID lainnya. Sehingga hasilnya untuk Dirichlet dan BM25 sama-sama merupakan QID dengan Precision terbaik.**

### Query ID berapa yang memiliki nilai evaluasi terburuk dengan metode BM25? Query ID berapa yang memiliki nilai evaluasi terburuk dengan metode LM? Berikan analisis Anda mengapa hal ini bisa terjadi.

In [56]:
comp.reset_index().sort_values("P@10", ascending=True)

measure,index,qid,name,P@10
0,0,113621,BM25,0.0
1,0,113621,Dirichlet Language Model,0.0
53,26,90382,Dirichlet Language Model,0.0
52,26,90382,BM25,0.0
17,8,1897191,Dirichlet Language Model,0.0
16,8,1897191,BM25,0.0
15,7,189225,Dirichlet Language Model,0.0
45,22,80219,Dirichlet Language Model,0.1
44,22,80219,BM25,0.1
33,16,351608,Dirichlet Language Model,0.1


In [61]:
qrels.qid.value_counts().sort_values() # 113621, 90382, 1897191, 189225 (Dirichlet only)

25130        6
477200       6
196387       6
189034       6
21439        7
814731       7
22800        7
9748         7
80765        7
157369       8
189225       8
75643        8
90382        8
146323       8
217759       9
113621       9
351608       9
14032       12
90496       14
1897191     14
1403378     15
2547        16
4198        17
488858      18
25461       21
97591       22
81103       27
80219       46
125608      77
4334       488
Name: qid, dtype: int64

**Query ID dengan performa paling buruk ada pada QID 113621, 90382, 1897191, 189225 (QID terakhir hanya terjadi pada Dirichlet). Query merupakan query yang tidak banyak muncul di dokumen dataset. Kemunculan QID pada dataset mempunyai peran besar dalam pengaruhnya terhadap Precision hasil.**