# Tutorial 1: PyTerrier Indexing

In diesem Hands On Tutorial werden wir uns die LongEval Retrieval Test Collection anschauen.


Hierzu verwenden wir [PyTerrier](https://pyterrier.readthedocs.io/en/latest/index.html) und [Pandas](https://pandas.pydata.org/). PyTerrier ist ein praktisches Retrieval Toolkit, mit dem schnell und einfach Retrieval-Systeme getestet werden können. Dabei liegt der Fokus auf experimentellen Evaluationen, die Systeme skalieren also nicht auf Produktionsniveau. Dafür werden viele praktische Tools bereitgestellt, um Evaluationen schnell zu ermöglichen.

Weitere Informationen zu dem Datensatz und dem shared task finden sich zum Beispiel unter:
- [LongEval Overview](https://clef-longeval.github.io/)

In diesem ersten Hands-on Notebook werden wir uns die Topics, Dokumente und Qrels der Test Kollektion anschauen und dabei den Umgang mit PyTerrier lernen.

Als erstes müssen wir den LongEval Datensatz herunterladen. Da der Datensatz sehr groß ist, haben wir eine kleine Version des Datensatzes erstellt, die wir hier verwenden werden. Dieser enthält nur den ersten Zeitpunkt aus 2022 der auch als WT (within time) bezeichnet wird, nur die englischen Übersetzungen und auch nur die XML Dateien. 

Der Datensatz kann von [Sciebo](https://th-koeln.sciebo.de/s/jLGE7Mz2jsNQbZO) heruntergeladen werden und anschließend in den "/data/raw" Ordner entpackt werden.

Zunächst müssen wir wieder PyTerrier installieren. Hierzu müssen wir nur diese Zelle ausführen:

In [2]:
!pip install -q python-terrier

Bevor wir PyTerrier benutzen können müssen wir es importieren und initialisieren.

In [3]:
import os
import pyterrier as pt
pt.init()

Java started and loaded: pyterrier.java, pyterrier.terrier.java [version=5.10 (build: craigm 2024-08-22 17:33), helper_version=0.0.8]
java is now started automatically with default settings. To force initialisation early, run:
pt.java.init() # optional, forces java initialisation
  pt.init()


Um den Datensatz zu durchsuchen, müssen wir ihn indexieren. PyTerrier bietet die Möglichkeit Datensätze in verschiedenen Formaten zu indexieren. Der kleine LongEval Datensatz liegt im TREC Format (XML) vor. Schau dir die Dateien am besten im Dateibrowser an, um einen Überblick zu bekommen welche Informationen zur Verfügung stehen.

Um TREC Kollektionen zu indexieren, nutzen wir den `TRECCollectionIndexer`. Die Details  und ein Überblick über andere Indexer sind in der [PyTerrier Dokumentation](https://pyterrier.readthedocs.io/en/latest/terrier-indexing.html#treccollectionindexer) zu finden.

In [5]:
indexer = pt.TRECCollectionIndexer(
    index_path="./index",  # path to the index
    blocks=True,
    verbose=True,
)

In [4]:
documents_path = "../data/raw/longeval-small/LongEval/2023_train/publish/English/Documents/Trec"
documents = [os.path.join(documents_path, path) for path in os.listdir(documents_path)]  # list of all docs paths

In [6]:
index = indexer.index(documents)

  4%|▍         | 7/158 [00:40<19:19,  7.68s/files]



159files [23:46,  8.60s/files]                      

15:41:42.056 [main] WARN org.terrier.structures.indexing.Indexer -- Indexed 46 empty documents


159files [29:55, 11.29s/files]


Die Indexierung dauert ca. 30 min. Um Zeit zu sparen können wir auch einen fertigen Index verwenden. Dieser wurde wie oben angegeben erstellt.

Der Index kann von [hier](https://th-koeln.sciebo.de/s/jnVaXL8zI7hIVzZ) heruntergeladen werden.

Unabhängig davon, ob wir den Index heruntergeladen oder selbst erstellt haben sollten wir nun einen Ordner mit Namen `index` haben. Mithilfe der folgenden Funktion können wir den Index aus dem Ordner laden und im Anschluss durchsuchen.


In [11]:
index = pt.IndexFactory.of("./index")

Zur Überprüfung das alles funktioniert hat lassen wir uns noch die Anzahl der Dokumente im Index anzeigen.

In [12]:
print(index.getCollectionStatistics().toString())

Number of documents: 1570734
Number of terms: 3694081
Number of postings: 433928454
Number of fields: 0
Number of tokens: 777790536
Field names: []
Positions:   true

