In [1]:
from pyserini.search.lucene import LuceneSearcher
from datasets import load_dataset
from dotenv import load_dotenv
import os
from langchain.chat_models import ChatOpenAI, ChatCohere, ChatAnyscale

from main import get_query_expansion_dataset, run_search

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# set up LLMs, assumes that API keys are stored in .env file
load_dotenv(override=True)
chats = {}

# OpenAI
try: 
    openai_api_key = os.getenv("OPENAI_API_KEY")
    chat_openai = ChatOpenAI(openai_api_key=openai_api_key, model="gpt-3.5-turbo")
    chats["OpenAI"] = chat_openai
except:
    print("Could not initialize OpenAI chatbot. Please store a valid API key in a .env file.")

# Cohere
try:
    cohere_api_key = os.getenv("COHERE_API_KEY")
    chat_cohere = ChatCohere(cohere_api_key=cohere_api_key)
    chats["Cohere"] = chat_cohere
except:
    print("Could not initialize Cohere chatbot. Please store a valid API key in a .env file.")

# Llama 2 (Anyscale)
try: 
    anyscale_api_key = os.getenv("ANYSCALE_API_KEY")
    chat_llama = ChatAnyscale(model_name="meta-llama/Llama-2-7b-chat-hf", anyscale_api_key=anyscale_api_key)
    chats["Llama 2"] = chat_llama
except:
    print("Could not initialize Anyscale chatbot. Please store a valid API key in a .env file.")

## Experiments Set 1: All prompts, english language, all models

In [3]:
# Load the Miracl dataset (english version)
dataset = load_dataset("Cohere/miracl-en-queries-22-12", split="dev")
dataset = dataset.to_pandas().to_dict(orient='records')

# set up searcher
searcher = LuceneSearcher.from_prebuilt_index('miracl-v1.0-en')

## 1) Baseline

In [4]:
recall_baseline, ndcg_baseline = run_search(searcher, dataset)

print(f'BM25 Recall@100: {recall_baseline:.4f}')
print(f'BM25 nDCG@10: {ndcg_baseline:.4f}')
print("\n")

## 2) Query2Doc Zero Shot Prompting

In [6]:
for chat_name, chat in chats.items():
    expanded_dataset = get_query_expansion_dataset(dataset, chat, chat_name, lang='en', prompt='q2d-zs')

    recall, ndcg = run_search(searcher, expanded_dataset)
    print(f'{chat_name} Recall@100: {recall:.4f}') 
    print(f'{chat_name} nDCG@10: {ndcg:.4f}')
    print("\n")

Expanding queries:   0%|          | 0/5 [00:00<?, ?it/s]

Expanding queries: 100%|██████████| 5/5 [01:10<00:00, 14.11s/it]
Searching: 100%|██████████| 5/5 [00:14<00:00,  2.83s/it]


OpenAI Recall@100: 0.8333
OpenAI nDCG@10: 0.2921




Expanding queries: 100%|██████████| 5/5 [01:06<00:00, 13.30s/it]
Searching: 100%|██████████| 5/5 [00:17<00:00,  3.51s/it]


Cohere Recall@100: 0.7667
Cohere nDCG@10: 0.3049




Expanding queries: 100%|██████████| 5/5 [00:27<00:00,  5.52s/it]
Searching: 100%|██████████| 5/5 [00:08<00:00,  1.77s/it]

Llama 2 Recall@100: 0.7667
Llama 2 nDCG@10: 0.3563







## 3) Q2D zero shot prompting with pseudo-relevant feedback

In [None]:
for chat_name, chat in chats.items():
    expanded_dataset = get_query_expansion_dataset(dataset[:5], chat, chat_name, lang='en', prompt='q2d-zs-prf')

    recall, ndcg = run_search(searcher, expanded_dataset)
    print(f'{chat_name} Recall@100: {recall:.4f}') 
    print(f'{chat_name} nDCG@10: {ndcg:.4f}')
    print("\n")

Getting prf documents...


Searching: 100%|██████████| 5/5 [00:00<00:00, 72.71it/s]


Done.


Expanding queries: 100%|██████████| 5/5 [00:52<00:00, 10.54s/it]
Searching: 100%|██████████| 5/5 [00:08<00:00,  1.60s/it]

BM25 Recall@100: 0.9000
BM25 nDCG@10: 0.3924







## 4) Keywords with zero-shot prompting

In [8]:
for chat_name, chat in chats.items():
    expanded_dataset = get_query_expansion_dataset(dataset[:5], chat, chat_name, lang='en', prompt='q2e-zs')

    recall, ndcg = run_search(searcher, expanded_dataset)
    print(f'{chat_name} Recall@100: {recall:.4f}') 
    print(f'{chat_name} nDCG@10: {ndcg:.4f}')
    print("\n")

Expanding queries:   0%|          | 0/799 [00:00<?, ?it/s]

Expanding queries: 100%|██████████| 799/799 [54:50<00:00,  4.12s/it]  
Searching: 100%|██████████| 799/799 [01:25<00:00,  9.38it/s]

BM25 Recall@100: 0.8433
BM25 nDCG@10: 0.3745







## 5) Keywords with pseudo-relevant feedback

In [9]:
for chat_name, chat in chats.items():
    expanded_dataset = get_query_expansion_dataset(dataset[:5], chat, chat_name, lang='en', prompt='q2e-zs-prf')

    recall, ndcg = run_search(searcher, expanded_dataset)
    print(f'{chat_name} Recall@100: {recall:.4f}') 
    print(f'{chat_name} nDCG@10: {ndcg:.4f}')
    print("\n")

Getting prf documents...


Searching:  11%|█         | 89/799 [00:02<00:28, 25.03it/s]

Searching: 100%|██████████| 799/799 [00:26<00:00, 30.04it/s]


Done.


Expanding queries: 100%|██████████| 799/799 [1:02:36<00:00,  4.70s/it]
Searching: 100%|██████████| 799/799 [02:56<00:00,  4.53it/s]

BM25 Recall@100: 0.8337
BM25 nDCG@10: 0.3722







## 6) Chain of thought prompting

In [11]:
for chat_name, chat in chats.items():
    expanded_dataset = get_query_expansion_dataset(dataset[:5], chat, chat_name, lang='en', prompt='chain-of-thought')

    recall, ndcg = run_search(searcher, expanded_dataset)
    print(f'{chat_name} Recall@100: {recall:.4f}') 
    print(f'{chat_name} nDCG@10: {ndcg:.4f}')
    print("\n")

Searching:   0%|          | 0/799 [00:00<?, ?it/s]

Searching: 100%|██████████| 799/799 [30:35<00:00,  2.30s/it]

BM25 Recall@100: 0.8866
BM25 nDCG@10: 0.4877







## 7) Chain of thought prompting with psuedo-relevant feedback

In [7]:
for chat_name, chat in chats.items():
    expanded_dataset = get_query_expansion_dataset(dataset[:5], chat, chat_name, lang='en', prompt='chain-of-thought-prf')

    recall, ndcg = run_search(searcher, expanded_dataset)
    print(f'{chat_name} Recall@100: {recall:.4f}') 
    print(f'{chat_name} nDCG@10: {ndcg:.4f}')
    print("\n")

Getting prf documents...


Searching: 100%|██████████| 799/799 [00:30<00:00, 25.81it/s]


Done.


Expanding queries: 100%|██████████| 799/799 [1:41:54<00:00,  7.65s/it]  
Searching: 100%|██████████| 799/799 [09:45<00:00,  1.36it/s]

BM25 Recall@100: 0.8486
BM25 nDCG@10: 0.4343







# Experiments Set 2: Chain-of-thought prompt, various languages, all models

## 1) French

In [3]:
# Load the Miracl dataset (english version)
dataset = load_dataset("Cohere/miracl-fr-queries-22-12", split="dev")
dataset = dataset.to_pandas().to_dict(orient='records')

# set up searcher
searcher = LuceneSearcher.from_prebuilt_index('miracl-v1.0-fr')

In [4]:
for chat_name, chat in chats.items():
    expanded_dataset = get_query_expansion_dataset(dataset[:5], chat, chat_name, lang='fr', prompt='q2d-zs')

    recall, ndcg = run_search(searcher, expanded_dataset)
    print(f'{chat_name} Recall@100: {recall:.4f}') 
    print(f'{chat_name} nDCG@10: {ndcg:.4f}')
    print("\n")

Expanding queries:  20%|██        | 1/5 [00:26<01:44, 26.08s/it]

Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Une famille patricienne est une famille qui appartient à la classe aristocratique ou noble d'une société. Elle est souvent reconnue pour son statut élevé, ses privilèges et sa richesse. Les familles patriciennes ont généralement une longue histoire et sont souvent liées à des titres de noblesse ou à des positions de pouvoir. Elles sont souvent très influentes dans la politique, l'économie et la culture de leur époque. De plus, elles peuvent avoir des privilèges spéciaux, tels que des droits fonciers, des exemptions fiscales ou des privilèges juridiques. Cependant, au fil du temps et des changements sociaux, l'importance des familles patriciennes a pu diminuer ou même disparaître dans certaines sociétés.


Expanding queries:  40%|████      | 2/5 [00:50<01:15, 25.29s/it]

Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Saint Patrick est célèbre pour plusieurs raisons. Tout d'abord, il est considéré comme le saint patron de l'Irlande. Il est vénéré pour avoir converti les Irlandais au christianisme au Ve siècle. Saint Patrick est également connu pour avoir chassé les serpents d'Irlande, bien que cette légende soit plus symbolique que réelle. Chaque année, le 17 mars, les Irlandais célèbrent la fête de la Saint-Patrick en son honneur. Cette fête est caractérisée par des défilés, des festivités et la couleur verte qui est associée à Saint Patrick. En résumé, Saint Patrick est célèbre en raison de son rôle dans la christianisation de l'Irlande et de la fête annuelle qui lui est dédiée.


Expanding queries:  60%|██████    | 3/5 [01:03<00:39, 19.67s/it]

Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? On a besoin de charbon pour plusieurs raisons. Tout d'abord, le charbon est une source d'énergie abondante et bon marché. Il est utilisé dans de nombreuses industries telles que la production d'électricité, la sidérurgie et la fabrication de ciment. Le charbon permet également de chauffer les foyers et les bâtiments, notamment dans les régions où d'autres sources d'énergie sont moins accessibles. De plus, le charbon est une ressource nationale qui permet de réduire la dépendance aux importations d'énergie. Cependant, il est important de noter que l'utilisation du charbon contribue aux émissions de gaz à effet de serre et à la pollution de l'air. Il est donc nécessaire de trouver des alternatives plus propres et durables pour répondre à nos besoins énergétiques.


Expanding queries:  80%|████████  | 4/5 [02:03<00:35, 35.49s/it]

Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? On peut construire un ecovillage pour plusieurs raisons. Tout d'abord, il s'agit d'une réponse concrète et durable aux défis environnementaux auxquels notre planète est confrontée. En adoptant des pratiques écologiques et durables, un ecovillage vise à réduire son empreinte carbone et à préserver les ressources naturelles.

De plus, un ecovillage favorise la création d'une communauté solidaire et engagée. En vivant ensemble, les résidents de l'ecovillage peuvent partager des valeurs communes telles que le respect de l'environnement, la coopération et l'échange de savoir-faire. Cela favorise une meilleure qualité de vie et le renforcement des liens sociaux.

Un autre avantage de la construction d'un ecovillage est la promotion

Expanding queries: 100%|██████████| 5/5 [02:19<00:00, 27.92s/it]


Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Les astéroïdes sont créés à partir de la matière restante du système solaire primitif. Il y a environ 4,6 milliards d'années, de grandes quantités de poussière, de gaz et de matériaux rocheux ont commencé à s'agglomérer dans le disque protoplanétaire qui entourait le jeune Soleil. Sous l'effet de la gravité, ces matériaux se sont progressivement condensés en petites particules solides appelées planétésimaux. Au fil du temps, ces planétésimaux ont continué à se coller et à se fusionner, formant ainsi des astéroïdes de tailles variées. Certains astéroïdes sont restés dans la ceinture principale située entre Mars et Jupiter, tandis que d'autres ont été éjectés vers d'autres régions du système solaire. Aujourd'hui, les astéroïdes sont considérés comme des vestiges du passé, offrant des indices précieux sur la formatio

Searching: 100%|██████████| 5/5 [00:04<00:00,  1.07it/s]


OpenAI Recall@100: 0.4500
OpenAI nDCG@10: 0.1320




Expanding queries:  20%|██        | 1/5 [00:08<00:33,  8.31s/it]

Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Here is a passage in French that answers the query "What is a patrician family?":

"Un famille patricienne, ou patrician family, réfère aux personnes qui ont les relations épiscopales et qui se placent à la hauteur de la société dans l'antiquité romaine. C'est à dire, ils ont la possibilité de rejoindre les professions libres, dont on était en majorité des hommes politiques, des abbés, des officiers de l'armée ou des entrepreneurs. Ces familles ont généralement un bon nombre de possessions financières, dont ils bénéficieront pour assurer leurs privileges. Plus les siècles ont écoulé, plus les familles patriciennes ont tendance à se maintenir à la hauteur de leurs positions sociales et de conserver leurs possessions. C'est la raison pour laquelle ils étaient considé

Expanding queries:  40%|████      | 2/5 [00:16<00:25,  8.36s/it]

Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Saint Patrick is celebrated for driving out the snakes from Ireland, bringing Christianity to the country, and using the three leaves of the shamrock to explain the Holy Trinity to the Irish people. Here is a passage in French that answers the question "Why is Saint Patrick celebrated?":

"Saint Patrick est célèbre pour tant qu'il a drivé les serpents de l'Irlande, introduit la christianité dans l'île et utilisé le shamrock à trois feuilles pour expliquer la Trinité divine aux Irlandais. C'est à l'église catholique qui l'a désigné comme un saint et il est célèbre dans plusieurs provinces de l'Irlande, notamment dans le province de Ulster, mais aussi dans plusieurs autres pays, notamment les États-Unis, où le saint est célébré le 17 mars de each year. Dans

Expanding queries:  60%|██████    | 3/5 [00:29<00:20, 10.29s/it]

Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? Here is a passage in French that answers the query "Pourquoi on a besoin de charbon?" (Why do we need coal?):

"Charbon est un combustible de prime importance, utilisé dans plusieurs industries à travers le monde. Il est producteur de grande quantité de chaleur et de l'électricité, de manière éfficiente et économique.

Il faut primary sur le charbon pour les énergies renouvelables, car il peut être utilisé dans certains pays dans le monde pour produire de l'électricité à travers les centrales thermiques. En plus de cela, le charbon est utilisé dans plusieurs procédés industriels, y compris les fabrication de carbone, le fer et plusieurs autres matières premières.

En outre, le charbon est utilisé dans la fournaise à bois, pour les besoins domestiques et pour la production de barbeque. Charbon est également utilisé dans cert

Expanding queries:  80%|████████  | 4/5 [00:44<00:12, 12.40s/it]

Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? Here is a passage in French that discusses why one would want to build an ecovillage: 

"Un écovillage, ou village écologique, est un type de habitat cohérent dont le but principal est d'utiliser des méthodes durables pour préserver l'environnement dans toutes ses dimensions, notamment en matière de construction, de gestion des ressources, de production alimentaire et de consommation.

Il existe plusieurs motivations pour construire et vivre dans un écovillage. D'une part, c'est un moyen de contribuer à la protection de l'environnement et de promouvoir des activités écologiques. L'écocitoyen est un milieu naturel où l'on peut vivre en reconnaissant la richesse du vivant et de la nature. De plus, l'écocitoyen encourage la dura

Expanding queries: 100%|██████████| 5/5 [00:54<00:00, 10.88s/it]


Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Here is a passage in French that discusses the formation of asteroids:

Les astéroïdes sont généralement créés dans certains zones de la galaxie, notamment dans les galaxies peu animées où la matière ne se compose pas seulement de hydrogène et d'hydrogène soumis à l'action des forces gravitationnelles. C'est dans ces zones que les collisions entre les galaxIES et les orbites chaotiques des étoiles les plus jeunes ont créé des tonnes de matière inconsistante et sans forme, appelées la matière fondamentale. Ces petits boutons de matière fondamentale les plus rudimentaires seront ensuite transformés en astéroïdes plus grands grâce à d'autres collisions et à la consolidation de leurs corps grâce à la compression gravitationale.

Asteroids are generally created in certain regions of the galaxy, particularly in low-acti

Searching: 100%|██████████| 5/5 [00:02<00:00,  1.90it/s]


Cohere Recall@100: 0.3667
Cohere nDCG@10: 0.1106




Expanding queries:  20%|██        | 1/5 [00:03<00:15,  3.80s/it]

Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne? Qu'est-ce que c'est une famille patricienne?   Sure! Here's a passage in French that answers the query "Qu'est-ce que c'est une famille patricienne?":

Une famille patricienne est une famille de noblesse ancienne et honorée, qui a acquis sa richesse et sa noblesse au fil des siècles grâce à des alliances matrimoniales stratégiques et à une gestion habile de ses biens. Les patriciens ont souvent occupé des positions de pouvoir dans la société, notamment dans les gouvernements, les conseils municipaux et les conseils provinciaux. Ils ont également eu un rôle important dans la politique, la religion et les arts. La dignité, la gravité et la noblesse sont caractéristiques de la famille patricienne. Les patriciens ont souvent des noms de famille qui remontent à des origines antiques et qui sont souvent associés à 

Expanding queries:  40%|████      | 2/5 [00:09<00:15,  5.06s/it]

Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre? Pourquoi est-ce que Saint Patrick est célèbre?   Sure! Here's a passage in French that answers the question "Why is Saint Patrick celebrated?"

Saint Patrick est célèbre pour de nombreuses raisons. Tout d'abord, il est considéré comme le patron des Irlandais, car il a évangélisé l'île sainte et a converti de nombreux habitants au christianisme. Ensuite, il est également célèbre pour son travail d'apôtre, qui a consisté à utiliser la croix comme symbole de la religion chrétienne. Cette symbolique a été adoptée par les Irlandais et est devenue un élément important de leur culture. Enfin, Saint Patrick est célèbre pour sa date de fête, qui est célébrée le 17 mars. Cette date a été choisie en l'honneur de la date de sa mort, qui avait lieu le 17 mars 461 apr. J.-C.

In English, this passage translates to:

Expanding queries:  60%|██████    | 3/5 [00:14<00:09,  4.99s/it]

Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon? Pourquoi on a besoin de charbon?   Sure! Here's a passage in French that answers the query "Pourquoi on a besoin de charbon?" (Why do we need coal?):

"On a besoin de charbon pour plusieurs raisons. Tout d'abord, le charbon est une source d'énergie abondante et facile à atteindre. Il existe des réserves de charbon à travers le monde, notamment dans les mines de charbon exploitées depuis longtemps. En outre, le charbon est un comburant puissant qui peut être utilisé pour produire de la chaleur et de l'électricité. Enfin, le charbon est un combustible relativement bon marché par rapport à d'autres sources d'énergie, telles que le pétrole ou le gaz naturel. Cela en fait un choix attractif pour les industries et les ménages qui ont besoin d'une grande quantité d'énergie."

Translation:

"We need coal for several reasons. Firstly, coal is an abundant and easily

Expanding queries:  80%|████████  | 4/5 [00:25<00:07,  7.35s/it]

Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage? Pourquoi est-ce qu'on peut construire un ecovillage?   Sure! Here is a passage in French that answers the question "Why can we build an eco-village?"

"On peut construire un ecovillage pour plusieurs raisons. Tout d'abord, les ecovillages sont conçus pour minimiser l'impact environnemental des habitations et des activités humaines. Les architectures innovantes et les technologies durables utilisées dans ces villages permettront de réduire la consommation d'énergie et de ressources naturelles, en utilisant des matériaux recyclés, des systèmes d'eau et d'eaux usées efficacement gérés, et des espaces verts qui aidant à purifier l'air et à offrir un habitat naturel pour la biodiversité.

Ensuite, les ecovillages sont des communautés vivantes et interactives, où les habitants travai

Expanding queries: 100%|██████████| 5/5 [00:29<00:00,  5.98s/it]


Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Comment sont créés les astéroïdes? Comment sont créés les astéroïdes?   Sure! Here's a passage in French that answers the question "How are asteroids created?"

Les astéroïdes sont créés à partir de la matière primitive du système solaire, qui a été chauffée et broyée lors de la formation de l'astre. Cette matière, composée de roches et de métaux, a été condensée et regroupée au fil du temps, formant des corpuscules plus gros et plus massifs. Les collisions entre ces corpuscules ont continué à se produire, créant des astéroïdes de plus en plus grands et plus massifs. Les astéroïdes sont ainsi créés à partir de la matière primitive du système solaire, par un processus de condensation, de collision et de regroupement.

Translation:

Asteroids are created from the primordial matter of the solar system, which was heated and crushed during the formation of the star. This matter, consisti

Searching: 100%|██████████| 5/5 [00:02<00:00,  1.74it/s]

Llama 2 Recall@100: 0.4000
Llama 2 nDCG@10: 0.1320





