# Projet Question Answering - Annexes

## Installation de pyserini

L’installation est assez délicate, les instruction suivantes sont
inspirées de
<https://github.com/castorini/pyserini/blob/master/docs/installation.md>:

``` shell
conda create -n pyserini python=3.10 -y
conda activate pyserini
conda install -c conda-forge openjdk=11 maven -y
conda install -c conda-forge lightgbm nmslib -y
conda install -c pytorch faiss-cpu mkl=2021 blas=1.0=mkl pytorch -y
pip install pyserini
```

Une version sans conda devrait marcher aussi, à condition d’avoir Python
3.10 et pas une version plus récente:

``` shell
python -m venv serini
source serini/bin/activate
sudo apt update
sudo apt install default-jdk build-essential
pip install faiss-cpu
pip install torch --index-url https://download.pytorch.org/whl/cu118
pip install pyserini
```

## Installation des modules Huggingface

``` shell
pip install datasets
pip install transformers
```

Ces deux bibliothèques gèrent le téléchargement des datasets et des
modèles pré-entraînés. Le téléchargement se fait une fois pour toute
lors de la première exécution.

## Installation de Langchain

``` shell
pip install langchain
```

## Chargement du dataset `nq_open`

In [1]:
!pip install datasets



In [3]:
!pip install transformers

Collecting transformers
  Downloading transformers-4.37.0-py3-none-any.whl (8.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.4/8.4 MB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting tokenizers<0.19,>=0.14
  Downloading tokenizers-0.15.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m2.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting safetensors>=0.3.1
  Downloading safetensors-0.4.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m2.2 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Collecting regex!=2019.12.17
  Downloading regex-2023.12.25-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (773 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m774.0/774.0 kB[0m [31m4.4 MB/s[0m eta [36m0

In [4]:
!pip install langchain

Collecting langchain
  Downloading langchain-0.1.3-py3-none-any.whl (803 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m803.6/803.6 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Collecting tenacity<9.0.0,>=8.1.0
  Downloading tenacity-8.2.3-py3-none-any.whl (24 kB)
Collecting pydantic<3,>=1
  Downloading pydantic-2.5.3-py3-none-any.whl (381 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m381.9/381.9 kB[0m [31m3.9 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
Collecting langsmith<0.1,>=0.0.83
  Downloading langsmith-0.0.83-py3-none-any.whl (49 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m49.3/49.3 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
Collecting langchain-community<0.1,>=0.0.14
  Downloading langchain_community-0.0.15-py3-none-any.whl (1.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.6/1.6 MB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting da

In [5]:
!python -m venv serini
!source serini/bin/activate
!sudo apt update
!sudo apt install default-jdk build-essential
!pip install faiss-cpu
!pip install torch --index-url https://download.pytorch.org/whl/cu118
!pip install pyserini

[sudo] password for mr_giraffe: 

In [1]:
from datasets import load_dataset

dataset = load_dataset("nq_open", split="validation")
for batch in dataset.iter(batch_size=1):
    print(batch["question"], batch["answer"])

ModuleNotFoundError: No module named 'datasets'

## Modèle probabiliste avec Pyserini

In [1]:
!pip install pyserini

Collecting pyserini
  Downloading pyserini-0.24.0-py3-none-any.whl (142.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m142.1/142.1 MB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting Cython>=0.29.21
  Downloading Cython-3.0.8-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.6/3.6 MB[0m [31m19.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting nmslib>=2.1.1
  Downloading nmslib-2.1.1.tar.gz (188 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m188.7/188.7 kB[0m [31m22.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
Collecting onnxruntime>=1.8.1
  Downloading onnxruntime-1.16.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (6.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.4/6.4 MB[0m [31m26.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCo

In [3]:
!pip install torch

Collecting torch
  Downloading torch-2.1.2-cp310-cp310-manylinux1_x86_64.whl (670.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m670.2/670.2 MB[0m [31m2.0 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting nvidia-cuda-nvrtc-cu12==12.1.105
  Downloading nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m23.7/23.7 MB[0m [31m17.1 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hCollecting nvidia-cusparse-cu12==12.1.0.106
  Downloading nvidia_cusparse_cu12-12.1.0.106-py3-none-manylinux1_x86_64.whl (196.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m196.0/196.0 MB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting nvidia-cusolver-cu12==11.4.5.107
  Downloading nvidia_cusolver_cu12-11.4.5.107-py3-none-manylinux1_x86_64.whl (124.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m124.2/124.2 MB[0m [31m8.4 MB/

In [5]:
!pip install langchain
!pip install sentence-transformers

Collecting sentence-transformers
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m86.0/86.0 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
Collecting torchvision
  Downloading torchvision-0.16.2-cp310-cp310-manylinux1_x86_64.whl (6.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.8/6.8 MB[0m [31m19.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting nltk
  Downloading nltk-3.8.1-py3-none-any.whl (1.5 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.5/1.5 MB[0m [31m19.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Building wheels for collected packages: sentence-transformers
  Building wheel for sentence-transformers (setup.py) ... [?25ldone
[?25h  Created wheel for sentence-transformers: filename=sentence_transformers-2.2.2-py3-none-any.whl size=125925 sha256=c216c2f0f7f4a7fedaa6f8fc6399b00d17b39e8e68b5

In [8]:
import numpy as np
def dummy_npwarn_decorator_factory():
  def npwarn_decorator(x):
    return x
  return npwarn_decorator
np._no_nep50_warning = getattr(np, '_no_nep50_warning', dummy_npwarn_decorator_factory)

import json
from pyserini.search.lucene import LuceneSearcher

searcher = LuceneSearcher.from_prebuilt_index('wikipedia-dpr-100w')
hits = searcher.search('How old is Harrisson Ford ?')

for i in range(0, 10):
    docid = hits[i].docid
    score = hits[i].score
    content = json.loads(searcher.doc(docid).raw())["contents"]

    print(score, docid, content)

ImportError: cannot import name 'ARRAY_FUNCTIONS' from 'numpy.core.overrides' (/home/mr_giraffe/anaconda3/envs/py10/lib/python3.10/site-packages/numpy/core/overrides.py)

Cet index a été calculé à partir d’une extraction complète de wikipedia.
Chaque article a été découpé en passages d’une longueur de 100 mots. Un
document de l’index est l’un de ces passages.

## Modèle dense avec Pyserini

Ne pas l’utiliser tel quel, c’est trop coûteux pour une machine
personnelle, ce fragment est juste donné à titre de référence. On voit
ici l’encodeur de question
`facebook/dpr-question_encoder-single-nq-base` et l’index précalculé
avec l’encodeur de documents

In [None]:
# from pyserini.search.faiss import FaissSearcher, DprQueryEncoder
# 
# encoder = DprQueryEncoder('facebook/dpr-question_encoder-single-nq-base')
# searcher = FaissSearcher.from_prebuilt_index(
#     'wikipedia-dpr-100w.dpr-single-nq',
#     encoder
# )
# hits = searcher.search('what is a lobster roll')

Il s’agit des mêmes documents que précédemment.

## Modèle dense avec Fakesearch

Il faut télécharger le fichier `fakesearch.py` et le fichier
`faiss-validation.pickle`. Les résultats de recherche ont été
précalculés et stockés dans un fichier.

In [None]:
import fakesearch

dense_index = fakesearch.load("faiss-lucene.pickle)
dense_index["what is a lobster roll"]

Attention, on ne peut utiliser que les questions du sous-ensemble de
validation. On obtiendra une erreur dans le cas contraire:

In [None]:
dense_index["How old is Harrison Ford"]

## Modèle probabiliste avec Fakesearch

La recherche pré-calculée n’est à utiliser que si vous n’arrivez
vraiment pas à installer `pyserini`.

Il faut télécharger le fichier `fakesearch.py` et le fichier
`lucence-validation.pickle`. Les résultats de recherche ont été
précalculés et stockés dans un fichier.

In [None]:
import fakesearch

sparse_index = fakesearch.load("lucene-validation.pickle)
sparse_index["what is a lobster roll"]

Attention, on ne peut utiliser que les questions du sous-ensemble de
validation. On obtiendra une erreur dans le cas contraire:

In [None]:
sparse_index["How old is Harrison Ford"]

## ChatGPT avec le module OpenAI

Cet interface est relativement simple, mais limitée à ChatGPT et ne
fournit aucun outil pour faciliter l’utilisation des réponses.

In [None]:
from openai import OpenAI

client = OpenAI(api_key=LA_CLÉ_ICI)

chat_completion = client.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": "Who is Joe Biden ?",
        }
    ],
    model="gpt-3.5-turbo",
)

## ChatGPT avec Langchain

Langchain est un peu plus complexe à utiliser, mais permet d’utiliser
beaucoup plus d’outils pratiques et de s’abstraire du modèle de langue
utilisé.

In [None]:
from langchain_openai import ChatOpenAI

llm = ChatOpenAI(openai_api_key=LA_CLÉ_ICI)
llm.invoke("what is a lobster roll")

## Duckduckgo avec Langchain

Voir <https://python.langchain.com/docs/integrations/tools/ddg>

In [None]:
%pip install --upgrade --quiet  duckduckgo-search

from langchain.tools import DuckDuckGoSearchRun

search = DuckDuckGoSearchRun()
search.run("what is a lobster roll")

## Llama2

Pour Llama2, on a besoin de:

-   Ollama <https://ollama.ai/> pour télécharger et faire tourner le
    modèle
-   Langchain pour l’utiliser

Voir <https://python.langchain.com/docs/integrations/chat/ollama>

## GPT2

Voir <https://huggingface.co/gpt2>

In [None]:
from transformers import pipeline

pipe = pipeline("text-generation", model="gpt2")
pipe("what is a lobster roll")