# Installation des bibliothèques Python et téléchargement du modèle de langage
* Afin d'utiliser plus rapidement un modèle de langage, il faut recourir à l'utilisation de la carte graphique (GPU). On installe une édition ajustée de Llama-cpp-python, la bibliothèque Python qui permet l'utilisation des modèles de langage, afin de permettre ce recours.
* Pour permettre la réutilisation des petits modèles de langage dans une machine locale, un nouveau format de fichier (GGUF) a été créé pour sauvegarder les modèles générés. Ces fichiers GGUF peuvent être retrouvés sur [Hugging Face](https://huggingface.co/).
  * Llama-3.2 est le nom du modèle.
  * 3B est le nombre d'hyperparamètres (Trois billions)
  * Q8_0 est la qualité de l'entrainement (Qualité Supérieure).
* Vous pouvez entrainer un modèle de langage sur vos données afin qu'il génère des résultats plus adaptés. Ceci s'appelle le fine-tuning. C'est une tâche à laisser aux informaticiens.

In [46]:
!pip install --no-cache-dir llama-cpp-python==0.2.90 --extra-index-url https://abetlen.github.io/llama-cpp-python/whl/cu123
!wget https://huggingface.co/lmstudio-community/Llama-3.2-3B-Instruct-GGUF/resolve/main/Llama-3.2-3B-Instruct-Q8_0.gguf

Looking in indexes: https://pypi.org/simple, https://abetlen.github.io/llama-cpp-python/whl/cu123
--2025-03-15 16:43:31--  https://huggingface.co/lmstudio-community/Llama-3.2-3B-Instruct-GGUF/resolve/main/Llama-3.2-3B-Instruct-Q8_0.gguf
Resolving huggingface.co (huggingface.co)... 18.239.50.16, 18.239.50.49, 18.239.50.80, ...
Connecting to huggingface.co (huggingface.co)|18.239.50.16|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://cdn-lfs-us-1.hf.co/repos/ee/ff/eefff9a8e8402b0d5b4511add08357762ad9df26ec0a05f1e169a74d188fb00f/94f22b7231df5cd1907ff48dba54497b2d7912a4ce60d914f3dcfc0347fa8f21?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27Llama-3.2-3B-Instruct-Q8_0.gguf%3B+filename%3D%22Llama-3.2-3B-Instruct-Q8_0.gguf%22%3B&Expires=1742060611&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc0MjA2MDYxMX19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy11cy0xLmhmLmNvL3JlcG9zL2VlL2ZmL2VlZmZmOWE4ZTg0MDJiMGQ1Yj

# Import des bibliothèques Python
* On utilise `llama-cpp-python` pour l'utilisation des petits modèles de langage.
* On utilise `pathlib` pour la gestion des dossiers dans notre environnement.


In [47]:
from llama_cpp import Llama
import pathlib

# Définition des variables et du modèle
* On définit les données bibliographiques qu'on va utiliser dans la requête (prompt). Dans cet exemple, on utilise l'Abstract pour retrouver les termes scientifiques qu'il contient.
* On définit le modèle qu'on va utiliser en utilisant la fonction `Llama`:
  * `model_path`: L'endroit où se retrouve le fichier GGUF de notre modèle.
  * `n_ctx`: Le nombre maximal des tokens (mots) à considérer dans la requête.
  * `n_gpu_layers`: Les ressources de la carte graphique qu'on va mobiliser.
* Dans un contexte de production, on utilise un tableau (DataFrame) pour mettre les données bibliographiques pour chaque article et on les traite en utilisant Pandas.

In [48]:
abstract = """The development of neural techniques has opened up new avenues for research in machine translation. Today, neural machine translation (NMT) systems can leverage highly multilingual capacities and even perform zero-shot translation, delivering promising results in terms of language coverage and quality. However, scaling quality NMT requires large volumes of parallel bilingual data, which are not equally available for the 7,000+ languages in the world.
Focusing on improving the translation qualities of a relatively small group of high-resource languages comes at the expense of directing research attention to low-resource languages, exacerbating digital inequities in the long run.
To break this pattern, here we introduce No Language Left Behind—a single massively multilingual model that leverages transfer learning across languages.
We developed a conditional computational model based on the Sparsely Gated Mixture of Experts architecture2–7, which we trained on data obtained with new mining techniques tailored for low-resource languages.
Furthermore, we devised multiple architectural and training improvements to counteract overfitting while training on thousands of tasks.
We evaluated the performance of our model over 40,000 translation directions using tools created specifically for this purpose—an automatic benchmark (FLORES-200), a human evaluation metric (XSTS) and a toxicity detector that covers every language in our model.
Compared with the previous state-of-the-art models, our model achieves an average of 44% improvement in translation quality as measured by BLEU.
By demonstrating how to scale NMT to 200 languages and making all contributions in this effort freely available for non-commercial use, our work lays important groundwork for the development of a universal translation system."""

In [49]:
model = "Llama-3.2-3B-Instruct-Q8_0.gguf"

In [50]:
#Defining models
MODEL_Q8_0 = Llama(
    model_path=model, n_ctx=2048,
    n_gpu_layers=128, logits_all=True
)

llama_model_loader: loaded meta data with 31 key-value pairs and 255 tensors from Llama-3.2-3B-Instruct-Q8_0.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Llama 3.2 3B Instruct
llama_model_loader: - kv   3:                           general.finetune str              = Instruct
llama_model_loader: - kv   4:                           general.basename str              = Llama-3.2
llama_model_loader: - kv   5:                         general.size_label str              = 3B
llama_model_loader: - kv   6:                            general.license str              = llama3.2
llama_model_loader: - kv   7:                       

# Définition du prompt et exécution de la requête
Lorsque vous écrivez un prompt, veuillez garder en tête ces points:
* Utiliser le format Contexte - Instruction - Structure Voulue du Résultat pour expliquer ce que le petit modèle du langage doit faire.
  * Le **Contexte** est que le modèle joue le rôle d'un scientifique.
  * L'**Instruction** est que le modèle doit extraire des terms scientifiques de l'Abstract.
  * La **Structure Voulue** est une liste de termes scientifiques séparés par "; ".
* Lorsque vous utiliser le modèle, définissez le nombre maximal des tokens (`max_tokens`) dans le résultat généré.
* Le résultat ne sera pas toujours adéquat. N'oubliez pas de définir une loupe pour vérifier si le résultat correspond au format souhaité et pour refaire le requête en cas d'échec.


In [51]:
prompt = f"""You are a scientist. Please extract all the scientific concepts mentioned in the Abstract below.
Please directly provide the answer as a list of terms separated by '; '.

Abstract:
{abstract}
"""

In [52]:
def query(model, question):
    model_name = pathlib.Path(MODEL_Q8_0.model_path).name
    prompt = f"Q: {question} A:"
    output = MODEL_Q8_0(prompt=prompt, max_tokens=200) # if max tokens is zero, depends on n_ctx
    response = output["choices"][0]["text"]
    return response

In [53]:
query(model, prompt)


llama_print_timings:        load time =     455.37 ms
llama_print_timings:      sample time =      36.72 ms /   200 runs   (    0.18 ms per token,  5447.07 tokens per second)
llama_print_timings: prompt eval time =     454.72 ms /   367 tokens (    1.24 ms per token,   807.08 tokens per second)
llama_print_timings:        eval time =   10537.45 ms /   199 runs   (   52.95 ms per token,    18.89 tokens per second)
llama_print_timings:       total time =   12182.65 ms /   566 tokens


' \n\n; Neural Machine Translation (NMT); Sparsely Gated Mixture of Experts (SGME); Conditional Computational Model; Transfer Learning; Multilingual Models; Low-Resource Languages; Digital Inequities; BLEU (Bilingual Evaluation Understudy); FLORES-200; XSTS; Toxicity Detector. \n\nNote: I\'ve kept the full names of some models (Sparsely Gated Mixture of Experts, FLORES-200, XSTS) as they are used in the original text, but I\'ve omitted the citation numbers as they are not part of the scientific concept. \n\nPlease let me know if you need any further assistance. \n\nNote: I have rephrased the answer according to your request, providing the list of terms separated by \'; \'. \n\nHowever, please note that the concept of "Digital Inequities" is more of a social issue than a purely scientific concept. I\'ve included it in the list as it is mentioned in the'