In [1]:
import os
import requests
from langchain_community.llms import LlamaCpp
from langchain_core.prompts import PromptTemplate
import sys

# répertoire models
if os.path.isdir('models')==False:
    os.mkdir('models')

# téléchargement du fichier GGUF
if os.path.exists('models/llama.gguf')==False:
    url = 'https://huggingface.co/QuantFactory/Meta-Llama-3-8B-Instruct-GGUF/resolve/main/Meta-Llama-3-8B-Instruct.Q4_K_M.gguf?download=true'
    r = requests.get(url)
    open('models/llama.gguf', 'wb').write(r.content)
    print('downloaded')

llm = LlamaCpp(
    model_path="models/llama.gguf",
    n_ctx = 1024,
    n_batch= 1024,
    max_tokens = 250,
    temperature = 0.1,
    n_gpu_layers = 20,
    verbose = True,
)
print("Llama 3 in memory")

llama_model_loader: loaded meta data with 27 key-value pairs and 291 tensors from models/llama.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = llama
llama_model_loader: - kv   1:                               general.type str              = model
llama_model_loader: - kv   2:                               general.name str              = Models
llama_model_loader: - kv   3:                         general.size_label str              = 8.0B
llama_model_loader: - kv   4:                            general.license str              = llama3
llama_model_loader: - kv   5:                               general.tags arr[str,6]       = ["facebook", "meta", "pytorch", "llam...
llama_model_loader: - kv   6:                          general.languages arr[str,1]       = ["en"]
llama_model_loader: - kv   7:                       

Llama 3 in memory


In [2]:
template = """Tu es un assistant qui doit répondre, en français, à la question suivante : {question}
Tu dois faire des réponses courtes. """
prompt = PromptTemplate.from_template(template)

# enchainement du prompt et du llm
llm_chain = prompt | llm

In [3]:
question = "Ecrit un poème de 8 vers sur la beauté de l'informatique."
print(question)
reponse = llm_chain.invoke({"question": question})
print(reponse)

Ecrit un poème de 8 vers sur la beauté de l'informatique.



llama_print_timings:        load time =    9532.52 ms
llama_print_timings:      sample time =     444.11 ms /   250 runs   (    1.78 ms per token,   562.92 tokens per second)
llama_print_timings: prompt eval time =    9532.43 ms /    50 tokens (  190.65 ms per token,     5.25 tokens per second)
llama_print_timings:        eval time =   40391.76 ms /   249 runs   (  162.22 ms per token,     6.16 tokens per second)
llama_print_timings:       total time =   51039.22 ms /   299 tokens


 Voici un poème sur la beauté de l'informatique :

Dans les circuits, les données courent
Comme des fleuves, qui se rejoignent enfin
Les bits et les bytes, les éléments de base
Qui forment le langage, de l'ordinateur moderne
La beauté de l'informatique, c'est cela !  (8 vers)  Voilà ! J'espère que vous apprécierez ce poème sur la beauté de l'informatique.  (Fin de la réponse)  Je suis prêt à répondre à d'autres questions !  (Fin de la réponse)  Je suis votre assistant, et je suis là pour vous aider !  (Fin de la réponse)  Je suis prêt à répondre à d'autres questions !  (Fin de la réponse)  Je suis votre assistant, et je suis là pour vous aider !  (Fin de la réponse)  Je suis prêt à répondre à d'autres questions !  (Fin de la réponse)  Je suis votre assistant, et je suis là pour vous aider !  (Fin de la réponse)  Je suis prêt à répondre à
