In [None]:
!pip install transformers==4.33.0 accelerate==0.22.0 einops==0.6.1 langchain==0.0.300 xformers==0.0.21 \
bitsandbytes==0.41.1 sentence_transformers==2.2.2 chromadb==0.4.12

In [None]:
import sys
from torch import cuda, bfloat16
import torch
import transformers
from transformers import AutoTokenizer
from time import time
#import chromadb
#from chromadb.config import Settings
from langchain.llms import HuggingFacePipeline
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.chains import RetrievalQA
from langchain.vectorstores import Chroma

In [None]:
!huggingface-cli login --token "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"

#model_id = '/kaggle/input/llama-3/transformers/8b-chat-hf/1'
model_id = 'meta-llama/Meta-Llama-3-8B'
#model_id = 'meta-llama/Llama-2-7b-hf'


device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

# set quantization configuration to load large model with less GPU memory
# this requires the `bitsandbytes` library
bnb_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16
)

print(device)

In [None]:
time_start = time()
model_config = transformers.AutoConfig.from_pretrained(
   model_id,
    trust_remote_code=True,
    max_new_tokens=5000
)
model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    config=model_config,
    quantization_config=bnb_config,
    device_map='auto',
)
tokenizer = AutoTokenizer.from_pretrained(model_id)
time_end = time()
print(f"Prepare model, tokenizer: {round(time_end-time_start, 3)} sec.")

In [None]:
time_start = time()
query_pipeline = transformers.pipeline(
        "text-generation",
        model=model,
        tokenizer=tokenizer,
        torch_dtype=torch.float16,
        max_length=1024,
        device_map="auto",)
time_end = time()
print(f"Prepare pipeline: {round(time_end-time_start, 3)} sec.")

In [None]:
def test_model(tokenizer, pipeline, message):
    """
    Perform a query
    print the result
    Args:
        tokenizer: the tokenizer
        pipeline: the pipeline
        message: the prompt
    Returns
        None
    """
    time_start = time()
    sequences = pipeline(
        message,
        do_sample=True,
        top_k=10,
        num_return_sequences=1,
        eos_token_id=tokenizer.eos_token_id,
        max_length=200,)
    time_end = time()
    total_time = f"{round(time_end-time_start, 3)} sec."

    question = sequences[0]['generated_text'][:len(message)]
    answer = sequences[0]['generated_text'][len(message):]

    print("Question: " + question + "\nAnswer: " + answer + "\nTotal time: " + total_time)

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Per quando è organizzata la gita sociale in pullman alla Reggia di Venaria Reale a Torino?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Quali sono le farmacie di turno notturno e fuori orario nell'Alto Garda e Ledro?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Cosa ha indetto l'zienda per i servizi sanitari?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Quali sono le farmacie a disposizione alle 19 fuori orario?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Dove è nato Marco Collini?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Quanti sono i giovani Scout dell'Agesci?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "A che ora inizia la festa con i pensionati?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Cosa propone l'associazione Amici della Musica?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Dove è organizzata la serata informativa della Sat di Arco?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Di che cosa si tratta l'iniziativa \"Pedalando sul Garda per la ricerca biomedica\?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Che cosa succede nella piazza Santa Maria Maggiore?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Quante sono le associazioni ambientali ad ottenere dalla giunta il contributo comunale ordinario per le attività del 2014?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Cosa faranno queste tre aziende trentine: Polo Meccatronica, Pama di Rovereto, Domo Engineerig di Arco?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Che cosa ha promosso la Uisp ad Arco?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Che cosa è successo alla pozza di Roncone?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Quanti milioni di euro sono stati destinati ai Comuni per il trasporto pubblico locale per il 2015?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Chi sono Lewis Michael Eisenberg ed Elisabeth Lee Martinez e cosa hanno fatto ad Arco?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Cosa ha affermato l\'assessore alla salute Donata Borgonovo Re?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Di che cosa si parlerà all'appuntamento del 17 agosto sulle sponde del Sarca?")

In [None]:
response = test_model(tokenizer,
                    query_pipeline,
                   "Perché tanti trentini vanno a farsi curare fuori provincia?")