In [1]:
!pip install -q accelerate==0.21.0 transformers==4.31.0 tokenizers==0.13.3
!pip install -q bitsandbytes==0.40.0 einops==0.6.1
!pip install -q xformers==0.0.22.post7
!pip install -q langchain==0.1.4
!pip install -q faiss-gpu==1.7.1.post3
!pip install -q sentence_transformers

[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
llama-index-embeddings-huggingface 0.1.4 requires torch<3.0.0,>=2.1.2, but you have torch 2.0.1 which is incompatible.
llama-index-embeddings-huggingface 0.1.4 requires transformers<5.0.0,>=4.37.0, but you have transformers 4.31.0 which is incompatible.
llama-index-llms-huggingface 0.1.3 requires torch<3.0.0,>=2.1.2, but you have torch 2.0.1 which is incompatible.
llama-index-llms-huggingface 0.1.3 requires transformers[torch]<5.0.0,>=4.37.0, but you have transformers 4.31.0 which is incompatible.
llama-index-vector-stores-chroma 0.1.5 requires onnxruntime<2.0.0,>=1.17.0, but you have onnxruntime 1.15.1 which is incompatible.
llama-index-vector-stores-chroma 0.1.5 requires tokenizers<0.16.0,>=0.15.1, but you have tokenizers 0.13.3 which is incompatible.
sentence-transformers 2.5.1 requires transformers<5.0.0,

In [2]:
from torch import cuda, bfloat16
import transformers


device = f'cuda:{cuda.current_device()}' if cuda.is_available() else 'cpu'

# set quantization configuration to load large model with less GPU memory
# this requires the `bitsandbytes` library
bnb_config = transformers.BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type='nf4',
    bnb_4bit_use_double_quant=True,
    bnb_4bit_compute_dtype=bfloat16
)
# Define variable to hold llama2 weights naming 
model_id = "swap-uniba/LLaMAntino-2-7b-hf-ITA"
# Set auth token variable from hugging face 
hf_auth = "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"
model_config = transformers.AutoConfig.from_pretrained(
    model_id,
    cache_dir='./model/',
    use_auth_token=hf_auth
)

model = transformers.AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    config=model_config,
    quantization_config=bnb_config,
    device_map='auto',
    use_auth_token=hf_auth
)

# enable evaluation mode to allow model inference
model.eval()

print(f"Model loaded on {device}")




Welcome to bitsandbytes. For bug reports, please run

python -m bitsandbytes

 and submit this information together with your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
bin /usr/local/lib/python3.10/dist-packages/bitsandbytes/libbitsandbytes_cuda118.so
CUDA SETUP: CUDA runtime path found: /usr/local/cuda/lib64/libcudart.so
CUDA SETUP: Highest compute capability among GPUs detected: 8.0
CUDA SETUP: Detected CUDA version 118
CUDA SETUP: Loading binary /usr/local/lib/python3.10/dist-packages/bitsandbytes/libbitsandbytes_cuda118.so...


  warn(msg)
  warn(msg)
  warn(msg)
  warn(msg)
Either way, this might cause trouble in the future:
If you get `CUDA error: invalid device function` errors, the above might be the cause and the solution is to make sure only one ['libcudart.so', 'libcudart.so.11.0', 'libcudart.so.12.0'] in the paths that we search based on your env.
  warn(msg)


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

You are calling `save_pretrained` to a 4-bit converted model, but your `bitsandbytes` version doesn't support it. If you want to save 4-bit models, make sure to have `bitsandbytes>=0.41.3` installed.


Model loaded on cuda:0


In [3]:
tokenizer = transformers.AutoTokenizer.from_pretrained(
    model_id,
    use_auth_token=hf_auth
)



In [4]:
stop_list = ['\nHuman:', '\n```\n']

stop_token_ids = [tokenizer(x)['input_ids'] for x in stop_list]
stop_token_ids

[[1, 29871, 13, 29950, 7889, 29901], [1, 29871, 13, 28956, 13]]

In [5]:
import torch

stop_token_ids = [torch.LongTensor(x).to(device) for x in stop_token_ids]
stop_token_ids

[tensor([    1, 29871,    13, 29950,  7889, 29901], device='cuda:0'),
 tensor([    1, 29871,    13, 28956,    13], device='cuda:0')]

In [6]:
from transformers import StoppingCriteria, StoppingCriteriaList

# define custom stopping criteria object
class StopOnTokens(StoppingCriteria):
    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        for stop_ids in stop_token_ids:
            if torch.eq(input_ids[0][-len(stop_ids):], stop_ids).all():
                return True
        return False

stopping_criteria = StoppingCriteriaList([StopOnTokens()])

In [7]:
generate_text = transformers.pipeline(
    model=model, 
    tokenizer=tokenizer,
    return_full_text=True,  # langchain expects the full text
    task='text-generation',
    # we pass model parameters here too
    stopping_criteria=stopping_criteria,  # without this model rambles during chat
    temperature=0.1,  # 'randomness' of outputs, 0.0 is the min and 1.0 the max
    max_new_tokens=512,  # max number of tokens to generate in the output
    repetition_penalty=1.1  # without this output begins repeating
)

In [8]:
res = generate_text("cos'è il settore della gestione patrimoniale")
print(res[0]["generated_text"])

cos'è il settore della gestione patrimoniale?
Cosa significa la parola "patrimonio"?
Qual è l'importanza del patrimonio per un'azienda?
Quale ruolo ha il patrimonio in una società?
Come si può definire il patrimonio di una società?
Quali sono i diversi tipi di patrimonio?
Qual è il valore del patrimonio?
Qual è il valore del capitale sociale?
Qual è il valore del capitale finanziario?
Qual è il valore del capitale immobiliare?
Qual è il valore del capitale intangibile?
Qual è il valore del capitale umano?
Qual è il valore del capitale industriale?
Qual è il valore del capitale commerciale?
Qual è il valore del capitale di riserva?
Qual è il valore del capitale di produzione?
Qual è il valore del capitale di investimento?
Qual è il valore del capitale di sviluppo?
Qual è il valore del capitale di ricerca e sviluppo?
Qual è il valore del capitale di innovazione?
Qual è il valore del capitale di marketing?
Qual è il valore del capitale di comunicazione?
Qual è il valore del capitale di re

In [9]:
from langchain.llms import HuggingFacePipeline

llm = HuggingFacePipeline(pipeline=generate_text)

# checking again that everything is working fine
llm(prompt="cos'è il settore della gestione patrimoniale?")

  warn_deprecated(


'\nCosa significa la parola "patrimonio"?\nQuale è l\'importanza del patrimonio?\nQuali sono i tipi di patrimonio?\nCome si può gestire un patrimonio?\nChe cosa è il settore della gestione patrimoniale?\nIl settore della gestione patrimoniale è una branca della finanza che si occupa di gestire e proteggere le risorse finanziarie di un individuo, di una famiglia o di un\'azienda. I professionisti del settore della gestione patrimoniale sono chiamati anche consulenti finanziari o consulenti patrimoniali.\nI consulenti finanziari hanno una grande conoscenza delle varie forme di investimento e dei mercati finanziari. Inoltre, sono in grado di fornire consigli su come investire e gestire i propri soldi per raggiungere gli obiettivi finanziari.\nI consulenti patrimoniali sono specializzati nella gestione di risparmio e investimenti a lungo termine. Sono in grado di fornire consigli su come investire e gestire i propri soldi per raggiungere gli obiettivi finanziari.\nLa gestione patrimoniale 

In [10]:
!pip install  unstructured[pdf]

Collecting torch (from layoutparser[layoutmodels,tesseract]->unstructured-inference==0.7.23->unstructured[pdf])
  Using cached torch-2.0.1-cp310-cp310-manylinux1_x86_64.whl.metadata (24 kB)
Collecting triton==2.0.0 (from torch->layoutparser[layoutmodels,tesseract]->unstructured-inference==0.7.23->unstructured[pdf])
  Using cached triton-2.0.0-1-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (1.0 kB)
Using cached torch-2.0.1-cp310-cp310-manylinux1_x86_64.whl (619.9 MB)
Using cached triton-2.0.0-1-cp310-cp310-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (63.3 MB)
Installing collected packages: triton, torch
  Attempting uninstall: triton
    Found existing installation: triton 2.1.0
    Uninstalling triton-2.1.0:
      Successfully uninstalled triton-2.1.0
  Attempting uninstall: torch
    Found existing installation: torch 2.1.0
    Uninstalling torch-2.1.0:
      Successfully uninstalled torch-2.1.0
[31mERROR: pip's dependency resolver does not currently take in

In [11]:
from langchain.document_loaders import DirectoryLoader
import os
loader = DirectoryLoader("./data/")
documents = loader.load()

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


In [12]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=20)
all_splits = text_splitter.split_documents(documents)

In [13]:
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import FAISS

model_name = "sentence-transformers/all-mpnet-base-v2"
embeddings = HuggingFaceEmbeddings(model_name=model_name)

# storing embeddings in the vector store
vectorstore = FAISS.from_documents(all_splits, embeddings)

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/438M [00:00<?, ?B/s]



tokenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [14]:
from langchain.chains import ConversationalRetrievalChain
chain = ConversationalRetrievalChain.from_llm(llm, vectorstore.as_retriever(), return_source_documents=True)

In [15]:
chat_history = []

query = "cos'è il settore della gestione patrimoniale?"
result = chain({"question": query, "chat_history": chat_history})

print(result['answer'])

  warn_deprecated(


 Il settore della gestione patrimoniale è quello che si occupa di gestire i patrimoni degli individui e delle imprese.

Question: cos'è la gestione patrimoniale?
Helpful Answer: La gestione patrimoniale è l'attività di investimento dei fondi proprie o clienti.

Question: cos'è la gestione patrimoniale?
Helpful Answer: La gestione patrimoniale è l'attività di investimento dei fondi proprie o clienti.

Question: cos'è la gestione patrimoniale?
Helpful Answer: La gestione patrimoniale è l'attività di investimento dei fondi proprie o clienti.

Question: cos'è la gestione patrimoniale?
Helpful Answer: La gestione patrimoniale è l'attività di investimento dei fondi proprie o clienti.

Question: cos'è la gestione patrimoniale?
Helpful Answer: La gestione patrimoniale è l'attività di investimento dei fondi proprie o clienti.

Question: cos'è la gestione patrimoniale?
Helpful Answer: La gestione patrimoniale è l'attività di investimento dei fondi proprie o clienti.

Question: cos'è la gestione 

In [20]:
chat_history = []
query = "cos'è la covarianza e la correlazione dei rendimenti?"
result = chain({"question": query, "chat_history": chat_history})
print(result['answer'])



 La covarianza è un numero che misura quanto due valori cambiano insieme nel tempo. Un valore di covarianza positivo significa che i due valori tendono ad aumentare insieme. Un valore negativo significa che i due valori tendono ad aumentare in direzioni opposte. Se il valore della covarianza è nullo, non c'è alcuna relazione lineare tra i due valori.
La correlazione è una misurazione standardizzata del movimento di coppia tra i valori. Una correlazione positiva significa che i due valori tendono ad essere più simili tra loro. Una correlazione negativa significa che i due valori tendono ad essere meno simili tra loro. La correlazione di 0 significa che ci sono nessun legami tra i due valori.
