# llama3_unsloth_stream.ipynb
# ✅ Notebook compatibile Colab per stream Llama 3.2 Instruct con Unsloth

In [None]:
# ⚠️ STEP 1 - Installa e riavvia
!pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo
# !pip install -q xformers  # opzionale per FlashAttention

Collecting unsloth
  Downloading unsloth-2025.5.9-py3-none-any.whl.metadata (47 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/47.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m47.1/47.1 kB[0m [31m11.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting unsloth_zoo
  Downloading unsloth_zoo-2025.5.11-py3-none-any.whl.metadata (8.1 kB)
Collecting torch>=2.4.0 (from unsloth)
  Downloading torch-2.7.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (29 kB)
Collecting xformers>=0.0.27.post2 (from unsloth)
  Downloading xformers-0.0.30-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (1.0 kB)
Collecting bitsandbytes (from unsloth)
  Downloading bitsandbytes-0.46.0-py3-none-manylinux_2_24_x86_64.whl.metadata (10 kB)
Collecting triton>=3.0.0 (from unsloth)
  Downloading triton-3.3.1-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (1.5 kB)
Collecting packaging (from unsloth)
  Downloading packag

# ⚠️ DOPO QUESTO, RIAVVIA IL RUNTIME (Runtime > Restart Runtime)


In [None]:
# === STEP 2: Importa Unsloth prima di qualsiasi cosa ===
import unsloth  # deve essere PRIMA
from unsloth import FastLanguageModel
from transformers import AutoTokenizer
import torch

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!


In [None]:
# max_seq_length

16384

In [None]:
# === STEP 3: Carica modello ===
model_name = "unsloth/Llama-3.2-3B-Instruct"
max_seq_length = 8192 * 2

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_name,
    max_seq_length=max_seq_length,
    dtype=None,           # auto-detects float16/bfloat16
    load_in_4bit=False,   # usa True se vuoi quantizzazione
)

==((====))==  Unsloth 2025.5.9: Fast Llama patching. Transformers: 4.52.4.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.7.0+cu126. CUDA: 7.5. CUDA Toolkit: 12.6. Triton: 3.3.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.30. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors.index.json:   0%|          | 0.00/20.9k [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/1.46G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/234 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/54.7k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/454 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

chat_template.jinja:   0%|          | 0.00/3.83k [00:00<?, ?B/s]

In [None]:
# ✅ Patch obbligatoria per stream_generate
FastLanguageModel.for_inference(model)
# print(hasattr(model, "stream_generate"))  # Deve stampare: True per usare stream generation

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(128256, 3072, padding_idx=128004)
    (layers): ModuleList(
      (0-27): 28 x LlamaDecoderLayer(
        (self_attn): LlamaAttention(
          (q_proj): Linear(in_features=3072, out_features=3072, bias=False)
          (k_proj): Linear(in_features=3072, out_features=1024, bias=False)
          (v_proj): Linear(in_features=3072, out_features=1024, bias=False)
          (o_proj): Linear(in_features=3072, out_features=3072, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear(in_features=3072, out_features=8192, bias=False)
          (up_proj): Linear(in_features=3072, out_features=8192, bias=False)
          (down_proj): Linear(in_features=8192, out_features=3072, bias=False)
          (act_fn): SiLU()
        )
        (input_layernorm): LlamaRMSNorm((3072,), eps=1e-05)
        (post_attention_layernorm): LlamaRMSNorm((3072,), eps=1e-05)
      )

In [None]:
def estimate_model_size(model):
    param_size = 0
    for param in model.parameters():
        param_size += param.nelement() * param.element_size()
    return param_size / (1024 ** 2)  # In MiB

size = estimate_model_size(model)
print(f"📏 Stima peso parametri modello: {size:.2f} MiB")


📏 Stima peso parametri modello: 6127.83 MiB


In [None]:
import gc
gc.collect()
torch.cuda.empty_cache()

# Dopo aver caricato il modello
print(f"[🚀 Dopo il load] Allocata: {torch.cuda.memory_allocated() / 1024**2:.2f} MiB")

[🚀 Dopo il load] Allocata: 7433.21 MiB


# frist trying of chatbot, just to see if it works. No more used.

In [None]:
# === STEP 4: Format ===
'''
def format_prompt_for_llama3(prompt_text: str) -> str:
    prompt_text = prompt_text.strip()
    if not prompt_text.endswith("EOF"):
        prompt_text += "\nEOF"
    return f"<s>[INST] {prompt_text} [/INST]"

# === STEP 5: Stream ===
def stream_llama_response(
    raw_prompt: str,
    tokenizer,
    llm,
    temperature: float = 0.7,
    top_p: float = 0.95
):
    prompt = format_prompt_for_llama3(raw_prompt) #sistono i chat template su unsloth
    inputs = tokenizer(prompt, return_tensors="pt")
    inputs = {k: v.to(llm.device) for k, v in inputs.items()}

    prompt_len = inputs["input_ids"].shape[1]
    max_context = getattr(llm.config, "max_position_embeddings", tokenizer.model_max_length)
    max_new = max_context - prompt_len

    if max_new <= 0:
        raise ValueError(
            f"Prompt troppo lungo ({prompt_len}), max new tokens disponibili: {max_new}"
        )

    # Genera tutta la risposta in una volta
    output = llm.generate(
        **inputs,
        max_new_tokens=max_new,
        temperature=temperature,
        top_p=top_p,
        do_sample=True,
        pad_token_id=tokenizer.eos_token_id,
    )

    decoded = tokenizer.decode(output[0], skip_special_tokens=True)

    # Estrai solo la parte dopo il prompt per simulare lo stream
    response = decoded[len(prompt):].strip()

    print("\n🧠 Risposta:", end=" ", flush=True)
    for char in response:
        print(char, end="", flush=True)
    print("\n✅ Fine.")
  '''


In [None]:
# === STEP 6: Prompt ===
# Esegui questa cella per testare lo stream
'''
prompt = "Scrivi una funzione Python che calcola la media di una lista."
stream_llama_response(prompt, tokenizer, model)
'''


🧠 Risposta: Ecco una possibile risposta:
```python
def media(lista):
    """
    Calcola la media di una lista di numeri.

    Args:
        lista (list): Una lista di numeri.

    Returns:
        float: La media della lista.

    Raises:
        ValueError: Se la lista è vuota.
    """
    if not lista:
        raise ValueError("La lista non può essere vuota")
    return sum(lista) / len(lista)
```
Ecco un esempio di come utilizzare la funzione:
```python
lista = [1, 2, 3, 4, 5]
media della = media(lista)
print(media della)  # Output: 3.0
```
Nota che in questo esempio la funzione restituisce il risultato come float, anche se la media è un numero intero. Se desideri che la funzione restituisca un numero intero, puoi utilizzare il round() come segue:
```python
def media(lista):
   ...
    return round(sum(lista) / len(lista))
```
Spero che questo ti sia stato utile! Se hai altre domande, non esitare a chiedere.
✅ Fine.


In [None]:
'''
class UnslothChatbot:
    def __init__(self, model, tokenizer):
        self.model = model
        self.tokenizer = tokenizer
        self.history = []

        # Ottieni max context dinamico
        self.max_context = getattr(model.config, "max_position_embeddings", tokenizer.model_max_length)

    def ask(self, user_input: str, temperature=0.7, top_p=0.95):
        # Aggiorna la history
        self.history.append({"role": "user", "content": user_input})

        # Applica il chat template ufficiale
        prompt = self.tokenizer.apply_chat_template(
            self.history,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
        prompt_len = inputs["input_ids"].shape[1]
        max_new = self.max_context - prompt_len

        if max_new <= 0:
            raise ValueError("🚫 Prompt troppo lungo per il contesto disponibile!")

        outputs = self.model.generate(
            **inputs,
            max_new_tokens=max_new,
            temperature=temperature,
            top_p=top_p,
            do_sample=True,
            pad_token_id=self.tokenizer.eos_token_id,
        )

        full_output = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
        last_response = full_output.split("<|assistant|>")[-1].strip()

        # Aggiungi risposta alla history
        self.history.append({"role": "assistant", "content": last_response})

        return last_response

    def chat_loop(self):
        print("🦙 Chatbot LLaMA 3.2 pronto! Scrivi 'exit' per uscire.")
        while True:
            user_input = input("🧑 Tu: ").strip()
            if user_input.lower() in {"exit", "quit"}:
                break
            reply = self.ask(user_input)
            print(f"🤖 LLM: {reply}\n")


In [None]:
'''
bot = UnslothChatbot(model, tokenizer)
bot.chat_loop()


🦙 Chatbot LLaMA 3.2 pronto! Scrivi 'exit' per uscire.
🧑 Tu: conosci la libreria unsloth e come si usa llam3.2 da questa libreria
🤖 LLM: system

Cutting Knowledge Date: December 2023
Today Date: 03 Jun 2025

user

conosci la libreria unsloth e come si usa llam3.2 da questa libreriaassistant

Ciao! Sì, conosco la libreria "Unsloth" e posso aiutarti a capire come usarla con LAMMPS (Large-scale Atomic/Molecular Massively Parallel Simulator).

L'Unsloth è una libreria per la simulazione di molecole e sistemi di molecole in Python. Ecco una breve introduzione alla libreria e ai suoi principali componenti:

**Caratteristiche principali di Unsloth**

*   La libreria supporta la simulazione di sistemi di molecole con una grande varietà di interazioni, tra cui:
    *   Interazioni di forze elettriche
    *   Interazioni di van der Waals
    *   Interazioni di elasticità
    *   Interazioni di idratazione
*   La libreria supporta anche la simulazione di sistemi non equilibrati e equilibrati.
*   

# importo la pipeline di data cleaning che trasforma una repo github di .py e .md in un unico file.md in cui posso estrarre i chunk di ogni file nella repo (.py e .md obv)

✅ Obiettivo: costruire un .md aggregato semanticamente strutturato
1. Parsing intelligente dei file Python e Markdown
- .py: estrai ogni classe o funzione come unità di embedding (con ast)
- .md: estrai ogni titolo H1/H2, blocco di codice o tabella come unità coerente

## 1. Clona la repo (solo una volta) in cui ci sono le funzioni di chunking della repo trasformata in file .md

In [None]:
!git clone https://github.com/cleb98/Chatbot_for_GitHub-Based_RAG.git


Cloning into 'Chatbot_for_GitHub-Based_RAG'...
remote: Enumerating objects: 20, done.[K
remote: Counting objects: 100% (20/20), done.[K
remote: Compressing objects: 100% (13/13), done.[K
remote: Total 20 (delta 7), reused 20 (delta 7), pack-reused 0 (from 0)[K
Receiving objects: 100% (20/20), 39.84 KiB | 357.00 KiB/s, done.
Resolving deltas: 100% (7/7), done.


## 2. Aggiungi il path al sys.path

In [None]:
import sys
sys.path.append("Chatbot_for_GitHub-Based_RAG")


## 3. Importa la funzione

In [None]:
!pip install -q tiktoken

In [None]:
from chunk_extraction import chunk_markdown_by_file, count_tokens
from pathlib import Path
from config import Configurator

In [None]:
root_folder = Path("/content/Chatbot_for_GitHub-Based_RAG")
cfg = Configurator(root_folder / "config.yaml")
chunks = chunk_markdown_by_file(root_folder /  cfg.output_md_path)

In [None]:
# type(chunks[0])

dict

In [None]:
for key, value in chunks[0].items():
  print(f"La chiave '{key}' contiene un oggetto di classe: {type(value).__name__}")
  print('value: ',chunks[0][key])


La chiave 'doc_id' contiene un oggetto di classe: str
value:  file:  config.py
La chiave 'text' contiene un oggetto di classe: str
value:  ```python
import os
import re
import glob
import itertools
from click.core import batch
from path import Path
import sacred
from sacred import Experiment
from sacred.observers import FileStorageObserver
from sacred.utils import apply_backspaces_and_linefeeds
from torch.fx.experimental.proxy_tensor import snapshot_fake
```

```python
sacred.SETTINGS['CONFIG']['READ_ONLY_CONFIG'] = False
```

```python
sacred.SETTINGS.CAPTURE_MODE = 'no'
```

```python
ex = Experiment('PANet')
```

```python
ex.captured_out_filter = apply_backspaces_and_linefeeds
```

```python
source_folders = ['.', './dataloaders', './models', './util']
```

```python
sources_to_save = list(itertools.chain.from_iterable(
    [glob.glob(f'{folder}/*.py') for folder in source_folders]))
```

```python
def cfg():
    ################ SET TRAINING PARAMETERS or TEST PARAMETERS #########

In [None]:
for chunk in chunks:
    chunk["num_tokens"] = count_tokens(chunk["text"])

# Ordina e mostra tutti i chunk
top_chunks = sorted(chunks, key=lambda x: x["num_tokens"], reverse=True)[:]
for c in top_chunks:
    print(f"{c['doc_id']} – {c['num_tokens']} tokens")


file:  models\resnet_paper.py – 3570 tokens
file:  models\ResNet.py – 3265 tokens
file:  util\scribbles.py – 3039 tokens
file:  demo_fewshot.py – 2412 tokens
file:  test.py – 2346 tokens
file:  dataloaders\customized.py – 2322 tokens
file:  demo1shot.py – 2243 tokens
file:  models\fewshot.py – 2181 tokens
file:  config.py – 1618 tokens
file:  util\visual_utils.py – 1563 tokens
file:  dataloaders\common.py – 1559 tokens
file:  util\metric.py – 1548 tokens
file:  train.py – 1442 tokens
file:  dataloaders\coco.py – 1215 tokens
file:  dataloaders\transforms.py – 1120 tokens
file:  models\base.py – 727 tokens
file:  dataloaders\pascal.py – 646 tokens
file:  util\utils.py – 599 tokens
file:  README.md – 583 tokens
file:  models\vgg.py – 540 tokens
file:  util\voc_classwise_filenames.py – 252 tokens
file:  util\sbd_instance_process.py – 154 tokens
file:  models\__init__.py – 12 tokens
file:  demo.py – 1 tokens
file:  dataloaders\__init__.py – 1 tokens
file:  models\decoder.py – 1 tokens
file:

# instanzio embedding model  e vectordb chroma+fais per generare gli emebdding della mia repo github

In [None]:
!pip install -q --upgrade \
  sentence-transformers faiss-cpu \
  bitsandbytes accelerate \
  chromadb gitpython tqdm

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/67.3 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m67.3/67.3 kB[0m [31m4.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.3/31.3 MB[0m [31m28.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.3/19.3 MB[0m [31m31.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m94.9/94.9 kB[0m [31m8.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m284.2/284.2 kB[0m [31m23.3 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m65.6 MB/s[0m eta [36m0:00:00

In [None]:
# from sentence_transformers import SentenceTransformer
# emb_model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2', device='cuda' if torch.cuda.is_available() else 'cpu')
# emb_dim = emb_model.get_sentence_embedding_dimension()

In [None]:
# Mostra memoria totale e memoria usata in MiB
allocated = torch.cuda.memory_allocated() / (1024 ** 2)
reserved = torch.cuda.memory_reserved() / (1024 ** 2)

print(f"📦 Memoria allocata: {allocated:.2f} MiB")
print(f"🧠 Memoria riservata: {reserved:.2f} MiB")

📦 Memoria allocata: 6146.33 MiB
🧠 Memoria riservata: 6182.00 MiB


In [None]:
from sentence_transformers import SentenceTransformer

emb_model = SentenceTransformer("BAAI/bge-large-en-v1.5", device='cuda' if torch.cuda.is_available() else 'cpu')
embeddings = emb_model.encode(["This is a test chunk."], normalize_embeddings=True)


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/94.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/52.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/779 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/366 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/711k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/191 [00:00<?, ?B/s]

In [None]:
embeddings = 0
# Prompt instruction per ogni chunk
instruction_wrapped_chunks = [f"Represent this passage for retrieval: {chunk}" for chunk in chunks]
embeddings = emb_model.encode(instruction_wrapped_chunks, normalize_embeddings=True)



In [None]:
len(chunks)

27

In [None]:
embeddings.shape

(27, 1024)

In [None]:
type(embeddings)

numpy.ndarray

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Supponiamo tu abbia già gli embeddings come array NumPy (shape: [N, D])


# Calcola la matrice di similarità (N x N)
similarity_matrix = cosine_similarity(embeddings)

# Per ogni riga (embedding), troviamo la miglior similarità escluso se stesso
for i in range(similarity_matrix.shape[0]):
    # Imposta la diagonale a -1 per ignorare la similarità con se stesso
    similarity_matrix[i, i] = -1

    # Trova l'indice del massimo valore (embedding più simile)
    best_match_index = np.argmax(similarity_matrix[i])
    best_similarity = similarity_matrix[i, best_match_index]

    print(f"embedding {i+1}: la similarità più alta è con l'embedding {best_match_index+1}, sim({i+1}, {best_match_index+1}) = {best_similarity:.3f}")


embedding 1: la similarità più alta è con l'embedding 7, sim(1, 7) = 0.905
embedding 2: la similarità più alta è con l'embedding 27, sim(2, 27) = 0.961
embedding 3: la similarità più alta è con l'embedding 4, sim(3, 4) = 0.987
embedding 4: la similarità più alta è con l'embedding 3, sim(4, 3) = 0.987
embedding 5: la similarità più alta è con l'embedding 4, sim(5, 4) = 0.853
embedding 6: la similarità più alta è con l'embedding 7, sim(6, 7) = 0.934
embedding 7: la similarità più alta è con l'embedding 6, sim(7, 6) = 0.934
embedding 8: la similarità più alta è con l'embedding 3, sim(8, 3) = 0.898
embedding 9: la similarità più alta è con l'embedding 10, sim(9, 10) = 0.887
embedding 10: la similarità più alta è con l'embedding 3, sim(10, 3) = 0.941
embedding 11: la similarità più alta è con l'embedding 26, sim(11, 26) = 0.932
embedding 12: la similarità più alta è con l'embedding 6, sim(12, 6) = 0.905
embedding 13: la similarità più alta è con l'embedding 27, sim(13, 27) = 0.943
embedding

# inizializzo vector db croma

# monto il gdrive per mantenerci storate le info di chromaDB:
definisco folder in gdrive da usare per salvarci le info del vector db, garantendo persistenza tra le sessioni:
dentro la folder ci sarà

 ```
├── chroma.sqlite3            ← metadati
├── chroma-collections.parquet
├── chroma-embeddings.parquet ← vettori
└── index/                    ← indice FAISS o HNSW
 ```


In [None]:
from google.colab import drive
drive.mount('/content/drive')
#path del chromaDB nel mio drive
DB_PATH = "/content/drive/MyDrive/db_rag/"


Mounted at /content/drive


In [None]:
import chromadb
from chromadb.config import Settings

# da capire meglio se ha senso ridefinire la class SentenceTransformerEmbeddingFunction(EmbeddingFunction):



In [None]:
# from chromadb.api.types import EmbeddingFunction
# from typing import List

# class SentenceTransformerEmbeddingFunction(EmbeddingFunction):
#     def __init__(self, model):
#         self.model = emb_model

#     def __call__(self, input: List[str]) -> List[List[float]]:
#         return self.model.encode(input, show_progress_bar=False).tolist()

In [None]:
# embedding_fn = SentenceTransformerEmbeddingFunction(emb_model)
# client = chromadb.PersistentClient(path=DB_PATH, settings=Settings(allow_reset=True))
# collection = client.get_or_create_collection(
#     name="my_chunks",
#     embedding_function=None,
#     metadata={"hnsw:space": "cosine"}                 # matcha la tua embedding dim
# )


In [None]:
COLLECTION_NAME = "my_chunks"
EMBEDDING_DIM = 1024  # <-- la dimensione dei tuoi vettori
EMBEDDING_FUNCTION = None  # <-- se vuoi passare SentenceTransformerEmbeddingFunction puoi farlo qui

# === Init client ===
client = chromadb.PersistentClient(path=DB_PATH, settings=Settings(allow_reset=True))

# === Check collection and handle reset if needed ===
if COLLECTION_NAME in [c.name for c in client.list_collections()]:
    col = client.get_collection(COLLECTION_NAME)
    existing = col.count()
    if existing > 0:
        print(f"⚠️ Collection '{COLLECTION_NAME}' esiste già con {existing} documenti. La elimino.")
        client.delete_collection(COLLECTION_NAME)

# === Create or re-create collection ===
collection = client.get_or_create_collection(
    name=COLLECTION_NAME,
    metadata={"hnsw:space": "cosine"},
    embedding_function=EMBEDDING_FUNCTION,
)

print(f"✅ Collection '{COLLECTION_NAME}' pronta. Usa collection.add(...) per popolarla.")

⚠️ Collection 'my_chunks' esiste già con 27 documenti. La elimino.
✅ Collection 'my_chunks' pronta. Usa collection.add(...) per popolarla.


In [None]:
# chunks

In [None]:
# === 3. Prepara e inserisci in Chroma ===
ids = [f"chunk-{i}" for i in range(len(chunks))]
documents = [chunk["text"] for chunk in chunks] #body of docs
metadatas = [{"doc_id": chunk["doc_id"]} for chunk in chunks] #title

print(ids,
      '\n',
      metadatas)

collection.add(
    documents=documents,
    embeddings=embeddings.tolist(),
    metadatas=metadatas,
    ids=ids
)



['chunk-0', 'chunk-1', 'chunk-2', 'chunk-3', 'chunk-4', 'chunk-5', 'chunk-6', 'chunk-7', 'chunk-8', 'chunk-9', 'chunk-10', 'chunk-11', 'chunk-12', 'chunk-13', 'chunk-14', 'chunk-15', 'chunk-16', 'chunk-17', 'chunk-18', 'chunk-19', 'chunk-20', 'chunk-21', 'chunk-22', 'chunk-23', 'chunk-24', 'chunk-25', 'chunk-26'] 
 [{'doc_id': 'file:  config.py'}, {'doc_id': 'file:  demo.py'}, {'doc_id': 'file:  demo1shot.py'}, {'doc_id': 'file:  demo_fewshot.py'}, {'doc_id': 'file:  README.md'}, {'doc_id': 'file:  test.py'}, {'doc_id': 'file:  train.py'}, {'doc_id': 'file:  dataloaders\\coco.py'}, {'doc_id': 'file:  dataloaders\\common.py'}, {'doc_id': 'file:  dataloaders\\customized.py'}, {'doc_id': 'file:  dataloaders\\pascal.py'}, {'doc_id': 'file:  dataloaders\\transforms.py'}, {'doc_id': 'file:  dataloaders\\__init__.py'}, {'doc_id': 'file:  models\\base.py'}, {'doc_id': 'file:  models\\decoder.py'}, {'doc_id': 'file:  models\\fewshot.py'}, {'doc_id': 'file:  models\\ResNet.py'}, {'doc_id': 'file

In [None]:
# Recupera TUTTI i documenti con embeddings e metadati
docs = collection.get(include=["embeddings", "metadatas", "documents"])
print('collection.get() è un: ', type(docs))

# Visualizza i primi 3 risultati
for i in range(min(3, len(docs["ids"]))):
    print(f"📄 ID: {docs['ids'][i]}, ", type(docs['ids'][i]))
    print(f"📎 Embedding (len={len(docs['embeddings'][i])}): {docs['embeddings'][i][:10]}... ", type(docs['embeddings'][i])) # Mostra primi 10 valori
    print(f"📚 Metadata: {docs['metadatas'][i]}", type(docs['metadatas'][i]))
    print(f"📜 Doc: {docs['documents'][i][:100]}..., {type(docs['documents'][i][:100])}\n")  # Mostra primi 100 caratteri


collection.get() è un:  <class 'dict'>
📄 ID: chunk-0,  <class 'str'>
📎 Embedding (len=1024): [ 0.02134418 -0.02436838  0.01760192  0.03365119 -0.0344827  -0.0167694
 -0.02360683  0.01900995 -0.00506458  0.06115378]...  <class 'numpy.ndarray'>
📚 Metadata: {'doc_id': 'file:  config.py'} <class 'dict'>
📜 Doc: ```python
import os
import re
import glob
import itertools
from click.core import batch
from path im..., <class 'str'>

📄 ID: chunk-1,  <class 'str'>
📎 Embedding (len=1024): [ 0.03913971 -0.01845246  0.01591003  0.03952565 -0.00909715 -0.02563794
  0.00586311  0.00819566  0.006826    0.06874535]...  <class 'numpy.ndarray'>
📚 Metadata: {'doc_id': 'file:  demo.py'} <class 'dict'>
📜 Doc: ---..., <class 'str'>

📄 ID: chunk-2,  <class 'str'>
📎 Embedding (len=1024): [ 0.03568644 -0.03693884  0.00054488  0.02068054  0.004658   -0.02437214
 -0.01880096  0.00502576  0.00589267  0.0634374 ]...  <class 'numpy.ndarray'>
📚 Metadata: {'doc_id': 'file:  demo1shot.py'} <class 'dict'>
📜 Doc: ```pytho

In [None]:
getattr(model.config, "max_position_embeddings", tokenizer.model_max_length)

131072

In [None]:
import numpy as np

class UnslothChatbotRAG:
    def __init__(self, model, tokenizer, embedding_model, chroma_collection):
        self.model = model
        self.tokenizer = tokenizer
        self.embed_model = embedding_model
        self.collection = chroma_collection
        self.history = []
        self.max_context = getattr(model.config, "max_position_embeddings", tokenizer.model_max_length)

    def retrieve_chunks(self, query: str, top_k: int = 3) -> list[str]:
        query_embedding = self.embed_model.encode(query).tolist()
        results = self.collection.query(
            query_embeddings=[query_embedding],
            n_results=top_k,
            include=["documents"]
        )
        return results["documents"][0]

    def build_rag_context(self, query: str, retrieved_chunks: list[str]) -> str:
        context = "\n\n".join(retrieved_chunks)
        return (
            f"Usa il seguente contesto per rispondere alla domanda.\n\n"
            f"CONTENUTO:\n{context}\n\n"
            f"DOMANDA: {query}"
        )

    def ask(self, user_input: str, temperature=0.25, top_p=0.95):
        # 1. Recupera chunk dal DB
        chunks = self.retrieve_chunks(user_input)

        # 2. Costruisci prompt con contesto
        rag_prompt = self.build_rag_context(user_input, chunks)

        # 3. Inserisci in history e costruisci prompt completo
        self.history.append({"role": "user", "content": rag_prompt})

        prompt = self.tokenizer.apply_chat_template(
            self.history,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
        prompt_len = inputs["input_ids"].shape[1]
        max_new = self.max_context - prompt_len

        if max_new <= 0:
            raise ValueError("🚫 Prompt troppo lungo per il contesto disponibile!")

        outputs = self.model.generate(
            **inputs,
            max_new_tokens=max_new,
            temperature=temperature,
            top_p=top_p,
            do_sample=True,
            pad_token_id=self.tokenizer.eos_token_id,
        )

        full_output = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
        last_response = full_output.split("<|assistant|>")[-1].strip()

        self.history.append({"role": "assistant", "content": last_response})
        return last_response

    def chat_loop(self):
        print("🦙 Chatbot LLaMA 3.2 con RAG pronto! Scrivi 'exit' per uscire.")
        while True:
            user_input = input("🧑 Tu: ").strip()
            if user_input.lower() in {"exit", "quit"}:
                break
            reply = self.ask(user_input)
            print(f"🤖 LLM: {reply}\n")


In [None]:
chatbot = UnslothChatbotRAG(
    model=model,
    tokenizer=tokenizer,
    embedding_model=emb_model,       # es. from sentence-transformers or similar
    chroma_collection=collection     # la tua collection Chroma caricata
)
chatbot.chat_loop()


# chatbot con gestione fonti in output:

In [None]:
import numpy as np

class UnslothChatbotRAG:
    def __init__(self, model, tokenizer, embedding_model, chroma_collection, max_history_tokens=2048):
        """
        Inizializza il chatbot RAG basato su Unsloth (LLaMA 3.2).

        Args:
            model: Modello LLM caricato con Unsloth.
            tokenizer: Tokenizer corrispondente al modello.
            embedding_model: Modello per generare gli embedding delle query (es. BAAI/bge).
            chroma_collection: Oggetto ChromaDB contenente i chunk indicizzati.
            max_history_tokens: Numero massimo di token da mantenere nella chat history.
        """
        self.model = model
        self.tokenizer = tokenizer
        self.embed_model = embedding_model
        self.collection = chroma_collection
        self.history = []
        self.max_context = getattr(model.config, "max_position_embeddings", tokenizer.model_max_length)
        self.max_history_tokens = max_history_tokens

    def retrieve_chunks(self, query: str, top_k: int = 3):
        """
        Recupera i chunk più rilevanti dalla collection basata su similarità con la query.

        Args:
            query (str): Testo della domanda dell'utente.
            top_k (int): Numero massimo di chunk da recuperare.

        Returns:
            List[Tuple[str, dict]]: Lista di tuple (documento, metadati) per ciascun chunk recuperato.
        """
        query_embedding = self.embed_model.encode(query).tolist()
        results = self.collection.query(
            query_embeddings=[query_embedding],
            n_results=top_k,
            include=["documents", "metadatas"]
        )
        docs = results["documents"][0]
        metas = results["metadatas"][0]
        return list(zip(docs, metas))

    def build_rag_context(self, retrieved: list[tuple[str, dict]]) -> str:
        """
        Costruisce il contesto da dare al modello LLM a partire dai chunk recuperati.

        Args:
            retrieved (list): Lista di tuple (testo, metadati) dei chunk recuperati.

        Returns:
            str: Contesto formattato da iniettare nel prompt come supporto.
        """
        return "\n\n".join([doc for doc, _ in retrieved])

    def trim_history(self, prompt_tokens: int):
        """
        Rimuove vecchi messaggi dalla history se il prompt supera il numero massimo di token.

        Args:
            prompt_tokens (int): Numero attuale di token nel prompt.
        """
        while prompt_tokens > self.max_history_tokens and len(self.history) > 1:
            self.history.pop(0)
            prompt_tokens = len(self.tokenizer.apply_chat_template(self.history, tokenize=True))

    def ask(self, user_input: str, temperature=0.25, top_p=0.95) -> str:
        """
        Gestisce l'interazione con il modello: recupera documenti, costruisce il prompt,
        invia la richiesta al modello e restituisce la risposta.

        Args:
            user_input (str): Input dell'utente (domanda).
            temperature (float): Parametro di generazione (controlla la creatività).
            top_p (float): Nucleus sampling cutoff.

        Returns:
            str: Risposta del modello, seguita dalla lista delle fonti usate.
        """
        retrieved = self.retrieve_chunks(user_input)
        rag_context = self.build_rag_context(retrieved)
        full_query = f"Domanda: {user_input}"

        # Prompt invisibile all'utente, passato nel system prompt
        self.history.insert(0, {"role": "system", "content": f"Usa le seguenti informazioni per rispondere:\n\n{rag_context}"})
        self.history.append({"role": "user", "content": full_query})

        prompt_tokens = len(self.tokenizer.apply_chat_template(self.history, tokenize=True))
        self.trim_history(prompt_tokens=prompt_tokens)

        prompt = self.tokenizer.apply_chat_template(
            self.history, tokenize=False, add_generation_prompt=True
        )
        inputs = self.tokenizer(prompt, return_tensors="pt").to(self.model.device)
        prompt_len = inputs["input_ids"].shape[1]
        max_new = self.max_context - prompt_len

        if max_new <= 0:
            raise ValueError("🚫 Prompt troppo lungo anche dopo la condensazione.")

        outputs = self.model.generate(
            **inputs,
            max_new_tokens=max_new,
            temperature=temperature,
            top_p=top_p,
            do_sample=True,
            pad_token_id=self.tokenizer.eos_token_id,
        )

        decoded = self.tokenizer.decode(outputs[0], skip_special_tokens=True)
        reply = decoded.split("<|assistant|>")[-1].strip()
        self.history.append({"role": "assistant", "content": reply})

        # Fonti visualizzate all'utente
        fonti = [meta.get("doc_id", "sconosciuta") for _, meta in retrieved]
        fonti_str = "\n📚 Fonti:\n" + "\n".join(f"- {f}" for f in set(fonti))

        return reply + fonti_str

    def chat_loop(self):
        """
        Avvia un loop interattivo da terminale per usare il chatbot.
        """
        print("🦙 Chatbot LLaMA 3.2 con RAG pronto! Scrivi 'exit' per uscire.")
        while True:
            user_input = input("🧑 Tu: ").strip()
            if user_input.lower() in {"exit", "quit"}:
                break
            reply = self.ask(user_input)
            print(f"🤖 LLM: {reply}\n")


In [None]:
chatbot = UnslothChatbotRAG(
    model=model,
    tokenizer=tokenizer,
    embedding_model=emb_model,       # es. from sentence-transformers or similar
    chroma_collection=collection     # la tua collection Chroma caricata
)
chatbot.chat_loop()

🦙 Chatbot LLaMA 3.2 con RAG pronto! Scrivi 'exit' per uscire.
🧑 Tu: can you tell me smth about the few shot model 
🤖 LLM: system

Cutting Knowledge Date: December 2023
Today Date: 04 Jun 2025

user

Domanda: can you tell me smth about the few shot modelassistant

Il "Few-shot learning" è un approccio di apprendimento automatico che si concentra su imparare a riconoscere e classificare nuovi dati con poche esemplari di dati di addestramento. Questo approccio è particolarmente utile quando si lavora con dati di alta variazione, come ad esempio in riconoscimento di immagini o parole.

**Cos'è il Few-shot learning?**

Il Few-shot learning è un tipo di apprendimento automatico che si concentra su imparare a riconoscere e classificare nuovi dati con poche esemplari di dati di addestramento. In altre parole, l'agente deve imparare a riconoscere un nuovo concetto o classe con solo pochi esemplari di dati di addestramento.

**Come funziona il Few-shot learning?**

Il Few-shot learning utilizza 


# done
- cosi usand la chat history sempre è un casino perche fa si che satura tutto il contesto subito, dovrei mettere logica che usa chat history solo se lo ritiene necessario.
-> fixato anche se forse dimentica subito

- capire un po meglio il sistema rag come posso decidere che rida le fonti, se posso dare solo il titolo, etc...

# to do:

- rivedere le logiche di generazione output del chatbot in particolare quella di condensation della hystory per mantenerla minore di un certo numero di token.

- rendere consapevole il chatbot che puo fare rag (tramite rag voglio farlo)
- implementare il rag su pdf
- migliorare il parsing di output;
- provare modello in grado di fare reasoning e vedere come aumenta la compessita
-> deepseek o simili



