<a href="https://colab.research.google.com/github/kairamilanifitria/PurpleBox-Intern/blob/main/04_03_VectorStore_Supabase.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## parsing

In [2]:
import logging
import time
import warnings

warnings.filterwarnings("ignore")

# Set up logging
logging.basicConfig(level=logging.INFO)
_log = logging.getLogger(__name__)

In [3]:
import torch

# Check if GPU or MPS is available
if torch.cuda.is_available():
    device = torch.device("cuda")
    print(f"CUDA GPU is enabled: {torch.cuda.get_device_name(0)}")
elif torch.backends.mps.is_available():
    device = torch.device("mps")
    print("MPS GPU is enabled.")
else:
    raise EnvironmentError(
        "No GPU or MPS device found. Please check your environment and ensure GPU or MPS support is configured."
    )

CUDA GPU is enabled: Tesla T4


In [4]:
!pip install llama-index>=0.12.8 llama-index-core>=0.12.8
!pip install llama-index-node-parser-docling>=0.3.0 llama-index-readers-docling>=0.3.0
!pip install pypdf2>=3.0.1
!pip install easyocr>=1.7.2

In [5]:
import time
from docling.datamodel.base_models import InputFormat
from docling_core.types.doc import ImageRefMode
from docling.document_converter import DocumentConverter, PdfFormatOption, WordFormatOption
from docling.backend.pypdfium2_backend import PyPdfiumDocumentBackend  # Import the backend
from docling.pipeline.standard_pdf_pipeline import StandardPdfPipeline # Import the Pipeline
from docling.datamodel.pipeline_options import PdfPipelineOptions, TableFormerMode, EasyOcrOptions, TesseractOcrOptions, OcrMacOptions
from docling.pipeline.simple_pipeline import SimplePipeline
from docling.datamodel.settings import settings

IMAGE_RESOLUTION_SCALE = 2.0

def create_pipeline_options(input_format):
    """Creates dynamic pipeline options based on the input format."""
    if input_format == InputFormat.PDF:

        return PdfFormatOption(
            pipeline_options = PdfPipelineOptions(
                do_table_structure=True,  # Enable table structure detection

                generate_page_images=True,
                generate_picture_images=True,
                images_scale=IMAGE_RESOLUTION_SCALE,
            )
        )

    elif input_format == InputFormat.DOCX:
        return WordFormatOption(
            pipeline_cls=SimplePipeline  # Configure Word document pipeline
        )

    elif input_format == InputFormat.IMAGE:
        return None  # Add image-specific options if needed
    elif input_format == InputFormat.HTML:
        return None  # Add HTML-specific options if needed
    elif input_format == InputFormat.PPTX:
        return None  # Add PowerPoint-specific options if needed
    elif input_format == InputFormat.ASCIIDOC or input_format == InputFormat.MD:
        return None  # These formats might not need advanced options
    else:
        raise ValueError(f"Unsupported input format: {input_format}")

In [6]:
from docling.document_converter import DocumentConverter

def initialize_converter():
    """Initializes the document converter with multiformat support and advanced options."""
    allowed_formats = [
        InputFormat.PDF,
        InputFormat.IMAGE,
        InputFormat.DOCX,
        InputFormat.HTML,
        InputFormat.PPTX,
        InputFormat.ASCIIDOC,
        InputFormat.MD,
    ]

    format_options = {
        input_format: create_pipeline_options(input_format)
        for input_format in allowed_formats
        if create_pipeline_options(input_format) is not None
    }

    return DocumentConverter(
        allowed_formats=allowed_formats,
        format_options=format_options,
    )


In [7]:
from pathlib import Path
import json
import yaml
import logging  # Import logging here

def convert_and_save(input_paths, output_dir, image_mode=ImageRefMode.REFERENCED): # ImageRefMode.EMBEDDED or ImageRefMode.REFERENCED
    """Converts documents to Markdown and saves the output."""
    _log = logging.getLogger(__name__)  # Define _log inside the function
    output_dir = Path(output_dir)
    output_dir.mkdir(parents=True, exist_ok=True)

    doc_converter = initialize_converter()
    conv_results = doc_converter.convert_all(input_paths)

    for res in conv_results:
        file_name = res.input.file.stem
        markdown_path = output_dir / f"{file_name}.md"
        json_path = output_dir / f"{file_name}.json"
        yaml_path = output_dir / f"{file_name}.yaml"

        # Save Markdown output
        res.document.save_as_markdown(markdown_path, image_mode=image_mode)
        _log.info(f"Markdown content saved to {markdown_path}")


In [8]:
import json
from pathlib import Path

def extract_all_nodes_with_image_refs(md_file_path, output_dir):
    """
    Extracts all nodes from a markdown file, including image references.
    """
    output_dir = Path(output_dir)
    output_dir.mkdir(parents=True, exist_ok=True)
    output_path = output_dir / f"{md_file_path.stem}_all_nodes_with_images.json"

    try:
        # Try reading with 'utf-8' first
        with open(md_file_path, 'r', encoding='utf-8') as f:
            markdown_content = f.read()
    except UnicodeDecodeError:
        # If 'utf-8' fails, try 'latin-1'
        try:
            with open(md_file_path, 'r', encoding='latin-1') as f:
                markdown_content = f.read()
            print(f"Warning: File {md_file_path} decoded using 'latin-1' due to UTF-8 errors.")
        except UnicodeDecodeError:
            print(f"Error: Could not decode file {md_file_path} using either 'utf-8' or 'latin-1'.")
            return
    except FileNotFoundError:
        print(f"Error: File not found at {md_file_path}")
        return

    all_nodes = []
    current_text_block = ""

    lines = markdown_content.split('\n')
    for i, line in enumerate(lines):
        if '![' in line and ']' in line and '(' in line and ')' in line:
            # Found an image reference
            image_ref_line = line
            parts = image_ref_line.split('(')
            if len(parts) >= 2:
                image_path = parts[1].split(')')[0]
                node_text = parts[0].split('[')[1].split(']')[0]

                # Add previous text block as a node if it's not empty
                if current_text_block.strip():
                    all_nodes.append({
                        "index": len(all_nodes) + 1,
                        "text": current_text_block.strip(),
                        "image_path": None  # Indicate no image for this node
                    })

                # Add the image node
                all_nodes.append({
                    "index": len(all_nodes) + 1,
                    "text": node_text,
                    "image_path": image_path
                })
                current_text_block = ""  # Reset text block
        else:
            # Accumulate text for non-image lines
            current_text_block += line + "\n"

    # Add the final text block if it's not empty
    if current_text_block.strip():
        all_nodes.append({
            "index": len(all_nodes) + 1,
            "text": current_text_block.strip(),
            "image_path": None
        })

    extracted_data = {
        "file_name": md_file_path.name,
        "number_of_nodes": len(all_nodes),
        "nodes": all_nodes
    }

    with output_path.open("w") as fp:
        json.dump(extracted_data, fp, indent=4)

    print(f"Extracted {len(all_nodes)} nodes from {md_file_path.name} and saved to {output_path}")

I will try to process file "Manuale ROTOMARR (1).pdf" documents

In [15]:
def main():
    settings.debug.profile_pipeline_timings = True

    input_paths = [
        Path("/content/ManualeRotomarr.pdf"),
    ]

    output_dir = "/content/markdown2"
    convert_and_save(input_paths, output_dir)

    # Process only Markdown files
    md_files = list(Path(output_dir).glob("*.md"))

    for md_file in md_files:
        extract_all_nodes_with_image_refs(md_file, output_dir)



In [16]:
if __name__ == "__main__":
    main()

Extracted 29 nodes from ManualeRotomarr.md and saved to /content/markdown2/ManualeRotomarr_all_nodes_with_images.json


In [17]:
from IPython.display import display, Markdown

# Read the Markdown file
markdown_path = "/content/markdown2/ManualeRotomarr.md"
with open(markdown_path, "r", encoding="utf-8") as f:
    md_content = f.read()

# Display it in the notebook
display(Markdown(md_content))


![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000000_fb7e548a3e0790780696c11d931f15a3b37f481a44a8fe98ebfa7994bbac9171.png)

Revisione 00.00 - Febbraio 2015

GIRACASTAGNE AUTOMATICO ROTOMARR

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000001_bc7a1358eebe44913103cca8c0220d39ab68660d5257fa01c2c11a13a8756cdb.png)

## 1. INFORMAZIONI SULLA SICUREZZA

## 3. DESTINAZIONE D'USO E UTILIZZATORI

Il  presente  manuale  contiene  indicazioni  ed  informazioni fondamentali per il corretto utilizzo del GIRACASTAGNE AUTOMATICO (CUOCI CALDARROSTE) ROTOMARR .

- -Leggere il manuale nella sua completezza per comprendere l'utilizzo della macchina;
- -Tenere questo manuale per future consultazioni in un luogo sicuro;
- -Osservare le istruzioni indicate in questo manuale per garantire la sicurezza dell'utilizzatore;
- -La non osservanza delle indicazioni elencate in questo manuale comporterà l'annullamento della garanzia;
- -MECTRONICA S.r.l. non è responsabile per danni o lesioni causate dalla non osservanza delle informazioni elencate nel presente manuale.

## 2. SPECIFICHE

Il GIRACASTAGNE  AUTOMATICO ROTOMARR entra in funzionamento grazie ad un alimentatore elettrico con le seguenti caratteristiche:

Voltaggio di alimentazione:

12 Volts DC

Amperaggio:

1 A

Dimensione connessione:

5,5*2,1mm DC Plug

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000002_4db4359f9a9b41d65b3c4ae5b83b37bd2fc1235f03532188d5072116a990c027.png)

finale solo le attività di regolazione descritte successivo punto 4 .

La  macchina  in  oggetto  è  destinata  ad  un pubblico non professionale, ma per un utilizzatore domestico e quindi le attività di montaggio, assemblaggio, manutenzione, riparazione sono vietate in quanto l'utilizzatore finale non ha le capacità tecniche per portarle a termine. Sono  previste  e  ammesse  da  parte  dell'utilizzatore al

La  macchina  è  stata  progettata  per  la  cottura  su  fiamma delle castagne  al fine di produrre  'caldarroste'  e  va collocata  su  di  un  fornello  di  tipo  domestico  (diametro massimo:  70  cm)  .  La  macchina  infatti  dispone  di  un motorino elettrico che mette in rotazione il cestello entro il  quale sono inerite le castagne e ne garantisce la cottura uniforme.

- È  tassativamente proibito utilizzare nel cestello altro materiale che non siano castagne (materiali infiammabili o combustibili,  altri  alimenti,  materiali  tessili  o  plastici,  o comunque    materiali che possono  produrre diossine mediante riscaldamento).

È tassativamente proibito utilizzare la macchina in modo difforme da quanto riportato nel manuale  di uso e manutenzione

Non sono consentiti:

- 1) l'utilizzo della macchina con altro materiale rispetto alle castagne,

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000003_a53f1ae1feb6105b57cfabdbd44afd59a2956f2252bcbbf0b4bff8c9eeb67183.png)

## ROTOMARR

- 2) l'utilizzo della macchina su fornelli di dimensioni superiori ai 70 cm di diametro

Utilizzare  l'apparecchio  solo  su  un  fornello  a gas dal diametro max. di 70mm.

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000004_e70e7737d2a45c3228fd944f2ed7008935b52b5367d10e1135a35711464aba0a.png)

- 3) il lavaggio della macchina in lavastoviglie
- 4) il lavaggio  della macchina  con  getto  d'acqua pieno
- 5) l'apertura dei ripari o una qualsiasi manomissione della macchina
- 6) l'utilizzo all'esterno in caso di cattive condizioni meteorologiche  (pioggia,  neve,  grandine,  vento forte)
- 7) l'utilizzo  in  locali  con  pericolo  di  esplosione  o incendio  o  in  presenza  di  grandi  quantitativi  di materiale infiammabile

## 3. REGOLAZIONE

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000005_3f4530ec4e69cd83011c5f2cc781033b2062ac523c824cd1c84b6e5b7ea9901e.png)

Non  effettuare nessuna  regolazione senza prima aver letto e compreso tutte le istruzioni presenti su questo manuale.

- 1. Assicurarsi che l'alimentatore di corrente non  sia collegato all'apparecchio o alla corrente;
- 2. Svitare  il  pomello  ( A )  in  senso  antiorario  in  maniera tale che il supporto ( B ) sia completamente lento.
- 3. Regolare l'altezza  del  cestello  ( C )  a  circa  4-  5  cm  dal piano di cottura;
- 4. Ruotare il  pomello  ( A )  in  senso  orario  fin  quando  la staffa di supporto ( D )  non è completamente fissata e stabile;
- 5. Qualora  la staffa risultasse instabile, rimuovere  la griglia dal piano di cottura.

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000006_ca8e3d6d22b5673197e5c874da857770f05526e0c3c5f187de37fe6fac956237.png)

## 4. AVVIAMENTO

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000007_40ce43a25323c3c368e3c2885d74b35522e461f2b3d7dd79365f1ce33239aa1e.png)

Prima  di  caricare  il  prodotto,  eseguire  una profonda incisione sulle castagne\caldarroste per evitare scoppi che possono provocare danni.

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000008_197cfbc8f617dec7048b1d096a51335c4675355e868a8755f277d67c0b27e41f.png)

Evitare possibili urti all'apparecchio che possano compromettere la corretta rotazione o il normale funzionamento.

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000009_7fe35a055ae390833e4fb6305096ccbf9d59a98a9fd408e7ea8a1d4498b52d06.png)

Non regolare l'altezza del cestello durante la cottura.

- 1. Riempire  la  bocca  del  cestello  con  le  castagne  già incise  facendo  attenzione  che  siano  uniformemente distribuitenel cestello
- 2. Collocare l'apparecchio sulla griglia del piano di cottura;
- 3. Collegare l'alimentatore di corrente nell'apposita presa ( 1 ) dell'apparecchio e poi collegare la spina dell'alimentatore alla presa di corrente. In questa operazione fare molta attenzione ad evitare che il cavo stazioni sopra o nelle vicinanze della fiamma al fine di evitare bruciature o surriscaldamenti dello stesso;
- 4. Verificare  che  l'impianto  elettrico  cui  la  macchina  è collegata sia dotato di interruttore magnetotermico di adeguata corrente nominale e di interruttore differenziale con I ∆ n non superiore a 0,03 A
- 5. Attivare  l'apparecchio  premendo  il  tasto  verde  ( 2 ), accertandosi che non ci sia nulla che possa compromettere  la  corretta  rotazione  o  che  oggetti esterni possano rimanere incastrati durante la normale rotazione;
- 6. Accendere il fornello afiammamassima;assicurarsiche il fondodel cestello siabencentrato conla fiamma;

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000010_912e485ba3fb376fd3ec5c3e167210d69f209a3eee684f2b0be572db79a75acb.png)

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000011_8f7eb032f6283d6dd6139aeadc4a68cb605ab495890a8d730de2a2ea6ce68de0.png)

Nonsuperare i1200gr.diprodottoall'interno del cestello.

- cottura per altri 4 o 5 minuti. 7. Lasciare in cottura per circa 20 minuti. Qualora il prodotto non risulti ancora pronto, continuare la
- 8. Spegnere l'apparecchio con il tasto nero ( 3 ) e attendere qualche secondo a fornello spento prima di rimuovere gli alimenti dal cestello;

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000012_fb7e548a3e0790780696c11d931f15a3b37f481a44a8fe98ebfa7994bbac9171.png)

- 9. Rimuovere il prodotto afferrando la barra orizzontale, che funge da maniglia ( 4 ).

## 5. PULIZIA &amp; MANUTENZIONE

40010 Bentivoglio (BO) Italia

Tel. +39 0516641440 Fax. +39 0518909108

Al  termine  di  ogni  utilizzo,  staccare  la  spina  dal  muro  e rimuovere l'alimentatore elettrico ( 1 ).

Prima di re-inscatolare l'apparecchio, attendere il raffreddamento del cestello.

A raffreddamento  avvenuto,  rimuovere  l'apparecchio  dal piano cottura e strofinare con un panno umido il cestello, rimuovendo briciole o detriti rimasti al suo interno.

Lavare solo la parte del cestello.

Non  lavare  con  getto  d'acqua  piena  e  non  mettere  in lavastoviglie.

L'apparecchio non necessita alcun tipo di manutenzione. Non  rimuovere  il  carter  di  chiusura  che  protegge  le componenti elettriche.

## 6. RICAMBI

Nelle seguenti pagine saranno indicate a disegno le componenti meccaniche con i loro codici.

Qualora  sia necessario ordinare  una  componente  per richiedere  un  ricambio,  è  necessario  indicare  quantità  e codice di riferimento.

## 7. CONTATTI

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000013_51880ea3b48242100f7d52c128c560ccbc210814a9e9326b3f503194200a0d49.png)

E-mail. info@mectronica.it Web: www.mectronica.it

P. IVA e C.F. 031228011206

## 8. GARANZIA

Le specifiche sono soggette a  modifiche senza  preavviso da parte del fabbricante.

© Copyright 2015 MECTRONICA S.r.l.

MECTRONICA  garantisce  la  conformità  dei  prodotti forniti.  La  garanzia  per  vizi  è  limitata  ai  soli  difetti  dei prodotti conseguenti a difetti di progettazione, di materiale o di costruzione riconducibili a MECTRONICA. La garanzia non comprende:

- -Avarie  o  danni  causati  dal  trasporto  o  da  anomalie dell'impianto elettrico ove viene utilizzato l'apparecchio, o difettosa installazione e/o qualsiasi utilizzo non adeguato e non espressivamente indicato nel manuale d'uso.
- - Manomissione o danni causati dall'impiego di pezzi e/o ricambi non originali.
- -Difetti e/o danni causati da agenti chimici e/o atmosferici (es. umidità da esterno, ghiaccio, prodotti per pulizia corrosivi/chimici, ecc.).

Via Monari Sardè, 8

La garanzia ha una durata di 24 mesi decorrenti dalla data della vendita. La garanzia è subordinata all'espressa richiesta  scritta  a  MECTRONICA  tramite  raccomandata con ricevuta di ritorno.

| 3ROTOMARR   | 3ROTOMARR          | GIRACASTAGNE AUTOMATICO ROTOMARR      | 1    |
|-------------|--------------------|---------------------------------------|------|
| Posizione   | Codice             | Descrizione                           | Q.tà |
| 1           | 2ROTOMARR3         | BASE SUPPORTO ROTOMARR                | 1    |
| 2           | 2ROTOMARR5         | SUPPORTO ROTOMARR                     | 1    |
| 3           | 28018MAR0111B      | CARTER CHIUSURA                       | 1    |
| 4           | 28018MAR0110       | PIASTRA MOTORIDUTTORE                 | 1    |
| 5           | 2ROTOMARR1         | CESTELLO ROTOMARR                     | 1    |
| 6           | 2MAR0111E          | ALBERO DI TRASMISSIONE                | 1    |
| 7           | 2MAR0111D          | PROTEZIONE                            | 1    |
| 8           | 2MAR0111C          | PIASTRA PLEXIGLASS 60/10              | 1    |
| 9           | 106F1Z1000000010   | DADO ESAGONO B FEZIN M10 UNI 5589     | 2    |
| 10          | 138H000006000002RS | CUSCINETTO                            | 2    |
| 11          | 1680000BS138F12208 | MOTORIDUTTORE                         | 1    |
| 12          | 131000320106030    | MANOPOLA                              | 1    |
| 13          | 104FEZ10100040006  | GRANO PUNTA PIANA ZIN M4x6 UNI 5923   | 1    |
| 14          | 114F1Z7010029006   | VITE AUT ZIN TCICr @ 2.9x6            | 3    |
| 15          | 100F1Z1020003005   | VITE TCICr FE ZIN M3x5 UNI 7985       | 2    |
| 16          | 101F1Z1000003015   | VITE TCICr FE ZIN M3x015 UNI 5739     | 1    |
| 17          | 106F1Z1010000003   | DADO ESAGONO FEZIN M3 UNI 5588        | 1    |
| 18          | 199A0CE00042060    | TARGHETTA CE ROTOMARR                 | 2    |
| 19          | 129A000000000310   | RIVETTO AL 03x010                     | 1    |
| 20          | 24040849679513     | ALIMENTATORE 12V DC PLUG 5.5*2.1mm 1A | 1    |

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000014_a53f1ae1feb6105b57cfabdbd44afd59a2956f2252bcbbf0b4bff8c9eeb67183.png)

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000015_fc9961137a96e29b0eff706761b9d54b5d4d81c294ecf97da498661aa9983d7b.png)

image description

In [19]:
import os
import re
import torch
from PIL import Image
from transformers import AutoModel, AutoTokenizer
import torchvision.transforms as T
from torchvision.transforms.functional import InterpolationMode

In [20]:
def load_internvl_model():
    path = 'OpenGVLab/InternVL2_5-1B'
    model = AutoModel.from_pretrained(
        path,
        torch_dtype=torch.bfloat16,
        low_cpu_mem_usage=True,
        use_flash_attn=True,
        trust_remote_code=True
    ).eval().cuda()
    tokenizer = AutoTokenizer.from_pretrained(path, trust_remote_code=True, use_fast=False)
    return model, tokenizer

def build_transform(input_size=448):
    return T.Compose([
        T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB' else img),
        T.Resize((input_size, input_size), interpolation=InterpolationMode.BICUBIC),
        T.ToTensor(),
        T.Normalize(mean=(0.485, 0.456, 0.406), std=(0.229, 0.224, 0.225))
    ])

def load_image(image_file, input_size=448):
    image = Image.open(image_file).convert('RGB')
    transform = build_transform(input_size)
    pixel_values = transform(image).unsqueeze(0).to(torch.bfloat16).cuda()
    return pixel_values

def extract_images_and_context(markdown_path):
    with open(markdown_path, "r", encoding="utf-8") as f:
        lines = f.readlines()
    image_data = []
    for i, line in enumerate(lines):
        match = re.search(r'!\[.*?\]\((.*?)\)', line)
        if match:
            img_path = match.group(1)
            context_before = " ".join(lines[max(0, i-2):i]).strip()
            context_after = " ".join(lines[i+1:min(len(lines), i+3)]).strip()
            image_data.append((img_path, context_before, context_after))
    return image_data, lines

def generate_caption(model, tokenizer, image_path, context_before, context_after):
    if not os.path.exists(image_path):
        print(f"Warning: Image not found - {image_path}")
        return "[Image description unavailable]"

    pixel_values = load_image(image_path)
    prompt = f"<image>\nContext: {context_before} ... {context_after}. Please describe the image shortly."
    generation_config = dict(max_new_tokens=1024, do_sample=True)
    response = model.chat(tokenizer, pixel_values, prompt, generation_config)
    return response

def update_markdown(markdown_path, image_data, lines):
    new_lines = []
    for line in lines:
        new_lines.append(line)
        match = re.search(r'!\[.*?\]\((.*?)\)', line)
        if match:
            img_path = match.group(1)
            caption = next((desc for img, _, _, desc in image_data if img == img_path), "[Image description unavailable]")
            new_lines.append(f"\n*Image Description:* {caption}\n")
    with open(markdown_path, "w", encoding="utf-8") as f:
        f.writelines(new_lines)

def main(markdown_path, image_folder):
    model, tokenizer = load_internvl_model()
    image_data, lines = extract_images_and_context(markdown_path)
    enriched_data = []
    for img_path, context_before, context_after in image_data:
        full_image_path = os.path.join(image_folder, img_path)
        caption = generate_caption(model, tokenizer, full_image_path, context_before, context_after)
        enriched_data.append((img_path, context_before, context_after, caption))
    update_markdown(markdown_path, enriched_data, lines)
    print("Markdown updated with image descriptions!")

In [21]:
# Example usage
main("/content/markdown2/ManualeRotomarr.md", "/content/markdown2/ManualeRotomarr_artifacts")

Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:151645 for

Markdown updated with image descriptions!


In [22]:
from IPython.display import display, Markdown

# Read the Markdown file
markdown_path = "/content/markdown2/ManualeRotomarr.md"
with open(markdown_path, "r", encoding="utf-8") as f:
    md_content = f.read()

# Display it in the notebook
display(Markdown(md_content))


![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000000_fb7e548a3e0790780696c11d931f15a3b37f481a44a8fe98ebfa7994bbac9171.png)

*Image Description:* The image features the logo of "Mectronic S.a.r.l." in green and red colors. Below the logo, in smaller black text, it reads "Revisions 00.00 - Febbraio 2015," indicating the version and year of these revisions.

Revisione 00.00 - Febbraio 2015

GIRACASTAGNE AUTOMATICO ROTOMARR

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000001_bc7a1358eebe44913103cca8c0220d39ab68660d5257fa01c2c11a13a8756cdb.png)

*Image Description:* The image shows a mechanical device resembling a manual reel with perforated wire. It has a cylindrical main body with multiple round openings and a base mechanism. It's mounted with a handle and is black and stainless steel. This appears to be a compact tool possibly used for sorting or weighing items.

## 1. INFORMAZIONI SULLA SICUREZZA

## 3. DESTINAZIONE D'USO E UTILIZZATORI

Il  presente  manuale  contiene  indicazioni  ed  informazioni fondamentali per il corretto utilizzo del GIRACASTAGNE AUTOMATICO (CUOCI CALDARROSTE) ROTOMARR .

- -Leggere il manuale nella sua completezza per comprendere l'utilizzo della macchina;
- -Tenere questo manuale per future consultazioni in un luogo sicuro;
- -Osservare le istruzioni indicate in questo manuale per garantire la sicurezza dell'utilizzatore;
- -La non osservanza delle indicazioni elencate in questo manuale comporterà l'annullamento della garanzia;
- -MECTRONICA S.r.l. non è responsabile per danni o lesioni causate dalla non osservanza delle informazioni elencate nel presente manuale.

## 2. SPECIFICHE

Il GIRACASTAGNE  AUTOMATICO ROTOMARR entra in funzionamento grazie ad un alimentatore elettrico con le seguenti caratteristiche:

Voltaggio di alimentazione:

12 Volts DC

Amperaggio:

1 A

Dimensione connessione:

5,5*2,1mm DC Plug

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000002_4db4359f9a9b41d65b3c4ae5b83b37bd2fc1235f03532188d5072116a990c027.png)

*Image Description:* The image shows a cautionary triangle with a black exclamation mark inside, set against a yellow background. The triangle has a black border and the exclamation mark is placed in the center.

finale solo le attività di regolazione descritte successivo punto 4 .

La  macchina  in  oggetto  è  destinata  ad  un pubblico non professionale, ma per un utilizzatore domestico e quindi le attività di montaggio, assemblaggio, manutenzione, riparazione sono vietate in quanto l'utilizzatore finale non ha le capacità tecniche per portarle a termine. Sono  previste  e  ammesse  da  parte  dell'utilizzatore al

La  macchina  è  stata  progettata  per  la  cottura  su  fiamma delle castagne  al fine di produrre  'caldarroste'  e  va collocata  su  di  un  fornello  di  tipo  domestico  (diametro massimo:  70  cm)  .  La  macchina  infatti  dispone  di  un motorino elettrico che mette in rotazione il cestello entro il  quale sono inerite le castagne e ne garantisce la cottura uniforme.

- È  tassativamente proibito utilizzare nel cestello altro materiale che non siano castagne (materiali infiammabili o combustibili,  altri  alimenti,  materiali  tessili  o  plastici,  o comunque    materiali che possono  produrre diossine mediante riscaldamento).

È tassativamente proibito utilizzare la macchina in modo difforme da quanto riportato nel manuale  di uso e manutenzione

Non sono consentiti:

- 1) l'utilizzo della macchina con altro materiale rispetto alle castagne,

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000003_a53f1ae1feb6105b57cfabdbd44afd59a2956f2252bcbbf0b4bff8c9eeb67183.png)

*Image Description:* The image is a logo for "Mectronica S.r.l." There are two versions of the text: one in green with a red and green stripe beneath it, and another in black. The text is underlined. The logo is from February 2015, with the initial letters appearing less prominent for the second version.

## ROTOMARR

- 2) l'utilizzo della macchina su fornelli di dimensioni superiori ai 70 cm di diametro

Utilizzare  l'apparecchio  solo  su  un  fornello  a gas dal diametro max. di 70mm.

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000004_e70e7737d2a45c3228fd944f2ed7008935b52b5367d10e1135a35711464aba0a.png)

*Image Description:* The image shows a warning sign with a prominent exclamation mark inside a yellow triangle and a reflective border. The background is white.

- 3) il lavaggio della macchina in lavastoviglie
- 4) il lavaggio  della macchina  con  getto  d'acqua pieno
- 5) l'apertura dei ripari o una qualsiasi manomissione della macchina
- 6) l'utilizzo all'esterno in caso di cattive condizioni meteorologiche  (pioggia,  neve,  grandine,  vento forte)
- 7) l'utilizzo  in  locali  con  pericolo  di  esplosione  o incendio  o  in  presenza  di  grandi  quantitativi  di materiale infiammabile

## 3. REGOLAZIONE

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000005_3f4530ec4e69cd83011c5f2cc781033b2062ac523c824cd1c84b6e5b7ea9901e.png)

*Image Description:* The image shows a triangular warning sign with a black exclamation mark inside, overlaid on a yellow background. The sign is typically used to indicate caution or important information in an object, device, or system. This particular type is commonly used for safety or informational instructions.

Non  effettuare nessuna  regolazione senza prima aver letto e compreso tutte le istruzioni presenti su questo manuale.

- 1. Assicurarsi che l'alimentatore di corrente non  sia collegato all'apparecchio o alla corrente;
- 2. Svitare  il  pomello  ( A )  in  senso  antiorario  in  maniera tale che il supporto ( B ) sia completamente lento.
- 3. Regolare l'altezza  del  cestello  ( C )  a  circa  4-  5  cm  dal piano di cottura;
- 4. Ruotare il  pomello  ( A )  in  senso  orario  fin  quando  la staffa di supporto ( D )  non è completamente fissata e stabile;
- 5. Qualora  la staffa risultasse instabile, rimuovere  la griglia dal piano di cottura.

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000006_ca8e3d6d22b5673197e5c874da857770f05526e0c3c5f187de37fe6fac956237.png)

*Image Description:* The image shows a kitchen appliance labeled with parts, likely for cleaning a wooden surface using a griddle. Arrows and labels indicate specific parts. The griddle looks worn, suggesting poor maintenance may be necessary. The arrows signify the intended action of removing the griddle from the surface.

## 4. AVVIAMENTO

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000007_40ce43a25323c3c368e3c2885d74b35522e461f2b3d7dd79365f1ce33239aa1e.png)

*Image Description:* The image shows a warning alert sign with a yellow background and a black-bordered triangle containing an exclamation mark inside it, indicating caution or important information.

Prima  di  caricare  il  prodotto,  eseguire  una profonda incisione sulle castagne\caldarroste per evitare scoppi che possono provocare danni.

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000008_197cfbc8f617dec7048b1d096a51335c4675355e868a8755f277d67c0b27e41f.png)

*Image Description:* The image shows a cautionary warning sign with a triangle and an exclamation mark inside, indicating a critical safety warning related to the use of carabiniere castagni.

Evitare possibili urti all'apparecchio che possano compromettere la corretta rotazione o il normale funzionamento.

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000009_7fe35a055ae390833e4fb6305096ccbf9d59a98a9fd408e7ea8a1d4498b52d06.png)

*Image Description:* The image shows a triangular warning sign with a yellow background, indicating a safety warning.

Non regolare l'altezza del cestello durante la cottura.

- 1. Riempire  la  bocca  del  cestello  con  le  castagne  già incise  facendo  attenzione  che  siano  uniformemente distribuitenel cestello
- 2. Collocare l'apparecchio sulla griglia del piano di cottura;
- 3. Collegare l'alimentatore di corrente nell'apposita presa ( 1 ) dell'apparecchio e poi collegare la spina dell'alimentatore alla presa di corrente. In questa operazione fare molta attenzione ad evitare che il cavo stazioni sopra o nelle vicinanze della fiamma al fine di evitare bruciature o surriscaldamenti dello stesso;
- 4. Verificare  che  l'impianto  elettrico  cui  la  macchina  è collegata sia dotato di interruttore magnetotermico di adeguata corrente nominale e di interruttore differenziale con I ∆ n non superiore a 0,03 A
- 5. Attivare  l'apparecchio  premendo  il  tasto  verde  ( 2 ), accertandosi che non ci sia nulla che possa compromettere  la  corretta  rotazione  o  che  oggetti esterni possano rimanere incastrati durante la normale rotazione;
- 6. Accendere il fornello afiammamassima;assicurarsiche il fondodel cestello siabencentrato conla fiamma;

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000010_912e485ba3fb376fd3ec5c3e167210d69f209a3eee684f2b0be572db79a75acb.png)

*Image Description:* The image appears to show a close-up of a power cord, specifically focusing on the exposed wire connectors. The labels seem to identify the parts without context, indicating they are likely for troubleshooting or repair.

1. The wire connector at the end of the power cord.
2. A section of the power cord near the device, possibly indicating a connection point or plug.
3. A screw or connector near the top-left of the power cord, likely securing it.
4. Another section of the power cord near the bottom, possibly an additional connector or point of interest for the maintenance process.

The image suggests a step in an instructional manual, detailing connection or setup methods, but specific details or instructions are not provided.

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000011_8f7eb032f6283d6dd6139aeadc4a68cb605ab495890a8d730de2a2ea6ce68de0.png)

*Image Description:* The image shows a warning sign with a yellow triangle containing an exclamation mark inside. It likely indicates a dangerous or important message about handling a radioactive material or product. The surrounding text appears to be in Italian, likely explaining the significance of this warning.

Nonsuperare i1200gr.diprodottoall'interno del cestello.

- cottura per altri 4 o 5 minuti. 7. Lasciare in cottura per circa 20 minuti. Qualora il prodotto non risulti ancora pronto, continuare la
- 8. Spegnere l'apparecchio con il tasto nero ( 3 ) e attendere qualche secondo a fornello spento prima di rimuovere gli alimenti dal cestello;

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000012_fb7e548a3e0790780696c11d931f15a3b37f481a44a8fe98ebfa7994bbac9171.png)

*Image Description:* The image displays a logo for "MECTRONICA e s.r.l." It features bold text in green and red on a white background. Below the logo, there is a guideline for a device on a step-by-step process that involves removing product from a container through manual manipulation.

- 9. Rimuovere il prodotto afferrando la barra orizzontale, che funge da maniglia ( 4 ).

## 5. PULIZIA &amp; MANUTENZIONE

40010 Bentivoglio (BO) Italia

Tel. +39 0516641440 Fax. +39 0518909108

Al  termine  di  ogni  utilizzo,  staccare  la  spina  dal  muro  e rimuovere l'alimentatore elettrico ( 1 ).

Prima di re-inscatolare l'apparecchio, attendere il raffreddamento del cestello.

A raffreddamento  avvenuto,  rimuovere  l'apparecchio  dal piano cottura e strofinare con un panno umido il cestello, rimuovendo briciole o detriti rimasti al suo interno.

Lavare solo la parte del cestello.

Non  lavare  con  getto  d'acqua  piena  e  non  mettere  in lavastoviglie.

L'apparecchio non necessita alcun tipo di manutenzione. Non  rimuovere  il  carter  di  chiusura  che  protegge  le componenti elettriche.

## 6. RICAMBI

Nelle seguenti pagine saranno indicate a disegno le componenti meccaniche con i loro codici.

Qualora  sia necessario ordinare  una  componente  per richiedere  un  ricambio,  è  necessario  indicare  quantità  e codice di riferimento.

## 7. CONTATTI

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000013_51880ea3b48242100f7d52c128c560ccbc210814a9e9326b3f503194200a0d49.png)

*Image Description:* The image is a logo with the text "MECTRONICA S.r.l." in stylized green and red fonts. Below the main text is an underline. The design is simple and clean, indicating a branding element likely related to a company or product named Mectronica.

E-mail. info@mectronica.it Web: www.mectronica.it

P. IVA e C.F. 031228011206

## 8. GARANZIA

Le specifiche sono soggette a  modifiche senza  preavviso da parte del fabbricante.

© Copyright 2015 MECTRONICA S.r.l.

MECTRONICA  garantisce  la  conformità  dei  prodotti forniti.  La  garanzia  per  vizi  è  limitata  ai  soli  difetti  dei prodotti conseguenti a difetti di progettazione, di materiale o di costruzione riconducibili a MECTRONICA. La garanzia non comprende:

- -Avarie  o  danni  causati  dal  trasporto  o  da  anomalie dell'impianto elettrico ove viene utilizzato l'apparecchio, o difettosa installazione e/o qualsiasi utilizzo non adeguato e non espressivamente indicato nel manuale d'uso.
- - Manomissione o danni causati dall'impiego di pezzi e/o ricambi non originali.
- -Difetti e/o danni causati da agenti chimici e/o atmosferici (es. umidità da esterno, ghiaccio, prodotti per pulizia corrosivi/chimici, ecc.).

Via Monari Sardè, 8

La garanzia ha una durata di 24 mesi decorrenti dalla data della vendita. La garanzia è subordinata all'espressa richiesta  scritta  a  MECTRONICA  tramite  raccomandata con ricevuta di ritorno.

| 3ROTOMARR   | 3ROTOMARR          | GIRACASTAGNE AUTOMATICO ROTOMARR      | 1    |
|-------------|--------------------|---------------------------------------|------|
| Posizione   | Codice             | Descrizione                           | Q.tà |
| 1           | 2ROTOMARR3         | BASE SUPPORTO ROTOMARR                | 1    |
| 2           | 2ROTOMARR5         | SUPPORTO ROTOMARR                     | 1    |
| 3           | 28018MAR0111B      | CARTER CHIUSURA                       | 1    |
| 4           | 28018MAR0110       | PIASTRA MOTORIDUTTORE                 | 1    |
| 5           | 2ROTOMARR1         | CESTELLO ROTOMARR                     | 1    |
| 6           | 2MAR0111E          | ALBERO DI TRASMISSIONE                | 1    |
| 7           | 2MAR0111D          | PROTEZIONE                            | 1    |
| 8           | 2MAR0111C          | PIASTRA PLEXIGLASS 60/10              | 1    |
| 9           | 106F1Z1000000010   | DADO ESAGONO B FEZIN M10 UNI 5589     | 2    |
| 10          | 138H000006000002RS | CUSCINETTO                            | 2    |
| 11          | 1680000BS138F12208 | MOTORIDUTTORE                         | 1    |
| 12          | 131000320106030    | MANOPOLA                              | 1    |
| 13          | 104FEZ10100040006  | GRANO PUNTA PIANA ZIN M4x6 UNI 5923   | 1    |
| 14          | 114F1Z7010029006   | VITE AUT ZIN TCICr @ 2.9x6            | 3    |
| 15          | 100F1Z1020003005   | VITE TCICr FE ZIN M3x5 UNI 7985       | 2    |
| 16          | 101F1Z1000003015   | VITE TCICr FE ZIN M3x015 UNI 5739     | 1    |
| 17          | 106F1Z1010000003   | DADO ESAGONO FEZIN M3 UNI 5588        | 1    |
| 18          | 199A0CE00042060    | TARGHETTA CE ROTOMARR                 | 2    |
| 19          | 129A000000000310   | RIVETTO AL 03x010                     | 1    |
| 20          | 24040849679513     | ALIMENTATORE 12V DC PLUG 5.5*2.1mm 1A | 1    |

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000014_a53f1ae1feb6105b57cfabdbd44afd59a2956f2252bcbbf0b4bff8c9eeb67183.png)

*Image Description:* The image is a logo for Electronica S.r.l., featuring the word "Métronica" in red and green, a horizontal green line, and additional text stating "Revisions 2000.00 – February 2015."

![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000015_fc9961137a96e29b0eff706761b9d54b5d4d81c294ecf97da498661aa9983d7b.png)
*Image Description:* The image depicts a detailed technical drawing of a mechanical assembly, highlighting various parts and their relationships. Here are the key components:

1. **Conveyor Belt/Rotating Mechanism**:
   - A long cylindrical rod supported by a pin bracket.
   - Features multiple pulleys with different grooves, likely for handling different materials or securing components.

2. **Belt Holder/Connector**:
   - Holds the conveyor belt assembly together.
   - Includes multiple cylindrical slots and connectors, suggesting adjustable and secure bonding.

3. **Support Structure**:
   - A sturdy, cylindrical support element with a hole for screws, likely holding other components in position.

4. **Connectors/Clearance Bars**:
   - Various rods and cables, potentially for alignment or alignment mechanisms.

5. **Fillet Connectors/Joints**:
   - Cylindrical components designed to join parts at specific angles.

The image illustrates an intricate assembly design involving multiple components working together to ensure precise alignment and functionality.


## chunking

In [23]:
import json
import re
import torch
from langchain.text_splitter import MarkdownHeaderTextSplitter
from sentence_transformers import SentenceTransformer

# Load Markdown file
file_path = "/content/markdown2/ManualeRotomarr.md"
with open(file_path, "r", encoding="utf-8") as file:
    markdown_text = file.read()

# Step 1: Document-Specific Chunking
headers_to_split_on = [("#", "Header 1"), ("##", "Header 2")]
splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on, strip_headers=False)
documents = splitter.split_text(markdown_text)
chunks = [doc.page_content for doc in documents]

# Load Hugging Face Embedding Model
model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

def is_table(chunk):
    """Checks if a chunk contains a Markdown table."""
    return bool(re.search(r'^\|.*\|\n\|[-| ]+\|\n(\|.*\|\n)*', chunk, re.MULTILINE))

def extract_table(chunk):
    """Extracts tables from markdown and converts them into structured JSON format."""
    lines = chunk.strip().split("\n")

    # Find the table header
    header = None
    table_rows = []
    for i, line in enumerate(lines):
        if re.match(r'^\|[-| ]+\|$', line):  # Detect separator line (---|---)
            header = lines[i - 1].strip("|").split("|")
            header = [h.strip() for h in header]
            continue
        if header:
            row_data = line.strip("|").split("|")
            row_data = [cell.strip() for cell in row_data]
            table_rows.append(row_data)

    if not header or not table_rows:
        return None  # Return None if the table extraction fails

    return {"headers": header, "rows": table_rows}

def needs_semantic_chunking(chunk, max_tokens=300):
    """Checks if the text chunk is too long and needs further splitting."""
    return not is_table(chunk) and len(chunk.split()) > max_tokens

def semantic_split(text, max_sentences=5, similarity_threshold=0.6, min_tokens=100):
    """Splits long text chunks based on semantic similarity."""
    sentences = re.split(r'(?<=[.!?])\s+', text)
    if len(sentences) <= max_sentences:
        return [text]

    embeddings = model.encode(sentences, convert_to_tensor=True)
    similarities = torch.nn.functional.cosine_similarity(embeddings[:-1], embeddings[1:], dim=1)
    split_points = [i+1 for i, sim in enumerate(similarities) if sim < similarity_threshold]

    sub_chunks, start = [], 0
    for split in split_points:
        chunk_text = " ".join(sentences[start:split])
        if len(chunk_text.split()) >= min_tokens:
            sub_chunks.append(chunk_text)
        start = split

    last_chunk = " ".join(sentences[start:])
    if len(last_chunk.split()) >= min_tokens:
        sub_chunks.append(last_chunk)
    elif sub_chunks:
        sub_chunks[-1] += " " + last_chunk  # Merge with previous if too short

    return sub_chunks if sub_chunks else [text]

def is_references_section(chunk):
    """Checks if the chunk is part of the References section."""
    return chunk.strip().lower().startswith("## references")

def extract_section_title(chunk):
    """Extracts section headers from chunks for metadata."""
    match = re.match(r'^(#+)\s+(.*)', chunk.strip())
    return match.group(2) if match else None

# Step 3: Apply Chunking
final_chunks = []
is_references = False
for chunk in chunks:
    if is_references_section(chunk):
        is_references = True
    if is_references:
        final_chunks.append(chunk)
    elif is_table(chunk):
        table_data = extract_table(chunk)
        if table_data:
            final_chunks.append({"table": table_data})  # Store table separately
    elif needs_semantic_chunking(chunk):
        final_chunks.extend(semantic_split(chunk))
    else:
        final_chunks.append(chunk)

# Step 4: Merge Small Chunks (Ensure Minimum 100 Tokens)
merged_chunks = []
i = 0
while i < len(final_chunks):
    chunk = final_chunks[i]
    if isinstance(chunk, dict):  # If it's a table, store it separately
        merged_chunks.append(chunk)
        i += 1
        continue

    while i + 1 < len(final_chunks) and isinstance(chunk, str) and len(chunk.split()) < 100:
        next_chunk = final_chunks[i + 1]
        if isinstance(next_chunk, dict):  # Don't merge tables into text
            break
        chunk += "\n" + next_chunk
        i += 1

    merged_chunks.append(chunk)
    i += 1

# Step 5: Convert Chunks to JSON Format
json_chunks = []
source_filename = file_path.split("/")[-1]  # Extract filename for metadata

for idx, chunk in enumerate(merged_chunks):
    if isinstance(chunk, dict):  # Handle table separately
        json_chunks.append({
            "chunk_id": idx + 1,
            "table": chunk["table"],
            "metadata": {
                "source": source_filename,
                "section": "Table",  # You can add better logic here
                "position": idx + 1
            }
        })
    else:
        section_title = extract_section_title(chunk)
        json_chunks.append({
            "chunk_id": idx + 1,
            "content": chunk.strip(),
            "metadata": {
                "source": source_filename,
                "section": section_title if section_title else "Unknown",
                "position": idx + 1
            }
        })

# Save JSON output
output_file = "/content/ManualeRotomarr.json"
with open(output_file, "w", encoding="utf-8") as json_file:
    json.dump(json_chunks, json_file, indent=4, ensure_ascii=False)

print(f"Chunking completed. JSON saved to: {output_file}")

Chunking completed. JSON saved to: /content/ManualeRotomarr.json


## vector store embedding

### **sentence-transformer**

In [6]:
import json
import torch
from sentence_transformers import SentenceTransformer
from supabase import create_client

# Supabase Configuration
SUPABASE_URL = "https://vptbbrmqaqpsynvpizih.supabase.co"
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6InZwdGJicm1xYXFwc3ludnBpemloIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NDEwNjU2NzMsImV4cCI6MjA1NjY0MTY3M30.XVOsjwisyi39awcbC3TMf46uMbdlwUkY-wfyo31UthI"
supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

# Load Embedding Model
model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# Load JSON chunks
json_file_path = "/content/17_chunks_v2.json"
with open(json_file_path, "r", encoding="utf-8") as json_file:
    json_chunks = json.load(json_file)

def store_chunks_in_supabase(chunks):
    for chunk in chunks:
        content = chunk.get("content") or json.dumps(chunk.get("table"), ensure_ascii=False)
        embedding = model.encode(content).tolist()
        chunk["embedding"] = embedding

        data = {
            "content": content,
            "embedding": embedding,
            "metadata": chunk["metadata"]
        }
        supabase.table("documents").insert(data).execute()

# Store in Supabase
store_chunks_in_supabase(json_chunks)

print("Chunks with embeddings stored successfully in Supabase!")


Chunks with embeddings stored successfully in Supabase!


### **BAAI/bge-m3**

In [39]:
import json
import torch
from transformers import AutoTokenizer, AutoModel
from supabase import create_client

# Supabase Configuration
SUPABASE_URL = "https://vptbbrmqaqpsynvpizih.supabase.co"
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6InZwdGJicm1xYXFwc3ludnBpemloIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NDEwNjU2NzMsImV4cCI6MjA1NjY0MTY3M30.XVOsjwisyi39awcbC3TMf46uMbdlwUkY-wfyo31UthI"
supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

# Load BAAI/bge-m3 Embedding Model
tokenizer = AutoTokenizer.from_pretrained("BAAI/bge-m3")
model = AutoModel.from_pretrained("BAAI/bge-m3").to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))

In [40]:
def get_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True).to(model.device)
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).squeeze().tolist()

# Load JSON chunks
json_file_path = "/content/17_chunks_v2.json"
with open(json_file_path, "r", encoding="utf-8") as json_file:
    json_chunks = json.load(json_file)

def store_chunks_in_supabase(chunks):
    for chunk in chunks:
        content = chunk.get("content") or json.dumps(chunk.get("table"), ensure_ascii=False)
        embedding = get_embedding(content)
        chunk["embedding"] = embedding

        data = {
            "content": content,
            "embedding": embedding,
            "metadata": chunk["metadata"]
        }
        supabase.table("documents").insert(data).execute()

# Store in Supabase
store_chunks_in_supabase(json_chunks)

print("Chunks with embeddings stored successfully in Supabase!")


Chunks with embeddings stored successfully in Supabase!


### **Alibaba-NLP/gte-multilingual-base**

In [None]:
import json
import torch
from transformers import AutoTokenizer, AutoModel
from supabase import create_client

# Supabase Configuration
SUPABASE_URL = "https://vptbbrmqaqpsynvpizih.supabase.co"
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6InZwdGJicm1xYXFwc3ludnBpemloIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NDEwNjU2NzMsImV4cCI6MjA1NjY0MTY3M30.XVOsjwisyi39awcbC3TMf46uMbdlwUkY-wfyo31UthI"
supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

# Load Embedding Model

tokenizer = AutoTokenizer.from_pretrained("Alibaba-NLP/gte-multilingual-base")
model = AutoModel.from_pretrained("Alibaba-NLP/gte-multilingual-base").to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))

In [58]:
def get_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512).to(model.device)
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).squeeze().tolist()

# Load JSON chunks
json_file_path = "/content/17_chunks_v2.json"
with open(json_file_path, "r", encoding="utf-8") as json_file:
    json_chunks = json.load(json_file)

def store_chunks_in_supabase(chunks):
    for chunk in chunks:
        content = chunk.get("content") or json.dumps(chunk.get("table"), ensure_ascii=False)
        embedding = get_embedding(content)
        chunk["embedding"] = embedding

        data = {
            "content": content,
            "embedding": embedding,
            "metadata": chunk["metadata"]
        }
        supabase.table("documents").insert(data).execute()

# Store in Supabase
store_chunks_in_supabase(json_chunks)

print("Chunks with embeddings stored successfully in Supabase!")


Chunks with embeddings stored successfully in Supabase!


### emptying the table in supabase :

> `DELETE FROM documents;`



### TESTING

### **sentence-transformer**

In [22]:
import json
import torch
from sentence_transformers import SentenceTransformer
from supabase import create_client

# Supabase Configuration
SUPABASE_URL = "https://vptbbrmqaqpsynvpizih.supabase.co"
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6InZwdGJicm1xYXFwc3ludnBpemloIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NDEwNjU2NzMsImV4cCI6MjA1NjY0MTY3M30.XVOsjwisyi39awcbC3TMf46uMbdlwUkY-wfyo31UthI"
supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

# Load Embedding Model
model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

def search_matching_documents(query, top_k=3):
    query_embedding = model.encode(query).tolist()

    # Perform similarity search in Supabase
    response = supabase.rpc(
        "match_documents",
        {"query_embedding": query_embedding, "match_count": top_k}
    ).execute()

    if response.data:
        print("\nMatching Documents:")
        for idx, entry in enumerate(response.data, start=1):
            print(f"{idx}. {entry['content']}\n")
    else:
        print("No matching documents found.")


In [23]:
# Example Query
query = "What is SAAFP?"
search_matching_documents(query)


Matching Documents with Similarity Scores:
1. Similarity: 0.2784
   Content: ## Reflection on workshop  
The group appreciated the richness of the discussion and the value  of  having  a  variety  of  countries  represented  in  the workshop. The group members expressed feeling encouraged and felt motivated to use 'small moments, little bits, part of the mini-CEX' during learning interactions in the workplace (teachable  moments).  This  will  allow  the  supervisors  and registrars to be 'more real' in the workplace, as opposed to striving for the hard-to-reach  perfect or ideal learning interactions. It will necessitate a more honest and pragmatic approach  to  harness  these  learning  moments.  Ongoing discussions  are  needed  around  the  validity  of  continuous assessments  in  the  workplace  for  national  examinations, such as the Fellowship of the College of Family Physicians of South Africa (FCFP[SA]), and the contribution of the learning portfolio to exit examination res

### **huggingface BAAI**

In [41]:
def search_matching_documents(query, top_k=3):
    query_embedding = get_embedding(query)

    # Perform similarity search in Supabase
    response = supabase.rpc(
        "match_documents",
        {"query_embedding": query_embedding, "match_count": top_k}
    ).execute()

    if response.data:
        print("\nMatching Documents with Similarity Scores:")
        for idx, entry in enumerate(response.data, start=1):
            print(f"{idx}. Similarity: {entry['similarity']:.4f}")
            print(f"   Content: {entry['content']}\n")
    else:
        print("No matching documents found.")

In [42]:
# Example Query
query = "What is SAAFP?"
search_matching_documents(query)


Matching Documents with Similarity Scores:
1. Similarity: 0.6064
   Content: 7  
The World Organisation of Family Doctors and the South African Academy of Family Physicians (SAAFP)  have  established  standards  for  the  postgraduate  training  of  family  physicians. 8,9  
However,  family  medicine  is  a  relatively  new  specialty  in many African countries, which adds to the challenges around training and supervision in the context of large rural areas, massive health needs and minimal resources. 10  
The  aim  of  the  workshop  was  to  understand  how  family medicine registrars (postgraduate trainees in family medicine) in  Africa  learn  in  the  workplace. We  particularly  wanted  to explore  the  interaction  between  the  registrar  and  supervisor in the workplace, captured in a portfolio of learning, and in the African  context. We  sought  a  clearer  understanding  of  what it  means  to  be  observed  while  conducting  a  consultation  or performing  a  procedure,

### **Alibaba-NLP/gte-multilingual-base**

In [59]:
def search_matching_documents(query, top_k=3):
    query_embedding = get_embedding(query)

    # Perform similarity search in Supabase
    response = supabase.rpc(
        "match_documents",
        {"query_embedding": query_embedding, "match_count": top_k}
    ).execute()

    if response.data:
        print("\nMatching Documents with Similarity Scores:")
        for idx, entry in enumerate(response.data, start=1):
            print(f"{idx}. Similarity: {entry['similarity']:.4f}")
            print(f"   Content: {entry['content']}\n")
    else:
        print("No matching documents found.")

In [60]:
# Example Query
query = "What is SAAFP?"
search_matching_documents(query)


Matching Documents with Similarity Scores:
1. Similarity: 0.8063
   Content: 7  
The World Organisation of Family Doctors and the South African Academy of Family Physicians (SAAFP)  have  established  standards  for  the  postgraduate  training  of  family  physicians. 8,9  
However,  family  medicine  is  a  relatively  new  specialty  in many African countries, which adds to the challenges around training and supervision in the context of large rural areas, massive health needs and minimal resources. 10  
The  aim  of  the  workshop  was  to  understand  how  family medicine registrars (postgraduate trainees in family medicine) in  Africa  learn  in  the  workplace. We  particularly  wanted  to explore  the  interaction  between  the  registrar  and  supervisor in the workplace, captured in a portfolio of learning, and in the African  context. We  sought  a  clearer  understanding  of  what it  means  to  be  observed  while  conducting  a  consultation  or performing  a  procedure,

# Try using other language = italian

### **huggingface BAAI**

In [None]:
!pip install supabase

In [2]:
import json
import torch
from transformers import AutoTokenizer, AutoModel
from supabase import create_client

# Supabase Configuration
SUPABASE_URL = "https://vptbbrmqaqpsynvpizih.supabase.co"
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6InZwdGJicm1xYXFwc3ludnBpemloIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NDEwNjU2NzMsImV4cCI6MjA1NjY0MTY3M30.XVOsjwisyi39awcbC3TMf46uMbdlwUkY-wfyo31UthI"
supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

# Load BAAI/bge-m3 Embedding Model
tokenizer = AutoTokenizer.from_pretrained("BAAI/bge-m3")
model = AutoModel.from_pretrained("BAAI/bge-m3").to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/444 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/687 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.27G [00:00<?, ?B/s]

In [3]:
def get_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True).to(model.device)
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).squeeze().tolist()

# Load JSON chunks
json_file_path = "/content/ManualeRotomarr.json"
with open(json_file_path, "r", encoding="utf-8") as json_file:
    json_chunks = json.load(json_file)

def store_chunks_in_supabase(chunks):
    for chunk in chunks:
        content = chunk.get("content") or json.dumps(chunk.get("table"), ensure_ascii=False)
        embedding = get_embedding(content)
        chunk["embedding"] = embedding

        data = {
            "content": content,
            "embedding": embedding,
            "metadata": chunk["metadata"]
        }
        supabase.table("documents").insert(data).execute()

# Store in Supabase
store_chunks_in_supabase(json_chunks)

print("Chunks with embeddings stored successfully in Supabase!")


Chunks with embeddings stored successfully in Supabase!


### **huggingface BAAI**

In [4]:
def search_matching_documents(query, top_k=3):
    query_embedding = get_embedding(query)

    # Perform similarity search in Supabase
    response = supabase.rpc(
        "match_documents",
        {"query_embedding": query_embedding, "match_count": top_k}
    ).execute()

    if response.data:
        print("\nMatching Documents with Similarity Scores:")
        for idx, entry in enumerate(response.data, start=1):
            print(f"{idx}. Similarity: {entry['similarity']:.4f}")
            print(f"   Content: {entry['content']}\n")
    else:
        print("No matching documents found.")

In [6]:
# Example Query
query = "INFORMAZIONI SULLA SICUREZZA"
search_matching_documents(query)


Matching Documents with Similarity Scores:
1. Similarity: 0.6989
   Content: ## 1. INFORMAZIONI SULLA SICUREZZA
## 3. DESTINAZIONE D'USO E UTILIZZATORI  
Il  presente  manuale  contiene  indicazioni  ed  informazioni fondamentali per il corretto utilizzo del GIRACASTAGNE AUTOMATICO (CUOCI CALDARROSTE) ROTOMARR .  
- -Leggere il manuale nella sua completezza per comprendere l'utilizzo della macchina;
- -Tenere questo manuale per future consultazioni in un luogo sicuro;
- -Osservare le istruzioni indicate in questo manuale per garantire la sicurezza dell'utilizzatore;
- -La non osservanza delle indicazioni elencate in questo manuale comporterà l'annullamento della garanzia;
- -MECTRONICA S.r.l. non è responsabile per danni o lesioni causate dalla non osservanza delle informazioni elencate nel presente manuale.

2. Similarity: 0.6657
   Content: ## 5. PULIZIA &amp; MANUTENZIONE  
40010 Bentivoglio (BO) Italia  
Tel. +39 0516641440 Fax. +39 0518909108  
Al  termine  di  ogni  utilizzo,  s

try query in english

In [7]:
# Example Query
query = "safety information"
search_matching_documents(query)


Matching Documents with Similarity Scores:
1. Similarity: 0.6521
   Content: ## 1. INFORMAZIONI SULLA SICUREZZA
## 3. DESTINAZIONE D'USO E UTILIZZATORI  
Il  presente  manuale  contiene  indicazioni  ed  informazioni fondamentali per il corretto utilizzo del GIRACASTAGNE AUTOMATICO (CUOCI CALDARROSTE) ROTOMARR .  
- -Leggere il manuale nella sua completezza per comprendere l'utilizzo della macchina;
- -Tenere questo manuale per future consultazioni in un luogo sicuro;
- -Osservare le istruzioni indicate in questo manuale per garantire la sicurezza dell'utilizzatore;
- -La non osservanza delle indicazioni elencate in questo manuale comporterà l'annullamento della garanzia;
- -MECTRONICA S.r.l. non è responsabile per danni o lesioni causate dalla non osservanza delle informazioni elencate nel presente manuale.

2. Similarity: 0.6195
   Content: ## 6. RICAMBI  
Nelle seguenti pagine saranno indicate a disegno le componenti meccaniche con i loro codici.  
Qualora  sia necessario ordinare 

### **Alibaba-NLP/gte-multilingual-base**

In [None]:
import json
import torch
from transformers import AutoTokenizer, AutoModel
from supabase import create_client

# Supabase Configuration
SUPABASE_URL = "https://vptbbrmqaqpsynvpizih.supabase.co"
SUPABASE_KEY = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJzdXBhYmFzZSIsInJlZiI6InZwdGJicm1xYXFwc3ludnBpemloIiwicm9sZSI6ImFub24iLCJpYXQiOjE3NDEwNjU2NzMsImV4cCI6MjA1NjY0MTY3M30.XVOsjwisyi39awcbC3TMf46uMbdlwUkY-wfyo31UthI"
supabase = create_client(SUPABASE_URL, SUPABASE_KEY)

# Load Embedding Model

tokenizer = AutoTokenizer.from_pretrained("Alibaba-NLP/gte-multilingual-base")
model = AutoModel.from_pretrained("Alibaba-NLP/gte-multilingual-base").to(torch.device("cuda" if torch.cuda.is_available() else "cpu"))

In [9]:
def get_embedding(text):
    inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=512).to(model.device)
    with torch.no_grad():
        outputs = model(**inputs)
    return outputs.last_hidden_state.mean(dim=1).squeeze().tolist()

# Load JSON chunks
json_file_path = "/content/ManualeRotomarr.json"
with open(json_file_path, "r", encoding="utf-8") as json_file:
    json_chunks = json.load(json_file)

def store_chunks_in_supabase(chunks):
    for chunk in chunks:
        content = chunk.get("content") or json.dumps(chunk.get("table"), ensure_ascii=False)
        embedding = get_embedding(content)
        chunk["embedding"] = embedding

        data = {
            "content": content,
            "embedding": embedding,
            "metadata": chunk["metadata"]
        }
        supabase.table("documents").insert(data).execute()

# Store in Supabase
store_chunks_in_supabase(json_chunks)

print("Chunks with embeddings stored successfully in Supabase!")


Chunks with embeddings stored successfully in Supabase!


### **Alibaba-NLP/gte-multilingual-base**

In [10]:
def search_matching_documents(query, top_k=3):
    query_embedding = get_embedding(query)

    # Perform similarity search in Supabase
    response = supabase.rpc(
        "match_documents",
        {"query_embedding": query_embedding, "match_count": top_k}
    ).execute()

    if response.data:
        print("\nMatching Documents with Similarity Scores:")
        for idx, entry in enumerate(response.data, start=1):
            print(f"{idx}. Similarity: {entry['similarity']:.4f}")
            print(f"   Content: {entry['content']}\n")
    else:
        print("No matching documents found.")

In [11]:
# Example Query
query = "INFORMAZIONI SULLA SICUREZZA"
search_matching_documents(query)


Matching Documents with Similarity Scores:
1. Similarity: 0.7864
   Content: ## ROTOMARR  
- 2) l'utilizzo della macchina su fornelli di dimensioni superiori ai 70 cm di diametro  
Utilizzare  l'apparecchio  solo  su  un  fornello  a gas dal diametro max. di 70mm.  
![Image](/content/markdown2/ManualeRotomarr_artifacts/image_000004_e70e7737d2a45c3228fd944f2ed7008935b52b5367d10e1135a35711464aba0a.png)  
- 3) il lavaggio della macchina in lavastoviglie
- 4) il lavaggio  della macchina  con  getto  d'acqua pieno
- 5) l'apertura dei ripari o una qualsiasi manomissione della macchina
- 6) l'utilizzo all'esterno in caso di cattive condizioni meteorologiche  (pioggia,  neve,  grandine,  vento forte)
- 7) l'utilizzo  in  locali  con  pericolo  di  esplosione  o incendio  o  in  presenza  di  grandi  quantitativi  di materiale infiammabile

2. Similarity: 0.7763
   Content: ## 1. INFORMAZIONI SULLA SICUREZZA
## 3. DESTINAZIONE D'USO E UTILIZZATORI  
Il  presente  manuale  contiene  indicazioni

try query in english

In [12]:
# Example Query
query = "safety information"
search_matching_documents(query)


Matching Documents with Similarity Scores:
1. Similarity: 0.7606
   Content: ## 1. INFORMAZIONI SULLA SICUREZZA
## 3. DESTINAZIONE D'USO E UTILIZZATORI  
Il  presente  manuale  contiene  indicazioni  ed  informazioni fondamentali per il corretto utilizzo del GIRACASTAGNE AUTOMATICO (CUOCI CALDARROSTE) ROTOMARR .  
- -Leggere il manuale nella sua completezza per comprendere l'utilizzo della macchina;
- -Tenere questo manuale per future consultazioni in un luogo sicuro;
- -Osservare le istruzioni indicate in questo manuale per garantire la sicurezza dell'utilizzatore;
- -La non osservanza delle indicazioni elencate in questo manuale comporterà l'annullamento della garanzia;
- -MECTRONICA S.r.l. non è responsabile per danni o lesioni causate dalla non osservanza delle informazioni elencate nel presente manuale.

2. Similarity: 0.7529
   Content: ## ROTOMARR  
- 2) l'utilizzo della macchina su fornelli di dimensioni superiori ai 70 cm di diametro  
Utilizzare  l'apparecchio  solo  su  un 