<a href="https://colab.research.google.com/github/667029/KVP10k/blob/main/LayoutLMv3_kvp10k.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Sitering for å bruke Modellen

```
@inproceedings{huang2022layoutlmv3,
  author={Yupan Huang and Tengchao Lv and Lei Cui and Yutong Lu and Furu Wei},
  title={LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking},
  booktitle={Proceedings of the 30th ACM International Conference on Multimedia},
  year={2022}
}
```

In [32]:
import os              #navigere mapper og filer, hente filbaner
from PIL import Image  #åpne, vise og manipulere bilder
import json            #lese/skrive til JSON-filer


#Installer nødvendige biblioteker
!pip install -q Pillow
!pip install -q transformers datasets torch torchvision

In [33]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [34]:
base_path = "/content/drive/MyDrive/DAT255/KVP10k-dataset/train"
print(os.listdir(base_path))

['ocrs', 'gts', 'images', 'items']


# LayoutLMv3 - Hva skal jeg bruke?

- Steg 1. Må utføre Entity Extraction (EE).

- Steg 2. Utføre Relation Exctraction (RE). Formaliser RE som et matrise-problem, hvor man for alle par av entiteter **predikerer** om en relasjon finnes.
  - Relasjoner kan representeres som en N x N matrise over entitets-paret (i, j).

- Bruk en enkelt treningspipeline.

- Bruke **LayoutLMv3Processor** for å kombinere bilde, tekst, og bboxes, for å lage den input modellen krever.

- Bruke **LayoutLMv3ForTokenClassification** som modell for per-token tagging (EE).
  - Denne brukes for Entity tagging.
  - UTVID MED --> Ekstra kode for "*span grouping*" og "*entity embedding*".

_____

Steg 1:
  - Tagge tokens med (O, B-KEY, B-VALUE, I-KEY, I-VALUE), og derretter koble KEY --> VALUE.

Label-mappinger:


```
label2id = {
    "O": 0,
    "B-KEY": 1,
    "I-KEY": 2,
    "B-VALUE": 3,
    "I-VALUE": 4,
}
```



Steg 2:
LayoutLMv3Model er grunnlag for RE.
For å bruke denne modellen som egentlig er PyTorch Native, må vi bruke installere *transformers* og bruke PyTorch-backend.
UTVID med --> Egen relasjonsklassifisering mellom *key* og *value* spans
  - Kobling mellom key og value:
    1. Hente predikerte spans fra EE
    2. Lage relasjonsprediksjonsmodell RE

*Hentet fra:* https://arxiv.org/html/2404.10848v1


# Oppsummert

- Bruke LayoutLMv3Processor for å kombinere bilde, tokens, og bounding boxes (bboxes).

- Bruke LayoutLMv3ForTokenClassification til å tagge tokens som B-KEY, B-VALYE, O, etc.


1. Må utvide LayoutLMv3Model til å hente embeddings.
2. Implementere RE ved å sammenligne KVPs.
3. Evaluer RE med F1/Precision/Recall per relasjon.

#PyTorch (+ Hugging Face)
LayoutLMv3 er en del av *transformers*-biblioteket til Hugging Face.
Dette betyr at enten så må hele pipelinen utvikles i PyTorch, eller utvikle bare EE i PyTorch og få KEY-VALUE-Spans, så brukes TensorFlow for resten.

- Siden jeg er generelt usikker på begge bibliotekene så får vi se hva som blir valgt etterhvert...


# Dataset - forståelse

**Innhold i train/-mappen i KVP10k:**
_____
  - *images*/ --> .png bilder av hvert dokument. Visuell input for modellen.
    - Det modellen "ser".
_____

  - *ocrs*/ --> JSON-filer med **words** og **bboxes** for hvert dokument. Gir tekst og posisjoner fra OCR, og brukes sammen med images.
    - Det modellen "leser" (tokens og posisjonene deres).

_____

  - *gts*/ --> JSON-filer med KVPs og tilhørende bboxes. Inneholder hvilke keys og values som hører sammen.
    - Det som lærer modellen hvilke tokens som er nøkler, verdier, og hvilket som er koblet sammen.
_____

  - *items*/ --> JSON-filer med annotasjoner og layout-objs (rektangler, linker, etiketter)
    - tilleggsinformasjon
_____

# STEG 1 - Entity Exctraction

Preprosesser et datapunkt.
Lese inn:
  - OCR-data (tekst + bbox)
  - Ground Truth (gts, key/value + bbox)
  - Dokumentbilde (.png)


**Det brukes BIO-tagger, og dette er hva det står for:**
 - B --> Begin: første token i en entitet.
 - I --> Inside: inne i en entitet.
 - O --> Outside: tokenen er ikke en del av noen entitet

f.eks.
  - Tokens:  ["Name", "of", "buyer", ":", "Ole", "Martin", "Lystadmoen"]
  - Labels:  ["B-KEY", "I-KEY", "I-KEY", "O", "B-VALUE", "I-VALUE", "I-VALUE"]

In [35]:
from transformers import LayoutLMv3Processor
import torch

processor = LayoutLMv3Processor.from_pretrained("microsoft/layoutlmv3-base", apply_ocr=False) # <-- Viktig fordi vi allerede har utført OCR på bildet og har tekst og bboxes

In [41]:
# Mapping fra tekstlige BIO-labels til tall som modellen bruker
label_map = {
    "O": 0,
    "B-KEY": 1,
    "I-KEY": 2,
    "B-VALUE": 3,
    "I-VALUE": 4,
}

# Funksjon for å skalere bounding boxes til 0-1000 (som LayoutLMv3 krever)
def normalize_bbox(bbox, width, height):
  return [
      int(1000 * (bbox[0] /width)),
      int(1000 * (bbox[1] / height)),
      int(1000 * (bbox[2] / width)),
      int(1000 * (bbox[3] / height))
  ]


def assign_label_for_box(box, boxes, label_type):
  """Returnerer liste med (index, label) for tokens osm overlapper box"""
  overlaps = []
  for i, token_box in enumerate(boxes):
    if box_overlap(box, token_box) > 0:
      overlaps.append(i)

  overlaps = sorted(overlaps)

  labeled = []
  for j, idx in enumerate(overlaps):
    tag = f"B-{label_type}" if j == 0 else f"I-{label_type}"
    labeled.append((idx, tag))

  return labeled


 #Sjekker om OCR-boksen overlapper med GTS(key/value)-boksen.
#Ved overlapp hører de til hverandre.
def box_overlap(box1, box2):
  x0 = max(box1[0], box2[0])
  y0 = max(box1[1], box2[1])
  x1 = min(box1[2], box2[2])
  y1 = min(box1[3], box2[3])
  return max(0, x1 - x0) * max(0, y1 - y0)


# Funksjon for å generere BIO-labels fra gts (ground truth).
# Lager en BIO-label for hvert token basert på om det overlapper med en key- eller value-boks fra GTS.
# Matcher hvert token fra OCR (word + bbox) mot key/value-bbokser fra gts:
# --> Token overlapper en nøkkelboks: B-KEY eller I-KEY
# --> Token overlapper en verdiboks: B-VALUE eller I-VALUE
# --> Ellers: O
def iob_from_kvps(words, boxes, kvps):
  labels = ["O"] * len(words)

  #Gå igjennom alle key-value-pairs
  for kvp in kvps:
    if "key" in kvp and "bbox" in kvp["key"]:
      key_bbox = kvp["key"]["bbox"]
      for idx, tag in assign_label_for_box(key_bbox, boxes, "KEY"):
        labels[idx] = tag

    if "value" in kvp and "bbox" in kvp["value"]:
      value_box = kvp["value"]["bbox"]
      for idx, tag in assign_label_for_box(value_box, boxes, "VALUE"):
        labels[idx] = tag

  return labels

In [42]:
def load_example(doc_id, base_path):
  image_path = os.path.join(base_path, "images", f"{doc_id}.png")
  ocr_path = os.path.join(base_path, "ocrs", f"{doc_id}.json")
  gt_path = os.path.join(base_path, "gts", f"{doc_id}.json")

  image = Image.open(image_path).convert("RGB")

  with open(ocr_path, "r", encoding="utf-8") as f:
    ocr_data = json.load(f)

  with open(gt_path, "r", encoding="utf-8") as f:
    gt_data = json.load(f)

  page = ocr_data["pages"][0]
  width, height = page["width"], page["height"]

  words = [w["text"] for w in page["words"]]
  raw_boxes = [w["bbox"] for w in page["words"]]
  boxes = [normalize_bbox(b, width, height) for b in raw_boxes]

  kvps = gt_data["kvps_list"]
  string_labels = iob_from_kvps(words, raw_boxes, kvps)
  labels = [label_map[l] for l in string_labels]

  #Fyller på med padding, og truncation klipper av hvis sekvensen har for mange tokens, returnerer som PyTorch-tensor
  encoding = processor(image, words, boxes=boxes, word_labels=labels, padding="max_length", truncation=True, return_tensors="pt")

  return encoding, words, boxes, string_labels

In [45]:
doc_id = "aaf8db8517856054da0210f56f97e0acb910ca9a96be8d295050b3c9990ff8ed" #Eksempel dok. fra KVP10k
encoding, words, boxes, tags = load_example(doc_id, base_path)

print(encoding.keys())

#for w, t in zip(words, tags):
 # print(f"{w}: {t}")

dict_keys(['input_ids', 'attention_mask', 'bbox', 'labels', 'pixel_values'])


Grunnen til at det er så mye "O"-tagger er fordi det typisk i slike dokument-annotasjonsdatasett så er andelen tokens som er relevant (KEY/VAL) ofte kun 5-15% av ALLE tokens.

# Hva er gjort så langt?

- Lest inn images, ocrs, gts
- Laget BIO-tagger
- Verifisert at tokens for korrekte tagger
- En fungerende load_example()


# Neste blir å lage et Dataset-objekt for trening

In [44]:
def get_doc_ids(base_path):
  return [filename.replace(".json", "") for filename in os.listdir(os.path.join(base_path, "ocrs"))]

In [53]:
from torch.utils.data import Dataset

class KVP10kDataset(Dataset):
  def __init__(self, base_path, doc_ids):
    self.base_path = base_path
    self.doc_ids = doc_ids
    self.valid_doc_ids = []

    for doc_id in self.doc_ids:
      try:
        load_example(doc_id, base_path)
        self.valid_doc_ids.append(doc_id)
      except Exception as e:
        print(f"Feil i {doc_id}: {e}")

  def __len__(self):
    return len(self.doc_ids)

  def __getitem__(self, idx):
    doc_id = self.valid_doc_ids[idx]
    encoding, _, _ , _ = load_example(doc_id, self.base_path)

    return {
          "input_ids": encoding["input_ids"].squeeze(0),
          "attention_mask": encoding["attention_mask"].squeeze(0),
          "bbox": encoding["bbox"].squeeze(0),
          "labels": encoding["labels"].squeeze(0),
          "pixel_values": encoding["pixel_values"].squeeze(0)

    }


In [55]:
doc_ids = get_doc_ids(base_path)[:200] #Hentur kun 200 docs for nå
dataset = KVP10kDataset(base_path, doc_ids)

print("Antall gyldig dokumenter:", len(dataset))

sample = dataset[0]
print(sample.keys())

#Bruk denne nå preprosesserings koden er bevist å være helt korrekt og produserer data slik det ønskes
#torch.save(dataset, "/content/drive/MyDrive/kvp10k_tensor_dataset.pt")

Antall gyldig dokumenter: 200
dict_keys(['input_ids', 'attention_mask', 'bbox', 'labels', 'pixel_values'])


# Dataloader
**Når man jobber i Colab:**
 - CPU    --> num_workers = 2-4
 - T4 GPU --> num_workers = 2 + pin_memory = True
 - A100   --> num_workers = 4-8
____
*num_workers:*
- Antall parallelle prosesser som laster data i bakgrunn.
- Hvor mange CPU-kjerner som brukes.

*pin_memory:*
- Data lastes i pinned RAM --> raskere overføring til GPU.
- Når man bruker GPU.

*persistent_workers:*
- Holder dataarbeidere i live mellom epoker --> reduserer oppstartskostnader.
- kombineres med *num_workers* > 0

In [57]:
def collate_fn(batch):
  batch = [b for b in batch if b is not None]
  if len(batch) == 0:
    return None

  return {
      key: torch.stack([b[key] for b in batch]) for key in batch[0]
  }

In [58]:
from torch.utils.data import DataLoader

dataloader = DataLoader (
    dataset,
    batch_size = 4,
    shuffle = True,
    collate_fn = collate_fn, # Brukes kun her for sikkerhet slik at om modellen ikke skal feile under trening
    num_workers = 2,
    pin_memory = True,
    persistent_workers = True
)

# Klargjør modellen

In [59]:
from transformers import LayoutLMv3ForTokenClassification

id2label = {
    0: "O",
    1: "B-KEY",
    2: "I-KEY",
    3: "B-VALUE",
    4: "I-VALUE",
}

label2id = {
    "O": 0,
    "B-KEY": 1,
    "I-KEY": 2,
    "B-VALUE": 3,
    "I-VALUE": 4,
}

model = LayoutLMv3ForTokenClassification.from_pretrained(
    "microsoft/layoutlmv3-base",
    num_labels = len(id2label),
    id2label = id2label,
    label2id = label2id,
)

config.json:   0%|          | 0.00/856 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/501M [00:00<?, ?B/s]

Some weights of LayoutLMv3ForTokenClassification were not initialized from the model checkpoint at microsoft/layoutlmv3-base and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [60]:
batch = next(iter(dataloader))

for k, v in batch.items():
  print(f"{k}: {v.shape}")

input_ids: torch.Size([4, 512])
attention_mask: torch.Size([4, 512])
bbox: torch.Size([4, 512, 4])
labels: torch.Size([4, 512])
pixel_values: torch.Size([4, 3, 224, 224])


Bruke GPU

In [61]:
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)

batch = {k: v.to(device) for k, v in batch.items()}

In [62]:
outputs = model(**batch)
loss = outputs.loss
logits = outputs.logits

print(f"Loss: {loss}")
print(f"Logits: {logits.shape}")



Loss: 1.5632420778274536
Logits: torch.Size([4, 512, 5])


Logits[4, 512, 5] forteller oss:
- 4 --> Batch size
- 512 --> maks sekvenslengde (tokens per dok.)
- 5 --> antall labels fra BIO (O, B-VALUE, B-KEY, B-KEY, I-KEY)