In [1]:
# biblioteki
from src.dataclass import TextDataSet, ImageDataSet
from transformers import ViTImageProcessor, AutoModelForImageClassification
import torch
from PIL import Image
from tqdm import tqdm
import matplotlib.pyplot as plt
from torch.utils.data import  DataLoader
from torchvision.transforms import transforms, ToPILImage, ToTensor

In [2]:
# ładowanie danych
image_data_set = ImageDataSet('../datasets/train_set')
ImageDataSet.use_rgb(image_data_set)

dataloader = DataLoader(
    image_data_set,
    batch_size=8,
    shuffle=True,
    num_workers=8,
)

In [3]:
# model z hugingface
extractor = ViTImageProcessor.from_pretrained("DunnBC22/dit-base-Business_Documents_Classified_v2")

model = AutoModelForImageClassification.from_pretrained("DunnBC22/dit-base-Business_Documents_Classified_v2")

In [4]:
# zmiana głowicy
model.classifier = torch.nn.Linear(in_features=model.classifier.in_features, out_features=21)

In [5]:
# zamrożenie parametrów

for param in model.parameters():
    param.requires_grad = False

for param in model.classifier.parameters():
    param.requires_grad = True

In [19]:
train_data = [torch.tensor(x[0]) for x in tqdm(image_data_set)]

labels = [torch.zeros(21)[x[1]] for x in tqdm(image_data_set)]

100%|██████████| 10849/10849 [03:25<00:00, 52.72it/s]
100%|██████████| 10849/10849 [01:58<00:00, 91.87it/s]


In [18]:
# trening głowicy
criterion = torch.nn.CrossEntropyLoss()

optimizer = torch.optim.Adam(filter(lambda p: p.requires_grad, model.parameters()), lr=0.001)

num_epochs = 10

losses = []



for epoch in tqdm(range(num_epochs)):
    running_loss = 0
    for data in tqdm(image_data_set):
        image, label = data
        optimizer.zero_grad()


        inputs = extractor(images=image, return_tensors="pt")
        outputs = model(**inputs).logits

        one_hot = torch.zeros(21)
        one_hot[label] = 1
        loss = criterion(outputs, one_hot.reshape(outputs.shape))
        loss.backward()
        optimizer.step()
        running_loss += loss.item()

    al = running_loss / len(image_data_set)
    losses.append(al)

plt.plot(losses)
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.show()

  0%|          | 0/10 [00:00<?, ?it/s]
  0%|          | 0/10849 [00:00<?, ?it/s][A
  0%|          | 1/10849 [00:00<2:37:23,  1.15it/s][A
  0%|          | 2/10849 [00:01<2:06:03,  1.43it/s][A
  0%|          | 3/10849 [00:02<1:57:36,  1.54it/s][A
  0%|          | 4/10849 [00:02<1:50:07,  1.64it/s][A
  0%|          | 5/10849 [00:03<1:44:49,  1.72it/s][A
  0%|          | 6/10849 [00:03<1:41:44,  1.78it/s][A
  0%|          | 7/10849 [00:04<1:37:39,  1.85it/s][A
  0%|          | 8/10849 [00:04<1:37:40,  1.85it/s][A
  0%|          | 9/10849 [00:05<1:36:40,  1.87it/s][A
  0%|          | 10/10849 [00:05<1:35:29,  1.89it/s][A
  0%|          | 11/10849 [00:06<1:35:07,  1.90it/s][A
  0%|          | 12/10849 [00:06<1:34:15,  1.92it/s][A
  0%|          | 13/10849 [00:07<1:35:24,  1.89it/s][A
  0%|          | 14/10849 [00:07<1:36:31,  1.87it/s][A
  0%|          | 15/10849 [00:08<1:35:50,  1.88it/s][A
  0%|          | 16/10849 [00:08<1:33:39,  1.93it/s][A
  0%|          | 17/10849 [00

KeyboardInterrupt: 

In [7]:
for image, label in image_data_set:
    # Pextractor
    inputs = extractor(images=image, return_tensors="pt")

    # inferencja
    logits = model(**inputs).logits
    probs = torch.nn.functional.softmax(logits, dim=-1)

    # klasfikacja
    predicted_class = torch.argmax(probs).item()

    print("Przewidywana klasa:", predicted_class, "Prawdziwa klasa:", label)


Przewidywana klasa: 1 Prawdziwa klasa: 1
Przewidywana klasa: 1 Prawdziwa klasa: 1
Przewidywana klasa: 1 Prawdziwa klasa: 1
Przewidywana klasa: 0 Prawdziwa klasa: 1
Przewidywana klasa: 0 Prawdziwa klasa: 1
Przewidywana klasa: 1 Prawdziwa klasa: 1
Przewidywana klasa: 1 Prawdziwa klasa: 1
Przewidywana klasa: 0 Prawdziwa klasa: 1
Przewidywana klasa: 0 Prawdziwa klasa: 1
Przewidywana klasa: 1 Prawdziwa klasa: 1
Przewidywana klasa: 0 Prawdziwa klasa: 1
Przewidywana klasa: 1 Prawdziwa klasa: 1
Przewidywana klasa: 1 Prawdziwa klasa: 1
Przewidywana klasa: 0 Prawdziwa klasa: 1
Przewidywana klasa: 0 Prawdziwa klasa: 1


KeyboardInterrupt: 