Zmiana na safetensors

---



In [None]:
pip install safetensors transformers

In [None]:
from transformers import VisionEncoderDecoderModel

# Załaduj model w formacie bin
model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base")

In [None]:
from safetensors.torch import save_file

# Pobierz wagi modelu (parameters)
state_dict = model.state_dict()

# Zapisz wagi modelu w formacie safetensors
save_file(state_dict, "donut-base.safetensors")


In [None]:
from safetensors.torch import load_file
from transformers import VisionEncoderDecoderModel

# Wczytaj wagi modelu z pliku safetensors
state_dict = load_file("donut-base.safetensors")

# Załaduj model z wagami safetensors
model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base", state_dict=state_dict)


Załadowanie modelu safetensors

In [None]:
pip install transformers safetensors torch

In [None]:
import torch
from transformers import VisionEncoderDecoderModel, DonutProcessor
from safetensors.torch import load_file
from PIL import Image

# Ścieżka do folderu, w którym znajdują się lokalne pliki modelu i procesora
model_path = "./path_to_model"
safetensors_weights_path = "./path_to_model/donut-base.safetensors"
processor_path = "./path_to_processor"

# Załaduj procesor do przetwarzania obrazów (w tym przypadku DonutProcessor)
processor = DonutProcessor.from_pretrained(processor_path)

# Załaduj wagi modelu z pliku safetensors, mapując je na CPU
state_dict = load_file(safetensors_weights_path, device="cpu")

# Załaduj model z lokalnych wag na CPU
model = VisionEncoderDecoderModel.from_pretrained(model_path, state_dict=state_dict)

# Wymuszenie użycia CPU
device = torch.device("cpu")
model.to(device)

# Przykładowa analiza obrazu
image_path = "./path_to_image/sample_image.png"
image = Image.open(image_path)

# Przygotuj dane wejściowe na CPU
pixel_values = processor(image, return_tensors="pt").pixel_values
pixel_values = pixel_values.to(device)

# Wygeneruj wynik (analiza dokumentu)
generated_ids = model.generate(pixel_values)

# Zdekoduj wynik do formy tekstowej
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print("Wynik:", generated_text)


Uruchomienie za pomocą bin

In [None]:
pip install transformers torch

In [None]:
import torch
from transformers import VisionEncoderDecoderModel, DonutProcessor
from PIL import Image

# Ścieżka do folderu, w którym znajdują się lokalne pliki modelu
model_path = "./path_to_model"
processor_path = "./path_to_processor"
bin_weights_path = "./path_to_model/pytorch_model.bin"  # Ścieżka do pliku wag .bin

# Załaduj procesor do przetwarzania obrazów (w tym przypadku DonutProcessor)
processor = DonutProcessor.from_pretrained(processor_path)

# Załaduj model z lokalnych plików i wag .bin
model = VisionEncoderDecoderModel.from_pretrained(model_path)

# Opcjonalnie: załaduj wagi z pliku .bin (jeśli nie są automatycznie załadowane z folderu)
state_dict = torch.load(bin_weights_path, map_location=torch.device('cpu'))  # Wymuszenie załadowania wag na CPU
model.load_state_dict(state_dict)

# Ustaw urządzenie na CPU (domyślnie jeśli brak GPU)
device = torch.device("cpu")
model.to(device)

# Przykładowa analiza obrazu
image_path = "./path_to_image/sample_image.png"
image = Image.open(image_path)

# Przygotuj dane wejściowe
pixel_values = processor(image, return_tensors="pt").pixel_values
pixel_values = pixel_values.to(device)

# Wygeneruj wynik (tutaj zakładamy, że model jest używany do analizy dokumentu, np. Donut do ekstrakcji tekstu z obrazu)
generated_ids = model.generate(pixel_values)

# Zdekoduj wynik do formy tekstowej
generated_text = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print("Wynik:", generated_text)
