# Notebook for running predictions on text data

In [1]:
from transformers import AutoTokenizer, AutoModelForTokenClassification
import torch

In [2]:
# load the model and tokenizer
model_name = model_checkpoint = "../../Models/ROB_0.89F1_16B_100000DAT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForTokenClassification.from_pretrained(model_name)

In [None]:
# svaing to hub for readme - did it in this notebook
model.push_to_hub("ROB_0.89F1_16B_100000DAT")
tokenizer.push_to_hub("ROB_0.89F1_16B_100000DAT")

In [3]:
label_list = ['O', 'B-PRODUCT', 'I-PRODUCT']

In [4]:

# takes a splited sentance and returns the labels
def predict_labels(text, model, tokenizer, label_list, max_length=512):

    inputs = tokenizer(text, return_tensors="pt", max_length=max_length, truncation=True, is_split_into_words=True)
    word_ids = inputs.word_ids()
    
    with torch.no_grad():
        outputs = model(**inputs)
        
    logits = outputs.logits
    predictions = torch.argmax(logits, dim=2)
    
    predictions = [label_list[prediction] for prediction in predictions[0]]
    tokenized_tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
    
    labels = ['O'] * len(text)
    
    for idx, (token, prediction) in enumerate(zip(tokenized_tokens, predictions)):
        original_token_index = word_ids[idx]
        if original_token_index is not None:
            labels[original_token_index] = prediction
        
    return labels
    

In [6]:
text = """[URL] <NO_URL> [URL] [TITLE] <NO_TITLE> [TITLE]
[TEXT]  reț mai mic
BÅRSLÖV
Canapea extensibilă 3locuri+șezlong, Tibbleby gri-turcoaz deschis

2.999leiPreț 2999lei
Preț anterior: 3.499lei3499lei
(5)
10
10 ani garanție


Alege husă
Tibbleby gri-turcoaz deschis
BÅRSLÖV Canapea extensibilă 3locuri+șezlong, Tibbleby bej/gri
BÅRSLÖV Canapea extensibilă 3locuri+șezlong, Tibbleby gri-turcoaz deschis
Cum se poate cumpăra
Schimbă magazinul

Livrare la 031301
Disponibil

IKEA Pallady
Click & Collect - Disponibil
Magazin - În stoc
1
Tastează un număr sau folosește săgeata de derulare pentru a schimba cantitatea


Adaugă în coș
Servicii disponibile
Beneficiază de asamblare profesională a p
 [TEXT] """

labels = predict_labels(text.split(), model, tokenizer, label_list)

for token, label in zip(text.split(), labels):
    print(f"{token:10}: {label}")

[URL]     : O
<NO_URL>  : O
[URL]     : O
[TITLE]   : O
<NO_TITLE>: O
[TITLE]   : O
[TEXT]    : O
Treci     : O
la        : O
conţinutul: O
principal : O
ROromână  : O
Livrare   : O
colet     : O
de        : O
la        : O
19,90     : O
lei       : O
031301    : O
Pallady   : O
Ce        : O
cauți?    : O
Sfârșitul : O
meniului  : O
derulant  : O
de        : O
căutare.  : O
Hej!      : O
Autentifică-te: O
Listă     : O
de        : O
cumpărături: O
Coșul     : O
de        : O
cumpărături: O
Produse   : O
Camere    : O
Oferte    : O
speciale  : O
Relații   : O
clienți   : O
Inspirație: O
și        : O
idei      : O
Servicii  : O
Locații   : O
IKEA      : O
Mai       : O
multe     : O
Revino    : O
la        : O
categoria : O
anterioară: O
Canapele  : O
extensibile: O
şi        : O
paturi    : O
futon     : O
Ignoră    : O
listarea  : O
Fotolii   : O
extensibile: O
Componente: O
și        : O
accesorii : O
pentru    : O
canapele  : O
extensibile: O
9         : O
BÅRSLÖV   : O
imagini   :

In [7]:


# inputs = tokenizer(text, return_tensors="pt", max_length=512, truncation=True)
# 
# # Get model predictions
# with torch.no_grad():
#     outputs = model(**inputs)
# 
# # Get the logits (raw prediction scores)
# logits = outputs.logits
# 
# # Apply softmax to get the probabilities
# probabilities = torch.softmax(logits, dim=2)
# 
# # Convert token IDs to words
# tokens = tokenizer.convert_ids_to_tokens(inputs["input_ids"][0])
# word_ids = inputs.word_ids()
# 
# 
# # Get probabilities for O, B-PRODUCT, and I-PRODUCT
# predicted_labels = []
# o_tag_probs = []
# b_product_probs = []
# i_product_probs = []
# 
# for i, token_probs in enumerate(probabilities[0]):
#     o_tag_prob = token_probs[label_list.index('O')].item()
#     b_product_prob = token_probs[label_list.index('B-PRODUCT')].item()
#     i_product_prob = token_probs[label_list.index('I-PRODUCT')].item()
#     
#     # Get the predicted label (max probability)
#     max_prob, predicted_idx = torch.max(token_probs, dim=0)  # Get the max probability and its index
#     predicted_label = label_list[predicted_idx]
# 
#     predicted_labels.append(predicted_label)
#     o_tag_probs.append(o_tag_prob)
#     b_product_probs.append(b_product_prob)
#     i_product_probs.append(i_product_prob)
#     
# 
# for token, label, o_prob, b_prob, i_prob in zip(tokens, predicted_labels, o_tag_probs, b_product_probs, i_product_probs):
#     print(f"{token:10}: {label:10} O: {o_prob:.2f} B-PRODUCT: {b_prob:.2f} I-PRODUCT: {i_prob:.2f}")

[URL]     : O
<NO_URL>  : O
[URL]     : O
[TITLE]   : O
[TITLE]   : O
[TEXT]    : O
The       : O
Best      : O
Sleeper   : O
Sofas     : O
for       : O
Small     : O
Spaces    : O
[TEXT]    : O
