# 1) Loading corpus and queries

In [1]:
from datasets import load_dataset

ds = load_dataset("clarin-knext/fiqa-pl", "corpus")
ds2 = load_dataset("clarin-knext/fiqa-pl", "queries")
corpus = ds['corpus'].to_pandas()
queries = ds2['queries'].to_pandas()

In [2]:
queries.head()

Unnamed: 0,_id,title,text
0,0,,Co jest uważane za wydatek służbowy w podróży ...
1,4,,Wydatki służbowe - ubezpieczenie samochodu pod...
2,5,,Rozpoczęcie nowego biznesu online
3,6,,„Dzień roboczy” i „termin płatności” rachunków
4,7,,Nowy właściciel firmy – Jak działają podatki d...


# 2) Creating a dataset of positive and negative sentence pairs

First we will load the dataset that conects queries with corpus by id, question and answer.

In [3]:
ds3 = load_dataset("clarin-knext/fiqa-pl-qrels")
ds3

DatasetDict({
    train: Dataset({
        features: ['query-id', 'corpus-id', 'score'],
        num_rows: 14166
    })
    validation: Dataset({
        features: ['query-id', 'corpus-id', 'score'],
        num_rows: 1238
    })
    test: Dataset({
        features: ['query-id', 'corpus-id', 'score'],
        num_rows: 1706
    })
})

In [4]:
validation = ds3['validation'].to_pandas()
train = ds3['train'].to_pandas()
test = ds3['test'].to_pandas()

In [5]:
validation.head()

Unnamed: 0,query-id,corpus-id,score
0,1,14255,1
1,2,308938,1
2,3,296717,1
3,3,100764,1
4,3,314352,1


let's see the question and answer

In [6]:
print("Question: ", queries[queries['_id'] == '1']['text'].iloc[0])
print("Answer: ", corpus[corpus['_id'] == '14255']['text'].iloc[0])

Question:  Zgłaszanie wydatków biznesowych dla firmy bez dochodu
Answer:  Tak, możesz ubiegać się o potrącenia biznesowe, jeśli nie uzyskujesz jeszcze żadnych dochodów. Ale najpierw powinieneś zdecydować, jaką strukturę chcesz mieć dla swojej firmy. Albo struktura firmy, albo jednoosobowy przedsiębiorca lub spółka osobowa. Struktura firmy Jeśli wybierzesz strukturę firmy (która jest droższa w przygotowaniu), będziesz ubiegać się o potrącenia, ale bez dochodu. Więc ponosiłbyś stratę i kontynuowałbyś straty, dopóki dochód z firmy nie przekroczy twoich wydatków. Straty te pozostaną więc w firmie i będą mogły zostać przeniesione na przyszłe lata dochodowe, kiedy będziesz osiągać zyski, aby zrekompensować te zyski. Więcej informacji można znaleźć w ATO – Straty podatkowe firmy. Przedsiębiorca jednoosobowy o strukturze partnerskiej Jeśli zdecydujesz się być jednoosobowym przedsiębiorcą lub spółką osobową, a Twoja firma ponosi straty, musisz sprawdzić zasady dotyczące strat niekomercyjnych, a

Loading model

In [7]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
from torch import nn
import torch

trained_model = True
model_path = ""
model = None

if trained_model:
    model_path = "../trained_model"
    model = AutoModelForSequenceClassification.from_pretrained(
        model_path
        ).to("cuda")
else:
    model_path = "clarin-knext/herbert-base-reranker-msmarco"
    model = AutoModelForSequenceClassification.from_pretrained(
        model_path
        ).to("cuda")
    model.classifier = nn.Linear(768, 2, device=model.device)
    model.num_labels = 2
    model.config.num_labels = 2


tokenizer = AutoTokenizer.from_pretrained(model_path)
features = tokenizer(['Jakie miasto jest stolica Polski?', 'Stolicą Polski jest Warszawa.'],  padding=True, truncation=True, return_tensors="pt").to("cuda")
model.eval()
with torch.no_grad():
    scores = model(**features).logits
    print(scores)

tensor([[ 0.7578, -0.6469],
        [-0.7338,  1.0468]], device='cuda:0')


In [8]:
separator = tokenizer.sep_token
separator

'</s>'

Preparing dataset

In [9]:
import pandas as pd

big_df = pd.concat([validation,train,test]).reset_index(drop=True)

Positive sentences

In [10]:
list_ = []

for index, row in big_df.iterrows():

  corpus_id = row['corpus-id']
  query_id = row['query-id']

  list_.append({
    'sentence': queries[queries['_id'] == str(query_id)]['text'].iloc[0] + separator + corpus[corpus['_id'] == str(corpus_id)]['text'].iloc[0],
    'label': 1
  })

list_[:5]

[{'sentence': 'Zgłaszanie wydatków biznesowych dla firmy bez dochodu</s>Tak, możesz ubiegać się o potrącenia biznesowe, jeśli nie uzyskujesz jeszcze żadnych dochodów. Ale najpierw powinieneś zdecydować, jaką strukturę chcesz mieć dla swojej firmy. Albo struktura firmy, albo jednoosobowy przedsiębiorca lub spółka osobowa. Struktura firmy Jeśli wybierzesz strukturę firmy (która jest droższa w przygotowaniu), będziesz ubiegać się o potrącenia, ale bez dochodu. Więc ponosiłbyś stratę i kontynuowałbyś straty, dopóki dochód z firmy nie przekroczy twoich wydatków. Straty te pozostaną więc w firmie i będą mogły zostać przeniesione na przyszłe lata dochodowe, kiedy będziesz osiągać zyski, aby zrekompensować te zyski. Więcej informacji można znaleźć w ATO – Straty podatkowe firmy. Przedsiębiorca jednoosobowy o strukturze partnerskiej Jeśli zdecydujesz się być jednoosobowym przedsiębiorcą lub spółką osobową, a Twoja firma ponosi straty, musisz sprawdzić zasady dotyczące strat niekomercyjnych, aby

Negative sentences

In [11]:
len(list_)

17110

In [12]:
for index, row in big_df.iterrows():

  corpus_id = row['corpus-id']
  query_id = row['query-id']

  for i in range(3):
    
    index = (corpus_id + i)%len(corpus)
    if corpus.iloc[index]['_id'] != corpus_id:
      list_.append({
        'sentence': queries[queries['_id'] == str(query_id)]['text'].iloc[0] + separator + corpus.iloc[index]['text'],
        'label': 0
      })

In [13]:
len(list_)

68440

# 3) Training a text classifier

In [14]:
from sklearn.model_selection import train_test_split
from datasets import Dataset

df = pd.DataFrame(list_, columns=['sentence', 'label'])

temp, test = train_test_split(df, test_size=0.2, random_state=2137)
train, eval = train_test_split(temp, test_size=0.25, random_state=2137)

train = Dataset.from_pandas(train)
train = train.class_encode_column("label")
test = Dataset.from_pandas(test)
test = test.class_encode_column("label")
eval = Dataset.from_pandas(eval)
eval = eval.class_encode_column("label")

train= train.rename_column("__index_level_0__", "input_ids")
test = test.rename_column("__index_level_0__", "input_ids")
eval = eval.rename_column("__index_level_0__", "input_ids")

Stringifying the column:   0%|          | 0/41064 [00:00<?, ? examples/s]

Casting to class labels:   0%|          | 0/41064 [00:00<?, ? examples/s]

Stringifying the column:   0%|          | 0/13688 [00:00<?, ? examples/s]

Casting to class labels:   0%|          | 0/13688 [00:00<?, ? examples/s]

Stringifying the column:   0%|          | 0/13688 [00:00<?, ? examples/s]

Casting to class labels:   0%|          | 0/13688 [00:00<?, ? examples/s]

In [15]:
print("Train length: ", len(train), " Test length: ", len(test), " Evaluation: ", len(eval))

Train length:  41064  Test length:  13688  Evaluation:  13688


In [16]:
train[0]

{'sentence': 'Co to jest odwrócenie niedźwiedziego paska?</s>Depilacja laserowa nie jest trwała, trzeba wykonać kilka sesji, aby usunąć wszystkie włosy, każda sesja kosztuje setki. A potem może to potrwać tylko kilka lat, zanim włosy odrosną. Nie jest wart swojej ceny, chyba że masz tak dużą kwotę, że możesz wyrzucić kilka tysięcy. Jak powiedzieli inni, albo kupuj hurtowo ostrza, albo kup brzytwę. Będą znacznie bardziej ekonomiczne zarówno w krótkim, jak i długim okresie.',
 'label': 0,
 'input_ids': 51985}

In [17]:
from transformers import Trainer, TrainingArguments
import numpy as np

# define training arguments
training_args = TrainingArguments(
    output_dir="training",
    num_train_epochs=3,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    per_device_eval_batch_size=24,
    per_device_train_batch_size=24
)

def compute_metric(eval_prediction):
    predictions, labels = eval_prediction
    predictions = np.argmax(predictions, axis=-1)
    accuracy = np.mean(predictions == labels)
    return {"accuracy": accuracy}



In [18]:
def tokenizer_fn(batch):
    return tokenizer(batch['sentence'], truncation=True, padding=True)

tokenized_train = train.map(tokenizer_fn, batched=True)
tokenized_eval = eval.map(tokenizer_fn, batched=True)
tokenized_test = test.map(tokenizer_fn, batched=True)

Map:   0%|          | 0/41064 [00:00<?, ? examples/s]

Map:   0%|          | 0/13688 [00:00<?, ? examples/s]

Map:   0%|          | 0/13688 [00:00<?, ? examples/s]

Custom trainer with weighted classes

In [19]:
class CustomTrainer(Trainer):
    def compute_loss(self, model, inputs, return_outputs=False, num_items_in_batch = None):
        labels = inputs.pop("labels")
        # forward pass
        outputs = model(**inputs)
        logits = outputs.get("logits")
        # compute custom loss (suppose one has 2 labels with different weights)
        loss_fct = nn.CrossEntropyLoss(weight=torch.tensor([1.0, 5.0], device=model.device))
        loss = loss_fct(logits.view(-1, self.model.config.num_labels), labels.view(-1))
        return (loss, outputs) if return_outputs else loss

In [20]:
trainer = CustomTrainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_eval,
    tokenizer=tokenizer,
    compute_metrics=compute_metric
)

  trainer = CustomTrainer(


In [None]:
#trainer.train(resume_from_checkpoint = True)

In [21]:
tokenized_eval

Dataset({
    features: ['sentence', 'label', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 13688
})

# 4) Reporting results

In [25]:
trainer.evaluate()

  0%|          | 0/571 [00:00<?, ?it/s]

{'eval_loss': 0.19881130754947662,
 'eval_model_preparation_time': 0.004,
 'eval_accuracy': 0.9720923436586791,
 'eval_runtime': 381.2239,
 'eval_samples_per_second': 35.905,
 'eval_steps_per_second': 1.498}

# 5) Re-ranking

#### Find passage candidates using FTS, where the query is the question.