In [1]:
import os

from transformers import AutoTokenizer, DataCollatorForTokenClassification, \
AutoModelForTokenClassification, AutoModelForMaskedLM, TrainingArguments, Trainer,AutoModelForSequenceClassification,DataCollatorWithPadding
import evaluate
import torch
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from datasets import load_dataset,Dataset, DatasetDict


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Load model
model_checkpoint = "mor40/BulBERT-chitanka-model"
model_raw = AutoModelForSequenceClassification.from_pretrained(model_checkpoint, num_labels=2)
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at mor40/BulBERT-chitanka-model and are newly initialized: ['bert.pooler.dense.weight', 'bert.pooler.dense.bias', 'classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [3]:
#@title Load Dataset
hf_dataset = load_dataset("bgglue/bgglue","fakenews")
hf_dataset

DatasetDict({
    train: Dataset({
        features: ['title', 'content', 'date_published', 'url', 'label'],
        num_rows: 1990
    })
    validation: Dataset({
        features: ['title', 'content', 'date_published', 'url', 'label'],
        num_rows: 221
    })
    test: Dataset({
        features: ['title', 'content', 'date_published', 'url', 'label'],
        num_rows: 701
    })
})

In [4]:
"Positive: " + str(hf_dataset["train"]["label"].count(1)) + " Negative: " + str(hf_dataset["train"]["label"].count(0))

'Positive: 661 Negative: 1329'

In [5]:
hf_dataset["train"][1]['title']

'Руска медия ни припомни предсказанията на Ванга и Варсофоний за Сирия! Сирия ще падне и...'

In [15]:
hf_dataset["train"][1]['content']

'Медията esoreiter ни припомня за предсказанията на баба Ванга и на монаха Варсофоний. Става на въпрос за това, което са предрекли по адрес на Сирия. Първо да разгледаме какво е казала нашата пророчица. Според нея Сирия ще падне в краката на победителя, но той няма да е, който очакваме. Падането на Дамаск ще е знак, че на света идва нов Месия. Ванга е предрекла и, че древно учение ще се върне на почит след падането на Сирия. То ще донесе мир и хората ще живеят добре. Предсказанието на монаха Варсофоний, който след себе си е оставил няколко точни прогнози за бъдещето, една от които за случващото се в Украйна и за Сирия. „На север от Таврида (б.а. Кримския полуостров) и на изток от Средиземно море ще се лее много кръв. Злото ще дойде от Запада, но ще може да се пребори“, прогнозирал монахът.'

In [16]:
hf_dataset["train"][1]['date_published']

'2017-04-12 12:24:00'

In [17]:
hf_dataset["train"][1]['url']

'http://spodeli.eu/ruska-mediya-ni-pripomni-predskazaniyata-na-vanga-i-varsofoniy-za-siriya-siriya-shte-padne-i-articles-15943.html'

In [6]:
def get_domain(example):
    example["domain"] =example["url"].split("/")[2]
    return example

hf_dataset = hf_dataset.map(get_domain)

In [7]:
def concatenate_features(example):
    example["features"] = example["domain"] + " " + example['title'] + " " + example["content"]
    return example

hf_dataset = hf_dataset.map(concatenate_features)

In [8]:
from imblearn.over_sampling import RandomOverSampler


X = hf_dataset["train"]['features']
y = hf_dataset["train"]['label']
X_arr = np.array(X).reshape(-1, 1)
# Initialize the RandomOverSampler
oversampler = RandomOverSampler(sampling_strategy='auto', random_state=42)

# Apply oversampling to your data
X_resampled, y_resampled = oversampler.fit_resample(X_arr, y)
flattened_X = [item for sublist in X_resampled for item in sublist]

# Now you have X_resampled and y_resampled with oversampled data
result_dataset = pd.DataFrame({"input_text": flattened_X, "labels":y_resampled })
result_dataset

Unnamed: 0,input_text,labels
0,"petel.bg Petel.bg - новини - ""България днес"": ...",1
1,spodeli.eu Руска медия ни припомни предсказани...,0
2,www.dunavmost.bg:443 Направиха Ванга почетен г...,1
3,www.ekipnews.com Коя е мистериозната баба Ванг...,0
4,bulbox.net Рецептите на Баба Ванга срещу безсъ...,0
...,...,...
2653,offnews.bg Деси Тенекеджиева снима филма за Лю...,1
2654,news.data.bg Почина дъщерята на Ванга / Новини...,1
2655,skafeto.com Завеща ни го Ванга. Чудотворната й...,1
2656,www.blitz.bg Пророчествата се сбъдват! Ванга: ...,1


In [9]:
result_dataset["labels"].value_counts()

labels
1    1329
0    1329
Name: count, dtype: int64

In [11]:
train_dataset = Dataset.from_pandas(result_dataset)

In [12]:
def tokenize(batch):
 return tokenizer(batch["input_text"],  truncation=True)

train_tokenzied = train_dataset.map(tokenize, batched=True, batch_size=None).remove_columns(["input_text"])

Map: 100%|██████████| 2658/2658 [00:05<00:00, 458.84 examples/s]


In [34]:
train_tokenzied

Dataset({
    features: ['labels', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 2658
})

In [26]:
hf_dataset["validation"]

Dataset({
    features: ['title', 'content', 'date_published', 'url', 'label', 'domain', 'features'],
    num_rows: 221
})

In [16]:
def tokenize(batch):
 return tokenizer(batch["features"],  truncation=True)

validation_tokenized = hf_dataset["validation"].map(tokenize, batched=True, batch_size=None).remove_columns(['title', 'content', 'date_published', 'url', 'domain', 'features'])
validation_tokenized =validation_tokenized.rename_column("label","labels")

In [17]:
validation_tokenized

Dataset({
    features: ['labels', 'input_ids', 'token_type_ids', 'attention_mask'],
    num_rows: 221
})

In [18]:
!huggingface-cli login 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

usage: huggingface-cli <command> [<args>]
huggingface-cli: error: unrecognized arguments: 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


In [19]:
#@title Define model training args
accuracy = evaluate.load("accuracy")
def compute_metrics(eval_pred):
    predictions, labels = eval_pred
    predictions = np.argmax(predictions, axis=1)
    return accuracy.compute(predictions=predictions, references=labels)


data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

args = TrainingArguments(
    "BulBERT-fakenews-5epochs",
    evaluation_strategy="epoch",
    save_strategy="epoch",
    learning_rate=2e-5,
    num_train_epochs=5,
    weight_decay=0.01,
    per_device_train_batch_size=32,
    per_device_eval_batch_size=32,
    push_to_hub=True,
)


In [20]:
#@title Train
trainer = Trainer(
    model=model_raw,
    args=args,
    train_dataset=train_tokenzied,
    eval_dataset=validation_tokenized,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
    tokenizer=tokenizer,
)
trainer.train()

trainer.push_to_hub(commit_message="Training complete")

  0%|          | 0/420 [00:00<?, ?it/s]You're using a BertTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.
  0%|          | 2/420 [03:36<12:42:35, 109.46s/it]