# Import dataset from kaggle

In [None]:
!kaggle datasets download yutkin/corpus-of-russian-news-articles-from-lenta

Downloading corpus-of-russian-news-articles-from-lenta.zip to /content
 98% 569M/584M [00:08<00:00, 81.8MB/s]
100% 584M/584M [00:08<00:00, 72.5MB/s]


In [None]:
!unzip "/content/corpus-of-russian-news-articles-from-lenta.zip"

Archive:  /content/corpus-of-russian-news-articles-from-lenta.zip
  inflating: lenta-ru-news.csv       


# Install Requirements

In [None]:
!pip install transformers 

Collecting transformers
[?25l  Downloading https://files.pythonhosted.org/packages/82/25/89050e69ed53c2a3b7f8c67844b3c8339c1192612ba89a172cf85b298948/transformers-3.0.1-py3-none-any.whl (757kB)
[K     |████████████████████████████████| 757kB 2.7MB/s 
Collecting tokenizers==0.8.0-rc4
[?25l  Downloading https://files.pythonhosted.org/packages/e8/bd/e5abec46af977c8a1375c1dca7cb1e5b3ec392ef279067af7f6bc50491a0/tokenizers-0.8.0rc4-cp36-cp36m-manylinux1_x86_64.whl (3.0MB)
[K     |████████████████████████████████| 3.0MB 9.0MB/s 
Collecting sacremoses
[?25l  Downloading https://files.pythonhosted.org/packages/7d/34/09d19aff26edcc8eb2a01bed8e98f13a1537005d31e95233fd48216eed10/sacremoses-0.0.43.tar.gz (883kB)
[K     |████████████████████████████████| 890kB 33.2MB/s 
Collecting sentencepiece!=0.1.92
[?25l  Downloading https://files.pythonhosted.org/packages/d4/a4/d0a884c4300004a78cca907a6ff9a5e9fe4f090f5d95ab341c53d28cbc58/sentencepiece-0.1.91-cp36-cp36m-manylinux1_x86_64.whl (1.1MB)
[K  

# Main



In [None]:
import pandas as pd
data = pd.read_csv('/content/lenta-ru-news.csv', usecols=['title','text'], skiprows=range(1,6))
data.head()

Unnamed: 0,title,text
0,"Космонавты сомневаются в надежности ""Мира""",Как стало известно агентству Ассошиэйтед Пресс...
1,Взрыв в центре Москвы: пострадало 30 человек,В зале игровых автоматов в третьем ярусе подзе...
2,Япония кредитует Россию на полтора миллиарда д...,Япония приняла решение разморозить кредиты Рос...
3,Британцы отмечают двухлетие смерти Дианы,Британцы отмечают сегодня скорбную дату - втор...
4,Отмытые через Bank of NY деньги не имели отнош...,В понедельник директор департамента внешних св...


In [None]:
len(data)

800970

In [None]:
with open('news-text.txt','w') as f:
    for x in data['text']:
        f.write(str(x))

In [None]:
import numpy as np
pool = 100
bk = int(np.ceil(len(data)/pool))
for i in range(pool):
    filename = "/content/drive/My Drive/RuBART/texts/news-texts[" + str(i) + "].txt"
    with open(filename,'w') as f:
        for text in data['text'][i:i+bk]:
            f.write(str(text) + '\n')

Training tokenizer

In [None]:
import torch

from transformers import BartTokenizer, BartForConditionalGeneration
from IPython.display import display, Markdown

torch_device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(torch_device)

cuda


In [None]:
from tokenizers import ByteLevelBPETokenizer
tokenizer = ByteLevelBPETokenizer()

# Customize training
tokenizer.train(files='/content/news-text.txt', show_progress=True, vocab_size=80000, min_frequency=2, special_tokens=[
    "<s>",
    "<pad>",
    "</s>",
    "<unk>",
    "<mask>"
])

In [None]:
tokenizer.save_model('/content/drive/My Drive/RuBART/RuBART-Lenta')

['/content/drive/My Drive/RuBART/RuBART-Lenta/vocab.json',
 '/content/drive/My Drive/RuBART/RuBART-Lenta/merges.txt']

Shorten text news - 256 token max

In [None]:
mask = []
for text in data['text']:
    mask.append(len(tokenizer(str(text)).input_ids) <= 256)

In [None]:
len(mask)

800970

In [None]:
pd.Series(mask).value_counts()

True     491675
False    309295
dtype: int64

In [None]:
short_data = data.loc[mask]

In [None]:
len(short_data)

491675

In [None]:
short_data.to_csv("/content/drive/My Drive/RuBART/news-short.csv", index=False)

Training BART model

In [4]:
from transformers import BartTokenizerFast
tokenizer = BartTokenizerFast.from_pretrained("/content/drive/MyDrive/Infosystems/RuBART/RuBART-Lenta")

In [5]:
a = tokenizer("Съешь ещё этих мягких французских булочек")
for i in a.input_ids:
    print(tokenizer.decode([i]))

<s>
С
ъ
ешь
 ещё
 этих
 мягких
 французских
 бул
очек
</s>


In [16]:
from transformers import AutoConfig, AutoModel
config = AutoConfig.from_pretrained('facebook/bart-large', vocab_size=80000)
model =  AutoModel.from_config(config)

In [17]:
config

BartConfig {
  "activation_dropout": 0.1,
  "activation_function": "gelu",
  "add_bias_logits": false,
  "add_final_layer_norm": false,
  "architectures": [
    "BartModel",
    "BartForConditionalGeneration",
    "BartForSequenceClassification"
  ],
  "attention_dropout": 0.1,
  "bos_token_id": 0,
  "classif_dropout": 0.1,
  "classifier_dropout": 0.0,
  "d_model": 1024,
  "decoder_attention_heads": 16,
  "decoder_ffn_dim": 4096,
  "decoder_layerdrop": 0.0,
  "decoder_layers": 12,
  "decoder_start_token_id": 2,
  "dropout": 0.1,
  "early_stopping": true,
  "encoder_attention_heads": 16,
  "encoder_ffn_dim": 4096,
  "encoder_layerdrop": 0.0,
  "encoder_layers": 12,
  "eos_token_id": 2,
  "force_bos_token_to_be_generated": false,
  "gradient_checkpointing": false,
  "id2label": {
    "0": "LABEL_0",
    "1": "LABEL_1",
    "2": "LABEL_2"
  },
  "init_std": 0.02,
  "is_encoder_decoder": true,
  "label2id": {
    "LABEL_0": 0,
    "LABEL_1": 1,
    "LABEL_2": 2
  },
  "max_position_embeddi

In [14]:
model.num_parameters()

406291456

In [None]:
%%time
from transformers import LineByLineTextDataset

dataset = LineByLineTextDataset(
    tokenizer=tokenizer,
    file_path="",
    block_size=128,
)


In [None]:
from transformers import DataCollatorForLanguageModeling

data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer, mlm=True, mlm_probability=0.15
)

In [None]:
from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./RuBART",
    overwrite_output_dir=True,
    num_train_epochs=1,
    per_gpu_train_batch_size=64,
    save_steps=10_000,
    save_total_limit=2,
    prediction_loss_only=True,
)

trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=data_collator,
    train_dataset=dataset,
)

In [None]:
%%time
trainer.train()

In [None]:
trainer.save_model("./RuBART")

In [None]:
from transformers import pipeline

fill_mask = pipeline(
    "fill-mask",
    model="./RuBART",
    tokenizer="./RuBART"
)

In [None]:
fill_mask("")

In [None]:
from transformers import BartForConditionalGeneration

config = BartConfig.from_json_file()
model = BartForConditionalGeneration(config=config)

In [None]:
inputs = tokenizer.batch_encode_plus([article_text], max_length=1024, return_tensors='pt')

pp = pprint.PrettyPrinter(indent=0, width=100)

# Generate Summary
summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=100, early_stopping=False)

for g in summary_ids:
    sum = tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False)
    sum = pp.pformat(sum)
    sum = re.sub("'", "", sum)
    sum = re.sub("\(", "", sum)
    sum = re.sub("\)", "", sum)
    
    print(sum)

Cheking model

In [None]:
from transformers import pipeline

summarizer = pipeline(
    "summarization",
    model="/content/drive/My Drive/RuBART/RuBART-Lenta",
    tokenizer="/content/drive/My Drive/RuBART/RuBART-Lenta",
)

In [None]:
summarizer("""ЦИК обработал 100% протоколов. Против поправок выступили 21,27% россиян. 
Поправки к Конституции РФ на общероссийском голосовании поддержали 77,92% проголосовавших, следует из данных Центральной избирательной комиссии (ЦИК) РФ по итогам обработки 100% протоколов.
Согласно данным, опубликованным на экране в информационном центре ЦИК, против поправок к конституции выступили 21,27% проголосовавших. 
Общая явка, по последним данным, составила 65%.
Общероссийское голосование по поправкам к Конституции РФ завершилось на всей территории России в 21:00 мск в среду. 
""")