In [13]:
import pandas as pd
from os import listdir
from pandas.errors import EmptyDataError
from fairseq.models.roberta import RobertaModel, RobertaHubInterface
from fairseq import hub_utils
import os

# Prepare data

In [9]:
# First prepare data (finally output of it will go to another folder, data is too large for github)

In [2]:
wyborcza_articles = []
for filename in listdir('data/wyborcza/articles'):
    try:
        wyborcza_articles.append(pd.read_csv('data/wyborcza/articles/'+filename, header = None))
    except EmptyDataError:
        pass # empty file
wyborcza_articles = pd.concat(wyborcza_articles)
wyborcza_articles.columns = ['url', 'title', 'short', 'long', 'img', 'com']
wyborcza_articles['short'] = wyborcza_articles['short'].str.replace(r'(.|..)\n', '')
wyborcza_articles = wyborcza_articles[~wyborcza_articles['long'].str.contains('W odpowiedzi do @', na = False) == True]
wyborcza_articles = wyborcza_articles[['title', 'short', 'long']]
wyborcza_articles = wyborcza_articles.dropna()
wyborcza_articles = wyborcza_articles[wyborcza_articles['title'].duplicated() == False]
wyborcza_articles = wyborcza_articles[wyborcza_articles['short'] != '0']

In [3]:
gazeta_articles = []
for filename in listdir('data/gazeta/articles'):
    try:
        gazeta_articles.append(pd.read_csv('data/gazeta/articles/'+filename, header = None))
    except EmptyDataError:
        pass # empty file
gazeta_articles = pd.concat(gazeta_articles)
gazeta_articles.columns = ['url', 'title', 'short', 'long', 'img', 'com']
gazeta_articles = gazeta_articles[['title', 'short', 'long']]
gazeta_articles = gazeta_articles[gazeta_articles['title'].duplicated() == False]

# Process data

In [None]:
# Before running below commands create sibling directory do analiza_mediow_pl 'my_roberta' with 'my_data' 
# and 'my_models' dirs

In [4]:
# all data
agora = pd.concat([
    gazeta_articles,
    wyborcza_articles,
]).astype(str).values.flatten()

In [5]:
agora[:2]

array(['Lider Konfederacji "słuchał z zamkniętymi oczami". Korwin-Mikke: Ja nie spałem, wrzeszczałem z pięć razy',
       'We wtorek w mediach pojawiły się zdjęcia z inauguracyjnego posiedzenia Sejmu IX kadencji. Uwagę przykuło zwłaszcza jedno - to, na którym Janusz Korwin-Mikke wygląda tak, jakby spał. Poseł Konfederacji Wolność i Niepodległość przekonuje, że wcale nie uciął sobie drzemki.'],
      dtype=object)

In [6]:
test_end = int(0.03 * len(agora))
valid_end = int(0.06 * len(agora))

In [7]:
agora_test = agora[:test_end]
agora_valid = agora[test_end:valid_end]
agora_train = agora[valid_end:]

In [8]:
with open('../my_roberta/my_data/agora.test.raw', 'w') as f:
    f.write('\n'.join(agora_test))
with open('../my_roberta/my_data/agora.valid.raw', 'w') as f:
    f.write('\n'.join(agora_valid))
with open('../my_roberta/my_data/agora.train.raw', 'w') as f:
    f.write('\n'.join(agora_train))

# Train

In [None]:
#             !!! Those commands run in my_roberta directory !!! #

In [None]:
# encode (copy paste to terminal, my_roberta dir)
for SPLIT in train valid test; do \
    python -m examples.roberta.multiprocessing_bpe_encoder \
        --encoder-json '../analiza_mediow_pl/roberta_meta/encoder.json' \
        --vocab-bpe '../analiza_mediow_pl/roberta_meta/vocab.bpe' \
        --inputs my_data/agora.${SPLIT}.raw \
        --outputs my_data/agora.${SPLIT}.bpe \
        --keep-empty \
        --workers 60; \
done

In [None]:
# binarize (copy paste to terminal, my_roberta dir)
fairseq-preprocess \
    --only-source \
    --srcdict '../analiza_mediow_pl/roberta_meta/dict.txt' \
    --trainpref my_data/agora.train.bpe \
    --validpref my_data/agora.valid.bpe \
    --testpref my_data/agora.test.bpe \
    --destdir data-bin/agora \
    --workers 60

In [None]:
# train (copy paste to terminal, my_doberta dir)
fairseq-train --fp16 'data-bin/agora' \
    --task masked_lm --criterion masked_lm \
    --arch roberta_base --sample-break-mode complete --tokens-per-sample 512 \
    --optimizer adam --adam-betas '(0.9,0.98)' --adam-eps 1e-6 --clip-norm 0.0 \
    --lr-scheduler polynomial_decay --lr 0.0005 --warmup-updates 50 \
    --total-num-update 500 \
    --dropout 0.1 --attention-dropout 0.1 --weight-decay 0.01 \
    --max-sentences 8 --update-freq 32 \
    --max-update 500 --log-format simple --log-interval 1 \
    --restore-file roberta --skip-invalid-size-inputs-valid-test

# Check 

In [None]:
# download from https://github.com/sdadas/polish-nlp-resources/releases/download/roberta/roberta.zip
# extract and place it above this repo

In [37]:
# base pl model trained on wikipedia 
model_path = "/roberta"
loaded = hub_utils.from_pretrained(
    model_name_or_path=model_path,
    checkpoint_file="checkpoint_best.pt",
    data_name_or_path=model_path,
    bpe="sentencepiece",
    sentencepiece_vocab=os.path.join(model_path, "sentencepiece.model"),
    load_checkpoint_heads=True,
    archive_map=RobertaModel.hub_models(),
    cpu=True
)
roberta = RobertaHubInterface(loaded['args'], loaded['task'], loaded['models'][0])

In [55]:
roberta.fill_mask('Bolesław chrobry urodził się w <mask>.', topk = 1)

[('Bolesław chrobry urodził się w Krakowie.',
  0.16482116281986237,
  ' Krakowie')]

In [48]:
# my model
agora_roberta = RobertaModel.from_pretrained('/my_roberta/checkpoints', 'checkpoint_best.pt', '/my_roberta/my_data/agora')

1042301B [00:00, 1496394.07B/s]
456318B [00:00, 639821.92B/s]


In [52]:
agora_roberta.fill_mask('Bolesław chrobry urodził się w  <mask>.', topk = 10)

[('Bolesław chrobry urodził się w <unk>.', 0.7465916872024536, '<unk>'),
 ('Bolesław chrobry urodził się w �.', 0.03076404519379139, '�'),
 ('Bolesław chrobry urodził się w z.', 0.024779153987765312, 'z'),
 ('Bolesław chrobry urodził się w ..', 0.02005680277943611, '.'),
 ('Bolesław chrobry urodził się w ,.', 0.01749323680996895, ','),
 ('Bolesław chrobry urodził się w j.', 0.013219810090959072, 'j'),
 ('Bolesław chrobry urodził się w y.', 0.012879307381808758, 'y'),
 ('Bolesław chrobry urodził się w �.', 0.01143086701631546, '�'),
 ('Bolesław chrobry urodził się w w.', 0.011288624256849289, 'w')]

In [54]:
agora_roberta.fill_mask('Polska jest  <mask>', topk = 10)

[('Polska jest <unk>', 0.74659264087677, '<unk>'),
 ('Polska jest �', 0.03076387755572796, '�'),
 ('Polska jest z', 0.02477909065783024, 'z'),
 ('Polska jest .', 0.020056752488017082, '.'),
 ('Polska jest ,', 0.01749320887029171, ','),
 ('Polska jest j', 0.013219725340604782, 'j'),
 ('Polska jest y', 0.012879274785518646, 'y'),
 ('Polska jest �', 0.011430815793573856, '�'),
 ('Polska jest w', 0.01128859631717205, 'w')]