In [2]:
import pandas as pd
from os import listdir
from pandas.errors import EmptyDataError
from fairseq.models.roberta import RobertaModel, RobertaHubInterface
from fairseq import hub_utils
import os

# Prepare data

In [3]:
# First prepare data (finally output of it will go to another folder, data is too large for github)

In [4]:
wyborcza_articles = []
for filename in listdir('data/wyborcza/articles'):
    try:
        wyborcza_articles.append(pd.read_csv('data/wyborcza/articles/'+filename, header = None))
    except EmptyDataError:
        pass # empty file
wyborcza_articles = pd.concat(wyborcza_articles)
wyborcza_articles.columns = ['url', 'title', 'short', 'long', 'img', 'com']
wyborcza_articles['short'] = wyborcza_articles['short'].str.replace(r'(.|..)\n', '')
wyborcza_articles = wyborcza_articles[~wyborcza_articles['long'].str.contains('W odpowiedzi do @', na = False) == True]
wyborcza_articles = wyborcza_articles[['title', 'short', 'long']]
wyborcza_articles = wyborcza_articles.dropna()
wyborcza_articles = wyborcza_articles[wyborcza_articles['title'].duplicated() == False]
wyborcza_articles = wyborcza_articles[wyborcza_articles['short'] != '0']

In [5]:
gazeta_articles = []
for filename in listdir('data/gazeta/articles'):
    try:
        gazeta_articles.append(pd.read_csv('data/gazeta/articles/'+filename, header = None))
    except EmptyDataError:
        pass # empty file
gazeta_articles = pd.concat(gazeta_articles)
gazeta_articles.columns = ['url', 'title', 'short', 'long', 'img', 'com']
gazeta_articles = gazeta_articles[['title', 'short', 'long']]
gazeta_articles = gazeta_articles[gazeta_articles['title'].duplicated() == False]

# Process data

In [5]:
# Before running below commands create sibling directory do analiza_mediow_pl 'my_roberta' with 'my_data' 
# and 'my_models' dirs

In [17]:
# all data
agora = ["\n "+x.replace('. ', ' . ').replace(', ', ' , ') for x in pd.concat([
    gazeta_articles,
    wyborcza_articles,
]).astype(str).values.flatten()]

In [18]:
agora[:2]

['\n Lider Konfederacji "słuchał z zamkniętymi oczami" . Korwin-Mikke: Ja nie spałem , wrzeszczałem z pięć razy',
 '\n We wtorek w mediach pojawiły się zdjęcia z inauguracyjnego posiedzenia Sejmu IX kadencji . Uwagę przykuło zwłaszcza jedno - to , na którym Janusz Korwin-Mikke wygląda tak , jakby spał . Poseł Konfederacji Wolność i Niepodległość przekonuje , że wcale nie uciął sobie drzemki.']

In [19]:
test_end = int(0.03 * len(agora))
valid_end = int(0.06 * len(agora))

In [20]:
agora_test = agora[:test_end]
agora_valid = agora[test_end:valid_end]
agora_train = agora[valid_end:]

In [21]:
with open('/my_roberta/my_data/agora/agora.all.raw', 'w') as f:
    f.write('\n'.join(agora))

In [8]:
with open('../my_roberta/my_data/agora.test.raw', 'w') as f:
    f.write('\n'.join(agora_test))
with open('../my_roberta/my_data/agora.valid.raw', 'w') as f:
    f.write('\n'.join(agora_valid))
with open('../my_roberta/my_data/agora.train.raw', 'w') as f:
    f.write('\n'.join(agora_train))

# Train

In [None]:
#             !!! Those commands run in my_roberta directory !!! #

In [None]:
# encode (copy paste to terminal, my_roberta dir)
for SPLIT in train valid test; do \
    python -m examples.roberta.multiprocessing_bpe_encoder \
        --encoder-json '../analiza_mediow_pl/roberta_meta/encoder.json' \
        --vocab-bpe '../analiza_mediow_pl/roberta_meta/vocab.bpe' \
        --inputs my_data/agora.${SPLIT}.raw \
        --outputs my_data/agora.${SPLIT}.bpe \
        --keep-empty \
        --workers 60; \
done

In [None]:
# binarize (copy paste to terminal, my_roberta dir)
fairseq-preprocess \
    --only-source \
    --srcdict '../analiza_mediow_pl/roberta_meta/dict.txt' \
    --trainpref my_data/agora.train.bpe \
    --validpref my_data/agora.valid.bpe \
    --testpref my_data/agora.test.bpe \
    --destdir data-bin/agora \
    --workers 60

In [None]:
# train (copy paste to terminal, my_doberta dir)
fairseq-train --fp16 'data-bin/agora' \
    --task masked_lm --criterion masked_lm \
    --arch roberta_base --sample-break-mode complete --tokens-per-sample 512 \
    --optimizer adam --adam-betas '(0.9,0.98)' --adam-eps 1e-6 --clip-norm 0.0 \
    --lr-scheduler polynomial_decay --lr 0.0005 --warmup-updates 50 \
    --total-num-update 500 \
    --dropout 0.1 --attention-dropout 0.1 --weight-decay 0.01 \
    --max-sentences 8 --update-freq 32 \
    --max-update 500 --log-format simple --log-interval 1 \
    --restore-file '/roberta/checkpoint_best.pt' --skip-invalid-size-inputs-valid-test \
    --save-dir my_models/agora

In [None]:
# Cannot load model parameters from checkpoint /roberta/checkpoint_best.pt; please ensure that the architectures match.

# Check 

In [None]:
# download from https://github.com/sdadas/polish-nlp-resources/releases/download/roberta/roberta.zip
# extract and place it above this repo

In [37]:
# base pl model trained on wikipedia 
model_path = "/roberta"
loaded = hub_utils.from_pretrained(
    model_name_or_path=model_path,
    checkpoint_file="checkpoint_best.pt",
    data_name_or_path=model_path,
    bpe="sentencepiece",
    sentencepiece_vocab=os.path.join(model_path, "sentencepiece.model"),
    load_checkpoint_heads=True,
    archive_map=RobertaModel.hub_models(),
    cpu=True
)
roberta = RobertaHubInterface(loaded['args'], loaded['task'], loaded['models'][0])

In [55]:
roberta.fill_mask('Bolesław chrobry urodził się w <mask>.', topk = 1)

[('Bolesław chrobry urodził się w Krakowie.',
  0.16482116281986237,
  ' Krakowie')]

In [6]:
# my
model_path = "/roberta"
loaded = hub_utils.from_pretrained(
    model_name_or_path="/my_roberta/my_models/agora",
    checkpoint_file="checkpoint_best.pt",
    data_name_or_path="/my_roberta/data-bin/agora",
    bpe="sentencepiece",
    sentencepiece_vocab='/my_roberta/my_data/agora/agora.spm.model.model',
    load_checkpoint_heads=True,
    archive_map=RobertaModel.hub_models(),
    cpu=True
)
agora_roberta = RobertaHubInterface(loaded['args'], loaded['task'], loaded['models'][0])

In [7]:
# my model
#agora_roberta = RobertaModel.from_pretrained('/my_roberta/my_models/agora', 'checkpoint_best.pt', '/my_roberta/data-bin/agora/')

In [13]:
agora_roberta.fill_mask('Bolesław chrobry urodził się w <mask>.', topk = 10)

[('Bolesław chrobry urodził się w..', 0.05014575272798538, '.'),
 ('Bolesław chrobry urodził się w,.', 0.04615228623151779, ','),
 ('Bolesław chrobry urodził się w w.', 0.02777603454887867, ' w'),
 ('Bolesław chrobry urodził się w na.', 0.022864116355776787, ' na'),
 ('Bolesław chrobry urodził się w i.', 0.01340454164892435, ' i'),
 ('Bolesław chrobry urodził się w z.', 0.013038057833909988, ' z'),
 ('Bolesław chrobry urodził się w się.', 0.012881123460829258, ' się'),
 ('Bolesław chrobry urodził się wa.', 0.010829989798367023, 'a'),
 ('Bolesław chrobry urodził się w -.', 0.010078019462525845, ' -')]

In [9]:
agora_roberta.fill_mask('Polska jest<mask>', topk = 10)

[('Polska jest.', 0.05014567822217941, '.'),
 ('Polska jest,', 0.046152062714099884, ','),
 ('Polska jest w', 0.027776073664426804, ' w'),
 ('Polska jest na', 0.0228640828281641, ' na'),
 ('Polska jest i', 0.013404502533376217, ' i'),
 ('Polska jest z', 0.013038032688200474, ' z'),
 ('Polska jest się', 0.012881110422313213, ' się'),
 ('Polska jesta', 0.010829963721334934, 'a'),
 ('Polska jest -', 0.010077985003590584, ' -')]

# Train

In [None]:
# https://github.com/google/sentencepiece
# https://github.com/pytorch/fairseq/issues/1186

In [None]:
# make spm model
spm_train \
    --input=my_data/agora/agora.all.raw \
    --model_prefix=my_data/agora/agora.spm.model \
    --vocab_size=50000

In [None]:
# encode
for SPLIT in train valid test; do \
    cat my_data/agora/agora.${SPLIT}.raw | \
    spm_encode --model=my_data/agora/agora.spm.model.model --output_format=piece > \
    my_data/agora/agora.${SPLIT}.bpe
done

In [None]:
# binarize 
fairseq-preprocess \
    --only-source \
    --trainpref my_data/agora/agora.train.bpe \
    --validpref my_data/agora/agora.valid.bpe \
    --testpref my_data/agora/agora.test.bpe \
    --destdir data-bin/agora \
    --workers 60