In [1]:
import pandas as pd
import numpy as np
from tqdm.notebook import tqdm

from transformers import AutoTokenizer, AutoModel

from src.data.dataset import GlossSeq2PolishDataset
from src.data.utils import iter_dto_as_dicts
from src.settings import PREPROCESSED_DIR, EMBEDDINGS_DIR

tqdm.pandas()

In [2]:
dataset = GlossSeq2PolishDataset()

In [3]:
polish_annotations = (record.polish_annotation for record in dataset)
polish_df = pd.DataFrame.from_records(iter_dto_as_dicts(polish_annotations))
polish_df

Unnamed: 0,start,end,text,doc_filepath,video_filename,task_label
0,39040,41120,"Myślę, że mam inny pomysł, można?",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15
1,41120,49680,"Chyba ten znak mówi, że jak ktoś będzie spacer...",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15
2,49680,55280,Trzeba przejść łukiem obok leżącego i o tym zn...,/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15
3,61280,66840,"Okrągły znak pomaga nam, mówi, że są pasy na u...",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15
4,66840,73200,"Jak ktoś zobaczy, ale zignoruje ten znak, to m...",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15
...,...,...,...,...,...,...
39618,248960,250320,[uderzanie w coś],/13/K17BF13-26_13_13_comics.eaf,K17BF13-26.mp4,13
39619,279560,291400,Kot zobaczył w akwarium rybkę. Podszedł i dał ...,/13/K17BF13-26_13_13_comics.eaf,K17BF13-26.mp4,13
39620,291400,347120,"Zjadłam, zjadłam.",/13/K17BF13-26_13_13_comics.eaf,K17BF13-26.mp4,13
39621,347120,356440,"Zając biegnie, zobaczył wiszące pranie. Wskocz...",/13/K17BF13-26_13_13_comics.eaf,K17BF13-26.mp4,13


In [4]:
to_be_augmented_df = polish_df.sample(frac=0.5, random_state=42)
to_be_augmented_df

Unnamed: 0,start,end,text,doc_filepath,video_filename,task_label
9044,800200,801520,Są mrugające światła.,/15/K42AF01-15_15_15_signsNO.eaf,K42AF01-15.mp4,15
39448,58240,58720,Przepraszam.,/13/K60AF13-26_13_13_comics.eaf,K60AF13-26.mp4,13
6326,109320,109960,Ja.,/15/K11AF15-26_15_15_signsNO.eaf,K11AF15-26.mp4,15
3502,55840,58640,"Otwierać, tam widać samochód, tak, tak.",/15/K04AF15-26_15_15_signsNO.eaf,K04AF15-26.mp4,15
198,290880,293840,"Może, następny jest skuter.",/15/K75AF13-26_15_15_signsNO.eaf,K75AF13-26.mp4,15
...,...,...,...,...,...,...
994,307720,313960,"Jest rower, rower wraz z dzieckiem, rower z pr...",/15/K69AF11-26_15_15_signsNO.eaf,K69AF11-26.mp4,15
29129,69040,70280,Mam dalej oglądać.,/08/K25AF01-17_08_frog_08_frog_frog.eaf,K25AF01-17.mp4,08
4600,84800,85920,Są tam głusi.,/15/K74AF12-26_15_15_signsNO.eaf,K74AF12-26.mp4,15
32638,117520,123600,"Sowa wystaje z drzewa i jest zła, pyta, co tak...",/08/K21AF01-16_08_frog_08_frog_frog.eaf,K21AF01-16.mp4,08


## Separate annotations into .txt files

In [5]:
# TO_AUGMENT_TXTS_DIR = PREPROCESSED_DIR / 'to_augment_txts/'
# TO_AUGMENT_TXTS_DIR.mkdir(exist_ok=True)


# for index, row in to_be_augmented_df.iterrows():
#     print(index, row['text'])

#     with open(TO_AUGMENT_TXTS_DIR / f'{index}.txt', 'w') as f:
#         f.write(row['text'])
    
#     # break

9044 Są mrugające światła.
39448 Przepraszam.
6326 Ja.
3502 Otwierać, tam widać samochód, tak, tak.
198 Może, następny jest skuter.
20040 Wiesz gdzie jest Mc Donald’s?
8966 Specjalnie zamówiony u krawcowej.
33502 Więc chłopiec zagląda tam i sprawdza. 
16542 Ja w weekendy jestem wolna.
33903 Chodzi w kółko i myśli.
13951 Jeden z nich bierze zamach.
21763 Popołudniu o czwartej.
12527 Strażak ma specjalny topór do wyważenia drzwi. Już się zamierza, ale przerywa, bo alarm wyłączył się.
12387 On idzie na górę. Przygotowuje kołdrę, myje się i przebiera.
11562 Zakaz biegania tam, gdzie są zaparkowane samochody.
37455 Jest miska z jabłkami.
37936 Podchodzi kot i chce do niej zbliżyć się pyszczkiem, żeby ją powąchać.
17000 Mogę umówić się z tobą dwudziestego trzeciego lutego po godzinie czwartej.
23080 Policjant idzie dalej i zauważa pana, który montuje okno.
7449 Myślę.
16517 Spotkać się po to by załatwić sprawy związane z podpisem dokumentów.
6233 Kask założony bardziej do tyłu, żeby powietrz

## Add paraphrased as new record with `ParaphraseSrcIndex`

In [6]:
# set src records as not paraphrases
polish_df["ParaphraseSrcIndex"] = pd.NA

In [7]:
AUGMENTED_PL_ANNOTATIONS_DIR = PREPROCESSED_DIR / 'augmented_pl_annotations/'
AUGMENTED_PL_ANNOTATIONS_DIR.mkdir(exist_ok=True)

parahprased_records = []
for filepath in AUGMENTED_PL_ANNOTATIONS_DIR.glob("*.txt"):
    src_record_index = int(filepath.name.split(".")[0])
    with open(filepath, 'r') as f:
        paraphrase = f.read()

    paraphrased_record_data = polish_df.loc[src_record_index].to_dict()  # copy from source record
    paraphrased_record_data["text"] = paraphrase
    paraphrased_record_data["ParaphraseSrcIndex"] = src_record_index
    
    parahprased_records.append(paraphrased_record_data)

In [8]:
paraphrase_df = pd.DataFrame.from_records(parahprased_records)
paraphrase_df

Unnamed: 0,start,end,text,doc_filepath,video_filename,task_label,Paraphrase,ParaphraseSrcIndex
0,23720,27520,"On idzie na górę, przygotowuje kołdrę, myje si...",/24/K11AF15-26_24_24_alarm.eaf,K11AF15-26.mp4,24,,12387
1,174560,177440,Pies popycha ul pszczół i kiwa się.,/08/K34AF19-26_08_frog_08_frog_frog.eaf,K34AF19-26.mp4,08,,31152
2,112880,114880,Wokół jeziora rośnie wysoka trawa.,/08/K71AF01-11_08_frog_08_frog_frog.eaf,K71AF01-11.mp4,08,,31719
3,328600,329360,"Nie możesz, nie pasuje.",/07/K76AF01-11_07_07_calendar.eaf,K76AF01-11.mp4,07,,18112
4,88880,90600,Policjant zaczął ich ścigać.,/17/K36BF17-26_17_kid_17_kid_chaplin.eaf,K36BF17-26.mp4,17,,24551
...,...,...,...,...,...,...,...,...
7920,229040,230040,Obrazki już się skończyły.,/08/K03AF01-21_08_frog_08_frog_frog.eaf,K03AF01-21.mp4,08,,30706
7921,423040,424640,Prąd.,/15/K04BF15-26_15_15_signsNO.eaf,K04BF15-26.mp4,15,,341
7922,23480,26760,"On właśnie mówi im, że jest zmęczony i chce iś...",/24/K67AF13-26_24_24_alarm.eaf,K67AF13-26.mp4,24,,11942
7923,493560,494680,Specjalne owijki na nogi.,/15/K42BF01-15_15_15_signsNO.eaf,K42BF01-15.mp4,15,,6698


In [17]:
augmented_pl_annots_df = pd.concat([polish_df, paraphrase_df], ignore_index=True)
augmented_pl_annots_df

Unnamed: 0,start,end,text,doc_filepath,video_filename,task_label,Paraphrase,ParaphraseSrcIndex
0,39040,41120,"Myślę, że mam inny pomysł, można?",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,
1,41120,49680,"Chyba ten znak mówi, że jak ktoś będzie spacer...",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,
2,49680,55280,Trzeba przejść łukiem obok leżącego i o tym zn...,/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,
3,61280,66840,"Okrągły znak pomaga nam, mówi, że są pasy na u...",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,
4,66840,73200,"Jak ktoś zobaczy, ale zignoruje ten znak, to m...",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,
...,...,...,...,...,...,...,...,...
47543,229040,230040,Obrazki już się skończyły.,/08/K03AF01-21_08_frog_08_frog_frog.eaf,K03AF01-21.mp4,08,,30706
47544,423040,424640,Prąd.,/15/K04BF15-26_15_15_signsNO.eaf,K04BF15-26.mp4,15,,341
47545,23480,26760,"On właśnie mówi im, że jest zmęczony i chce iś...",/24/K67AF13-26_24_24_alarm.eaf,K67AF13-26.mp4,24,,11942
47546,493560,494680,Specjalne owijki na nogi.,/15/K42BF01-15_15_15_signsNO.eaf,K42BF01-15.mp4,15,,6698


In [10]:
augmented_pl_annots_df.iloc[[1, 39623]]

Unnamed: 0,start,end,text,doc_filepath,video_filename,task_label,Paraphrase,ParaphraseSrcIndex
1,41120,49680,"Chyba ten znak mówi, że jak ktoś będzie spacer...",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,
39623,23720,27520,"On idzie na górę, przygotowuje kołdrę, myje si...",/24/K11AF15-26_24_24_alarm.eaf,K11AF15-26.mp4,24,,12387.0


In [11]:
augmented_pl_annots_df.to_feather(EMBEDDINGS_DIR / 'augmented_pl_annots_df.feather')

## Generate texts embeddings

In [12]:
herbert_tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-base-cased")
herbert = AutoModel.from_pretrained("allegro/herbert-base-cased").to("cuda:0")

Some weights of the model checkpoint at allegro/herbert-base-cased were not used when initializing BertModel: ['cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.weight', 'cls.predictions.bias', 'cls.sso.sso_relationship.bias', 'cls.predictions.decoder.bias', 'cls.predictions.transform.dense.bias', 'cls.predictions.decoder.weight', 'cls.sso.sso_relationship.weight', 'cls.predictions.transform.LayerNorm.bias']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [13]:
def get_herbert_embedding(text: str, device: str = "cuda") -> np.ndarray:
    return herbert(
        **herbert_tokenizer.encode_plus(text,
            padding='longest',
            add_special_tokens=True,
            return_tensors='pt'
        ).to(device)
    ).pooler_output.to("cpu").detach().numpy()[0]

get_herbert_embedding("Ala ma kota").shape

(768,)

In [14]:
augmented_pl_annots_wth_emb_df = augmented_pl_annots_df.copy()

augmented_pl_annots_wth_emb_df["EmbeddingModel"] = "allegro/herbert-base-cased"
# augmented_pl_annots_wth_emb_df["Embedding"] = [-np.ones(768) for _ in range(augmented_pl_annots_wth_emb_df.shape[0])]
augmented_pl_annots_wth_emb_df["Embedding"] = augmented_pl_annots_wth_emb_df["text"].progress_apply(get_herbert_embedding)

augmented_pl_annots_wth_emb_df.to_feather(EMBEDDINGS_DIR / 'augmented_pl_annots_wth_emb_df.feather')
augmented_pl_annots_wth_emb_df

  0%|          | 0/47548 [00:00<?, ?it/s]

Unnamed: 0,start,end,text,doc_filepath,video_filename,task_label,Paraphrase,ParaphraseSrcIndex,EmbeddingModel,Embedding
0,39040,41120,"Myślę, że mam inny pomysł, można?",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,,allegro/herbert-base-cased,"[-0.039401535, 0.045144096, -0.07359799, 0.999..."
1,41120,49680,"Chyba ten znak mówi, że jak ktoś będzie spacer...",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,,allegro/herbert-base-cased,"[-0.04103174, 0.18905145, -0.2473697, 0.999101..."
2,49680,55280,Trzeba przejść łukiem obok leżącego i o tym zn...,/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,,allegro/herbert-base-cased,"[-0.099419735, 0.2554967, -0.2758171, 0.996696..."
3,61280,66840,"Okrągły znak pomaga nam, mówi, że są pasy na u...",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,,allegro/herbert-base-cased,"[-0.23825723, -0.018337265, -0.06085317, 0.998..."
4,66840,73200,"Jak ktoś zobaczy, ale zignoruje ten znak, to m...",/15/K66BF13-26_15_15_signsNO.eaf,K66BF13-26.mp4,15,,,allegro/herbert-base-cased,"[-0.12970479, 0.22667503, -0.34039426, 0.99525..."
...,...,...,...,...,...,...,...,...,...,...
47543,229040,230040,Obrazki już się skończyły.,/08/K03AF01-21_08_frog_08_frog_frog.eaf,K03AF01-21.mp4,08,,30706,allegro/herbert-base-cased,"[-0.078688405, 0.10844632, 0.042495422, 0.9991..."
47544,423040,424640,Prąd.,/15/K04BF15-26_15_15_signsNO.eaf,K04BF15-26.mp4,15,,341,allegro/herbert-base-cased,"[-0.027012182, 0.24136762, -0.04894121, 0.9986..."
47545,23480,26760,"On właśnie mówi im, że jest zmęczony i chce iś...",/24/K67AF13-26_24_24_alarm.eaf,K67AF13-26.mp4,24,,11942,allegro/herbert-base-cased,"[0.015946332, -0.046507165, -0.20022015, 0.998..."
47546,493560,494680,Specjalne owijki na nogi.,/15/K42BF01-15_15_15_signsNO.eaf,K42BF01-15.mp4,15,,6698,allegro/herbert-base-cased,"[-0.25153598, 0.05548507, -0.071281515, 0.9990..."
