# Install dependencies
- [simpletransformers](https://simpletransformers.ai/docs/installation/)
- [sentence-transformers](https://www.sbert.net/)

In [1]:
!conda install -y pandas tqdm
!conda install -y pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia
!pip install sentence-transformers
!pip install simpletransformers@git+https://github.com/vidklopcic/simpletransformers.git@master
!pip install stanza pandas beautifulsoup4 tables

Collecting package metadata (current_repodata.json): done
Solving environment: done


  current version: 4.10.3
  latest version: 23.3.1

Please update conda by running

    $ conda update -n base -c defaults conda



# All requested packages already installed.

Collecting package metadata (current_repodata.json): done
Solving environment: done


  current version: 4.10.3
  latest version: 23.3.1

Please update conda by running

    $ conda update -n base -c defaults conda



# All requested packages already installed.

Collecting simpletransformers@ git+https://github.com/vidklopcic/simpletransformers.git@master
  Cloning https://github.com/vidklopcic/simpletransformers.git (to revision master) to /tmp/pip-install-xvrkk7_5/simpletransformers_2ff1bdb8f950446894e8b8ae403fce2a
  Running command git clone --filter=blob:none --quiet https://github.com/vidklopcic/simpletransformers.git /tmp/pip-install-xvrkk7_5/simpletransformers_2ff1bdb8f950446894e8b8ae403fc

## Sentencetransformers

In [74]:
from sentence_transformers import SentenceTransformer, util

test_cases = [
    [
        "Evropska komisija je dala madžarski naftni družbi Mol soglasje za prevzem družbe OMV Slovenija.",
        "Prodajo 39 bencinskih servisov v okviru napovedanega prevzema so Madžari napovedali marca letos, ko so tudi sporočili, da bodo storitve na servisih za kupce ostale nespremenjene in tudi delavci bodo ohranili zaposlitev."
    ],
    [
        "Evropska komisija je dala madžarski naftni družbi Mol soglasje za prevzem družbe OMV Slovenija.",
        "Prešeren je prvi Slovenec, ki se je po kakovosti svojega pisanja lahko kosal s sodobniki po Evropi, kjer je tedaj vladala romantična usmeritev."
    ],
    [
        "V slovenski družbi je polarizacija zelo izrazita.",
        "V slovenski družbi je polarizacija magnetnih polov neznan fenomen."
    ],
    [
        "V slovenski družbi je polarizacija zelo izrazita.",
        "V slovenski družbi je polarizacija političnih polov neznan fenomen."
    ],
]

print('testing paraphrase-multilingual-mpnet-base-v2 for cos. sim.')
model = SentenceTransformer('paraphrase-multilingual-mpnet-base-v2')
for t in test_cases:
    print(util.cos_sim(*model.encode(t)), t)

print('testing xlm-r-bert-base-nli-stsb-mean-tokens for cos. sim.')
model = SentenceTransformer('xlm-r-bert-base-nli-stsb-mean-tokens')
for t in test_cases:
    print(util.cos_sim(*model.encode(t)), t)

testing paraphrase-multilingual-mpnet-base-v2 for cos. sim.
tensor([[0.3890]]) ['Evropska komisija je dala madžarski naftni družbi Mol soglasje za prevzem družbe OMV Slovenija.', 'Prodajo 39 bencinskih servisov v okviru napovedanega prevzema so Madžari napovedali marca letos, ko so tudi sporočili, da bodo storitve na servisih za kupce ostale nespremenjene in tudi delavci bodo ohranili zaposlitev.']
tensor([[0.2239]]) ['Evropska komisija je dala madžarski naftni družbi Mol soglasje za prevzem družbe OMV Slovenija.', 'Prešeren je prvi Slovenec, ki se je po kakovosti svojega pisanja lahko kosal s sodobniki po Evropi, kjer je tedaj vladala romantična usmeritev.']
tensor([[0.6932]]) ['V slovenski družbi je polarizacija zelo izrazita.', 'V slovenski družbi je polarizacija magnetnih polov neznan fenomen.']
tensor([[0.8214]]) ['V slovenski družbi je polarizacija zelo izrazita.', 'V slovenski družbi je polarizacija političnih polov neznan fenomen.']
testing xlm-r-bert-base-nli-stsb-mean-tokens 

## Simpletransformers
NOTE: size of outpupt embeddings is padded to the length of the longest input sequence.

In [None]:
from simpletransformers.language_representation import RepresentationModel
from transformers import AutoTokenizer

roberta_tokenizer = AutoTokenizer.from_pretrained('xlm-roberta-large')

# Initialize the model
roberta = RepresentationModel(
    model_type="roberta",
    model_name="xlm-roberta-large",
    use_cuda=True,
    args={"sliding_window": True},
)

In [73]:
print('testing xlm-roberta-large (mean) for cos. sim.')
for t in test_cases:
    print(util.cos_sim(*roberta.encode_sentences(t, combine_strategy='mean')), t)

testing xlm-roberta-large (mean)
tensor([[0.9585]]) ['Evropska komisija je dala madžarski naftni družbi Mol soglasje za prevzem družbe OMV Slovenija.', 'Prodajo 39 bencinskih servisov v okviru napovedanega prevzema so Madžari napovedali marca letos, ko so tudi sporočili, da bodo storitve na servisih za kupce ostale nespremenjene in tudi delavci bodo ohranili zaposlitev.']
tensor([[0.9609]]) ['Evropska komisija je dala madžarski naftni družbi Mol soglasje za prevzem družbe OMV Slovenija.', 'Prešeren je prvi Slovenec, ki se je po kakovosti svojega pisanja lahko kosal s sodobniki po Evropi, kjer je tedaj vladala romantična usmeritev.']
tensor([[0.9631]]) ['V slovenski družbi je polarizacija zelo izrazita.', 'V slovenski družbi je polarizacija magnetnih polov neznan fenomen.']
tensor([[0.9620]]) ['V slovenski družbi je polarizacija zelo izrazita.', 'V slovenski družbi je polarizacija političnih polov neznan fenomen.']
