In [1]:
banned_ent_types = {"ORGANIZATION", "EVENT", "GPE", "LOC"}
banned_pos = ["PUNCT", "SPACE"]
reflexive_deps = ["expl:poss", "expl:pv", "iobj", "obj"]
root_forms = ["ROOT", "advcl", "acl", "cop", 'csubj', "conj", "parataxis", "ccomp", "ccomp:pmod"]

reflexive_short_to_long_form = {
    "mi-": "îmi",
    "ți-": "îți",
    "și-": "își",
    "v-": "vă",
    "s-": "se",
    "ne-": "ne",
    "te-": "te",
    "i-": "îi"
}

ud_to_dex = {
        "VERB": "V",
        "AUX": "V",
        "PART": "I",
        "NOUN": "M",
        "PROPN": "SP",
        "PRON": "P",
        "DET": "P",
        "SCONJ": "I",
        "CCONJ": "I",
        "NUM": "P",
        "INTJ": "I",
        "ADV": "I",
        "ADP": "I",
        "ADJ": "A",
        "X": "V"
   }
end_of_phrase = ["!", "?", ".", "\n"]

json_archive = "utils_json.zip"
json_archive_url = f"https://github.com/PetruTH/nlp_lic/releases/download/Resources/{json_archive}"
UNIDENTIFIED_TOKEN = "unidentified"
MAPARE_PATH = "util/forme_morfologice.json"
ALL_INFLECTED_FORMS_PATH = "util/inflected_form_lexemeId_inflectionId.json"
WORD_TO_ID_POS_PATH = "util/word_id_pos.json"
ID_TO_WORD_POS_PATH = "util/id_word_pos.json"
ID_TO_INFLECTED_FORMS_PATH = "util/wordId_inflected_forms.json"
print("gata..")
from spacy.tokens import Token


gata..


In [2]:
from data_loader import load_jsons
from util_data import (
    UNIDENTIFIED_TOKEN,
    ud_to_dex,
    banned_pos,
    banned_ent_types,
    reflexive_deps,
    reflexive_short_to_long_form
)

mapare, all_inflected_forms, word_to_id_pos, id_to_word_pos, id_to_inflected_forms, entry_lexeme, tree_entry, relation, synonyms, context = load_jsons()


def get_all_forms_worker(token: Token) -> [int]:
    """
    thiw will extract every word having inflected form == token.text
    """
    token_text = token.text
    if "-" in token.text:
        token_text = token_text.replace("-", "")

    all_inflected_words_found = all_inflected_forms.find_all_inflected_forms_double_verification(
                token_text, token_text.lower()
            )

    if all_inflected_words_found == UNIDENTIFIED_TOKEN:
        return []

    words_prel = []
    only_one_word = [word['lexemeId'] for word in all_inflected_words_found]

    if len(set(only_one_word)) == 1:
        words_prel.append(str(only_one_word[0]))
    for word in all_inflected_words_found:
        pos_found = mapare.find_dexonline_pos_id(word['inflectionId'])
        """
            mapare.mapping['DEXONLINE_MORPH']: ["morph dexonline", "pos dexonline"],
            this will help for mapping spacy pos to dexonline pos
            mapping spacy pos with dexonline pos
            looking after an id found from dexonline
        """

        if ud_to_dex[token.pos_] == pos_found:
            if str(word['lexemeId']) not in words_prel:
                words_prel.append(str(word['lexemeId']))

        elif ud_to_dex[token.pos_] == "M" and pos_found == "F":
            if str(word['lexemeId']) not in words_prel:
                words_prel.append(str(word['lexemeId']))

        elif ud_to_dex[token.pos_] == "M" and pos_found == "N":
            if str(word['lexemeId']) not in words_prel:
                words_prel.append(str(word['lexemeId']))

    words_prel.sort(key=lambda x: int(x))

    return words_prel


def get_all_forms(token: Token) -> [{str, str}]:
    """
        This function will return all the inflected forms for a certain token given as a parameter.
        It will search for that token in dexonline database and it will find the lexemeId.
        Based on get_all_forms_worker, it will choose the word from the list returned that
        has lemma like the first form found in dexonline database. After, that,
        based on that lexemeId, it will return all inflected forms found with the same lexemeId (a list of
        dictionaries containig words form and morphological details also from dexonline database)
    """
    words_prel = get_all_forms_worker(token)
    token_text = token.text

    if len(words_prel) > 1:
        for element in words_prel:
            if id_to_word_pos.find_id_to_word_pos_form(element) == token.lemma_:
                id = element

    elif len(words_prel) == 1:
        id = words_prel[0]

    elif len(words_prel) == 0:
        words_found = word_to_id_pos.find_word_id_pos_double_verification(token.lemma_, token_text)

        if words_found != UNIDENTIFIED_TOKEN:
            words_prel = [str(x['id']) for x in words_found]
            id = words_prel[0]
        else:
            return []

    result = id_to_inflected_forms.find_id_to_inflected_forms(id)

    return result


def validate_token(token: Token) -> bool:
    """
        Function that validates if a token can be found in dexonline database.
        It will exclude words that describe names or places, organizations, etc.
    """
    if "-" in token.text:
        return True
    if token.pos_ in banned_pos:
        return False
    if token.lang_ != "ro":
        return False
    if not token.text.isalpha():
        return False
    if token.ent_type_ in banned_ent_types:
        return False
    return True


def get_wanted_form(token: Token, pos_finder: str, person: str, number: str) -> str:
    """
       This function will return the morph form wanted by pos_finder, person and number
    """
    all_morph = get_all_forms(token)
    for wanted_form in all_morph:
        if pos_finder in wanted_form['pos'] and person in wanted_form['pos'] and number in wanted_form['pos']:
            return wanted_form['form']
    return "UNKNOWN"


def verify_word_at_certain_pos(token: Token, pos_verifier: str) -> bool:
    """
    verifiy if a token is contains a specified string in its part of speech
    for example this function will return true if a verb has this description from dexonline
    as its pos "Verb, Indicativ, perfect simplu, persoana I, singular" and pos_verifier parameter
    is "perfect simplu" or "persoana I", etc
    """
    all_morph = get_all_forms(token)
    for wanted_form in all_morph:
        if token.text == wanted_form['form']:
            for pos in pos_verifier:
                if pos in wanted_form['pos']:
                    return True


def is_composed_subj(token: Token) -> bool:
    # extra step to verify if there is a composed subject (like 'eu cu tine mergem')
    if not token.pos_ == "VERB" and not token.pos_ == "AUX":
        if len(list(token.children)):
            for t in token.children:
                if t.text not in ["m", "te", "s"]:
                    return 1
        return 0


def get_right_person_and_number(token: Token) -> (str, str):
    """
        This function will get the person and number data from token.morph
        and will convert these into dexonline database format information
        in order to select right form of verb.
    """
    # extract correct person and number for a phrase
    person = token.morph.get("Person", ['3'])
    number = token.morph.get("Number", ['Sing'])

    if is_composed_subj(token):
        number = ["Plur"]

    # formatting number and person to be recognized dexonline json
    actual_number = "plural" if number == ["Plur"] else "singular"

    if person == ['1']:
        actual_person = "I"
    elif person == ['2']:
        actual_person = "II"
    elif person == ['3']:
        actual_person = "III"

    return actual_number, actual_person


def forme_reflexive_verifier(token: Token) -> str:
    """
        This function will map short reflexive forms into long ones
        using data from reflexive_deps from util_data.py
    """
    word_added = token.text
    if token.dep_ in reflexive_deps:
        case_condition = token.morph.get("Case", ["dummy"])[0] in ["Dat", "Acc"]
        variant_condition = token.morph.get("Variant", ["dummy"])[0] == "Short"
        if case_condition and variant_condition:
            word_added = reflexive_short_to_long_form[token.text]

    return word_added



from spacy.tokens import Token

Token.set_extension("forms_", method=get_all_forms, force=True)
Token.set_extension("is_valid", method=validate_token, force=True)


def find_lexeme_ids(inflected_forms: [str]) -> [str]:
    possible_lexeme_ids = []

    if inflected_forms != ["UNKNOWN"]:
        for inflected_form in inflected_forms:
            if inflected_form.get("lexemeId") not in possible_lexeme_ids:
                possible_lexeme_ids.append(inflected_form.get("lexemeId"))
  
    
    return possible_lexeme_ids

def find_inflection_possibilites(token: Token, inflected_forms: [str], pos_wanted: str) -> [str]:
    inflection_possibilites = []

    if inflected_forms != ["UNKNOWN"]:
        for inflected_form in inflected_forms:
            inflectionId = mapare.find_dexonline_pos_id(inflected_form["inflectionId"])
            
            inflected_form_id = str(inflected_form["inflectionId"])

            if inflectionId == pos_wanted and inflected_form_id not in inflection_possibilites:
                inflection_possibilites.append(str(inflected_form["inflectionId"]))
            elif inflectionId in ["VT", "V"] and pos_wanted in ["V", "VT"] and inflected_form_id not in inflection_possibilites:
                inflection_possibilites.append(str(inflected_form["inflectionId"]))
            elif inflectionId in ["M", "F", "N"] and pos_wanted in ["M", "F", "N"] and inflected_form_id not in inflection_possibilites:
                inflection_possibilites.append(str(inflected_form["inflectionId"]))
            elif token.dep_ in ["ROOT", "nmod"] and inflected_form_id not in inflection_possibilites:
                inflection_possibilites.append(str(inflected_form["inflectionId"]))

    return inflection_possibilites

def find_matching_lexemeIds(possible_lexeme_ids: [str], pos_wanted: str) -> [str]:
    lexeme_ids = [] 
   
    for lexemeId in possible_lexeme_ids:
        variant = id_to_word_pos.find_id_to_word_pos(lexemeId)
        if variant['pos'] == pos_wanted:
            lexeme_ids.append(lexemeId)
        elif variant['pos'] in ["VT", "V", "AUX"] and pos_wanted in ["V", "VT", "AUX"]:
            lexeme_ids.append(lexemeId)
        elif variant['pos'] in ["M", "F", "N"] and pos_wanted in ["M", "F", "N"]:
            lexeme_ids.append(lexemeId)
    
    return lexeme_ids

def find_entryIds(lexeme_ids: str) -> str:
    entry_ids = []
    for lexemeId in lexeme_ids:
        all_entries = entry_lexeme.find_entry_lexeme(lexemeId)
        if all_entries != ["no entry"]:
            for entry in all_entries:
                entry_ids.append(entry)

    return entry_ids

def find_treeIds(entry_ids: str) -> str:
    tree_ids = []
    for entryId in entry_ids:
        tree_entries = tree_entry.find_tree_entry(entryId)
        if tree_entries != ["no entry tree"]:
            for treeId in tree_entries:
                tree_ids.append(treeId)
    
    return tree_ids

def find_meaningIds(tree_ids: str) -> str:
    meaning_ids = []

    for treeId in tree_ids:
        all_meaningIds = relation.find_relation(str(treeId))
        if all_meaningIds != ["no relation"]:
            for meaningId in all_meaningIds:
                meaning_ids.append(meaningId)

    return meaning_ids

 [INFO] 2024-06-21 18:57:58,507 root:177 - Start loading needed data in memory!
 [INFO] 2024-06-21 18:57:58,511 data_loader:189 - Mapare file loaded.


 [INFO] 2024-06-21 18:58:03,890 data_loader:191 - All inflected forms file loaded.
 [INFO] 2024-06-21 18:58:04,808 data_loader:193 - Mapping word to id and pos file loaded.
 [INFO] 2024-06-21 18:58:05,749 data_loader:195 - Mapping word id to word and pos file loaded.
 [INFO] 2024-06-21 18:58:08,827 data_loader:197 - Mapping id to inflected forms file loaded.
 [INFO] 2024-06-21 18:58:09,898 data_loader:199 - Mapping entry id to lexeme id file loaded.
 [INFO] 2024-06-21 18:58:10,099 data_loader:201 - Mapping tree id to entry id file loaded.
 [INFO] 2024-06-21 18:58:10,145 data_loader:203 - Mapping meaning id to tree id file loaded.
 [INFO] 2024-06-21 18:58:10,283 data_loader:205 - Mapping synonyms file loaded.
 [INFO] 2024-06-21 18:58:10,320 data_loader:207 - Mapping contexts file loaded.
 [INFO] 2024-06-21 18:58:10,321 root:209 - The data from jsons files is now loaded in memory!


In [3]:

import re
from spacy.tokens import Token
from json_creator import incarcare_eficienta
from util_data import reflexive_short_to_long_form

def synonyms_builder_step1(token: Token, pos_wanted: str)  -> ([str], [str]):
    token_text = re.sub('[^a-zA-ZăâîșțĂÂÎȘȚ]', '', token.text.lower())
    inflected_forms = all_inflected_forms.find_all_inflected_forms(token_text)
    try:
        inflection_possibilities = find_inflection_possibilites(token, inflected_forms, pos_wanted)
    except:
        inflection_possibilities = []
    possible_lexeme_ids = find_lexeme_ids(inflected_forms)
    lexeme_ids = find_matching_lexemeIds(possible_lexeme_ids, pos_wanted)
    entry_ids = find_entryIds(lexeme_ids)
    tree_ids = find_treeIds(entry_ids)
    meaning_ids = find_meaningIds(tree_ids)

    if len(inflection_possibilities) > 1:
        inflection_possibilities =  inflection_filter(token=token, inflection_possibilities=inflection_possibilities)
    return tree_ids, inflection_possibilities, meaning_ids

def synonyms_builder_step2(meaning_ids, tree_id_forced, token):
    candidate_synonyms_base_form = []
    token_text = re.sub('[^a-zA-ZăâîșțĂÂÎȘȚ]', '', token.text.lower())
    # print(tree_id_forced, "tree ids forced step2")

    for meaningId in meaning_ids:
        
        possible_synonyms = synonyms.find_synonyms(meaningId)
        tree_ids_verifier = [syn[0] for syn in possible_synonyms]
        # print(tree_ids_verifier, f"tree ids for meaning id {meaningId}", int(tree_id_forced[0]) in tree_ids_verifier)

        # print(possible_synonyms)
        if possible_synonyms != ["no synonyms"]:
        
            for synonym in possible_synonyms:
                # aici adauga si treeid si mai departe selectezi doar form si cand le sugerezi dai pe cele cu matching treeid (chosencontext de mai jos)
                # undo ca inainte stergi syn_treeId
                syn_to_add = re.sub('[^a-zA-ZăâîșțĂÂÎȘȚ ]', '', synonym[1]).split(" ")
               
                for syn in syn_to_add:
                    syn_to_add_helper = all_inflected_forms.find_all_inflected_forms(syn, unidentified={"lexemeId": "UNKNOWN"})
                    if syn_to_add == ["UNKOWN"]:
                        break

                    syn_tuple = (syn, syn_to_add_helper[0].get("lexemeId", "dummy"))
                    if syn_tuple not in candidate_synonyms_base_form and syn_tuple[0] != token_text:  
                        if int(tree_id_forced[0]) in tree_ids_verifier:      
                            candidate_synonyms_base_form.append(syn_tuple)

    candidate_synonyms_base_form = [syn for i, syn in enumerate(candidate_synonyms_base_form) if i == 0 or syn[1] != candidate_synonyms_base_form[i-1][1]]
    # print(candidate_synonyms_base_form, "!!!!")
    return candidate_synonyms_base_form

def is_valid_for_syn(token: Token) -> bool:
    if token.pos_ == "PUNCT":
        return False
    if "aux" in token.dep_:
        return False
    if not token.text.isalpha():
        return False
    return True



def get_all_forms_worker(token: Token) -> [int]:
    """
    thiw will extract every word having inflected form == token.text
    """
    token_text = token.text
    if "-" in token.text:
        token_text = token_text.replace("-", "")

    all_inflected_words_found = all_inflected_forms.find_all_inflected_forms_double_verification(
                token_text, token.lemma_
            )

    if all_inflected_words_found[0] == UNIDENTIFIED_TOKEN:
        return [-1]

    words_prel = []
    
    only_one_word = [word['lexemeId'] for word in all_inflected_words_found]

    if len(set(only_one_word)) == 1:
        words_prel.append(str(only_one_word[0]))
    for word in all_inflected_words_found:
        pos_found = mapare.find_dexonline_pos_id(word['inflectionId'])
        """
            mapare.mapping['DEXONLINE_MORPH']: ["morph dexonline", "pos dexonline"],
            this will help for mapping spacy pos to dexonline pos
            mapping spacy pos with dexonline pos
            looking after an id found from dexonline
        """

        if ud_to_dex[token.pos_] == pos_found:
            if str(word['lexemeId']) not in words_prel:
                words_prel.append(str(word['lexemeId']))

        elif ud_to_dex[token.pos_] == "M" and pos_found == "F":
            if str(word['lexemeId']) not in words_prel:
                words_prel.append(str(word['lexemeId']))

        elif ud_to_dex[token.pos_] == "M" and pos_found == "N":
            if str(word['lexemeId']) not in words_prel:
                words_prel.append(str(word['lexemeId']))

    words_prel.sort(key=lambda x: int(x))

    return words_prel


def get_all_forms(token: Token) -> [{str, str}]:
    """
        This function will return all the inflected forms for a certain token given as a parameter.
        It will search for that token in dexonline database and it will find the lexemeId.
        Based on get_all_forms_worker, it will choose the word from the list returned that
        has lemma like the first form found in dexonline database. After, that,
        based on that lexemeId, it will return all inflected forms found with the same lexemeId (a list of
        dictionaries containig words form and morphological details also from dexonline database)
    """
    id = -1
    words_prel = get_all_forms_worker(token)
    token_text = token.text

    if len(words_prel) > 1:
        for element in words_prel:
            if id_to_word_pos.find_id_to_word_pos_form(element) == token.lemma_:
                id = element

    elif len(words_prel) == 1:
        if words_prel[0] == -1:
            return []
        else:
            id = words_prel[0]

    elif len(words_prel) == 0:
        # print(token, "!!!", words_prel)
        words_found = word_to_id_pos.find_word_id_pos_double_verification(token.lemma_, token_text)

        if words_found != UNIDENTIFIED_TOKEN:
            words_prel = [str(x['id']) for x in words_found]
            id = words_prel[0]
        else:
            return []

    result = id_to_inflected_forms.find_id_to_inflected_forms(id)

    return result

def get_wanted_form(token: Token, pos_finder: str, person: str, number: str) -> str:
    """
       This function will return the morph form wanted by pos_finder, person and number
    """
    all_morph = get_all_forms(token)
    for wanted_form in all_morph:
        if pos_finder in wanted_form['pos'] and person in wanted_form['pos'] and number in wanted_form['pos']:
            return wanted_form['form']
    return "UNKNOWN"

def get_synonyms(token: Token, tree_id_forced = []) -> [str]:
    if is_valid_for_syn(token):
        pos_found = ud_to_dex[token.pos_]
        tree_ids, inflection_possibilites, meaning_ids = synonyms_builder_step1(token, pos_found)

        candidate_synonyms_base_form = synonyms_builder_step2(meaning_ids, tree_id_forced, token)

        synonyms_found = []
        # print(candidate_synonyms_base_form, "candidate la sinonime")
        for syn in candidate_synonyms_base_form:
            inflected_forms_syn = id_to_inflected_forms.find_id_to_inflected_forms(str(syn[1]))

            for inflectionId in inflection_possibilites:
                inflection = mapare.find_dexonline_pos_detail(str(inflectionId))

                for pos_syn in inflected_forms_syn:
                    pos_found_on_syn = pos_syn.get("pos")
                    form_found_on_syn = pos_syn.get("form")
                    if pos_found_on_syn == inflection:
                            if form_found_on_syn not in synonyms_found:
                                synonyms_found.append(form_found_on_syn)
                                
       
        return synonyms_found
    else:
        return []

def force_plural_noun(token):
    associated_tokens = token.subtree
    for token in associated_tokens:
        if token.pos_ in ["DET", "NUM", "PRON"]:
            if token.morph.get("Number", ["dummy"])[0] == "Plur":
                return True
    return False

def force_person_and_number_verb(token):
    number, person = "_", "_"
    inf = False
    subtree = token.subtree
    
    for t in subtree:
        if t == token:
            break
        if t.dep_ == "nsubj":
            number = t.morph.get("Number", ["Sing"])[0]

            if number == "Plur":
                number = "plural"
            else:
                number = "singular"
                        
            if t.pos_ == "NOUN":
                person = "a III-a"
            elif t.pos_ == "PRON":
                person = t.morph.get("Person", ["dummy"])[0]

                if person == "1":
                    person = "I"
                elif person == "2":
                    person = "a II-a"
                elif person == "3":
                    person = "a III-a"
        elif t.dep_ == "mark":
            inf = True
    
            
    return inf, number, person

def get_verb_tense(token):
    mood = token.morph.get("Mood", ["Ind"])[0]
    tense = token.morph.get("Tense", ["dummy"])[0]
    verbform = token.morph.get("VerbForm", ["dummy"])[0]

    if tense == "Imp" or tense == "Pres" and mood == "Indicativ" and verbform == "Inf":
        tense = "imperfect"
    elif tense == "Pres":
        tense = "prezent"
    elif tense == "Past":
        tense = "perfect simplu"
    elif tense == "Pqp":
        tense = "mai mult ca perfect"
    return tense

def build_inflection_for_verb(token, inflection_dex_details):
    mood = "Indicativ" if token.morph.get("Mood", ["Ind"])[0] == "Ind" else "None"

    inf, number, person = force_person_and_number_verb(token)

    tense = get_verb_tense(token)

    if token.dep_ == "ccomp" or inf == True:
        found_dex_pos = "Verb, Infinitiv prezent"
    else:
        found_dex_pos = f"Verb, {mood}, {tense}, persoana {person}, {number}"

    if found_dex_pos == inflection_dex_details:
        return True
    else:
        found_dex_pos = f"Verb, {mood}, prezent, persoana {person}, {number}"
        if found_dex_pos == inflection_dex_details:
            return True
    return False

def get_case_for_noun(token):
    case = token.morph.get("Case", ["Acc", "Nom"])
    if "Acc" in case[0] or "Nom" in case[0]:
        case = "Acc, Nom"

    if case == "Acc, Nom":
        case = "Nominativ-Acuzativ"
    elif case == "Dat, Gen":
        case = "Genitiv-Dativ"
    else:
        case = "Vocativ"
    return case

def get_definite(token):
    definite = token.morph.get("Definite", ["dummy"])[0]
    if definite == "Ind":
        definite = "nearticulat"
    else:
        definite = "articulat"
    return definite

def get_number(token):
    number = token.morph.get("Number", ["Sing"])[0]
    
    if force_plural_noun(token):
        number = "plural"
    elif number == "Sing":
        number = "singular"
    else:
        number = "plural"
    return number

def get_gender(token):
    gender = token.morph.get("Gender", ["dummy"])[0]
    if gender == "Masc":
        gender = "masculin"
    else: 
        gender = "feminin"

def get_case_for_pron(token):
    case = token.morph.get("Poss", ["No"])[0]
    if case == "Yes":
        case = "Genitiv-Dativ"
    else:
        case = "Nominativ-Acuzativ"
    return case

def build_inflection_for_noun(token, inflection_dex_details):
    case = get_case_for_noun(token)
    definite = get_definite(token)
    number = get_number(token)
    gender = get_gender(token)

    if token.pos_ == "NOUN":
        dex_pos = "Substantiv"
    elif token.pos_ == "ADJ":
        dex_pos = "Adjectiv"

    found_dex_pos = f"{dex_pos} {gender}, {case}, {number}, {definite}"
    if found_dex_pos == inflection_dex_details:
        return True
    elif f"{dex_pos} neutru, {case}, {number}, {definite}" == inflection_dex_details:
        return True
    return False
    
def build_inflection_for_pron(token, inflection_dex_details):
    case = get_case_for_pron(token)
    number = get_number(token)

    for gender in ["masculin", "feminin"]:  
        found_dex_pos = f"Pronume, {gender}, {case}, {number}"
        if found_dex_pos == inflection_dex_details:
            return True
    return False

def inflection_filter(token, inflection_possibilities):
    if '85' in inflection_possibilities:
        return '85'

    for infl in inflection_possibilities:
        inflection_dex_details = mapare.find_dexonline_pos_detail(str(infl))
        if token.pos_ in ["VERB", "AUX"]:  
            if build_inflection_for_verb(token, inflection_dex_details) is True:
                inflection_possibilities = [infl]


        elif token.pos_ in ["NOUN", "ADJ"]:

            if build_inflection_for_noun(token, inflection_dex_details) is True:
                inflection_possibilities = [infl]

        elif token.pos_ in ["PRON", "DET"]:
            
            if build_inflection_for_pron(token, inflection_dex_details) is True:
                inflection_possibilities = [infl]

    return inflection_possibilities

def forme_reflexive_verifier(token: Token) -> str:

    """
        This function will map short reflexive forms into long ones
        using data from reflexive_deps from util_data.py
    """
    word_added = token.text
    if token.dep_ in reflexive_deps:
        case_condition = token.morph.get("Case", ["dummy"])[0] in ["Dat", "Acc"]
        variant_condition = token.morph.get("Variant", ["dummy"])[0] == "Short"
        if case_condition and variant_condition:
            word_added = reflexive_short_to_long_form[token.text]

    return word_added

  from .autonotebook import tqdm as notebook_tqdm


In [4]:
from transformers import AutoTokenizer, AutoModel
import torch
import logging
logging.getLogger('torch').setLevel(logging.ERROR)
import json
import numpy

all_contexts = json.load(open("util/context.json"))

tokenizer = AutoTokenizer.from_pretrained("dumitrescustefan/bert-base-romanian-uncased-v1", do_lower_case=True)
model = AutoModel.from_pretrained("dumitrescustefan/bert-base-romanian-uncased-v1")


def get_embeddings(text):
        tokenized_text = tokenizer(text, return_tensors="pt")

        with torch.no_grad():
            outputs = model(**tokenized_text)

        word_embeddings = outputs.last_hidden_state
        averaged_embedding = torch.mean(word_embeddings, dim=0)

        return averaged_embedding

cos = torch.nn.CosineSimilarity(dim=0)

def calculate_similarity(input, compared_to):
    if type(input) != "<class 'torch.Tensor'>":
        input=torch.tensor(input)
   
    return cos(input, torch.tensor(compared_to))


def transform_with_mean_pooling(numpy_array, target_shape=(384,)):
    pooled_array = numpy.reshape(numpy_array, (-1, target_shape[0]))
    mean_array = numpy.mean(pooled_array, axis=0) 
    return mean_array


def get_similarity_scores_for_syns(actual_context: list, syn_candidate_context: list, mean: bool, reshapeFlag = True):
    if actual_context is None or syn_candidate_context is None:
        return 0
    meansim = []
    
    if reshapeFlag == True:
        if actual_context[0].shape != (384,):
            actual_context = [transform_with_mean_pooling(numpy.array(act_ctx)) for act_ctx in actual_context]

    for act_ctx in actual_context:
        for syn_ctx in syn_candidate_context:
            actual_similarity = calculate_similarity(input=act_ctx, compared_to=syn_ctx)
            meansim.append(actual_similarity)

    if len(meansim):
        if mean is True:
            return sum(meansim)/len(meansim)
        else:
            return max(meansim)
    else:
        return 0


def get_context_for_each_candidate_syn(token_text, pos_wanted):
    pos_wanted = ud_to_dex[pos_wanted]
    inflected_forms = all_inflected_forms.find_all_inflected_forms(token_text)
    possible_lexeme_ids = find_lexeme_ids(inflected_forms)
    lexeme_ids = find_matching_lexemeIds(possible_lexeme_ids, pos_wanted)
    entry_ids = find_entryIds(lexeme_ids)
    tree_ids = find_treeIds(entry_ids)

    contexts_found = {}

    for treeId in tree_ids:
        contexts_found[treeId] = incarcare_eficienta(treeId)
    return contexts_found   

""" 
    Short demo to show how it actually works. Uncomment and run the main() function.
"""



' \n    Short demo to show how it actually works. Uncomment and run the main() function.\n'

In [5]:
def raw_word(text):
    diacritics = {
      "ă": "a",
      "â": "a",
      "î": "i",
      "ș": "s",
      "ț": "t",
      "č": "c",
      "ş": "s",
      "ž": "z",
      "Ä": "A",
      "Â": "A",
      "Î": "I",
      "Ș": "S",
      "Ț": "T",
      "Č": "C",
      "Ș": "S",
      "Ž": "Z",
      "á": "a",
      "é": "e",
      "í": "i",
      "ó": "o",
      "ú": "u",
      "ű": "u",
      "Á": "A",
      "É": "E",
      "Í": "I",
      "Ó": "O",
      "Ú": "U",
      "Ű": "U",
      "ö": "o",
      "Ö": "O",
      "ü": "u",
      "Ü": "U",
    }

    for k, v in diacritics.items():
        text = text.replace(k, v)
    return text.lower()

def count_consecutive_vowels(word):
    vowels = "aeiouAEIOU"
    consecutive_vowel_count = 0
    total_consecutive_vowels = 0
    for char in word:
        if char in vowels:
            consecutive_vowel_count += 1
        else:
            total_consecutive_vowels += consecutive_vowel_count
            consecutive_vowel_count = 0
        
    total_consecutive_vowels += consecutive_vowel_count
    
    return total_consecutive_vowels


def aproximate_syllables(word: str):
    vowels = "aeiouăîâe"
    groups = ["ch", "gh"]
    word = raw_word(word).lower()
    for group in groups:
        if group == "ch":
            word = word.replace(group, "C")
        elif group == "gh":
            word = word.replace(group, "G")
    
    i = 1
    syllables = []
    last_syllable_index = 0
    while i < len(word) - 1:
        current_char = word[i]
        last_char = word[i-1]
        next_char = word[i+1]
        if i+2 < len(word):
            next2_char = word[i+2]
        # RULE1
        if current_char not in vowels and last_char in vowels and next_char in vowels:
            syllables.append(word[last_syllable_index : i])
            last_syllable_index = i
        # RULE2
        elif current_char not in vowels and next_char not in vowels and last_char in vowels and next2_char in vowels:
            # case 1
            if current_char in "bcdfghptv" and next_char in "lr":
                syllables.append(word[last_syllable_index : i])
            # case 2
            else:
                syllables.append(word[last_syllable_index : i+1])
                i+=1
            last_syllable_index = i
        # RULE3
        elif current_char not in vowels and last_char in vowels:
            cons_group = [current_char]
            j = i + 1 
            while j < len(word):
                if word[j] not in vowels:
                    cons_group.append(word[j])
                else:
                    break
                j+=1
            special_cons_groups = [["l", "p", "t"], ["m", "p", "t"],  ["n", "c", "t"],  ["n", "c", "s"], ["n", "d", "v"], ["r", "c", "t"], ["r", "t", "f"], ["s", "t", "m"]]
            
            # case1
            if cons_group in special_cons_groups:
                syllables.append(word[last_syllable_index:j-1])
                last_syllable_index = j-1
            # case2
            else:    
                syllables.append(word[last_syllable_index:i+1])
                last_syllable_index = i+1
            i=j

        i+=1

    syllables.append(word[last_syllable_index:])
    
    # handle hiat, diftong, triftong
    for syllable in syllables:
        vowels_num = count_consecutive_vowels(syllable)
        if 1 < vowels_num <= 3:
            double_vowel = True
            for i in range(len(syllable) - 1):
                
                if syllable[i] in vowels and syllable[i+1] != syllable[i]:
                    # print(syllable[i])
                    double_vowel = False
            if syllable == syllables[-1] and syllable[-1] == "i" and syllable[i-2] == "i":
                double_vowel = False

            if double_vowel is True:
                syllables.append("dbl_vowel")
        
        elif vowels_num > 3:   
            syllables.append("4vowel")
        # iae, ieu, oeu, oau, eoau, eoeu
        
        for long_hiat in ["iae", "ieu", "oeu", "oau", "eoau", "eoeu"]:
            if long_hiat in syllable:
                syllables.append("lng_hi")

            # print(syllable)
    return syllables




In [7]:
import spacy
nlp = spacy.load("ro_core_news_lg")


In [38]:
from wordfreq import zipf_frequency
import warnings
warnings.filterwarnings("ignore", category=UserWarning)

def choose_meaning(contexts_found, actual_context):
    max_score = -100
    key_to_return = ""
    actual_context = torch.mean(get_embeddings(actual_context), dim=0)

    for key in contexts_found:
        score = get_similarity_scores_for_syns(actual_context=[actual_context], syn_candidate_context=contexts_found[key], mean=False)
        print(score)
        if score > max_score:
            max_score = score
            key_to_return = key

    return key_to_return


def heuristic_comparator(word: str, actual_context: str, token_pos: str, dexonline_order: int, syns_number: int):
    # these can be modified, still testing
    len_weight = -50
    number_of_syllabes_weight = -120
    freq_in_ro_lang_weight = 130
    similarity_with_actual_context_weight = 1500
    dexonline_order_weight = 90
    vowels_num_weight = 60

    def transform_with_mean_pooling(numpy_array, target_shape=(384,)):
        pooled_array = numpy.reshape(numpy_array, (-1, target_shape[0]))
        mean_array = numpy.mean(pooled_array, axis=0) 
        return mean_array

    emb1 = [torch.tensor(transform_with_mean_pooling(numpy.array(get_embeddings(actual_context))))]
   
    sin_context = get_context_for_each_candidate_syn(token_text=word, pos_wanted=token_pos)
    
    similarity_score = 0
    if len(sin_context):
        for key in sin_context:
            similarity_score = get_similarity_scores_for_syns(actual_context=emb1, syn_candidate_context=sin_context[key], mean=False)
    
    try:
        base_form = get_all_forms(nlp(word)[0])[0].get("form")
    except:
        base_form = word

    word_len = len_weight * len(word)
    apx_syllables_number = number_of_syllabes_weight * len(aproximate_syllables(word))
    freq = freq_in_ro_lang_weight * (zipf_frequency(base_form, 'ro')) 
    dexonline_order = dexonline_order_weight * (syns_number - dexonline_order)
    similarity = similarity_with_actual_context_weight * similarity_score
    vowels = vowels_num_weight * sum(1 for letter in word if letter.lower() in 'aeiou')
    
    return word_len + apx_syllables_number + freq + similarity + dexonline_order + vowels


def get_matching_syns(token, actual_context, pos_found):

    try:
        tree_ids, inflection_possibilites, meaning_ids = synonyms_builder_step1(token, pos_found)
    except:
        return []

    contexts_found = {}
        
    for treeId in tree_ids:
        contexts_found[treeId] = incarcare_eficienta(treeId)    
    # print(tree_ids)
    try:
        if len(contexts_found.keys()) > 1:
            chosen_context = str(choose_meaning(contexts_found=contexts_found, actual_context=actual_context))
        else:
            chosen_context = str(list(contexts_found.keys())[0])
        # print(chosen_context)
        sinonime_posibile_dex = get_synonyms(token, [chosen_context])
        
        sinonime_to_return = []
        # for x in sinonime_posibile_dex[:10]:
            # print(x)

        for i in range(len(sinonime_posibile_dex)):
            syn = sinonime_posibile_dex[i]
            if syn == token.text[1:] or syn == sinonime_posibile_dex[i-1][1:]:
                continue
            else:
                sinonime_to_return.append((syn, heuristic_comparator(syn, actual_context, token.pos_, i, len(sinonime_posibile_dex))))
        
        return sorted(sinonime_to_return, key=lambda x: x[1], reverse=True)
    
    except IndexError:
        print("no synonyms")
        pass


def get_syns(target):
    doc = nlp(target.doc)
    print(target, "!!!")
    for token in doc:
        if token == target:
            pos_found = ud_to_dex[token.pos_]
            syns = get_matching_syns(token, actual_context=doc.text, pos_found=pos_found)
            try:
                return syns[:10]
            except:
                return []
    return []

Token.set_extension("get_syns", method=get_syns, force=True)

# force meaning id ca filter pentru verb ca uram (aduci sinonimele in functie de chosen_context si fortezi)


In [15]:

from spacy.tokens import Doc
def oltenizare_worker(doc: Doc) -> list[str]:
    """
    This function will find every at a perfect present tense and
    turn it into its past perfect form.
    """
    new_phrase = []
    actual_pers = ""
    actual_num = ""
    # print("OLTENIZARE")
    docgen = iter(range(0, len(doc)))
    for i in docgen:
        if doc[i].pos_ not in banned_pos:
            if doc[i].dep_ == "nsubj" or doc[i].dep_ == "nsubj:pass":
                # extract data from the phrase-subject to get right form
                # of verb there will be needed for person and number
                actual_num, actual_pers = get_right_person_and_number(doc[i])
                new_phrase.append(doc[i].text if doc[i].text != "s" else "se")

            elif (
                doc[i].dep_ == "ROOT"
                and doc[i-1].dep_ in {"aux", "aux:pass", "cop"} 
                and doc[i-2].dep_ == "aux"
            ):
                # handle cases like these: "Eu am fost plecat."

                if actual_pers == "" and actual_num == "":
                    actual_num, actual_pers = get_right_person_and_number(doc[i-2])

                if doc[i].pos_ != "VERB":
                    new_phrase.append(doc[i].text)
               
                elif doc[i-1].morph.get("VerbForm") == ["Part"]:
                    new_phrase.append(
                        get_wanted_form(
                            doc[i-1], "perfect simplu", actual_pers, actual_num
                        )
                    )
                    new_phrase.append(doc[i].text)
                elif doc[i-1].morph.get("VerbForm") == ["Inf"]:
                    new_phrase += [doc[i-2].text, doc[i-1].text, doc[i].text]
                    i += 2
                
                elif doc[i].morph.get("VerbForm") == ["Inf"]:
                    new_phrase += [doc[i].text]

            elif (
                doc[i].dep_ == "ROOT"
                and doc[i-1].dep_ == "cc"
                and doc[i-2].dep_ == "aux"
            ):
                
                if actual_pers == "" and actual_num == "":
                    actual_num, actual_pers = get_right_person_and_number(doc[i-2])
                new_phrase.append(
                    get_wanted_form(
                                    doc[i],
                                    "perfect simplu",
                                    actual_pers,
                                    actual_num
                                )
                )
            
            elif (
                doc[i].dep_ == "ROOT"
                and doc[i-2].dep_ == "aux"
            ):
                
                if actual_pers == "" and actual_num == "":
                    actual_num, actual_pers = get_right_person_and_number(doc[i-2])
                
                if doc[i].morph.get("VerbForm") == ["Part"]:
                    new_phrase.append(
                        get_wanted_form(
                                        doc[i],
                                        "perfect simplu",
                                        actual_pers,
                                        actual_num
                                    )
                    )
                else:
                    new_phrase.append(doc[i].text)

            elif doc[i].dep_ in root_forms and doc[i-1].dep_ == "aux":
                if doc[i-2].dep_ == "aux":
                    if len(new_phrase) > 0 and doc[i-2].text == new_phrase[-1]:            
                        new_phrase += [doc[i-1].text, doc[i].text]
                    else:
                        new_phrase += [doc[i-2].text, doc[i-1].text, doc[i].text]
            
                    i += 2

                else:
                    # handle cases like these: "Eu am plecat"
                    # ensure that the construction found
                    # (aux + verb) is not at a future tense
                
                    if doc[i].morph.get("VerbForm", ["UNKNONWN"])[0] in {"Part"}:
                        if doc[i-1].pos_ == "AUX":
                            # if actual_pers == "" and actual_num == "":
                                # if person and number paramateres cant be
                                # found from subject of a phrase,
                                # the verb will get this from its inflection
                            (
                                actual_num,
                                actual_pers,
                            ) = get_right_person_and_number(doc[i-1])
                            # print(get_right_person_and_number(doc[i-1]))
                            word_to_add = get_wanted_form(
                                    doc[i],
                                    "perfect simplu",
                                    actual_pers,
                                    actual_num,
                                )
                            if word_to_add == "UNKNOWN":
                                if doc[i-1].lemma_ == "avea":
                                    new_phrase.append(doc[i-1].text)
                                    
                                new_phrase.append(
                                    doc[i].text
                                )
                            else:
                                new_phrase.append(word_to_add)

                        else:
                            # trick to handle exceptions found
                            if actual_pers == "" and actual_num == "":
                                (
                                    actual_num,
                                    actual_pers,
                                ) = get_right_person_and_number(doc[i-1])
                            new_phrase.append(doc[i].text)

                    else:
                        if doc[i].dep_ != "cop":
                            if len(new_phrase) > 0:
                                if doc[i-1].text != new_phrase[-1]:
                            # the construction is at a future tense or cond opt
                                    new_phrase.append(doc[i-1].text)
                            else:
                                new_phrase.append(doc[i].text)
                            
                        new_phrase.append(doc[i].text)
                        

            elif doc[i].dep_ == "aux:pass" and doc[i].lemma_ == "fi":
                    # AM COMENTAT PT EXEMPLUL ASTA El va pleca, dar ieri ar fi stat apoi a plecat.
                if doc[i-1].dep_ == "aux":
                    if doc[i+1].dep_ in root_forms and doc[i+1].pos_ not in {"VERB", "AUX"}:
                        (
                            actual_num,
                            actual_pers,
                        ) = get_right_person_and_number(doc[i-1])
                        new_phrase.append(get_wanted_form(
                                    doc[i],
                                    "perfect simplu",
                                    actual_pers,
                                    actual_num,
                                ))
                    elif doc[i+1].dep_ not in {"ROOT"}:
                    # else:
                        new_phrase.append(doc[i].text)
                    pass

                else:
                    new_phrase.append(doc[i].text)

            elif doc[i].dep_ == "det" and doc[i].pos_ == "AUX" and doc[i+1].dep_ == "dep" and doc[i+1].pos_ == "AUX":
                (
                    actual_num,
                    actual_pers,
                ) = get_right_person_and_number(doc[i])

                new_phrase.append(
                    get_wanted_form(
                                    doc[i+1],
                                    "perfect simplu",
                                    actual_pers,
                                    actual_num,
                                )
                )
                next(docgen)


            elif doc[i].dep_ == "aux":
                add = True
                anc_verb = {}
                for t in doc[i].ancestors:
                    if t.pos_ in {"VERB", "AUX"}:
                        add = False
                        anc_verb = t
                        
                if anc_verb == {}:
                    anc_verb=t

                if doc[i+1].dep_ == "mark" and doc[i+1].pos_ in {"ADP", "PART"} and doc[i+2].dep_ == "ROOT" and doc[i+2].pos_ == "VERB":
                    new_phrase += [doc[i].text, doc[i+1].text, doc[i+2].text]
                    next(docgen)
                    next(docgen)
                    # next(docgen)
                    # continue

                elif doc[i+1].morph.get("VerbForm") == ["Part"] or anc_verb.morph.get("VerbForm") == ["Part"]:
                    if doc[i].morph.get("VerbForm") in [["Fin"], ["Inf"]]:
                        new_phrase.append(doc[i].text)
                        new_phrase.append(doc[i+1].text)
                        next(docgen)
                    elif doc[i].text in {"ar", "ai", "am", "aș", "ați"} and doc[i+1].morph.get("VerbForm") in [["Fin"], ["Inf"]]:
                        new_phrase.append(doc[i].text)
                        new_phrase.append(doc[i+1].text)
                        new_phrase.append(doc[i+2].text)
                        next(docgen)
                        next(docgen)
                   
                    
                elif add is True or doc[i+1].morph.get("VerbForm") == ["Inf"] or anc_verb.morph.get("VerbForm") == ["Inf"]:
                    # print(new_phrase[-1], doc[i].text)
                    if len(new_phrase) > 0:
                        if new_phrase[-1] != doc[i].text:
                            new_phrase.append(doc[i].text)
                    else:
                        new_phrase.append(doc[i].text)
                else:
                    new_phrase.append(doc[i].text)
               
            # elif doc[i].dep_ == "dep" and doc[i].dep_ == "dep" and doc[i].pos_ == and doc[i].dep
                        # A FOST A MAMEI
                
            else:
                if doc[i].pos_ == "PRON" or doc[i].dep_ == "expl":
                    if doc[i].text[-1] == "-":

                        try:
                            anc = list(doc[i].ancestors)[0]                            
                            if anc.morph.get("VerbForm") == ["Part"]:
                                word_added = forme_reflexive_verifier(doc[i])
                            else:
                                word_added = doc[i].text
                        except:
                            word_added = doc[i].text
                    else:
                        word_added = doc[i].text
                else:
                    word_added = doc[i].text

                # print(word_added, doc[i].pos_, doc[i].dep_,)
                new_phrase.append(word_added)

        else:
            new_phrase.append(doc[i].text)
            actual_num, actual_pers = "", ""

    return new_phrase


def oltenizare(doc: Doc) -> str:
    """
        This function builds a new phrase with the verbs modified by the oltenizare_worker flow.
    """
    new_phrase = oltenizare_worker(doc)
    phrase_to_return = ""

    for i in range(len(new_phrase)):
        new_phrase[i] = new_phrase[i].replace("n-", "nu")
        new_phrase[i] = new_phrase[i].replace("l-", "îl")
        # new_phrase[i] = new_phrase[i].replace("s-", "se")
        new_phrase[i] = new_phrase[i].replace("ţi-", "îţi")
        # new_phrase[i] = new_phrase[i].replace("i-", "îi")
        new_phrase[i] = new_phrase[i].replace("le-", "le")
        new_phrase[i] = new_phrase[i].replace("c-", "că")
        
        # building the initial phrase back following the next
        # rule: word, word (or any other PUNCT)
        # edge-case 1: for "-" where the rule is word-word
        # edge-case 2: word. Word (the same for ?, !, \n)
        # print(new_phrase[i])
        if "-" in new_phrase[i][1:]:
            phrase_to_return += " " + new_phrase[i]
        elif "-" == new_phrase[i][0]:
            phrase_to_return += "-"+new_phrase[i]

        elif not new_phrase[i].isalpha():
            phrase_to_return += new_phrase[i]

        else:
            if new_phrase[i-1] in end_of_phrase:
                phrase_to_return += " " + new_phrase[i].capitalize()
            elif new_phrase[i-1][-1] == "-":
                phrase_to_return += new_phrase[i]
            else:
                phrase_to_return += " " + new_phrase[i]

    phrase_to_return = phrase_to_return.replace("--", "-")
    
    words = phrase_to_return.split()
    phrase = []
    for word in words:
        if word.endswith("-o"):
            word_modfied = f"o {word[:-2]}"
        else:
            word_modfied = word
        phrase.append(word_modfied)
    return " ".join(phrase)

Doc.set_extension("oltenizare", method=oltenizare, force=True)


In [12]:


import time
import spacy
t1 = time.time()

# pentru teste
cuv = "deplasam"
cuv2="uram"
# contextele pe care vreau sa l testez
actual_context = "Noi ne-am deplasat la pas."

doc = nlp(actual_context)

def ltrdict(phrase):
    d = {}
    for chr in phrase:
        if chr.isalpha():
            if chr not in d:
                d[chr] = 0
            else:
                d[chr] += 1
    return d


def oltenizare_exp(file):
    oltenizate = 0
    f = open(file, "r")
    props = f.readlines()
    for prop in props:
        prop = prop.lower()
        oltenizat_prop = nlp(prop)
        
        oltenizat_prop = oltenizare(oltenizat_prop)
        if ltrdict(prop) != ltrdict(oltenizat_prop.lower()):
            print(oltenizat_prop.lower(), prop)
    
    
# oltenizare_exp("avioane.txt")
# doc = nlp("sunt surprinsă că te-ai întors după mine.")
# doc = nlp("m-aș fi pus pe plâns, ca o stropitoare? ")

# for token in doc:
#     print(token, token.morph, token.lemma_, token.dep_, token.pos_)

# print()
# print()
    
# print(oltenizare(doc))

# Future work
# in ramura else adaugi forme reflexive doar daca sunt pronume, muta replace-urile din newphrase in oltenizator worker

# vazut-o =>>>> o vazui

In [39]:
# EDGE CASES CAUSED BY SPACY 
# de ce am fugi pe acolo?


ex = [
    # "Eu aș fi mers la mare.",
    "Noi am plecat la mare.",
    "Eu mergeam la mare.", 
    "Era bine să fi plecat la mare.",
    "Ei au vizitat marea.",
    "Eu voi fi vizitat marea.",
    "Eu voi merge la mare.",
    "El s-a dus la mare.",
    "Eu mi-am vizitat prietenii.",
]

doc = nlp(ex[0])
index=2
print(doc, doc[index])
syn_list = doc[index]._.get_syns()
for syn in syn_list:
    print(syn)

# for prop in ex:
#     prop = nlp(prop)
#     print(prop, prop._.oltenizare())

Noi am plecat la mare. plecat
plecat !!!
[('plecat', tensor(5147.1482, dtype=torch.float64)), ('pornit', tensor(4975.2128, dtype=torch.float64)), ('ieșit', tensor(4902.3925, dtype=torch.float64)), ('dispărut', tensor(4646.7599, dtype=torch.float64)), ('evadat', tensor(4602.8228, dtype=torch.float64)), ('risipit', tensor(4435.5997, dtype=torch.float64)), ('răspândit', tensor(4180.5773, dtype=torch.float64)), ('aplecat', tensor(4010.2930, dtype=torch.float64)), ('îndoit', tensor(3986.0682, dtype=torch.float64)), ('răzleț', 3750.0)]


In [None]:

propozitii = [
    "m-aș fi pus pe plâns, ca o stropitoare?",
    "sunt surprinsă că te-ai întors după mine.",
    "dacă tu socoteşti că a fi încătuşat, jefuit,",
    "nu-şi mai făcea griji că va fi ucis.",
    "succesul tău a fost puţin şi succesul meu.",
    "Eu am plecat",
    "El va fi venit",
    "El ar fi venit, dar nu",
    "nu l-am mai văzut pe aici.",
    "cenușăreasa va fi surprinsă.",
    "nu a mai rămas nimic în ce să crezi.",
    "atunci, prin ordin regal, acea fată va fi soția prințului.",
    "dacă i-ai dat o șansă inimii tale",
    "El va pleca, dar ieri ar fi stat apoi a plecat.",
    "vor deveni realitate.",
    "îți dai seama ce ai spus",
    "o voi citi eu!",
    "dar a fost așa de frumos!",
    "vom mai vedea",
    "a fost a mamei",
    "ar fi bine să te descotorosești de aceste vise.",
    "Nu mă îndoiesc că ați avut în minte întreaga scenă.",
    "cred că am uitat de toate!",
    "tot va fi interesat de una din ele, nu-i așa?", 
    "am să stau tot după tine.",
    "nu-ţi fă griji pentru mine, e ziua ta cea mare.",
    "tu ai copite.",
    "eu am palme."
]

In [175]:
f = open("multilex_test_it_combined_labels.tsv", "r")
rows = f.readlines()
phrases = []

for row in rows:
    row = row.split("\t")
    phrases.append({
        "id": row[0],
        "language": row[1],
        "phrase": row[2],
        "target": row[3],
        "score": row[4],
        "alternatives": row[5:],
    })

print(phrases[0])

FileNotFoundError: [Errno 2] No such file or directory: 'multilex_test_it_combined_labels.tsv'

In [176]:
import deepl

def translate_to_ro(phrase, source_lang="EN"):
    auth_key = "663d15b4-e26d-49b5-8d54-eae73b5d5f03:fx"  
    translator = deepl.Translator(auth_key)

    result = translator.translate_text(phrase, source_lang=source_lang, target_lang="RO")
    return result.text  


In [177]:
phrases_in_ro = []
id_act = 31
from tqdm import tqdm

for phrase in tqdm(phrases):
    alternatives_in_en = phrase.get("alternatives")
    alternatives_in_ro = [translate_to_ro(alternative) for alternative in alternatives_in_en]

    phrases_in_ro.append({
        "id": f"ro_{id_act}",
        "language": "romanian",
        "phrase": translate_to_ro(phrase.get("phrase")),
        "target": translate_to_ro(phrase.get("target")),
        "score": translate_to_ro(phrase.get("score")),
        "alternatives": alternatives_in_ro
    })

    id_act += 1

# print(phrases_in_ro)

  0%|          | 0/144 [00:00<?, ?it/s]


AttributeError: 'str' object has no attribute 'get'

In [178]:
g = open("ro_data_MLSP.txt", "w")

for phrase in phrases_in_ro:
    id = phrase.get("id")
    language = phrase.get("language")
    sentence = phrase.get("phrase")
    target = phrase.get("target")
    score = phrase.get("score")
    alternatives = phrase.get("alternatives")
    string_to_append = f"{id}\t{language}\t{sentence}\t{target}\t{score}\t"
    for alt in alternatives:
        string_to_append += alt + "\t"
    print(string_to_append)
    g.write(string_to_append)


In [179]:
phrases_with_targets = []
g = open("ro_data_MLSP_target_in_phrase.txt", "w")


def get_syns(phrase, target):
    doc = nlp(phrase)
    for token in doc:
        if token.text == target:
            pos_found = ud_to_dex[token.pos_]
            syns = get_matching_syns(token, actual_context=doc.text, pos_found=pos_found)
            try:
                return syns[:10]
            except:
                return []
    return []

# for phrase in tqdm(phrases_in_ro):
#     id = phrase.get("id")
#     language = phrase.get("language")
#     sentence = phrase.get("phrase")
#     target = phrase.get("target")
#     score = phrase.get("score")
#     alternatives = phrase.get("alternatives")
    
#     string_to_append = f"{sentence}\t{target}"
#     for alt in alternatives:
#         string_to_append += "\t" + alt
    
#     syns = get_syns(sentence, target)
#     if syns is not None:
#         if target in sentence and len(syns) > 0:
#             phrases_with_targets.append(phrase)
#             g.write(string_to_append)
    


In [180]:
f = open("multilex_test_all_combined_labels.tsv", "r")
scrie_in_it_gold_Data = open("ro_data_MLSP_target_in_phrase_ITALIAN.txt", "w")

for row in f.readlines():
    row = row.split("\t")
    if "it" in row[0]:
        string_to_append = f"{row[2]}\t{row[3]}"
        for alt in row[5:]:
            string_to_append += "\t" + alt
        print(string_to_append)
        scrie_in_it_gold_Data.write(string_to_append)

FileNotFoundError: [Errno 2] No such file or directory: 'multilex_test_all_combined_labels.tsv'

In [31]:
# scrie traducerile de la shared task italiana in ro
f = open("ro_data_MLSP_target_in_phrase_ITALIAN.txt", "r")

data = f.readlines()
data_in_ro_from_it = []

for row in tqdm(data):
    row = row.split("\t")
    phrase = translate_to_ro(row[0], source_lang="IT")
    target = translate_to_ro(row[1], source_lang="IT")

    alternatives_in_ro = []
    alternatives = row[2:]
    for alt in alternatives:
        alternatives_in_ro.append(translate_to_ro(alt, source_lang="IT"))

    data_in_ro_from_it.append((phrase, target, alternatives_in_ro))

print(data_in_ro_from_it)

  0%|          | 0/561 [00:00<?, ?it/s] [INFO] 2024-05-28 21:02:16,675 deepl:49 - Request to DeepL API method=POST url=https://api-free.deepl.com/v2/translate
 [INFO] 2024-05-28 21:02:17,324 deepl:49 - DeepL API response status_code=200 url=https://api-free.deepl.com/v2/translate
 [INFO] 2024-05-28 21:02:17,328 deepl:49 - Request to DeepL API method=POST url=https://api-free.deepl.com/v2/translate
 [INFO] 2024-05-28 21:02:17,733 deepl:49 - DeepL API response status_code=200 url=https://api-free.deepl.com/v2/translate
 [INFO] 2024-05-28 21:02:17,736 deepl:49 - Request to DeepL API method=POST url=https://api-free.deepl.com/v2/translate
 [INFO] 2024-05-28 21:02:18,132 deepl:49 - DeepL API response status_code=200 url=https://api-free.deepl.com/v2/translate
 [INFO] 2024-05-28 21:02:18,136 deepl:49 - Request to DeepL API method=POST url=https://api-free.deepl.com/v2/translate
 [INFO] 2024-05-28 21:02:18,535 deepl:49 - DeepL API response status_code=200 url=https://api-free.deepl.com/v2/tra

[('Armele și dragostea sunt inseparabile și răspund viziunii hedoniste și laice a vieții tipice Renașterii.', 'inseparabil', ['inseparabil', 'inseparabil', 'inseparabil', 'inseparabil', 'inseparabil', 'inseparabil', 'inseparabil', 'indivizibil', 'indivizibil', 'indivizibil', 'indivizibil', 'indivizibil', 'indivizibil', 'indisolubilă\n']), ('Armele și dragostea sunt inseparabile și răspund viziunii hedoniste și laice a vieții tipice Renașterii.', 'viziune', ['idee', 'idee', 'idee', 'imagine', 'imagine', 'imagine', 'aspect', 'concept', 'percepție', 'perspectivă', 'uite\n']), ('Armele și dragostea sunt inseparabile și răspund viziunii hedoniste și laice a vieții tipice Renașterii.', 'laic', ['seculară', 'seculară', 'areligioasă', 'ateu\n']), ('Dar la aceste întrebări ar fi putut răspunde și un țipăt furibund, inuman: atât de puternic încât întregul oraș, oricât de mult ar mai fi rămas în picioare dincolo de fundalul intact și înșelător al Via Mazzini până la îndepărtatele Ziduri sfărâmate




In [181]:
# golddata pt romana doar cu frazele care au si sinonime in romana

g = open("GOLD_DATA_RO_FROM_IT.txt", "w")

for phrase in tqdm(data_in_ro_from_it):
    sentence = phrase[0]
    target = phrase[1]
    string_to_append = f"{phrase[0]}\t{phrase[1]}"
    alternatives = phrase[2]

    for alt in alternatives:
        string_to_append += "\t" + alt
    
    syns = get_syns(sentence, target)
    if syns is not None:
        if target in sentence and len(syns) > 0:
            phrases_with_targets.append(phrase)
            g.write(string_to_append)

NameError: name 'data_in_ro_from_it' is not defined

In [183]:
# # pentru frazele din ro_data_mlsp aplica LS iar si evalueaza

# rezultate actuale:
# =========   EVALUATION config.=========
# GOLD file = ro_data_MLSP_target_in_phrase.txt
# PREDICTION LABELS file = ls_ro.txt
# OUTPUT file = aici.txt
# ===============   RESULTS  =============

# MAP@1/Potential@1/Precision@1 = 0.3333

# MAP@3 = 0.1827
# MAP@5 = 0.1252
# MAP@10 = 0.0646

# Potential@3 = 0.4777
# Potential@5 = 0.5
# Potential@10 = 0.5222

# Accuracy@1@top_gold_1 = 0.2666
# Accuracy@2@top_gold_1 = 0.3888
# Accuracy@3@top_gold_1 = 0.4222

In [182]:
#GENEREAZA LS PT RO FROM EN

f = open("GOLD_DATA_RO_FROM_EN.txt", "r")
g = open("ls_ro.txt", "w")
from tqdm import tqdm

for row in tqdm(f.readlines()):
    row = row.split("\t")
    romanian_sentence = row[0]
    target = row[1]
    string_to_write = f"{romanian_sentence}\t{target}\t"
    syns = get_syns(romanian_sentence, target)

    for syn in syns:
        string_to_write += syn[0] + "\t"
    print(string_to_write)
    g.write(string_to_write + "\n")

    


FileNotFoundError: [Errno 2] No such file or directory: 'GOLD_DATA_RO_FROM_EN.txt'

In [44]:
#GENEREAZA LS PT RO FROM EN

f = open("GOLD_DATA_RO_FROM_IT.txt", "r")
scrie_it = open("ls_ro_it.txt", "w")
from tqdm import tqdm
i=0
for row in tqdm(phrases_with_targets):
    # row = row.split("\t")
    romanian_sentence = row[0]
    target = row[1]
    string_to_write = f"{romanian_sentence}\t{target}\t"
    syns = get_syns(romanian_sentence, target)

    for syn in syns:
        string_to_write += syn[0] + "\t"

    print(string_to_write)
    scrie_it.write(string_to_write + f"\n")

    


  1%|          | 1/91 [00:00<00:31,  2.89it/s]

...astfel s-a răspândit printre scapigliati un sentiment de rebeliune și de dispreț radical față de standardele și convingerile morale curente, ceea ce a avut drept consecință crearea mitului vieții dizolvate și neregulate (așa-numitul maledettismo).	dispreț	necaz	dezgust	sentiment	


  2%|▏         | 2/91 [00:02<01:59,  1.34s/it]

La Scapigliati se formează un fel de conștiință dualistă (un vers al lui Arrigo Boito se intitulează tocmai Dualism) care subliniază contrastul strident dintre "idealul" pe care se dorește a-l atinge și "adevăratul", realitatea crudă, descrisă în mod obiectiv și anatomic.	strident	subțire	viu	aspru	nepotrivit	nearmonios	distonant	puternic	ascuțit	țipător	intens	


  3%|▎         | 3/91 [00:02<01:13,  1.19it/s]

...astfel s-a răspândit printre scapigliati un sentiment de rebeliune și de dispreț radical față de standardele și convingerile morale curente, ceea ce a avut drept consecință crearea mitului vieții dizolvate și neregulate (așa-numitul maledettismo).	dispreț	necaz	dezgust	sentiment	


  4%|▍         | 4/91 [00:04<01:51,  1.28s/it]

La Scapigliati se formează un fel de conștiință dualistă (un vers al lui Arrigo Boito se intitulează tocmai Dualism) care subliniază contrastul strident dintre "idealul" pe care se dorește a-l atinge și "adevăratul", realitatea crudă, descrisă în mod obiectiv și anatomic.	strident	subțire	viu	aspru	nepotrivit	nearmonios	distonant	puternic	ascuțit	țipător	intens	


  5%|▌         | 5/91 [00:04<01:20,  1.07it/s]

Semăna cu un râu subteran care curge invizibil și comprimat pe sub stânci, dar de îndată ce găsește o fisură, o crăpătură, țâșnește cu toată puterea sa impresionantă.	comprimat	comprimat	strâns	apăsat	prescurtat	abreviat	


  7%|▋         | 6/91 [00:05<01:01,  1.39it/s]

Aici, temperamentul său bizar, jucăuș și ireverențios este mai întâi apreciat, dar apoi devine un motiv de marginalizare la apariția noii viziuni culturale aduse de Ficino.	ireverențios	obraznic	necuviincios	nerespectuos	nereverențios	nepoliticos	


  8%|▊         | 7/91 [00:05<00:55,  1.52it/s]

Îl cunoșteam pe Benedetto Croce, l-am întâlnit de mai multe ori la Florența, înainte de ultimul război, când a cere să-l vezi și să vorbești cu el nu era lipsit de unele inconveniente	întâlnit	aflat	găsit	văzut	nimerit	întâlnit	auzit	împreunat	


  9%|▉         | 8/91 [00:06<01:10,  1.18it/s]

Pentru omul de litere se deschide o nouă perioadă de nesiguranță, pe care spera să o compenseze, sperând în zadar că va primi o numire cardinalicească datorită sprijinului lui Piero de' Medici, noul stăpân al orașului și fostul său discipol.	nesiguranță	îndoială	ezitare	șovăială	încurcătură	uluire	neîncredere	descumpănire	deconcertare	timiditate	neîndemânare	


 10%|▉         | 9/91 [00:08<01:26,  1.06s/it]

Din cercul restrâns al discipolilor și prietenilor lui Croce - compus în mare parte din oameni care reprezentau cultura oficială (școala, universitățile, academiile) nu am făcut parte niciodată	compus	produs	compus	cules	făcut	scris	determinat	stârnit	alcătuit	constituit	construit	


 11%|█         | 10/91 [00:09<01:33,  1.16s/it]

El folosește un stil și un limbaj nou pentru literatura vernaculară, amestecând elemente eterogene: expresii din toscana curentă sunt folosite alături de limbajul mult mai rafinat al lui Dante, Petrarca și Boccaccio.	rafinat	subtil	viclean	iscusit	șiret	nobil	ales	elegant	superior	șmecher	descurcăreț	


 12%|█▏        | 11/91 [00:14<03:09,  2.36s/it]

În lumina slabă a zorilor, a căutat pe bâjbâite sandalele transformate în papuci pe care le folosea drept încălțăminte.	slabă	slabă	prăpădită	plăpândă	bolnăvicioasă	redusă	uscățivă	sfrijită	scheletică	moale	criticabilă	


 14%|█▍        | 13/91 [00:15<01:38,  1.26s/it]

Scenariul urmărește povestea clasică a lui Orfeu și Euridice, cu doar câteva variații: subminată de ciobanul Aristeus, Euridice cade victimă a mușcăturii unui șarpe.	variații	schimbări	deosebiri	variațiuni	ramificări	nestabilități	
Pentru romantici, reconstituirea istorică era un pretext de îndemn la acțiune, pe când pentru el este doar o reminiscență nostalgică a unui timp eroic care nu mai este	pretext	motiv	prilej	


 15%|█▌        | 14/91 [00:16<01:23,  1.08s/it]

Pentru romantici, reconstituirea istorică era un pretext de îndemn la acțiune, pe când pentru el este doar o reminiscență nostalgică a unui timp eroic care nu mai este	îndemn	sfat	avânt	entuziasm	impuls	ordin	imbold	bold	discurs	stimulent	îmbold	


 16%|█▋        | 15/91 [00:17<01:19,  1.05s/it]

Incapacitatea de a fi uimiți și conștiința că nu stârnim uimire ne vor face să pătrundem treptat pe tărâmul plictiselii.	uimire	surprindere	spaimă	minunare	uluială	uluire	mirare	zăpăceală	buimăceală	stupoare	stupefacție	


 18%|█▊        | 16/91 [00:17<01:07,  1.12it/s]

Pe scurt, avea acel imbold al celor care povestesc și nu știu niciodată dacă cele mai bune sunt cele care li s-au întâmplat cu adevărat și care, atunci când sunt rememorate, aduc cu ele o mare de ore trecute, de sentimente minuscule, de tandrețuri, de fericiri, de incertitudini, de lăudăroșenii, de deznădejde de sine, sau cele pe care le inventează cineva, în care taie greu și totul pare ușor, dar apoi, cu cât variază mai mult, cu atât mai mult își dă seama că se întoarce să vorbească despre lucrurile pe care le-a trăit sau le-a înțeles efectiv în timpul vieții.	variază	schimbă	diferă	diferențiază	șovăie	


 19%|█▊        | 17/91 [00:18<01:16,  1.03s/it]

Pagina arată bine doar atunci când o întorci și în spatele ei se află viață, care împinge și perturbă toate foile cărții.	împinge	aruncă	arunc	îndeamnă	azvârle	stimulează	azvârlă	respinge	ațâță	ghiontește	izbește	


 20%|█▉        | 18/91 [00:19<01:01,  1.18it/s]

Lucrarea a circulat multă vreme în manuscris, a avut o ediție incorectă și parțială până când a fost tipărită la Napoli în 1504	circulat	mers	circulat	umblat	succedat	defilat	


 21%|██        | 19/91 [00:20<01:15,  1.05s/it]

Lucrarea a circulat multă vreme în manuscris, a avut o ediție incorectă și parțială până când a fost tipărită la Napoli în 1505	incorectă	eronată	incorectă	suspectă	imorală	necinstită	dubioasă	inexactă	îndoielnică	nepotrivită	neonestă	


 22%|██▏       | 20/91 [00:21<01:05,  1.08it/s]

Trebuie să fi vorbit el însuși despre asta, la un moment dat; și între timp se uita în fața lui, fără să vadă nimic și pe nimeni, rânjind ușor.	ușor	lesne	desigur	firește	rău	oarecum	bineînțeles	rareori	ră	oleacă	oareșice	
Anii care au trecut de atunci nu au servit la nimic, în definitiv: nu au reușit să vindece o durere care a rămas acolo, neatinsă, ca o rană secretă, sângerând în secret.	secret	mister	


 25%|██▌       | 23/91 [00:22<00:32,  2.11it/s]

Toate lucruri bune, dar aveam impresia că în acel moment fratele meu nu numai că era complet nebun, dar devenea și puțin imbecil.	imbecil	idiot	prost	cretin	tâmpit	
Soțul ei părea o persoană nefericită, fără angajament, fără mari averi și fără prestigiu.	angajament	cuvânt	legământ	jurământ	
Soțul ei părea o persoană nefericită, fără angajament, fără mari averi și fără prestigiu.	prestigiu	renume	


 27%|██▋       | 25/91 [00:23<00:32,  2.01it/s]

Și imediat mi-am dat seama că, în realitate, nu fusese nimic, nici zgomote, nici cutremure; era durerea, care se folosea de aceste artificii maligne pentru a mă ține treaz și a nu mă părăsi niciodată.	imediat	acum	îndată	acuși	acuma	atunci	numaidecât	amuși	acușica	deodată		


 29%|██▊       | 26/91 [00:23<00:37,  1.74it/s]

Polemicile din tinerețe aveau sens în lumina climatului Risorgimento, care l-a determinat pe Carducci să demonizeze tot ceea ce putea sta în calea reconquistei libertății care făcuse Roma mare și comunele italiene demne de glorie nepieritoare în Evul Mediu (idiosincrasia inițială pentru literatura străină trebuie înțeleasă în acest sens).	nepieritoare	eternă	eterne	veșnică	veșnice	nepieritoare	nesfârșită	nesfârșite	nemuritoare	neperisabilă	neperisabile	


 30%|██▉       | 27/91 [00:24<00:37,  1.69it/s]

A fost necesar să ne întoarcem la alegerea cuvintelor, să le scrutăm pentru a afla dacă sunt false sau adevărate, dacă au sau nu rădăcini reale în noi sau dacă au doar rădăcinile efemere ale iluziei comune.	doar	numai	tocmai	numa	abia	măcar	oarecum	taman	barem	sadea	


 31%|███       | 28/91 [00:25<00:34,  1.84it/s]

Toată lumea își închipuia că se poate și chiar trebuie să se facă poezie din orice, după atâția ani în care lumea părea că a tăcut și s-a pietrificat, iar realitatea fusese privită ca de dincolo de un geam, într-o liniște sticloasă, cristalină și mută.	pietrificat	uscat	pietrificat	înlemnit	împietrit	înmărmurit	


 32%|███▏      | 29/91 [00:25<00:37,  1.65it/s]

Intenția ironică a operei este evidentă în tonul eroic folosit pentru a povesti viața frivolă a protagonistului, la fel de evidentă este și intenția morală a autorului, care se revoltă împotriva degenerării aristocrației vremii.	frivolă	frivolă	neserioasă	flușturatică	fluturatică	ușuratică	inutilă	superficială	zvânturată	vânturatică	nebunatică	


 33%|███▎      | 30/91 [00:26<00:34,  1.78it/s]

În timp ce primii întruchipează virtuți precum dreptatea sau blândețea, eroii negativi sunt conduși de pofta de putere și calcă în picioare toate valorile.	întruchipează	creează	întrupează	incarnează	plăsmuiește	întruchipează	plăsmuiesc	înfăptuiește	înfăptuiesc	


 34%|███▍      | 31/91 [00:28<00:55,  1.08it/s]

În timp ce primii întruchipează virtuți precum dreptatea sau blândețea, eroii negativi sunt conduși de pofta de putere și calcă în picioare toate valorile.	pofta	voia	pofta	dorința	starea	plăcerea	fantezia	fandoseala	grimasa	prosteala	furia	


 35%|███▌      | 32/91 [00:31<01:43,  1.75s/it]

În Italia, unificarea țării a pus diverse probleme politice, începând cu omogenizarea lingvistică și difuzarea limbii naționale: acest lucru a fost posibil prin extinderea școlii primare obligatorii (prin legea Casati, în vigoare din 1861), o măsură necesară și din cauza procentului ridicat de analfabeți.	măsură	mărime	proporție	întindere	operație	măsurare	cantitate	dispoziție	rațiune	dublă	directivă	


 36%|███▋      | 33/91 [00:33<01:39,  1.72s/it]

Sarcina romancierului este de a efectua o investigație științifică pentru a descoperi legile care guvernează comportamentul uman, apoi de a expune publicului, prin intermediul romanului, relatarea experimentelor sale (de unde și termenul de "roman experimental").	expune	descrie	prezenta	reda	spune	înfățișa	povesti	deschide	enumera	întinde	zugrăvi	


 38%|███▊      | 35/91 [00:34<01:01,  1.09s/it]

În fiecare seară, Elsa Morante venea la trattoria fluturând "Paese Sera" și strigând că este un scandal și că trebuie să ne mobilizăm, o dată pentru bomba atomică, o dată pentru pisicile din Roma.	strigând	plângând	chiuind	auind	zbierând	țipând	hăuind	hăulind	chemând	obosind	chiotind	
În societatea italiană, lacerațiile care caracterizează relația dintre intelectual și societate nu s-au format încă, iar elanul optimist al celor care se angajează să creeze o nouă națiune prevalează asupra conflictelor.	optimist	luminos	surâzător	


 40%|███▉      | 36/91 [00:34<00:46,  1.19it/s]

În această fabulă [Cei trei mușchetari], Alexandru Dumas dă dovadă de multe calități ale marelui scriitor	fabulă	pildă	glumă	alegorie	metaforă	


 42%|████▏     | 38/91 [00:35<00:35,  1.50it/s]

Astfel, a renunțat la ideea de literatură ca plăcere și a început să scrie opere pentru un public erudit.	plăcere	voie	poftă	dorință	stare	voință	bucurie	distracție	desfătare	înclinație	veselie	
Un adevăr poate fi sesizat de un trecător, un străin îl poate transmite mai fidel decât cel care îl cunoaște și îl suferă.	străin	ă	pribeag	


 43%|████▎     | 39/91 [00:37<00:51,  1.01it/s]

Un adevăr poate fi sesizat de un trecător, un străin îl poate transmite mai fidel decât cel care îl cunoaște și îl suferă.	suferă	pățește	trag	suferă	trage	sufere	pățesc	suportă	pătimește	rabdă	pătimesc	


 44%|████▍     | 40/91 [00:37<00:39,  1.29it/s]

Speriată, am recuperat mingea și m-am strecurat printre picioarele statuii.	recuperat	recuperat	recâștigat	recăpătat	redobândit	recucerit	


 45%|████▌     | 41/91 [00:38<00:36,  1.37it/s]

De multe ori m-am gândit cu nostalgie că generații întregi au trecut peste aceeași carte, citind mereu ceva mai puțin în ea, ca și cum un singur deget, parcurgând un singur exemplar, ar fi șters încet liniile.	încet	binișor	ușurel	agale	puțin	tiptil	încetișor	largo	larg	anevoie	lento	


 46%|████▌     | 42/91 [00:38<00:30,  1.61it/s]

A fi foarte atins: suma mai multor mângâieri este o julitură.	suma	suma	cantitatea	mărimea	mulțimea	înălțimea	grămada	puzderia	


 47%|████▋     | 43/91 [00:39<00:25,  1.87it/s]

În acest fel, literatura de specialitate îi ajută pe economiști și pe politicieni să îmbunătățească condițiile sociale prin evidențierea distorsiunilor, astfel încât acestea să poată fi eliminate.	evidențierea	forța	forma	remarca	strălucirea	relevația	


 49%|████▉     | 45/91 [00:40<00:24,  1.91it/s]

Voi spune aici doar că atunci când am văzut fără viață acest trup pe care îl cunoșteam îndeaproape, care fusese fericit și activ, care citise atâtea cărți și fusese expus la atâtea experiențe, am simțit atât repulsie, cât și milă.	repulsie	ură	dușmănie	greață	aversiune	oroare	intoleranță	antipatie	silă	scârbă	pornire	
Universitățile, în special, permit multor intelectuali să se întrețină, dedicându-se studiului și cercetării: printre aceștia se numără filosofi, oameni de știință, critici literari, dar și poeți precum Carducci și Pascoli.	intelectuali	ă	


 51%|█████     | 46/91 [00:41<00:28,  1.57it/s]

Totuși, o femeie fatală, Foscarina Perdita, al cărei nume face aluzie la întuneric și pierzanie, intervine și aici pentru a limita acțiunea protagonistului.	pierzanie	corupție	decădere	descompunere	decadență	desfrânare	perdiție	putrefacție	imoralitate	pierzare	destrăbălare	


 52%|█████▏    | 47/91 [00:42<00:28,  1.55it/s]

În multe lucrări manuale în care există pericolul unui eșec sau al unei rupturi etc., unul dintre cele mai necesare lucruri pentru ca acestea să reușească este să nu te gândești la pericol și să te porți cu franchețe.	necesare	necesare	utile	folositoare	forțate	obligatorii	riguroase	trebuincioase	indispensabile	trebuitoare	


 53%|█████▎    | 48/91 [00:43<00:36,  1.17it/s]

Un răget de durere și furie s-a ridicat deasupra orașului și a răsunat neîncetat, obsesiv, măturat de orice alt sunet, punctând marea minciună.	neîncetat	veșnic	necontenit	neobosit	neîntrerupt	susținut	necurmat	fix	nesfârșit	neostenit	constant	


 54%|█████▍    | 49/91 [00:43<00:32,  1.30it/s]

Preromantismul este o mișcare foarte diversă și eterogenă, plasându-și unele dintre aspirații în ținuturi îndepărtate și exotice și în epoci obscure și primitive.	aspirații	idei	dorințe	iluzii	aspirații	ținte	năzuințe	sugeri	


 55%|█████▍    | 50/91 [00:44<00:26,  1.55it/s]

Basmul eroului nu se încheie cu gestul măreț care îl dezvăluie lumii.	dezvăluie	arată	dezvăluie	descoperă	trădează	tipărește	destăinuie	relevă	
0
tensor(0.0837, dtype=torch.float64)


 56%|█████▌    | 51/91 [00:54<02:25,  3.64s/it]

Din admirația pentru operele scoase la lumină derivă un cult al antichității clasice considerată, în cheie mitică, ca un timp perfect, de o frumusețe superioară oricărei alte epoci, pe care modernii trebuie să o ia ca model și să o imite.	ia	lua	ia	ieie	confisca	confiscă	sechestra	confiște	sechestrează	sechestreze	înhăța	


 57%|█████▋    | 52/91 [00:56<01:53,  2.92s/it]

Din admirația pentru operele scoase la lumină derivă un cult al antichității clasice considerată, în cheie mitică, ca un timp perfect, de o frumusețe superioară oricărei alte epoci, pe care modernii trebuie să o ia ca model și să o imite.	model	tipar	șablon	concept	exemplu	tablou	calup	etalon	fason	perfect	specimen	


 58%|█████▊    | 53/91 [00:58<01:39,  2.62s/it]

Psihologia personajelor nu este tulbure și neliniștită ca în exemplele anterioare, deci mai puțin îndepărtată de realitatea cotidiană, iar romanul este în ansamblu echilibrat și clar.	tulbure	aprig	aprigă	agite	năvalnic	năvalnică	viforatic	năprasnic	viforatică	năprasnică	încețoșat	


 60%|██████    | 55/91 [00:58<00:50,  1.40s/it]

Țara era plină de râuri, lacuri și poduri, și era animată de grupuri de vânători în pantaloni roșii și jachete albastre: îi urmăreau pe servitorii care transportau fazani aurii, iepuri și mistreți, iar câinii se mișcau în grupuri.	grupuri	grupuri	ansambluri	stoluri	cârduri	
Cu legea de fier a celui mai puternic și legea cinică a autoconservării, inexorabilă, se împlinește soarta a tot și a tuturor.	fier	tăiș	ascuțiș	


 62%|██████▏   | 56/91 [00:59<00:46,  1.33s/it]

Singura libertate acordată este aceea de a rezista cu demnitate până la capătul liniei, jucându-se ca pisica cu șoarecele, știind însă că ei sunt șoarecele, nu pisica, și că nu au scăpare.	demnitate	cinste	mândrie	reputație	capacitate	putere	pricepere	funcție	corectitudine	probitate	mărire	


 63%|██████▎   | 57/91 [01:00<00:37,  1.10s/it]

Aici, natura protagonistului joacă un rol important: în timp ce acesta descoperă lumea prin ochii unui copil, ca marionetă, el prezintă o anumită mecanicitate în comportamentul său și în încăpățânarea cu care revine invariabil la aceleași greșeli.	joacă	joacă	dansează	desfășoară	proiectează	reprezintă	licărește	


 64%|██████▎   | 58/91 [01:01<00:33,  1.03s/it]

Formulele renascentiste, romantice și decadente ale omului care își fabrică singur destinul și îndoaie lucrurile după voia lui, adică elimină șansa din viața lui, m-au respins întotdeauna.	respins	anulat	respins	împins	refuzat	ghiontit	contestat	condamnat	aruncat	îndepărtat	alungat	


 65%|██████▍   | 59/91 [01:01<00:28,  1.11it/s]

Să spui că oamenii sunt întotdeauna victime, întotdeauna nevinovați, este o ipocrizie și o minciună și o insultă la adresa demnității fiecărui bărbat, fiecărei femei, fiecărei persoane.	ipocrizie	trădare	falsitate	perfidie	fățărnicie	duplicitate	viclenie	simulare	fățărie	prefăcătorie	prefăcătură	


 66%|██████▌   | 60/91 [01:04<00:39,  1.29s/it]

Să spui că oamenii sunt întotdeauna victime, întotdeauna nevinovați, este o ipocrizie și o minciună și o insultă la adresa demnității fiecărui bărbat, fiecărei femei, fiecărei persoane.	insultă	atinge	atingi	ating	atinse	leză	suduie	lezează	sudui	atacă	ultragie	


 67%|██████▋   | 61/91 [01:06<00:49,  1.65s/it]

Obișnuința este cea mai infamă dintre boli, pentru că ne face să acceptăm orice nenorocire, orice durere, orice moarte.	nenorocire	durere	grijă	nevoie	belea	suferință	năpastă	pacoste	dandana	nemulțumire	supărare	
tensor(0.0917, dtype=torch.float64)
tensor(0.0317, dtype=torch.float64)


 68%|██████▊   | 62/91 [01:09<00:55,  1.93s/it]

Obișnuința este cea mai infamă dintre boli, pentru că ne face să acceptăm orice nenorocire, orice durere, orice moarte.	moarte	crimă	crime	răposare	ucidere	ucideri	răposări	omorâre	pieire	omorâri	stingere	
tensor(0.0337, dtype=torch.float64)
tensor(0.0337, dtype=torch.float64)


 69%|██████▉   | 63/91 [01:09<00:41,  1.48s/it]

Este consecința directă a ceea ce omul experimentează față de absolut, un sentiment de neliniște continuă și de tensiune pregnantă, un sentiment care îl afectează pe subiect și îl împinge dincolo de limitele realității pământești.	afectează	afectează	mâhnește	lezează	fasolește	alintă	izmenește	


 71%|███████▏  | 65/91 [01:10<00:23,  1.09it/s]

Dar a nega soarta este aroganță, a pretinde că suntem singurii arhitecți ai existenței noastre este nebunie.	aroganță	mândrie	trufie	semeție	vanitate	îngâmfare	superioritate	fală	fatuitate	obrăznicie	fudulie	
Fragmentarea politică are, de asemenea, repercusiuni asupra economiei: invaziile și distrugerile care urmează subminează posibilitatea de a stabili o economie bazată pe schimbul de bunuri.	repercusiuni	consecințe	repercusiuni	


 73%|███████▎  | 66/91 [01:11<00:22,  1.10it/s]

Au zăbovit o vreme privind urmele pe care le lăsaseră petrecăreții, apoi și-au mutat privirea în jur și în sus.	mutat	mutat	așteptat	amânat	trecut	îngăduit	plecat	deplasat	urnit	transferat	cărat	


 74%|███████▎  | 67/91 [01:11<00:18,  1.33it/s]

Folosirea unor unelte agricole rudimentare a impus apoi limitări severe ale producției, ceea ce a dus la foamete și epidemii.	epidemii	boale	epidemii	bolezne	boliști	molime	epizootii	boleșnițe	


 75%|███████▍  | 68/91 [01:13<00:24,  1.08s/it]

Ceea ce a subminat în mod decisiv unitatea lingvistică a limbii latine a fost, pe de o parte, prăbușirea puterii centrale a Imperiului Roman și, pe de altă parte, răspândirea creștinismului, care a preferat limba vernaculară pentru a avea un contact mai direct cu poporul.	decisiv	hotărâtor	hotărât	determinant	definitiv	convingător	vital	covârșitor	esențial	irecuzabil	iremediabil	


 76%|███████▌  | 69/91 [01:14<00:24,  1.10s/it]

Un creion cu vârf de cauciuc, o carte ilustrată, o praștie, o riglă, o cerneală portabilă din ebonită, orice lucru nu-i trezea în minte, mai întâi o dorință intensă și nerezonabilă pentru lucrul la care râvnea și apoi, odată ce acesta intra în posesia sa, o satisfacție stupefiată, vrăjită, insațiabilă.	satisfacție	încântare	mulțumire	mândrie	plăcere	fală	bucurie	fudulie	desfătare	fericire	îngâmfare	
Cu toate acestea, trebuie subliniat faptul că nu este vorba de forme lingvistice strict fixe, iar în diferite transcrieri ale aceluiași text se pot găsi variante locale ale aceleiași expresii.	variante	variante	


 78%|███████▊  | 71/91 [01:15<00:14,  1.38it/s]

De asemenea, părea să-și amintească faptul că atunci în el existase o bogăție tumultoasă și obscură.	părea	crede	credea	năzări	închipui	năzărea	închipuia	socoti	socotea	


 79%|███████▉  | 72/91 [01:15<00:11,  1.65it/s]

Este semnul de punctuație cel mai răspândit în limba italiană, cel mai versatil din punct de vedere expresiv și cel care permite cele mai variate utilizări.	versatil	variabil	schimbător	nestabil	nestatornic	


 80%|████████  | 73/91 [01:15<00:09,  1.97it/s]

De fiecare dată când te strângeam în brațe, îți simțeam corpul tremurând de nerăbdare, dacă nu de disconfort.	nerăbdare	agitație	neliniște	iritare	înfuriere	


 81%|████████▏ | 74/91 [01:16<00:10,  1.55it/s]

Discuția de atunci, în care poziția lui Bembo avea să prevaleze în cele din urmă, nu se referea la limba comună pe care italienii ar putea să o adopte, ci la limba comună în care ar putea fi scrisă proza și literatura.	poziția	poziția	situația	condiția	atitudinea	starea	ipostaza	postura	poza	circumstanța	așezarea	


 84%|████████▎ | 76/91 [01:21<00:18,  1.25s/it]

Perioada este fatidică, se deschide cu neliniștile legate de noul mileniu, începe cu 11 septembrie 2001, urmată de cele două războaie din Afganistan și Irak, iar în Italia are loc ascensiunea la putere a lui Silvio Berlusconi.	începe	face	porni	fă	pornește	prinde	lăsa	lasă	produ	produce	apari	
Există dialecte care prezintă o puternică asemănare tipologică cu italiana, împărtășirea trăsăturilor fonetice și inteligibilitatea reciprocă; acesta este în special cazul dialectelor toscane, din care, de altfel, provine și italiana.	reciprocă	inversă	reciprocă	


 85%|████████▍ | 77/91 [01:21<00:13,  1.07it/s]

Frumusețea unei proceduri științifice este că nu irosește niciodată timpul altora: chiar și a lucra în urma unei ipoteze științifice pentru a descoperi mai târziu că aceasta trebuie să fie respinsă înseamnă că ai făcut ceva util sub impulsul unei propuneri anterioare.	proceduri	proceduri	modalități	
Aici, după părerea mea, trebuie să ne îndepărtăm de resentimentul revizionismului obsesiv și petulant și să căutăm o formă de sentiment al istoriei.	obsesiv	obsesional	


 87%|████████▋ | 79/91 [01:21<00:06,  1.79it/s]

M-am îndrăgostit imediat, încă din primul an de facultate, de acel profesor de estetică [Stefano Zecchi] care, în cenușiul universal, ținea cursuri neînfricate și visătoare despre sistemele maxime.	îndrăgostit	îndrăgostit	înamorat	


 88%|████████▊ | 80/91 [01:21<00:05,  2.03it/s]

M-am îndrăgostit imediat, încă din primul an de facultate, de acel profesor de estetică [Stefano Zecchi] care, în cenușiul universal, ținea cursuri neînfricate și visătoare despre sistemele maxime.	universal	spațial	vast	sideral	cuprinzător	


 89%|████████▉ | 81/91 [01:23<00:06,  1.50it/s]

Faptele devin ale tale fie atunci când se izbesc de viața ta, direct, fie atunci când cineva le compune într-o poveste și ți le trimite în cap.	compune	face	produce	culege	scrie	determină	stârnește	alcătuiește	constituie	concepe	construiește	


 90%|█████████ | 82/91 [01:23<00:06,  1.37it/s]

Faptele devin ale tale fie atunci când se izbesc de viața ta, direct, fie atunci când cineva le compune într-o poveste și ți le trimite în cap.	trimite	împrăștia	emite	propaga	împrăștie	propagă	adresa	arunca	adresează	aruncă	expedia	


 91%|█████████ | 83/91 [01:24<00:05,  1.58it/s]

O ambiție reală, profetică și curajoasă pentru pace nu văd decât în munca răbdătoare și ascunsă a milioane de artizani care lucrează în fiecare zi pentru a aduce o altă frumusețe și strălucirea unor lumini clare care nu ucid.	ambiție	dorință	pretenție	râvnă	încăpățânare	pretenderisire	


 92%|█████████▏| 84/91 [01:25<00:05,  1.36it/s]

Au fost multe lucruri pe care a trebuit să le distrugem ca să construim ceea ce ne doream, nu exista altă cale, trebuia să fim capabili să suferim și să transmitem suferință, cel care ar fi tolerat cea mai mare durere ar fi câștigat, nu poți visa la o lume mai bună și să crezi că ți-o vor da doar pentru că o ceri, aceia nu ar fi cedat niciodată, trebuia să lupți.	tolerat	permis	admis	lăsat	tolerat	suportat	înțeles	încuviințat	răbdat	învoit	acceptat	


 93%|█████████▎| 85/91 [01:26<00:05,  1.11it/s]

După cum s-a menționat deja, presocraticii nu constituie un grup omogen, ci se diferențiază prin apartenența lor la diferite școli și tendințe.	constituie	constituie	construiesc	fac	înființează	creează	întemeiază	fondează	organizează	compun	alcătuiesc	


 95%|█████████▍| 86/91 [01:27<00:04,  1.24it/s]

După cum s-a menționat deja, presocraticii nu constituie un grup omogen, ci se diferențiază prin apartenența lor la diferite școli și tendințe.	tendințe	tendințe	vocații	atracții	înclinări	dispoziții	concepții	convingeri	predispoziții	


 96%|█████████▌| 87/91 [01:27<00:02,  1.56it/s]

...Vocea izolată a lui Nietzsche a prezis declinul Occidentului și nașterea unei noi umanități, inițiind o direcție nihilistă care va fi reprodusă în secolul XX.	prezis	ghicit	prezis	prevestit	profetizat	


 98%|█████████▊| 89/91 [01:28<00:00,  2.16it/s]

Potrivit romanticilor, infinitul generează în om un sentiment de teroare și neputință, definit ca sublim...	teroare	groază	oroare	înfiorare	frică	spaimă	încrâncenare	îngrozire	înfricoșare	înspăimântare	
La apogeul umanismului, problema limbii a devenit mai aprinsă, nu în ultimul rând din cauza apariției tiparului, care a necesitat un standard național coerent și omogen.	standard	nivel	stadiu	


100%|██████████| 91/91 [01:28<00:00,  1.03it/s]

Cu toate acestea, această clasificare nu ar trebui înțeleasă într-un sens strict cronologic, ci mai degrabă ar trebui privită din punct de vedere conceptual.	strict	aspru	fix	sever	exact	riguros	științific	
Cu toate acestea, această clasificare nu ar trebui înțeleasă într-un sens strict cronologic, ci mai degrabă ar trebui privită din punct de vedere conceptual.	conceptual	abstract	noțional	speculativ	





In [184]:
# genereaza ls pt all using dex

#GENEREAZA LS PT RO FROM EN

f = open("GOLD_DATA_ALL.txt", "r")
scrie_all = open("ls_ro_all.txt", "w")
from tqdm import tqdm
i=0
all_phrases = [x.split("\t") for x in f.readlines()]

for row in tqdm(all_phrases):
    # row = row.split("\t")
    romanian_sentence = row[0]
    target = row[1]
    string_to_write = f"{romanian_sentence}\t{target}\t"
    syns = get_syns(romanian_sentence, target)

    for syn in syns:
        string_to_write += syn[0] + "\t"

    print(string_to_write)
    scrie_all.write(string_to_write + f"\n")

    


FileNotFoundError: [Errno 2] No such file or directory: 'GOLD_DATA_ALL.txt'

In [185]:
f = open("GOLD_DATA_ALL.txt", "r")
scrie_all = open("ls_ro_all_v2.txt", "w")
from tqdm import tqdm
i=0
all_phrases = [x.split("\t") for x in f.readlines()]

for row in tqdm(all_phrases):
    # row = row.split("\t")
    romanian_sentence = row[0]
    target = row[1]
    string_to_write = f"{romanian_sentence}\t{target}\t"
    syns = get_syns(romanian_sentence, target)

    for syn in syns:
        string_to_write += syn[0] + "\t"

    print(string_to_write)
    scrie_all.write(string_to_write + f"\n")


FileNotFoundError: [Errno 2] No such file or directory: 'GOLD_DATA_ALL.txt'

In [186]:
# bring alternatives to same inflexion using dexonline framework

import spacy
nlp = spacy.load("ro_core_news_sm")

def parse_phrase(phrase):
    phrase = phrase.split("\t")
    actual_phrase = phrase[0]
    target = phrase[1]
    alternatives = phrase[2:]

    return nlp(actual_phrase), target, alternatives

def get_inflection_details(inflectionId):
    infl_aux = mapare.find_dexonline_pos_detail(str(inflectionId)).split(", ")[1:]
    target_inflection = ""
        
    if len(infl_aux) > 1:
        for att in infl_aux[:-1]:
            target_inflection +=  att + ", "
        target_inflection += infl_aux[-1]
    else:
        target_inflection = ""

    return target_inflection

def get_alternatives_at_same_inflection(phrase):    
    parsed, target, alternatives = parse_phrase(phrase)
    
    for t in parsed:
        if t.text == target:
            token=t

    token_text = re.sub('[^a-zA-ZăâîșțĂÂÎȘȚ]', '', token.text.lower())
    inflected_forms = all_inflected_forms.find_all_inflected_forms(token_text)
    pos_wanted = ud_to_dex[token.pos_]
    inflection_possibilities = find_inflection_possibilites(token, inflected_forms, pos_wanted)

    if len(inflection_possibilities) > 1:
        inflection_possibilities =  inflection_filter(token=token, inflection_possibilities=inflection_possibilities)

    alt_inflected = []
    
    for inflectionId in inflection_possibilities:
        target_inflection = get_inflection_details(inflectionId)

        for alt in alternatives:
            aux_phrase = phrase.replace(target, alt)
            aux_doc = nlp(aux_phrase)
            inflected_alt = ""
            alt_token = aux_doc[-1]
            for t in aux_doc:
                alt_inflection = ""
                if t.text == alt:
                    token_text = re.sub('[^a-zA-ZăâîșțĂÂÎȘȚ]', '', t.text.lower())
                    inflected_forms = all_inflected_forms.find_all_inflected_forms(token_text)
                    if inflected_forms == ['unidentified']:
                        continue
                    else:
                        pos_wanted = ud_to_dex[token.pos_]
                        inflection_possibilities = find_inflection_possibilites(t, inflected_forms, pos_wanted)

                        if len(inflection_possibilities) > 1:
                            inflection_possibilities =  inflection_filter(token=t, inflection_possibilities=inflection_possibilities)
                        else:
                            inflection_possibilities = ["noid"]
                        
                        alt_inflection = get_inflection_details(inflection_possibilities[0])
                        alt_token = t
            
            if target_inflection == alt_inflection:
                alt_inflected.append(alt)

            else:
                # print("modifica aici ceva pentru: ", alt_token, "cu alternativele: ", alternatives)
                all_forms_for_alt = get_all_forms(alt_token)

                for el in all_forms_for_alt:
                    # print(el)
                    if target_inflection in el.get('pos'):
                        # print(el)
                        form = el.get('form')
                        alt_inflected.append(form)
                        break
                
        

            # if inflected_alt != "":
            #     alt_inflected.append(inflected_alt)
    
    if alt_inflected:
        return alt_inflected
    else:
        return alternatives
    
f = open("/Users/inttstbrd/Desktop/licenta/nlp_lic/dexonline/ls_experiments/rollm_LS.txt", "r")
phrases = f.readlines()

for phrase in phrases:
    print("Alternatives: ", get_alternatives_at_same_inflection(phrase))




Alternatives:  ['antipatie', 'dispreț']
Alternatives:  ['ascuțit', 'ascuțit', 'ascuțit', 'ascuțit\n']
Alternatives:  ['compactat', 'constrâns', 'concentrat', 'concentrat\n']
Alternatives:  ['impoliticos', 'impoliticos', 'impoliticos', 'impoliticos\n']
Alternatives:  ['incertitudine', 'incertitudine', 'incertitudine']
Alternatives:  ['compozit', 'compozit', 'compozit', 'compozit\n']
Alternatives:  ['rafinat', 'sofisticat', 'sofisticat', 'sofisticat\n']
Alternatives:  ['întuneric', 'întunecat', 'întunecat\n']
Alternatives:  ['modificări', 'schimbări', 'schimbări', 'modificări', 'schimbări', 'schimbări', 'modificări', 'schimbări', 'schimbări']
Alternatives:  ['încurajare', 'încurajare', 'încurajare']
Alternatives:  ['surpriză', 'surpriză', 'surpriză']
Alternatives:  ['circulat', 'circulat', 'circulat', 'circulat\n']
Alternatives:  ['incorectă', 'incorectă', 'incorectă']
Alternatives:  ['ascuns', 'ascuns', 'ascuns', 'ascuns', 'ascuns\n']
Alternatives:  ['idiot', 'ignorant', 'incompetent', 

In [198]:
# f = open("GOLD_DATA_ALL.txt", "r")
scrie_all = open("romanian_lcp_with_dex.txt", "w")
from tqdm import tqdm
i=0
import pandas as pd
import torch
import numpy
import tqdm
# from dexonline.prototype import get_syns
df = pd.read_csv('/Users/inttstbrd/Desktop/licenta/nlp_lic/dexonline/ls_experiments/romanian_lcp.tsv', sep='\t')


alt_list = []

for i in tqdm.tqdm(range(len(df))):
    row = df.iloc[i]
    romanian_sentence = row[1]
    target = row[2]
    try:
        syns = get_syns(romanian_sentence, target)
        alt_list.append(syns)
    except:
        alt_list.append("")

  0%|          | 0/569 [00:00<?, ?it/s]

  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0251, dtype=torch.float64)
tensor(-0.0153, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0297, dtype=torch.float64)
tensor(0.0503, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0593, dtype=torch.float64)
tensor(-0.0017, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0423, dtype=torch.float64)
tensor(0.0026, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms
tensor(0.0903, dtype=torch.float64)
tensor(0.0236, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms
tensor(0.0530, dtype=torch.float64)
tensor(0.0354, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_se

no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(-0.0447, dtype=torch.float64)
tensor(0.0074, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms
tensor(0.0506, dtype=torch.float64)
tensor(0.0796, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
 33%|███▎      | 190/569 [01:18<01:42,  3.71it/s]

tensor(0.0080, dtype=torch.float64)
tensor(-0.0066, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_se

no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0578, dtype=torch.float64)
tensor(0.0317, dtype=torch.float64)
tensor(0.0343, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_se

tensor(0.0630, dtype=torch.float64)
tensor(0.0117, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0247, dtype=torch.float64)
tensor(0.0393, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
 46%|████▌     | 259/569 [01:57<04:30,  1.15it/s]

tensor(0.0540, dtype=torch.float64)
tensor(0.0376, dtype=torch.float64)
no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms
no synonyms
no synonyms
no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0021, dtype=torch.float64)
tensor(0.0393, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms
no synonyms
tensor(0.0036, dtype=torch.float64)
tensor(0.0230, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
 55%|█████▌    | 315/569 [02:18<01:28,  2.85it/s]

no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0263, dtype=torch.float64)
tensor(0.0263, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0409, dtype=torch.float64)
tensor(0.0468, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
 63%|██████▎   | 358/569 [02:32<01:26,  2.43it/s]

tensor(0.0588, dtype=torch.float64)
tensor(0.0591, dtype=torch.float64)
no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0488, dtype=torch.float64)
tensor(0.0388, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms
tensor(0.0463, dtype=torch.float64)
tensor(0.0831, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0755, dtype=torch.float64)
0


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0196, dtype=torch.float64)
tensor(0.0296, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0502, dtype=torch.float64)
tensor(0.0452, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0249, dtype=torch.float64)
tensor(0.0377, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0311, dtype=torch.float64)
tensor(0.0296, dtype=torch.float64)
tensor(0.0686, dtype=torch.float64)
tensor(0.0514, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
 81%|████████  | 460/569 [03:17<00:55,  1.98it/s]

tensor(0.0108, dtype=torch.float64)
tensor(0.0478, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_se

tensor(0.0821, dtype=torch.float64)
tensor(0.0464, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms
tensor(0.0394, dtype=torch.float64)
tensor(0.0142, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_se

no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


tensor(0.0385, dtype=torch.float64)
tensor(0.0597, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


0
tensor(0.0373, dtype=torch.float64)


  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms
no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]


no synonyms


  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
  romanian_sentence = row[1]
  target = row[2]
100%|██████████| 569/569 [03:58<00:00,  2.38it/s]


In [199]:
df['dex_suggestions'] = alt_list

In [200]:
print(df)

         id                                           sentence          word  \
0    en_100  Capitolul al doilea investighează această legă...    gimnastica   
1    en_101  Capitolul al doilea investighează această legă...     amănunțit   
2    en_102  Încurajat de susținătorii din sud (mulți dintr...   răsunătoare   
3    en_103  Încurajat de susținătorii din sud (mulți dintr...        dintre   
4    en_104  Încurajat de susținătorii din sud (mulți dintr...  susținătorii   
..      ...                                                ...           ...   
564   en_95  Până în anii 1960, tot mai multe trimiteri poș...        masini   
565   en_96  Calcularea unor astfel de capacitanțe și explo...    contracara   
566   en_97  Calcularea unor astfel de capacitanțe și explo...     electrice   
567   en_98  Calcularea unor astfel de capacitanțe și explo...   capacitanțe   
568   en_99  Capitolul al doilea investighează această legă...     discutând   

     start  end  complexity  annot0  an

In [201]:
df.to_csv('romanian_lcp_with_dex.tsv', sep='\t', index=False)


In [208]:

import spacy
# from dexonline.prototype import *


def get_syns(phrase, target):
    doc = nlp(phrase)
    for token in doc:
        if token.text == target:
            pos_found = ud_to_dex[token.pos_]
            syns = get_matching_syns(token, actual_context=doc.text, pos_found=pos_found)
            try:
                return syns[:10]
            except:
                return []
    return []

print(get_syns(phrase="Faceți clic pe butonul MAC sau WIN atașat pentru a descărca fișierul font zipuit.", target="Faceți"))

[('faceți', tensor(12982.8719, dtype=torch.float64)), ('făceți-', tensor(12782.8719, dtype=torch.float64)), ('emiteți', tensor(12660.4508, dtype=torch.float64)), ('lăsați', tensor(12440.1642, dtype=torch.float64)), ('porniți', tensor(12352.1592, dtype=torch.float64)), ('produceți', tensor(12350.7451, dtype=torch.float64)), ('începeți', tensor(12153.9872, dtype=torch.float64)), ('adunați', tensor(11900.2946, dtype=torch.float64)), ('acumulați', tensor(11696.9225, dtype=torch.float64)), ('strângeți', tensor(11484.7435, dtype=torch.float64))]
