# False Friends

## Definizione di problema e algoritmo

__Problema:__ Costruire un programma che date due parole una in italiano e una in inglese determini se esse sono false friends o meno.

Ci sono due iperparametri, che sono le due soglie di similarità.

__Algoritmo:__ l'input è formato da due parole, una in italiano e una in inglese. L'output consiste in un valore booleano che dica se le due parole sono falsi amici. 
1. Calcolo della distanza di Hamming tra le parole. Se il risultato super una certa soglia, prosegui. Altrimenti output NO.
2. Ottenimento delle traduzioni della parola italiana in inglese.
3. Calcolo della WUP similarity massima tra la i possibili sensi delle parole. Se questo valore è minore di una certa soglia, allora output SI. Altrimenti output NO.

In [19]:
from nltk.corpus import wordnet as wn
from translate import Translator

In [34]:
# Hyper parameters
STRING_THRESHOLD = 0.5
SENSE_THRESHOLD = 0.85

In [21]:
def compute_string_similarity(string1, string2):
    string1 = string1.lower()
    string2 = string2.lower()
    length = min(len(string1), len(string2))
    return sum([string1[i] == string2[i] for i in range(length)]) / length

def compute_sense_similarity(word1, word2):
    synsets1 = wn.synsets(word1)
    synsets2 = wn.synsets(word2)
    max_sim = 0
    max_syns = []
    for syns1 in synsets1:
        for syns2 in synsets2:
            sim = wn.wup_similarity(syns1, syns2)
            if sim > max_sim:
                max_sim = sim
                max_syns = [syns1, syns2]
            
    return max_sim, max_syns

In [29]:
def false_friends(eng_word, ita_word):
    # Translation
    translator = Translator(to_lang='en', from_lang='it')
    translated_ita_word = translator.translate(ita_word)

    # String Similarity
    sovrapposition = compute_string_similarity(eng_word, ita_word)
    if sovrapposition < STRING_THRESHOLD:
        print("La distanza di Hamming è troppo grande. Le due parole non sono falsi amici.")
        return False
    else:
        # Sense Similarity
        sense_sim = compute_sense_similarity(eng_word, translated_ita_word)
        if sense_sim[0] < SENSE_THRESHOLD:
            print(f"Le due parole sono falsi amici. I loro significati sono rispettivamente: {sense_sim[1][0].name()}, {sense_sim[1][1].name()}")
            return True
        else:
            print("Le due parole possono assumere un significato simile, quindi non sono sempre falsi amici.")
            return False

In [35]:
# Input 
eng_word = 'actually'
ita_word = 'attualmente'

# eng_word = 'excavator'
# ita_word = 'scavatore'

res = false_friends(eng_word, ita_word)

La distanza di Hamming è troppo grande. Le due parole non sono falsi amici.
