In [46]:
# Giovana de Moura, authoral translation.

# Edit Distance is a way to quantify the similiarity between two sequences of strings
# The 'Minimum Distance' is the lowest number of operations needed to transform on string
# into another one.

# This process is useful to:
# 1. Ortographic correction 
# 2. Coeference resolution
# 3. Linguistics variants identification 
# 4. Cognates identifiers 

# Giovana de Moura Dias Oliveira

In [47]:
# How to calculate?

# Hamming Distance, Jaro Distance, Levenshtein Distance (insert, remove and replace)

# In Python, we have a library for this: editdistance, but let's use nltk

from nltk.metrics import *

string1 = 'Bello Horizonte'
string2 = 'Belo Horizonte'

distancia = edit_distance(string1, string2)

print(f'A distância de Levenshtein entre {string1} e {string2} é igual a {distancia}')


A distância de Levenshtein entre Bello Horizonte e Belo Horizonte é igual a 1


In [48]:
# Replacing 
string1 = 'Minas Geraes'
string2 = 'Minas Gerais'

distancia = edit_distance(string1, string2)

print(f'A distância de Levenshtein entre {string1} e {string2} é igual a {distancia}')


A distância de Levenshtein entre Minas Geraes e Minas Gerais é igual a 1


In [49]:
# Defining the cost of the operation as 2
string1 = 'Minas Geraes'
string2 = 'Minas Gerais'

distancia = edit_distance(string1, string2, substitution_cost = 2)

print(f'A distância de Levenshtein entre {string1} e {string2} é igual a {distancia}')

A distância de Levenshtein entre Minas Geraes e Minas Gerais é igual a 2


In [50]:
# Building a small corrector
# 1. --> receive a text as input
# 2. --> return the wrongly written words
# 3. the algorythm must know the correct words beforehand

# Defining the word list

corretas = [
    "O", "A", "Os", "As",
    "homem", "homens", "mulher", "mulheres",
    "é", "são",
    "inteligente", "inteligentes",
    "brilhante", "brilhantes"
]

# Split the text in words (tokenization), compare the words with the words we have in the list above,
# if it's not there, it's incorrect. Sugest a corretion (use Levenshtein for this)

import difflib # a library to help us sugest the closest word

def corretor(texto):
    corretas = [
    "O", "A", "Os", "As",
    "homem", "homens", "mulher", "mulheres",
    "é", "são",
    "inteligente", "inteligentes",
    "brilhante", "brilhantes"
    ]

    palavras_separadas = texto.split() # spliting the text in words
    erros = []

    for palavra in palavras_separadas:
        if palavra not in corretas:
            sugestoes = difflib.get_close_matches(palavra, corretas, n=1) # how many you want
            if sugestoes:
                erros.append((palavra, sugestoes[0]))
            else:
                erros.append((palavra, 'Sem sugestão'))
    return erros

frase1 = "O homem é inteligentr"
frase2 = "Os homens sõ brilhantess"
frase3 = "As muleres são brilantes"
frase4 = "A milher é inteligente"

print(corretor(frase1))
print(corretor(frase2))
print(corretor(frase3))
print(corretor(frase4))


[('inteligentr', 'inteligente')]
[('sõ', 'Sem sugestão'), ('brilhantess', 'brilhantes')]
[('muleres', 'mulheres'), ('brilantes', 'brilhantes')]
[('milher', 'mulher')]


In [51]:
# Now, we are going to compare different languages and calculate how much they are alike

# Step 1. Importing the Levenshtein library and creating a dictionary 
import Levenshtein 

# List of words
portugues = ["kabelu", "kabesa", "oreLa", "oLu", "nariS", "boka"]
espanhol =  ["kabeSo", "kabe8a", "orexa", "oxo", "nari8", "boka"]
italiano =  ["kapello", "testa", "orekkyo", "okkyo", "nazo", "bokka"]
russo =     ["voL3s3", "g3Lava", "ux3", "gLas", "nos", "rot"]

linguas = {
    'Português' : portugues,
    'Espanhol' : espanhol,
    'Italiano' : italiano,
    'Russo' : russo
}

# Step 2. Calculating the average distance between them
def distancia_media(lista1, lista2):
    total = 0
    for p1, p2 in zip(lista1, lista2):
        total += Levenshtein.distance(p1, p2)
    return total / len(lista1) # return the average

# Step 3. Comparing all the languages
pares = []

for l1 in linguas:
    for l2 in linguas:
        if l1 != l2:
            media = distancia_media(linguas[l1], linguas[l2])
            pares.append((l1, l2, media))

# Last Step. Order the languages by distance
pares.sort(key=lambda x: x[2])
 
print('Pares de línguas ordenados da mais próxima para a mais distante:\n')
for l1, l2, media in pares:
    print(f'{l1} x {l2}: distância média = {media:.2f}')


Pares de línguas ordenados da mais próxima para a mais distante:

Português x Espanhol: distância média = 1.17
Espanhol x Português: distância média = 1.17
Português x Italiano: distância média = 3.17
Espanhol x Italiano: distância média = 3.17
Italiano x Português: distância média = 3.17
Italiano x Espanhol: distância média = 3.17
Português x Russo: distância média = 4.33
Espanhol x Russo: distância média = 4.33
Russo x Português: distância média = 4.33
Russo x Espanhol: distância média = 4.33
Italiano x Russo: distância média = 5.17
Russo x Italiano: distância média = 5.17
