## Ocenjevanje podobnosti besedil

In [1]:
from collections import Counter
from itertools import combinations

Pripravimo nekaj kratkih stavkov katerih podobnost bi želeli oceniti. Uporabimo slovar.

In [14]:
corpus = {
    "pahor": "V prvem krogu volitev je z veliko glasov zmagal sedanji predsednik Slovenije g. Pahor",
    "sarec": "Na volitvah se je z 25 odstotki glasov slovencev bil v prvem krogu uspešen tudi g. Šarec",
    "dragic": "Dragić je ekipo Miamija popeljal do druge zmage v košarkaškem derbiju in zadel tri trojke!",
    "doncic": "Dončić je odlično metal za tri in ekipi Madrida s petimi trojkami pomagal k zmagi."
}

In [15]:
corpus.keys()

dict_keys(['pahor', 'sarec', 'dragic', 'doncic'])

Besedila lahko predstavimo z vsebnostjo podnizov oziroma terk. Tu nas bo zanimalo samo, ali se je določena terka pojavila v besedilu ali ne. Bolj informativna predstavitev bi bila ta, kjer bi za vsako terko poročali tudi o številu njenih pojavitev v besedilu. Začnimo z kratkim stavkom, ki ga bomo prestavili s terko, nato pa spišimo generator terk in preverimo, ali ta deluje.

In [16]:
s = "Dončić je košarkaš."

In [17]:
def kmers(s, k=3):
    for i in range(len(s)-k+1):
        yield s[i:i+k]

In [18]:
list(kmers(s, k=3))

['Don',
 'onč',
 'nči',
 'čić',
 'ić ',
 'ć j',
 ' je',
 'je ',
 'e k',
 ' ko',
 'koš',
 'oša',
 'šar',
 'ark',
 'rka',
 'kaš',
 'aš.']

Dela! Pretvorimo sedaj naš slovar besedil v slovar množice terk. Potem preverimo, katere terke so skupne besedilu o Pahorju in besedilu o Dragiću.

In [30]:
data = {key: set(kmers(corpus[key], 3)) for key in data.keys()}

In [31]:
data["pahor"] & data["dragic"]

{' je', ' zm', 'al ', 'e z', 'em ', 'je ', 'mag', 'zma'}

Če bi zgoraj namesto z množico term želeli delati z slovarjem terk, kjer bi ključ bila terka vrednost pa število njenih pojavitev, bi namesto "set" lahko uporabili "Counter". A tu bomo delali z množicami. Podobnost med besedili bomo zato ocenili z številom skupnih terk, ter to število normalizirali s številom vseh terk para besedil. Tako mero podobnosti imenuje jaccardova.

In [32]:
def jaccard(k1, k2):
    return len(data[k1] & data[k2]) / len(data[k1] | data[k2])

In [35]:
jaccard("doncic", "dragic")

0.17391304347826086

Čas da izpišemo vse podobnosti parov besedil in ugotovimo, ali so rezultati smiselni.

In [36]:
for k1, k2 in combinations(data.keys(), r=2):
    print("{:10s} {:10s}  {:4.2f}".format(k1, k2, jaccard(k1, k2)))

pahor      sarec       0.24
pahor      dragic      0.05
pahor      doncic      0.06
sarec      dragic      0.03
sarec      doncic      0.02
dragic     doncic      0.17


Rezultati so smiselni. Fino. Zanimivo, kako tako enostavna predstavitev besedil in mera po Jaccardu dobro loči med podobnimi in različnimi besedili.