In [1]:
import os
import requests

name = "opj_v05_test.py"
if not os.path.exists(name):
    response = requests.get(f"https://raw.githubusercontent.com/bzitko/inlp_repo/main/labs/opj_v05_pravopisne_greske/{name}")
    with open(name, "wb") as fp:
        fp.write(response.content)
    response.close()
    
name = "hr_unigram.txt"
if not os.path.exists(name):
    response = requests.get(f"https://raw.githubusercontent.com/bzitko/inlp_repo/main/labs/opj_v05_pravopisne_greske/{name}")
    with open(name, "wb") as fp:
        fp.write(response.content)
    response.close()

# Pravopisne greške

## 5.1. Datoteka ngram modela

`read_model()` i `write_model()` su funkcije koje služe za rad s datotekom ngram modela.
U ovom slučaju radi se o datoteci "hr_unigram.txt" koja sadrži unigram model,
odnosno redak u datoteci je riječ i njena frekvencija (broj pojavljivanja)



In [2]:
from opj_v05_test import *

def read_counter(filename):
    """
    ulaz:
    -filename: putanja datoteke
    izlaz:
    -model jezika
    """
    print('*** loading model ' + filename, end=' ')
    txt = open(filename, 'r', encoding='utf8').read().strip()

    counter = {}
    for line in txt.split('\n'):
        if not line.startswith('#'):
            line = line.split('\t')
            ngram, freq = line[:-1][0], int(line[-1])
            counter[ngram] = freq
    print('FINISHED')
    return counter

def write_counter(filename, counter, comment = None):
    """
    ulaz:
    -filename: putanja datoteke
    -model: model jezika
    -comment: opcioni komentar na početku datoteke
    izlaz:
    zapiše model jezika u datoteku
    svaki red datoteke je oblika
    w1\tw2\tw3\t...\twn\tfreq
    gdje su w1, ..., wn riječi ngrama, a freq frekvencija
    """
    f = open(filename, 'w', encoding='utf8')
    if comment: f.write('# ' + str(comment) + '\n')
    for freq, ngram in sorted(((freq, ngram) for ngram, freq in model.items()), reverse=True):
        f.write('\t'.join(ngram) + '\t' + str(freq) + '\n')
    f.close()
    
unigram = read_counter('hr_unigram.txt')
unigram

*** loading model hr_unigram.txt FINISHED


{'je': 2878182,
 'u': 2538295,
 'se': 2450669,
 'na': 1449205,
 'da': 1236413,
 'za': 1182395,
 'su': 1023828,
 'od': 801332,
 's': 572652,
 'o': 503575,
 'a': 489919,
 'će': 483258,
 'koji': 470931,
 'ne': 435401,
 'iz': 423067,
 'što': 346571,
 'bi': 339893,
 'to': 324194,
 'nije': 307646,
 'ili': 269452,
 'te': 267541,
 'kako': 260434,
 'kao': 243600,
 'do': 235295,
 'U': 228040,
 'koje': 217981,
 'biti': 207265,
 'koja': 178929,
 'godine': 170522,
 'ali': 166389,
 'samo': 162992,
 'sve': 154108,
 'jer': 147873,
 'još': 142732,
 'sam': 141123,
 'više': 138948,
 'po': 138059,
 'sa': 135847,
 'može': 128298,
 'prema': 126027,
 'već': 121712,
 'nakon': 120045,
 'dana': 118305,
 'bio': 113266,
 'bilo': 112942,
 'zbog': 110770,
 'Članak': 110452,
 'li': 108568,
 'smo': 108548,
 'pa': 107413,
 'ni': 106233,
 'Hrvatske': 105335,
 'ako': 97799,
 'I': 95216,
 'ga': 93602,
 'Na': 89440,
 'tako': 88701,
 'uz': 88333,
 'posto': 87087,
 'prije': 85910,
 'nisu': 85267,
 'bez': 82775,
 'ima': 8266

## 5.2 Minimalna udaljenost od 1

`gen_deletes()`, `gen_inserts()`, `gen_replaces()` i `gen_transposes()` su funkcija koje za zadanu riječ i abecedu generiraju skup riječi koje su za 1 udaljene od zadane riječi temeljem
brisanja, ubacivanja, zamjene i transpozicije (zamjene dva susjedna znaka) u zadanoj riječi.


Na primjer, neka je zadana riječ: "pas" i abeceda "ABC":
* `gen_deletes()` daje: "as", "ps", "pa"
* `gen_inserts()` daje: "Apas", "Bpas", "Cpas", "pAas", "pBas", "pCas", "paAs", "paBs", "paCs", "pasA", "pasB", "pasC"
* `gen_replaces()` daje: "Aas", "Bas", "Cas", "pAs", "pBs", "pCs", "paA", "paB", "paC"
* `gen_transposes()` daje: "aps", "psa"

### Generiranje riječi nastalih brisanjem jednog znaka

Napravi funkciju **gen_deletes()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
* izlaz:
    * skup svih riječi nastalih brisanjem jednog znaka iz zadane riječi.

Na primjer: za riječ "pas" dobiva se {"as", "ps", "pa"}

In [3]:
def gen_deletes(word):
    """
    ulaz:
    -word: riječ
    izlaz:
    -skup svih riječi nastalih brisanjem jednog znaka iz zadane riječi

    Primjer: za riječ "pas" dobiva se {"as", "ps", "pa"}
    """
    return set()

testname(gen_deletes)
test(gen_deletes, ('pas', ), {'as', 'ps', 'pa'})
test(gen_deletes, ('kuća', ), {'uća', 'kća', 'kua', 'kuć'})
test(gen_deletes, ('banana', ), {'anana', 'bnana', 'baana', 'banna', 'banaa', 'banan'})


GEN_DELETES
------------------------------------------------------------
X	gen_deletes('pas',) 
=> {'ps', 'as', 'pa'}
!= set()

X	gen_deletes('kuća',) 
=> {'kua', 'uća', 'kća', 'kuć'}
!= set()

X	gen_deletes('banana',) 
=> {'anana', 'baana', 'banna', 'banaa', 'bnana', 'banan'}
!= set()



### Generiranje riječi nastalih ubacivanjem jednog znaka

Napravi funkciju **gen_inserts()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** znakovi abecede (kao string)
* izlaz:
    * skup svih riječi nastalih dodavanjem svakog znaka iz abecede na sva moguća mjesta u riječi

Na primjer: za riječ "pas" i abecedu "abc" dobiva se  
{"apas", "bpas", "cpas", "paas", "pbas", "pcas", "pabs", "pacs", "pasa", "pasb", "pasc"}

In [4]:
def gen_inserts(word, alphabet):
    """
    ulaz:
    -word: riječ
    -alphabet: znakovi abecede (kao string)
    izlaz:
    -skup svih riječi nastalih dodavanjem svakog znaka iz abecede na sva moguća mjesta u riječi

    Primjer: za riječ "pas" i abecedu "abc" dobiva se
    {"apas", "bpas", "cpas", "paas", "pbas", "pcas", "pabs", "pacs", "pasa", "pasb", "pasc"}
    """
    return set()

testname(gen_inserts)
test(gen_inserts, ('pas', 'abc'), {'apas', 'bpas', 'cpas', 'paas', 'pbas', 'pcas', 'pabs', 'pacs', 'pasa', 'pasb', 'pasc'})
test(gen_inserts, ('kuća', 'ABC'), {'Akuća', 'Bkuća', 'Ckuća', 'kAuća', 'kBuća', 'kCuća', 'kuAća', 'kuBća', 'kuCća', 'kućAa', 'kućBa', 'kućCa', 'kućaA', 'kućaB', 'kućaC'})
test(gen_inserts, ('banana', 'XY'), {'Xbanana', 'bXanana', 'baXnana', 'banXana', 'banaXna', 'bananXa', 'bananaX', 'Ybanana', 'bYanana', 'baYnana', 'banYana', 'banaYna', 'bananYa', 'bananaY'})


GEN_INSERTS
------------------------------------------------------------
X	gen_inserts('pas', 'abc') 
=> {'cpas', 'pacs', 'pasb', 'pabs', 'pcas', 'bpas', 'paas', 'apas', 'pasa', 'pbas', 'pasc'}
!= set()

X	gen_inserts('kuća', 'ABC') 
=> {'kCuća', 'kuCća', 'kuBća', 'Akuća', 'kuAća', 'kBuća', 'kućCa', 'kućaA', 'kućaB', 'kAuća', 'kućBa', 'Bkuća', 'kućAa', 'Ckuća', 'kućaC'}
!= set()

X	gen_inserts('banana', 'XY') 
=> {'banaYna', 'bananYa', 'bXanana', 'banXana', 'bananaX', 'bYanana', 'baYnana', 'Ybanana', 'Xbanana', 'bananaY', 'bananXa', 'baXnana', 'banYana', 'banaXna'}
!= set()



### Generiranje riječi nastalih zamjenom jednog znaka

Napravi funkciju **gen_replaces()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** znakovi abecede (kao string)
* izlaz:
    * skup svih riječi nastalih zamjenom svakog znaka iz riječi sa svakim znakom iz abecede


Na primjer: za riječ "pas" i abecedu "abc" dobiva se  
{"aas", "bas", "cas", "pas", "pbs", "pcs", "paa", "pab", "pac"}

In [5]:
def gen_replaces(word, alphabet):
    """
    ulaz:
    -word: riječ
    -alphabet: znakovi abecede (kao string)
    izlaz:
    -skup svih riječi nastalih zamjenom svakog znaka iz riječi sa svakim znakom iz abecede

    Primjer: za riječ "pas" i abecedu "abc" dobiva se
    {"aas", "bas", "cas", "pas", "pbs", "pcs", "paa", "pab", "pac"}
    """
    return set()

testname(gen_replaces)
test(gen_replaces, ('pas', 'abc'), {'aas', 'bas', 'cas', 'pas', 'pbs', 'pcs', 'paa', 'pab', 'pac'})
test(gen_replaces, ('kuća', 'ABC'), {'Auća', 'Buća', 'Cuća', 'kAća', 'kBća', 'kCća', 'kuAa', 'kuBa', 'kuCa', 'kućA', 'kućB', 'kućC'})
test(gen_replaces, ('banana', "XY"), {'Xanana', 'bXnana', 'baXana', 'banXna', 'banaXa', 'bananX', 'Yanana', 'bYnana', 'baYana', 'banYna', 'banaYa', 'bananY'})


GEN_REPLACES
------------------------------------------------------------
X	gen_replaces('pas', 'abc') 
=> {'bas', 'pas', 'pab', 'cas', 'aas', 'pbs', 'paa', 'pcs', 'pac'}
!= set()

X	gen_replaces('kuća', 'ABC') 
=> {'kCća', 'kuAa', 'Buća', 'Cuća', 'kuCa', 'kućA', 'kućC', 'kAća', 'Auća', 'kućB', 'kBća', 'kuBa'}
!= set()

X	gen_replaces('banana', 'XY') 
=> {'bYnana', 'bananX', 'banYna', 'bXnana', 'banaXa', 'baYana', 'banXna', 'bananY', 'Xanana', 'banaYa', 'baXana', 'Yanana'}
!= set()



### Generiranje riječi nastalih zamjenom mjesta dva susjedna znaka

Napravi funkciju **gen_transposes()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
* izlaz:
    * skup riječi nastalih zamjenom dva susjedna znaka iz zadane riječi


Na primjer: za riječ dobiva se  
{"aps", "psa"}

In [6]:
def gen_transposes(word):
    """
    ulaz:
    -word: riječ
    izlaz:
    -skup riječi nastalih zamjenom dva susjedna znaka iz zadane riječi

    Primjer: za riječ "pas" dobiva se
    {"aps", "psa"}
    """
    return set()

testname(gen_transposes)
test(gen_transposes, ('pas', ), {'aps', 'psa'})
test(gen_transposes, ('kuća', ), {'ukća', 'kćua', 'kuać'})
test(gen_transposes, ('banana', ), {'abnana', 'bnaana', 'baanna', 'banaan', 'bannaa'})



GEN_TRANSPOSES
------------------------------------------------------------
X	gen_transposes('pas',) 
=> {'psa', 'aps'}
!= set()

X	gen_transposes('kuća',) 
=> {'ukća', 'kćua', 'kuać'}
!= set()

X	gen_transposes('banana',) 
=> {'abnana', 'bannaa', 'banaan', 'baanna', 'bnaana'}
!= set()



### Generiranje riječi udaljenosti 1

Napravi funkciju **gen_edits1()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** abeceda
* izlaz:
    * skup riječi koje su za 1 udaljene od dane riječi
    
Napomena: rezultat je unija skupova dobivenim brisanjem, ubacivanjem, zamjenom i transpozicijom


In [7]:
def gen_edits1(word, alphabet):
    """
    ulaz:
    -word: riječ
    -alphabet: abeceda
    izlaz:
    -skup riječi koji su za 1 udaljeni od dane riječi
    ovisnost:
    -gen_deletes, gen_inserts, gen_replaces, gen_transposes

    Napomena: Rezultat je unija skupova dobivenim brisanjem, ubacivanjem, zamjenom i transpozicijom
    """
    return set()

testname(gen_edits1)
test(gen_edits1, ('pas', 'abc'), {'pabs', 'pa', 'pasa', 'pasc', 'paa', 'pab', 'pas', 'bpas', 'apas', 'aps', 'pcs', 'pbas', 'cas', 'pac', 'ps', 'psa', 'cpas', 'pcas', 'aas', 'pbs', 'paas', 'as', 'bas', 'pasb', 'pacs'})



GEN_EDITS1
------------------------------------------------------------
X	gen_edits1('pas', 'abc') 
=> {'pa', 'paa', 'pbas', 'cpas', 'pac', 'bas', 'pas', 'pasb', 'cas', 'bpas', 'aas', 'pcs', 'pacs', 'ps', 'psa', 'pbs', 'aps', 'pasa', 'as', 'pasc', 'pabs', 'pab', 'pcas', 'paas', 'apas'}
!= set()



## 5.3 Ispravljanje pravopisnih grešaka

### Kandidati za pravopisnu grešku


Napravi funkciju **spell_candidates()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** abeceda
    * **model** unigram model jezika
* izlaz:
    * lista kandidata nastalih presjekom skupa riječi koje su za 1 udaljene od zadane riječi i skupa svih riječi iz unigrama sortiranih po frekvenciji riječi od najveće prema najmanjoj.



In [8]:
def spell_candidates(word, alphabet, model):
    """
    ulaz:
    -word: riječ
    -alphabet: abeceda
    -model: unigram model jezika
    izlaz:
    -lista kandidata nastalih presjekom skupa riječi koje su za 1 udaljene od zadane riječi i
    skupa svih riječi iz unigrama sortiranih po frekvenciji riječi od najveće prema najmanjom
    ovisnost:
    -gen_edits1
    """
    return 


testname(spell_candidates)
test(spell_candidates, ('moelkula', 'abcčćdđefghijklmnoprsštuvzž', unigram), ['molekula'])
test(spell_candidates, ('atmo', 'abcčćdđefghijklmnoprsštuvzž', unigram), ['tamo', 'amo', 'ajmo', 'atom', 'ato'])
test(spell_candidates, ('pivt', 'abcčćdđefghijklmnoprsštuvzž', unigram), ['piva', 'pivo', 'pivu', 'pive', 'pit', 'pivot', 'pivat'])



SPELL_CANDIDATES
------------------------------------------------------------
X	spell_candidates('moelkula', 'abcčćdđefghijklmnoprsštuvzž', {'A': 57324, 'A-': 5, 'A-1': 118, 'A-10': 52, 'A-11': 5}) 
=> ['molekula']
!= None

X	spell_candidates('atmo', 'abcčćdđefghijklmnoprsštuvzž', {'A': 57324, 'A-': 5, 'A-1': 118, 'A-10': 52, 'A-11': 5}) 
=> ['tamo', 'amo', 'ajmo', 'atom', 'ato']
!= None

X	spell_candidates('pivt', 'abcčćdđefghijklmnoprsštuvzž', {'A': 57324, 'A-': 5, 'A-1': 118, 'A-10': 52, 'A-11': 5}) 
=> ['piva', 'pivo', 'pivu', 'pive', 'pit', 'pivot', 'pivat']
!= None

