# Pravopisne greške

## 5.1. Datoteka ngram modela

`read_model()` i `write_model()` su funkcije koje služe za rad s datotekom ngram modela.
U ovom slučaju radi se o datoteci "hr_unigram.txt" koja sadrži unigram model,
odnosno redak u datoteci je riječ i njena frekvencija (broj pojavljivanja)



In [1]:
from test_v05 import *

def read_model(filename):
    """
    ulaz:
    -filename: putanja datoteke
    izlaz:
    -model jezika
    """
    print('*** loading model ' + filename, end=' ')
    txt = open(filename, 'r', encoding='utf8').read().strip()

    model = {}
    for line in txt.split('\n'):
        if not line.startswith('#'):
            line = line.split('\t')
            ngram, freq = line[:-1][0], int(line[-1])
            model[ngram] = freq
    print('FINISHED')
    return model

def write_model(filename, model, comment=None):
    """
    ulaz:
    -filename: putanja datoteke
    -model: model jezika
    -comment: opcioni komentar na početku datoteke
    izlaz:
    zapiše model jezika u datoteku
    svaki red datoteke je oblika
    w1\tw2\tw3\t...\twn\tfreq
    gdje su w1, ..., wn riječi ngrama, a freq frekvencija
    """
    f = open(filename, 'w', encoding='utf8')
    if comment: f.write('# ' + str(comment) + '\n')
    for freq, ngram in sorted(((freq, ngram) for ngram, freq in model.items()), reverse=True):
        f.write('\t'.join(ngram) + '\t' + str(freq) + '\n')
    f.close()
    
unigram = read_model('hr_unigram.txt')
unigram

*** loading model hr_unigram.txt FINISHED


{'domoljubljem': 37,
 'Gypsophila': 11,
 'precijenjena': 86,
 'oboljelu': 17,
 'MIG-21': 35,
 'štitile': 42,
 'omekšavala': 76,
 'aferaški': 13,
 'podrugljivo': 63,
 'najdonjoj': 5,
 'provincijskim': 24,
 'stisnutoj': 5,
 'Ivančica': 124,
 'zelenika': 5,
 'Izjašnjavajući': 7,
 'Nikolaos': 5,
 'bull': 31,
 'Miloševićevoj': 126,
 'kamenolom': 127,
 'zamišljen': 550,
 'kosovci': 9,
 'izdanu': 261,
 'Brodarskom': 16,
 'Meheš': 16,
 'melema': 13,
 'Držićevom': 19,
 'esto': 5,
 'kriterijem': 71,
 'Rebra': 59,
 'konsolidirane': 192,
 'protumačiti': 529,
 'usluživanje': 164,
 'Poslanice': 8,
 'KOMETAL': 5,
 'ŽOK-a': 11,
 'okruženju': 1299,
 'najgorih': 144,
 'Cankayi': 12,
 'krivcu': 18,
 'Omanom': 5,
 'osvjetljenja': 143,
 'Taksim': 6,
 'DEGESCH': 5,
 'Regulacija': 41,
 'zaraženi': 113,
 'napunim': 12,
 'neobaviještenosti': 21,
 'razbijem': 12,
 'zapadala': 5,
 'Swamiji': 13,
 'Hvidrin': 16,
 'Podsjetite': 5,
 'zauzimala': 140,
 'VOJNOSTEGOVNIH': 12,
 'Antunca': 15,
 'izvoznica': 135,
 'Carol

## 5.2 Minimalna udaljenost od 1

`gen_deletes()`, `gen_inserts()`, `gen_replaces()` i `gen_transposes()` su funkcija koje za zadanu riječ i abecedu generiraju skup riječi koje su za 1 udaljene od zadane riječi temeljem
brisanja, ubacivanja, zamjene i transpozicije (zamjene dva susjedna znaka) u zadanoj riječi.


Na primjer, neka je zadana riječ: "pas" i abeceda "ABC":
* `gen_deletes()` daje: "as", "ps", "pa"
* `gen_inserts()` daje: "Apas", "Bpas", "Cpas", "pAas", "pBas", "pCas", "paAs", "paBs", "paCs", "pasA", "pasB", "pasC"
* `gen_replaces()` daje: "Aas", "Bas", "Cas", "pAs", "pBs", "pCs", "paA", "paB", "paC"
* `gen_transposes()` daje: "aps", "psa"

### Generiranje riječi nastalih brisanjem jednog znaka

Napravi funkciju **gen_deletes()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
* izlaz:
    * skup svih riječi nastalih brisanjem jednog znaka iz zadane riječi.

Na primjer: za riječ "pas" dobiva se {"as", "ps", "pa"}

In [2]:
def gen_deletes(word):
    return set()

testname(gen_deletes)
test(gen_deletes, ('pas', ), {'as', 'ps', 'pa'})
test(gen_deletes, ('kuća', ), {'uća', 'kća', 'kua', 'kuć'})


GEN_DELETES
------------------------------------------------------------
X	gen_deletes('pas',) 
=> {'ps', 'as', 'pa'}
!= set()

X	gen_deletes('kuća',) 
=> {'uća', 'kua', 'kuć', 'kća'}
!= set()



### Generiranje riječi nastalih ubacivanjem jednog znaka

Napravi funkciju **gen_inserts()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** znakovi abecede (kao string)
* izlaz:
    * skup svih riječi nastalih dodavanjem svakog znaka iz abecede na sva moguća mjesta u riječi

Na primjer: za riječ "pas" i abecedu "abc" dobiva se  
{"apas", "bpas", "cpas", "paas", "pbas", "pcas", "pabs", "pacs", "pasa", "pasb", "pasc"}

In [3]:
def gen_inserts(word, alphabet):
    return set()

testname(gen_inserts)
test(gen_inserts, ('pas', 'abc'), {'apas', 'bpas', 'cpas', 'paas', 'pbas', 'pcas', 'pabs', 'pacs', 'pasa', 'pasb', 'pasc'})
test(gen_inserts, ('kuća', 'ABC'), {'Akuća', 'Bkuća', 'Ckuća', 'kAuća', 'kBuća', 'kCuća', 'kuAća', 'kuBća', 'kuCća', 'kućAa', 'kućBa', 'kućCa', 'kućaA', 'kućaB', 'kućaC'})



GEN_INSERTS
------------------------------------------------------------
X	gen_inserts('pas', 'abc') 
=> {'pbas', 'cpas', 'bpas', 'pcas', 'pacs', 'paas', 'pasc', 'apas', 'pasb', 'pabs', 'pasa'}
!= set()

X	gen_inserts('kuća', 'ABC') 
=> {'kuCća', 'kCuća', 'kućBa', 'kuAća', 'Akuća', 'kućCa', 'kućaA', 'kAuća', 'kućAa', 'Ckuća', 'kuBća', 'kućaB', 'kBuća', 'kućaC', 'Bkuća'}
!= set()



### Generiranje riječi nastalih zamjenom jednog znaka

Napravi funkciju **gen_replaces()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** znakovi abecede (kao string)
* izlaz:
    * skup svih riječi nastalih zamjenom svakog znaka iz riječi sa svakim znakom iz abecede


Na primjer: za riječ "pas" i abecedu "abc" dobiva se  
{"aas", "bas", "cas", "pas", "pbs", "pcs", "paa", "pab", "pac"}

In [4]:
def gen_replaces(word, alphabet):
    return set()

testname(gen_replaces)
test(gen_replaces, ('pas', 'abc'), {'aas', 'bas', 'cas', 'pas', 'pbs', 'pcs', 'paa', 'pab', 'pac'})
test(gen_replaces, ('kuća', 'ABC'), {'Auća', 'Buća', 'Cuća', 'kAća', 'kBća', 'kCća', 'kuAa', 'kuBa', 'kuCa', 'kućA', 'kućB', 'kućC'})



GEN_REPLACES
------------------------------------------------------------
X	gen_replaces('pas', 'abc') 
=> {'pbs', 'bas', 'cas', 'paa', 'pcs', 'pac', 'pab', 'pas', 'aas'}
!= set()

X	gen_replaces('kuća', 'ABC') 
=> {'kuCa', 'Buća', 'kCća', 'Auća', 'kuBa', 'kuAa', 'Cuća', 'kućA', 'kBća', 'kućB', 'kućC', 'kAća'}
!= set()



### Generiranje riječi nastalih zamjenom mjesta dva susjedna znaka

Napravi funkciju **gen_transposes()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
* izlaz:
    * skup riječi nastalih zamjenom dva susjedna znaka iz zadane riječi


Na primjer: za riječ dobiva se  
{"aps", "psa"}

In [5]:
def gen_transposes(word):
    return set()

testname(gen_transposes)
test(gen_transposes, ('pas', ), {'aps', 'psa'})
test(gen_transposes, ('kuća', ), {'ukća', 'kćua', 'kuać'})



GEN_TRANSPOSES
------------------------------------------------------------
X	gen_transposes('pas',) 
=> {'aps', 'psa'}
!= set()

X	gen_transposes('kuća',) 
=> {'kćua', 'ukća', 'kuać'}
!= set()



### Generiranje riječi udaljenosti 1

Napravi funkciju **gen_edits1()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** abeceda
* izlaz:
    * skup riječi koje su za 1 udaljene od dane riječi
    
Napomena: rezultat je unija skupova dobivenim brisanjem, ubacivanjem, zamjenom i transpozicijom


In [6]:
def gen_edits1(word, alphabet):
    return set()

testname(gen_edits1)
test(gen_edits1, ('pas', 'abc'), {'pabs', 'pa', 'pasa', 'pasc', 'paa', 'pab', 'pas', 'bpas', 'apas', 'aps', 'pcs', 'pbas', 'cas', 'pac', 'ps', 'psa', 'cpas', 'pcas', 'aas', 'pbs', 'paas', 'as', 'bas', 'pasb', 'pacs'})



GEN_EDITS1
------------------------------------------------------------
X	gen_edits1('pas', 'abc') 
=> {'ps', 'pbs', 'bas', 'as', 'pac', 'aps', 'pabs', 'pasa', 'bpas', 'pab', 'pasb', 'psa', 'cas', 'pacs', 'pcas', 'apas', 'pa', 'pas', 'aas', 'pbas', 'cpas', 'pcs', 'paa', 'paas', 'pasc'}
!= set()



## 5.3 Ispravljanje pravopisnih grešaka

### Kandidati za pravopisnu grešku


Napravi funkciju **spell_candidates()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** abeceda
    * **model** unigram model jezika
* izlaz:
    * lista kandidata nastalih presjekom skupa riječi koje su za 1 udaljene od zadane riječi i skupa svih riječi iz unigrama sortiranih po frekvenciji riječi od najveće prema najmanjoj.



In [7]:
def spell_candidates(word, alphabet, model):
    return None

testname(spell_candidates)
test(spell_candidates, ('moelkula', 'abcčćdđefghijklmnoprsštuvzž', unigram), ['molekula'])
test(spell_candidates, ('atmo', 'abcčćdđefghijklmnoprsštuvzž', unigram), ['tamo', 'amo', 'ajmo', 'atom', 'ato'])
test(spell_candidates, ('pivt', 'abcčćdđefghijklmnoprsštuvzž', unigram), ['piva', 'pivo', 'pivu', 'pive', 'pit', 'pivot', 'pivat'])



SPELL_CANDIDATES
------------------------------------------------------------
X	spell_candidates('moelkula', 'abcčćdđefghijklmnoprsštuvzž', {('A-11',): 5, ('A',): 57324, ('A-10',): 52, ('A-1',): 118, ('A-',): 5}) 
=> ['molekula']
!= None

X	spell_candidates('atmo', 'abcčćdđefghijklmnoprsštuvzž', {('A-11',): 5, ('A',): 57324, ('A-10',): 52, ('A-1',): 118, ('A-',): 5}) 
=> ['tamo', 'amo', 'ajmo', 'atom', 'ato']
!= None

X	spell_candidates('pivt', 'abcčćdđefghijklmnoprsštuvzž', {('A-11',): 5, ('A',): 57324, ('A-10',): 52, ('A-1',): 118, ('A-',): 5}) 
=> ['piva', 'pivo', 'pivu', 'pive', 'pit', 'pivot', 'pivat']
!= None

