In [1]:
import os
import requests

name = "opj_v05_test.py"
if not os.path.exists(name):
    response = requests.get(f"https://raw.githubusercontent.com/bzitko/inlp_repo/main/labs/opj_v05_pravopisne_greske/{name}")
    with open(name, "wb") as fp:
        fp.write(response.content)
    response.close()
    
name = "hr_unigram.txt"
if not os.path.exists(name):
    response = requests.get(f"https://raw.githubusercontent.com/bzitko/inlp_repo/main/labs/opj_v05_pravopisne_greske/{name}")
    with open(name, "wb") as fp:
        fp.write(response.content)
    response.close()

# Pravopisne greške

## 5.1. Datoteka ngram modela

`read_model()` i `write_model()` su funkcije koje služe za rad s datotekom ngram modela.
U ovom slučaju radi se o datoteci "hr_unigram.txt" koja sadrži unigram model,
odnosno redak u datoteci je riječ i njena frekvencija (broj pojavljivanja)



In [None]:
from opj_v05_test import *

def read_counter(filename):
    """
    ulaz:
    -filename: putanja datoteke
    izlaz:
    -model jezika
    """
    print('*** loading model ' + filename, end=' ')
    txt = open(filename, 'r', encoding='utf8').read().strip()

    counter = {}
    for line in txt.split('\n'):
        if not line.startswith('#'):
            line = line.split('\t')
            ngram, freq = line[:-1][0], int(line[-1])
            counter[ngram] = freq
    print('FINISHED')
    return counter

def write_counter(filename, counter, comment = None):
    """
    ulaz:
    -filename: putanja datoteke
    -model: model jezika
    -comment: opcioni komentar na početku datoteke
    izlaz:
    zapiše model jezika u datoteku
    svaki red datoteke je oblika
    w1\tw2\tw3\t...\twn\tfreq
    gdje su w1, ..., wn riječi ngrama, a freq frekvencija
    """
    f = open(filename, 'w', encoding='utf8')
    if comment: f.write('# ' + str(comment) + '\n')
    for freq, ngram in sorted(((freq, ngram) for ngram, freq in model.items()), reverse=True):
        f.write('\t'.join(ngram) + '\t' + str(freq) + '\n')
    f.close()
    
unigram = read_counter('hr_unigram.txt')
unigram

## 5.2 Minimalna udaljenost od 1

`gen_deletes()`, `gen_inserts()`, `gen_replaces()` i `gen_transposes()` su funkcija koje za zadanu riječ i abecedu generiraju skup riječi koje su za 1 udaljene od zadane riječi temeljem
brisanja, ubacivanja, zamjene i transpozicije (zamjene dva susjedna znaka) u zadanoj riječi.


Na primjer, neka je zadana riječ: "pas" i abeceda "ABC":
* `gen_deletes()` daje: "as", "ps", "pa"
* `gen_inserts()` daje: "Apas", "Bpas", "Cpas", "pAas", "pBas", "pCas", "paAs", "paBs", "paCs", "pasA", "pasB", "pasC"
* `gen_replaces()` daje: "Aas", "Bas", "Cas", "pAs", "pBs", "pCs", "paA", "paB", "paC"
* `gen_transposes()` daje: "aps", "psa"

### Generiranje riječi nastalih brisanjem jednog znaka

Napravi funkciju **gen_deletes()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
* izlaz:
    * skup svih riječi nastalih brisanjem jednog znaka iz zadane riječi.

Na primjer: za riječ "pas" dobiva se {"as", "ps", "pa"}

In [None]:
def gen_deletes(word):
    """
    ulaz:
    -word: riječ
    izlaz:
    -skup svih riječi nastalih brisanjem jednog znaka iz zadane riječi

    Primjer: za riječ "pas" dobiva se {"as", "ps", "pa"}
    """
    return {word[:i] + word[i+1:] for i in range(len(word))}

testname(gen_deletes)
test(gen_deletes, ('pas', ), {'as', 'ps', 'pa'})
test(gen_deletes, ('kuća', ), {'uća', 'kća', 'kua', 'kuć'})
test(gen_deletes, ('banana', ), {'anana', 'bnana', 'baana', 'banna', 'banaa', 'banan'})

### Generiranje riječi nastalih ubacivanjem jednog znaka

Napravi funkciju **gen_inserts()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** znakovi abecede (kao string)
* izlaz:
    * skup svih riječi nastalih dodavanjem svakog znaka iz abecede na sva moguća mjesta u riječi

Na primjer: za riječ "pas" i abecedu "abc" dobiva se  
{"apas", "bpas", "cpas", "paas", "pbas", "pcas", "pabs", "pacs", "pasa", "pasb", "pasc"}

In [None]:
def gen_inserts(word, alphabet):
    """
    ulaz:
    -word: riječ
    -alphabet: znakovi abecede (kao string)
    izlaz:
    -skup svih riječi nastalih dodavanjem svakog znaka iz abecede na sva moguća mjesta u riječi

    Primjer: za riječ "pas" i abecedu "abc" dobiva se
    {"apas", "bpas", "cpas", "paas", "pbas", "pcas", "pabs", "pacs", "pasa", "pasb", "pasc"}
    """
    return {word[:i] + letter + word[i:] for i in range(len(word) + 1) for letter in alphabet}

testname(gen_inserts)
test(gen_inserts, ('pas', 'abc'), {'apas', 'bpas', 'cpas', 'paas', 'pbas', 'pcas', 'pabs', 'pacs', 'pasa', 'pasb', 'pasc'})
test(gen_inserts, ('kuća', 'ABC'), {'Akuća', 'Bkuća', 'Ckuća', 'kAuća', 'kBuća', 'kCuća', 'kuAća', 'kuBća', 'kuCća', 'kućAa', 'kućBa', 'kućCa', 'kućaA', 'kućaB', 'kućaC'})
test(gen_inserts, ('banana', 'XY'), {'Xbanana', 'bXanana', 'baXnana', 'banXana', 'banaXna', 'bananXa', 'bananaX', 'Ybanana', 'bYanana', 'baYnana', 'banYana', 'banaYna', 'bananYa', 'bananaY'})

### Generiranje riječi nastalih zamjenom jednog znaka

Napravi funkciju **gen_replaces()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** znakovi abecede (kao string)
* izlaz:
    * skup svih riječi nastalih zamjenom svakog znaka iz riječi sa svakim znakom iz abecede


Na primjer: za riječ "pas" i abecedu "abc" dobiva se  
{"aas", "bas", "cas", "pas", "pbs", "pcs", "paa", "pab", "pac"}

In [None]:
def gen_replaces(word, alphabet):
    """
    ulaz:
    -word: riječ
    -alphabet: znakovi abecede (kao string)
    izlaz:
    -skup svih riječi nastalih zamjenom svakog znaka iz riječi sa svakim znakom iz abecede

    Primjer: za riječ "pas" i abecedu "abc" dobiva se
    {"aas", "bas", "cas", "pas", "pbs", "pcs", "paa", "pab", "pac"}
    """
    return {word[:i] + letter + word[i+1:] for i in range(len(word)) for letter in alphabet}

testname(gen_replaces)
test(gen_replaces, ('pas', 'abc'), {'aas', 'bas', 'cas', 'pas', 'pbs', 'pcs', 'paa', 'pab', 'pac'})
test(gen_replaces, ('kuća', 'ABC'), {'Auća', 'Buća', 'Cuća', 'kAća', 'kBća', 'kCća', 'kuAa', 'kuBa', 'kuCa', 'kućA', 'kućB', 'kućC'})
test(gen_replaces, ('banana', "XY"), {'Xanana', 'bXnana', 'baXana', 'banXna', 'banaXa', 'bananX', 'Yanana', 'bYnana', 'baYana', 'banYna', 'banaYa', 'bananY'})

### Generiranje riječi nastalih zamjenom mjesta dva susjedna znaka

Napravi funkciju **gen_transposes()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
* izlaz:
    * skup riječi nastalih zamjenom dva susjedna znaka iz zadane riječi


Na primjer: za riječ dobiva se  
{"aps", "psa"}

In [None]:
def gen_transposes(word):
    """
    ulaz:
    -word: riječ
    izlaz:
    -skup riječi nastalih zamjenom dva susjedna znaka iz zadane riječi

    Primjer: za riječ "pas" dobiva se
    {"aps", "psa"}
    """
    return {word[:i] + word[i+1] + word[i] + word[i+2:] for i in range(len(word)-1)}

testname(gen_transposes)
test(gen_transposes, ('pas', ), {'aps', 'psa'})
test(gen_transposes, ('kuća', ), {'ukća', 'kćua', 'kuać'})
test(gen_transposes, ('banana', ), {'abnana', 'bnaana', 'baanna', 'banaan', 'bannaa'})


### Generiranje riječi udaljenosti 1

Napravi funkciju **gen_edits1()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** abeceda
* izlaz:
    * skup riječi koje su za 1 udaljene od dane riječi
    
Napomena: rezultat je unija skupova dobivenim brisanjem, ubacivanjem, zamjenom i transpozicijom


In [None]:
def gen_edits1(word, alphabet):
    """
    ulaz:
    -word: riječ
    -alphabet: abeceda
    izlaz:
    -skup riječi koji su za 1 udaljeni od dane riječi
    ovisnost:
    -gen_deletes, gen_inserts, gen_replaces, gen_transposes

    Napomena: Rezultat je unija skupova dobivenim brisanjem, ubacivanjem, zamjenom i transpozicijom
    """
    return gen_deletes(word) | gen_inserts(word, alphabet) | gen_replaces(word, alphabet) | gen_transposes(word)

testname(gen_edits1)
test(gen_edits1, ('pas', 'abc'), {'pabs', 'pa', 'pasa', 'pasc', 'paa', 'pab', 'pas', 'bpas', 'apas', 'aps', 'pcs', 'pbas', 'cas', 'pac', 'ps', 'psa', 'cpas', 'pcas', 'aas', 'pbs', 'paas', 'as', 'bas', 'pasb', 'pacs'})


## 5.3 Ispravljanje pravopisnih grešaka

### Kandidati za pravopisnu grešku


Napravi funkciju **spell_candidates()** po sljedećim ulaznim i izlaznim podacima
* ulaz:
    * **word** riječ
    * **alphabet** abeceda
    * **model** unigram model jezika
* izlaz:
    * lista kandidata nastalih presjekom skupa riječi koje su za 1 udaljene od zadane riječi i skupa svih riječi iz unigrama sortiranih po frekvenciji riječi od najveće prema najmanjoj.



In [None]:
def spell_candidates(word, alphabet, model):
    """
    ulaz:
    -word: riječ
    -alphabet: abeceda
    -model: unigram model jezika
    izlaz:
    -lista kandidata nastalih presjekom skupa riječi koje su za 1 udaljene od zadane riječi i
    skupa svih riječi iz unigrama sortiranih po frekvenciji riječi od najveće prema najmanjom
    ovisnost:
    -gen_edits1
    """
    candidates = gen_edits1(word, alphabet) & set(model)
    return sorted(candidates, key = model.get, reverse = True)


testname(spell_candidates)
test(spell_candidates, ('moelkula', 'abcčćdđefghijklmnoprsštuvzž', unigram), ['molekula'])
test(spell_candidates, ('atmo', 'abcčćdđefghijklmnoprsštuvzž', unigram), ['tamo', 'amo', 'ajmo', 'atom', 'ato'])
test(spell_candidates, ('pivt', 'abcčćdđefghijklmnoprsštuvzž', unigram), ['piva', 'pivo', 'pivu', 'pive', 'pit', 'pivot', 'pivat'])
