In [0]:
#https://www.kaggle.com/rtatman/tutorial-getting-n-grams
#https://yasirutomo.com/blog/7/spell-checker-untuk-deteksi-dan-perbaikan-typo-bahasa-indonesia

import nltk, re, string, collections
from nltk.util import ngrams
from collections import Counter

In [0]:
#spell checker exercise
def words(text): return re.findall(r'\w+', text.lower())

In [0]:
WORDS = Counter(words(open('/content/kata-dasar.txt').read()))

In [0]:
def P(word, N=sum(WORDS.values())):
    # "Probability of `word`."
    return WORDS[word] / N

In [0]:
def correction(word):
    # "Most probable spelling correction for word."
    return max(candidates(word), key=P)
  

In [0]:
def candidates(word):
    # "Generate possible spelling corrections for word."
    return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])

In [0]:
def known(words):
    # "The subset of `words` that appear in the dictionary of WORDS."
    return set(w for w in words if w in WORDS)
  

In [0]:
def edits1(word):
    # "All edits that are one edit away from `word`."
    letters    = 'abcdefghijklmnopqrstuvwxyz'
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)] 
    deletes    = [L + R[1:]               for L, R in splits if R] 
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1] 
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters] 
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts)

In [13]:
kata = 'mkan'
print('kata typo : ', kata)
print('kandidat : ', candidates(kata))
print('koreksi : ', correction(kata))

kata typo :  mkan
kandidat :  {'ikan', 'makan', 'man', 'akan', 'imkan', 'kan'}
koreksi :  ikan


In [14]:
kata = 'mkan'
print('kata typo : ', kata)
print('known : ', known(kata))

kata typo :  mkan
known :  set()


In [15]:
kata = 'mkan'
print('kata typo :', kata)

print('edit1 :', edits1(kata))

kata typo : mkan
edit1 : {'mkanq', 'mhkan', 'mskan', 'mkban', 'mkaqn', 'mdan', 'mkln', 'mkab', 'mkaon', 'imkan', 'mkyn', 'mkian', 'mkanp', 'mikan', 'mkanv', 'mkan', 'mean', 'mmkan', 'mkajn', 'mkjn', 'mkanh', 'mxan', 'umkan', 'mktan', 'cmkan', 'mzkan', 'mkakn', 'mvan', 'mkac', 'mkau', 'mkaw', 'mkamn', 'mkat', 'mkam', 'mkqan', 'mfkan', 'mkas', 'mkanj', 'maan', 'mkfn', 'mckan', 'mkxan', 'ekan', 'mkane', 'man', 'amkan', 'mkpan', 'mkaxn', 'msan', 'mkzn', 'kkan', 'mkfan', 'mkal', 'mkany', 'jmkan', 'rmkan', 'mman', 'fkan', 'mkhn', 'mdkan', 'nkan', 'mkaf', 'mkann', 'mkvan', 'tmkan', 'mkran', 'mkanl', 'mian', 'emkan', 'mkacn', 'mka', 'mkaa', 'mjan', 'mkanr', 'kan', 'ukan', 'mkkan', 'mkanc', 'mnkan', 'mkxn', 'mktn', 'mkwan', 'mkwn', 'lmkan', 'makan', 'mkang', 'wkan', 'mkani', 'jkan', 'moan', 'mkae', 'kmkan', 'qmkan', 'mlan', 'mkhan', 'mkmn', 'pkan', 'mkavn', 'mkaq', 'mkahn', 'ikan', 'bkan', 'mkdn', 'mkaen', 'mkgn', 'mkanm', 'mkad', 'mpkan', 'lkan', 'mkanf', 'mkand', 'mkapn', 'mknn', 'pmkan', 'mk

In [0]:
#n-gram exercise

with open("/content/n-gram-test.txt", "r", encoding='latin-1') as file:
    text = file.read()

In [18]:
print(text)

"Ini membuktikan secara visual atau secara instrumental tekanannya tidak terlalu besar, sehingga wajar jika tidak terjadi dentuman di pos pengamatan di Pantai Carica. Jadi aneh juga kalu kedengaran sampai Depok karena yang dekat saja enggak kedengaran," jelasnya.
Suara dentuman terdengar di sejumlah wilayah Jakarta, Depok hingga Bekasi pada Sabtu (11/4) dini hari. Bahkan kaca rumah pun sampai bergetar dan membuat warga terbangun.
"Di tempatku juga kaca jendela udah sejaman ini goyang-goyang, meski ada jedanya," ungkap Anton William, karyawan kumparan yang tinggal di Pasar Minggu, Jaksel. 
Hal serupa juga dirasakan Fajar Budiono, warga yang tinggal di Pondok Indah. Ia bahkan sampai terbangun akibat mendengar suara tersebut mulai pukul 01.30 WIB. 
"Ada kayak dentuman gitu. Enggak gede. Tapi bikin kaca getar," ujar Fajar Budiono. 
Dentuman terseut juga terdengar di Depok dan Bogor. Menurut salah satu warga Sentul City, Kabupaten Bogor, Lia, tak hanya mendengar dentuman, kaca rumahnya juga

In [19]:
text[0:100]

'"Ini membuktikan secara visual atau secara instrumental tekanannya tidak terlalu besar, sehingga waj'

In [0]:
punctuationNoPeriod = "[" + re.sub("\.","",string.punctuation) + "]"
text = re.sub(punctuationNoPeriod, "", text)

In [21]:
text[0:100]

'Ini membuktikan secara visual atau secara instrumental tekanannya tidak terlalu besar sehingga wajar'

In [0]:
tokenized = text.split()

In [0]:
esBigrams = ngrams(tokenized, 5)

In [0]:
esBigramFreq = collections.Counter(esBigrams)

In [31]:
esBigramFreq.most_common(10)

[(('Ini', 'membuktikan', 'secara', 'visual', 'atau'), 1),
 (('membuktikan', 'secara', 'visual', 'atau', 'secara'), 1),
 (('secara', 'visual', 'atau', 'secara', 'instrumental'), 1),
 (('visual', 'atau', 'secara', 'instrumental', 'tekanannya'), 1),
 (('atau', 'secara', 'instrumental', 'tekanannya', 'tidak'), 1),
 (('secara', 'instrumental', 'tekanannya', 'tidak', 'terlalu'), 1),
 (('instrumental', 'tekanannya', 'tidak', 'terlalu', 'besar'), 1),
 (('tekanannya', 'tidak', 'terlalu', 'besar', 'sehingga'), 1),
 (('tidak', 'terlalu', 'besar', 'sehingga', 'wajar'), 1),
 (('terlalu', 'besar', 'sehingga', 'wajar', 'jika'), 1)]