# ***Morphin': Morphology-fixin'***

***

Morphin' adalah bagian dari progress proyek akhir mata kuliah Natural Language Processing dalam bagian memperbaiki kesalahan morfologi dengan cakupan:

* Kesalahan penggunaan imbuhan (awalan, akhiran, sisipan, konfiks)
* Kesalahan penulisan kata depan (di-, ke-, dari)
* Kesalahan bentukan kata dengan konfiks
* Kesalahan reduplikasi kata

Contoh: "mengdapatkan" → "mendapatkan", "didalam" → "di dalam", "mempertanggung jawabkan" → "mempertanggungjawabkan"

## 1. Kesalahan penggunaan imbuhan (awalan, akhiran, sisipan, konfiks)

_intuitive-suggested algorithm_:
1. identifikasi kata dasar pakai stemming dari Sastrawi
> kata "mengdapatkan" nggak bisa di-stemming manual karena bukan kata yang benar. Alternatifnya menghilangkan awalan yang salah dulu (men-, meng-, dkk.) lalu di-stemming
2. perbaiki sesuai aturan me- bertemu huruf tertentu. Misal me- + buka = membuka.
3. append kata yang benar

aturan morfologi

1. Bentuk me-

> Bentuk awalan meN- berubah menjadi me-  apabila kata dasar yang mengikutinya diawali dengan konsonan r, l, w, y, m, n, ng, dan ny. Contoh:
> * me + rawat = merawat
> * me + lihat = melihat
> * me + wasit = mewasit

2. Bentuk mem–

> Bentuk awalan meN-  akan menjadi mem- apabila kata dasar yang mengikutinya diawali dengan konsonan b, f, dan v. Contoh:
> * me + benci  = membenci
> * me + baca = membaca
> * me + fitnah = memfitnah

3. Bentuk men–

> Bentuk awalan meN-  akan menjadi men- apabila kata dasar yang mengikutinya diawali dengan konsonan c, d, dan j. Contoh:
> * me + cuci  = mencuci
> * me + cabik = mencabik
> * me + duga = menduga

4. Bentuk meng–

> Bentuk awalan meN-  akan menjadi meng- apabila kata dasar yang mengikutinya diawali dengan konsonan a, i, u, e, o, g, h, dan kh. Contoh:
> * me + ambil  = mengambil
> * me + inap = menginap
> * me + ukur = mengukur

sumber: https://smktibaliglobalsingaraja.sch.id/blog/morfologi-mengenal-imbuhan-me-dan-bentuk-perubahannya/

In [51]:
!pip install Sastrawi



percobaan dengan `kata='mengdapatkan'`

In [108]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# stemmer dengan Sastrawi
factory = StemmerFactory()
stemmer = factory.create_stemmer()

kata = 'mengdapatkan'
stem = kata

# fase configuring imbuhan
if kata[-3:] == 'kan':
  hasKan = True

# fase mencari kata dasar
while stem == kata:
  kata = kata[1:(len(kata))]
  stem = stemmer.stem(kata)
  print(f'kata: {kata}, stem: {stem}')

print(f'kata telah mengalami stemming! \'{stem}\'')

# fase memperbaiki imbuhan
if stem[0] in 'r|l|w|y|m|n|ng||ny.': # kondisi pertama
    fixed = 'me' + stem
elif stem[0] in 'b|f|v':
  fixed = 'men' + stem
elif stem[0] in 'c|d|j':
  fixed = 'men' + stem
elif stem[0] in 'a|i|u|e|o|g|h|kh':
  fixed = 'meng' + stem

if hasKan:
  fixed += 'kan'

print(f'kata yang telah diperbaiki: {fixed}')

kata: engdapatkan, stem: engdapatkan
kata: ngdapatkan, stem: ngdapatkan
kata: gdapatkan, stem: gdapatkan
kata: dapatkan, stem: dapat
kata telah mengalami stemming! 'dapat'
kata yang telah diperbaiki: mendapatkan


definisi fungsi

In [109]:
def perbaiki_awalan(kata, hasKan=False):
  stem = kata
  hasKan = True if kata[-3:] == 'kan' else False
  while stem == kata:
    kata = kata[1:(len(kata))]
    stem = stemmer.stem(kata)

  if stem[0] in 'r|l|w|y|m|n|ng||ny.': # kondisi pertama
    fixed = 'me' + stem
  elif stem[0] in 'b|f|v':
    fixed = 'men' + stem
  elif stem[0] in 'c|d|j':
    fixed = 'men' + stem
  elif stem[0] in 'a|i|u|e|o|g|h|kh':
    fixed = 'meng' + stem

  if hasKan:
    fixed += 'kan'

  return fixed

fase debugging

In [107]:
kata = 'mengdapat'

kata = kata[1:(len(kata))]
stem = stemmer.stem(kata)
print(f'kata: {kata}, stem: {stem}')

kata = kata[1:(len(kata))]
stem = stemmer.stem(kata)
print(f'kata: {kata}, stem: {stem}')

kata = kata[1:(len(kata))]
stem = stemmer.stem(kata)
print(f'kata: {kata}, stem: {stem}')

kata = kata[1:(len(kata))]
stem = stemmer.stem(kata)
print(f'kata: {kata}, stem: {stem}')

kata: engdapat, stem: engdapat
kata: ngdapat, stem: ngdapat
kata: gdapat, stem: gdapat
kata: dapat, stem: dapat


### 1.1. **TODO**:
1. stemming kata terus cek huruf dari kata depannya; awalan me- ketemu KTSP melebur.

# 2. Kesalahan penulisan kata depan

Dilakukan secara manual untuk men-_select_ teks dengan RegEx


In [None]:
import re

In [None]:
def perbaiki_kata_depan(teks): # perbaiki_kata_depan
    # memisahkan "di-"
    teks = re.sub(r'\bdi([a-z]{3,})\b', r'di \1', teks)
    # tapi pastikan tidak memisahkan bentuk imbuhan yang valid:
    teks = re.sub(r'\bdi (beri|ambil|pakai|buat|isi|tulis|pikir|baca|simpan|lihat)\b', r'di\1', teks)

    # memisahkan "ke-"
    teks = re.sub(r'\bke([a-z]{3,})\b', r'ke \1', teks)
    teks = re.sub(r'\bke (hendak|tahuan|hilangan|adaan|marin|las|salahan|penulisan|rjain)\b', r'ke\1', teks)

    # memperbaiki "dari"
    teks = re.sub(r'\bdari([a-z]+)\b', r'dari \1', teks)

    return teks

In [None]:
contoh = [
    "saya didalam rumah",
    "saya dirumah",
    "kehilangan barang",
    "kekampus besok",
    "darirumah pagi",
    "ini adalah contoh perbaikan kesalahan kepenulisan kata depan dengan rule-based manual",
    "fikri kemarin pulang darikampus kekosnya karena nggak ada kelas",
    "bisma plis kerjain ini aku ngantuk",
    "hari ini ada kelas kah? aku masih dikasur"
]

for kalimat in contoh:
    print(f"{kalimat} → {perbaiki_kata_depan(kalimat)}")

saya didalam rumah → saya di dalam rumah
saya dirumah → saya di rumah
kehilangan barang → kehilangan barang
kekampus besok → ke kampus besok
darirumah pagi → dari rumah pagi
ini adalah contoh perbaikan kesalahan kepenulisan kata depan dengan rule-based manual → ini adalah contoh perbaikan kesalahan kepenulisan kata depan dengan rule-based manual
fikri kemarin pulang darikampus kekosnya karena nggak ada kelas → fikri kemarin pulang dari kampus ke kosnya karena nggak ada kelas
bisma plis kerjain ini aku ngantuk → bisma plis kerjain ini aku ngantuk
hari ini ada kelas kah? aku masih dikasur → hari ini ada kelas kah? aku masih di kasur


## 2.1. **TODO** untuk perbaikan kesalahan kepenulisan kata depan (insyallah):
* fungsi `pkd()` (`perbaiki_kata_depan`) masih dalam implementasi _rule-based_ manual, bisa pakai NER untuk memeriksa suatu kata yang melekat pada kata depan itu memang benar kata kerja (VV) atau bukan
* validasi stemming pakai NLTK

# 3. Kesalahan Reduplikasi Kata

In [None]:
kata = 'aku melihat banyak buku buku di perpustakaan'



## from now on scratch coret coret coba coba algoritma (gausah dipake)

In [None]:
def perbaiki_imbuhan(kata):
    # Aturan umum imbuhan awalan
    rules = [
        ('^mengd', 'mend'),             # mengdapatkan → mendapatkan
        (r'^menp', r'mem'),              # menpakai → memakai
        (r'^meny', r'meny'),              # valid, abaikan
        (r'^mengk', r'meng'),             # mengkerja → mengerja
    ]

    kata_asli = kata
    for pattern, repl in rules:
        if re.match(pattern, kata):
            kata = re.sub(pattern, repl, kata)
            break

    return kata

contoh = ["mengdapatkan", "menpakai", "mengkerja", "menyapu"]
for k in contoh:
    print(f"{k} → {perbaiki_imbuhan(k)}")


mengdapatkan → mendapatkan
menpakai → memakai
mengkerja → mengerja
menyapu → menyapu
